LOG IN

マグロナちゃんを目指して

by やきたま

マグロナちゃんかわいいですよね。「バ美肉」という界隈をご存知ですか。つい先日、まとライバーさんのバ美肉記事が出まして、私もこの記事で知ったんですが、ざっくり言うとおじさんが自分で絵を描いたキャラクターに自分で声を当てて受肉する界隈みたいです。顔出しの代わりみたいなものでしょうか。この界隈、画面上にはかわいい女の子がいて、声は地声のおじさんだったり、ボイスチェンジャーのおじさんだったり、両声類のおじさんだったりして多様性があって素敵です。マグロナちゃんはそのうちの「ボイスチェンジャーでかわいい女の子になりきるおじさん」です。

この記事の目的

私もかわいい女の子の声帯が欲しい! ……男性なら誰もが夢に見る願いですね。ここでは、一週間ほど、私自身がボイスチェンジャーでかわいい女の子の声帯を手に入れるためにやってきたことを記録しておきたいと思います。結論から言いますと、現時点で私はかわいい女の子の声帯を手に入れられていません。普通の男性がかわいい女の子の声帯を手に入れるのは、とても難しいことです。なので、この記事を読んだからといってあなたがかわいい女の子になれるわけではありません。ただ、これからボイスチェンジャーにチャレンジしようとしている方のヒントになることがあるかもしれません。そう思って記事を書きました。

声ってそもそもなんだろう

「声」について理解することが、自分の声をコントロールする第一歩です。ここではボイスチェンジャーを使って男声を女声に変換することを主眼に、「声」とは「高さ」と「フォルマント」によって特徴づけられる音である、と定義します。それぞれ詳しく説明していきますね。

声の高さ

「ドレミのうた」をご存知ですか。おそらく誰もが歌ったことがあると思います。このような歌では、音の高さを「ドレミ」のような音の名前で表現します。「ドレミファソラシ」まで音が上がると、その次はまた「ド」から始まります。この「低いド」と「高いド」を、「1 オクターブ」という単位で表現します。

歌を歌うときには「ドレミ」のような音階の名前で音の高さを表現しますが、もっと細かく言うと、この音の高さというのは数字で表現できます。それが、「音の周波数」です。音楽の世界では、とある高さの「ラ」の音を 440 Hz として、周りの音を調整することが多いようです。ここでみなさんに覚えていただきたいのは、「1 オクターブ高い音の周波数はちょうど 2 倍である」ということです。つまり、440 Hz の「ラ」の音の 1 オクターブ高い「ラ」は 880 Hz で、逆に 1 オクターブ低い「ラ」は 220 Hz になります。

フォルマント

フォルマントとは、発声した声の高さの倍音成分です。倍音とは、ある高さの音に対して、その整数倍の周波数成分のことを言います。440 Hz の音叉を叩くと、そこには 440 Hz の音だけでなく、880 Hz、1320 Hz というように、整数倍の高さの音も含まれます。声にも同様のことが言えるのですが、声では特に「フォルマント」と呼ぶようです。

男声と女声の違いを理解しよう

さて、声が「高さ」と「フォルマント」で特徴づけられる音であると定義したことによって、男声と女声の違いをそれらの言葉を使って説明することができるようになりました。一般的に、男声の声は低く、女声の声は高いと認識していると思いますが、残念ながらほとんどの場合、男声が高い声を出しても女声とはほど遠いことがほとんどです(オカマ声になります)。

実際に、男声と女声で何が違うのか、音に含まれる周波数を可視化するソフトウェアを使って見てみましょう。フリー素材の女声ボイスの周波数解析結果と、私の地声(もちろん男声)の周波数解析結果を示します。男声担当が素人で申し訳ないのです。

鍵盤の見方を説明します。鍵盤に数字が書いてある位置が「ド」の音ですが、ここでは「C」と表記します。アルファベットで表記するときは、C、D、E、……と続いて、G(ソ)まで行くと次は A になります。そして、オクターブの高さを意味する数字を、C のあとに続けて記載します。また、白の濃さはその高さの音の強さを示しています。

ということで、左側の女声は始まりが D4 で、一番低いところで A3 あたりになります。一方で、私の地声は始まりが A3 で、一番低いところは A2 あたりまで下がっていることが分かります。男声は女声よりも低いということが、周波数解析の結果からも分かりました。また、続いて倍音成分に注目してみると、女声のほうは 6 つくらいまで濃い色が見えますが、私のほうは 4 つで途切れています。このように、女声にはより高いフォルマント周波数の成分まで含まれていることが特徴です。

ここで「より高い」というのは、周波数が高い、という意味ではなくて、一番低いベースの周波数に対して何倍の周波数成分まで含まれているか、ということを言っています。

男声と女声の違いをまとめると

いよいよボイスチェンジャーを使ってみる

男声と女声の違いを音の高さとフォルマントの違いで理解できたところで、いよいよボイスチェンジャーを使ってみましょう。

こちらは「あー」を D3 の高さで発声したときの周波数解析結果です。左側が私の地声そのまま、右側が恋声の「M→W」プリセットで変換したときのものです。左側は一番低いところを第 0 フォルマントとして数えると、第 3、第 4 フォルマントのあたりにピークがあるように見えますね。一方で、恋声を通してみると第 2 フォルマントが強く見えています。さっきの解析の結論と異なりますね。男声ボイスのほうはオクターブ成分が高くまで強く出ており(つまりベースに対して偶数倍音成分が強く)、最後の第 4 フォルマントだけが奇数倍音成分です。その声を恋声にかけると、フォルマント成分が全体的に抑えられつつ、第 2 フォルマント(ベースに対して奇数倍音成分)だけが強く見えました。確かにこれだけ周波数成分が違うと、別の声に聞こえてきそうです。

録音したボイスチェンジャーの声を聞いてみる

実際にボイスチェンジャーを使って女声化したはずの声を聞いてみましょう。恋音には読み込んだファイルを再生する機能がついていますから、さあ再生ボタンを…… 

「あー」だけの単純なものだとなんかそれっぽくも聞こえるのですが、トークを意識して録音してみると「ちがう、これじゃない」という感じになります。例えば、次の周波数解析結果は、私ががんばって恋声を通してそれっぽくなるようにしゃべった、マグロナちゃんの挨拶でもある「やっほー、人間ども~。余ーだよっ」です。左が地声、右が恋声。

女声はもっと高いフォルマント周波数が強く出ているはず、なのですが、それとはかけ離れた解析結果です。

ボイスチェンジャーのせい?

恋声は確かにフリーソフトウェアです。フリーソフトウェアだから望み通りの女声が手に入らないのでしょうか? INTERNET 社がリリースしている Audio Input FX というソフトウェアがあるので、これも試してみましょう。左が「あー」、右が「やっほー、人間ども~。余ーだよっ」です。どちらも Audio Input FX のボイスチェンジャーを通したあとです。

恋声と大差ありませんね。ボイスチェンジャーを変えても女声により近づくなんてことはありません。

パラメータを調整してみる

解析結果から、フォルマント周波数を上げればそれっぽくなるのでは、と思って試してみても、ヘリウムを吸った声になるだけです。地声で D4 を出してフォルマントだけ調整しても、低音成分が強すぎてそれっぽくはなりません(どうがんばっても男声が高い声を出しているようにしか聞こえません)。イコライザでごまかしてみようとしましたが、私の声にどうイコライザをかけようが私の声でした。

現時点での結論

ここまでの実験で、私はボイスチェンジャーによる女声を手に入れることについて、次のように結論づけました。

バ美肉おじさんとしてボイスチェンジャーを使っている VTuber さんたちとしては、私はマグロナちゃん、ノートママ(竹花ノートさん)、兎鞠まりちゃんしか知らないのですが、おじさんだと言われなければおじさんとは気づけないくらい、彼女たちは女の子です。これからこのバ美肉界隈が盛り上がって一つのジャンルを醸成するほどになると、私がとても喜びます。ぜひ挑戦してみてください

付録: ボイスチェンジャーの設定値

私の場合

恋声

すべて「M→W」プリセットで試しています。

Audio Input FX

ピッチを +1200、フォルマントを -700 くらいで試しています。Audio Input FX のフォルマント設定は恋声とは異なっていて、ピッチを +1200 した時点でフォルマントを 0 にしているとちょうどフォルマントが 2 倍になっている状態です。恋声を参考に、フォルマントはそこまで高く上げる必要はありませんから、マイナス方向に動かすとうまくいくことが多いのではないでしょうか。

ノートママ(竹花ノートさん)の場合

この動画の冒頭で恋声をいろいろいじってます。

兎鞠まりちゃんの場合

この動画この位置で恋声の設定に関するマシュマロに回答しています。

付録: ボイスチェンジャー関係ソフトウェア

その他

OTHER SNAPS