「中の人」がいない歌唱合成をしようの会

この記事は文化祭に寄稿させていただいた記事に一部加筆修正し、転載したものです。

はじめに

UTAUを知っていますか?「UTAU」と言うのは、超簡単に言うと、自分でボーカロイドのようなものを作成することができるソフトウェアです。
さて、自分で作れるとはいえ、私は自分の声で作る気にはなれなかったんですよね。

というわけで楽器をUTAU音源化しようと思います。録音環境が劣悪だった為試作として自分とは縁もゆかりもないフルートの音源を利用して作ってます。ゆるして

UTAUとは、正確には人力ボーカロイド支援ツール。音MADのような、特定の動画や音声ファイルから音声を切り取ってきて、その音程を変えると言う一連の作業を、音声ファイルだけ渡したらあとは自動でやってくれるツール。ちなみにVOCALOIDは、今でこそ歌唱合成の代名詞みたいになっているが、あくまでヤマハが商標取ってる歌唱合成のシステム名なので、一般人がVOCALOIDそのものを作ることはできないし、VOCALOIDを名乗ったら法律か何かに違反する。(上でボーカロイドのようなものを作成する、と呼称したのはそのため。)
動画例は 右に曲ガール とか Beautiful world とかシンエヴァ見ろ Nyanyanyanyanyanyanya! とか

技術面の話

まず、UTAUやVOCALOID(バージョン5まで)は、「コーパスベース合成方式」をとっていると言うことが重要です。耳慣れない単語だと思いますが、やっていることは単純です。
例えば「うさぎ(u sa gi)」と喋らせたい場合を考えていきましょう。この場合、日本語が子音と母音に別れていることから、

「u(母音)」「a(母音)」「i(母音)」
と、
「s(子音)」 「g(子音)」


の音声ファイルを用意し、適切な順番と音量でならべて再生してあげると、「うさぎ」と発音されたように聞こえる、と言うわけです。
イメージとしては、お寿司はご飯部分と具材部分に分かれてて、それぞれを別に作った後にくっつけたらちゃんとお寿司になるよね、っていう感じです。
前述のUTAUやVOCALOID、ボイスロイドもこの合成方式に該当します。ゆっくりボイスもこの合成方式です。

母音に応じて子音の発音も微妙に変わるので、最終的には50音全ての音源ファイルが必要です。ですが、「母音と子音を合体させて発音させることができる」というのがとても重要なので覚えておいてください。

AI歌唱合成の代表格、Cevioは、統計的パラメトリック音声合成を採用している。これは、楽譜データとそれに対して録音された声とを照らし合わせて、そのデータを元にシミュレーションすると言うもの。超簡単にイメージするなら子供が大人の歌い方を見て真似ている、と言う感じに近い。ちなみに可不を代表とする音楽的同位体シリーズはCevioの合成エンジンだったはずなので、この方式。AI系はほぼ全てこれだと思う。AI合成は詳しくないので違ったらごめんなさい。
手軽に人間っぽい歌唱を出すことができる代わりに、中の人の歌い方の悪い癖を反映してしまったり、あくまでシミュレーションなので現状の技術だとどのAI歌唱でも似た声になりやすい上、音声の自然さに欠けること、中の人が出せない高さの音や、人間では発音できない声は破綻してしまう(子音のみを♩=60で15泊連続で発音するなど)ことが欠点。
AI歌唱合成の動画は マーシャル・マキシマイザー とか アウターサイエンス featONEとか。

ということで、50音の音声ファイルを作ることが必要だということになります。一つの音程について50音のファイルを作れれば、他の音程についてはUTAU側が勝手に作ってくれます。

さて、どうやって声を上げない楽器から50音分ものファイルを作るか、という壁が立ちはだかって来ます。こんな時頼りになるのはインターネットの大海です。大海には、なんと単純な正弦波から声を作った偉人がいます。制作方法の動画はこちら

上にリンクを貼った動画では、簡単に言うと、人間の声のファイルから、どの振動数の音を重ねるとそれぞれの母音に聞こえるようになるかや、子音の波形を見て、オーダシティ(波形編集ソフト)で元にする音を切ったり貼ったりして、人間の声の波形を真似しています

それから、母音に関しては、Vocalizerと言うソフトで、元となる音(以後原音と表記)さえあれば作ってくれます。このソフト作ってる会社がゆっくりボイスを作ってます。かがくの ちからって すげ〜!

声の波形は主にこのサイトを参考にしました。
http://myonseininsiki.syogyoumujou.com/boin_aiueo.html(サイト生きててよかった〜)

例えば、「アイス」と言ってみてほしい。電車内で言ったら不審者確定するやつ このとき、ア→イと発音するときに、アからイに移るような母音を発音することになると思う。このような母音の遷移分まで音源を作れたら、もっと滑らかな発音をさせられる(事実、現状使いやすいとされるUTAU音源はほぼ母音の遷移分まで作られている)はず。ただそこまで音源を作ろうとするとえげつない手間がかかるし、自分の声でもこの遷移分まで作ったことがないので私にとっては未知の領域。

と言うわけで、同じようにして作った作業の成果を一部お見せします。

試作品

これ↓が元の音に採用した「原音」。切り取りが面倒だっただけで、冒頭以外に音は入ってない。

これ↓はギロの音源を加工して作った「子音のひながた」(子音のたたき台)

で、原音を加工して作った「いの母音」はこれ↓

で、これらのファイルををいい感じに切って(切って)貼って(貼って)貼ったら出来上がったのが、これ↓。一番出来がよかった「き」の音源です。

、これなんで完成しなかったかというと、「さ行」でつまづいたからです。
あの独特のスーって発音がどうにもならなかった。 子音の雛形を変えてみてもだめだったんですよね。

今後の展望

まず、当時より録音環境がよくなったから、実際に私の声をサンプルとして真似できる
さらに、当時より知恵が向上している
と、このへんを根拠に、またのんびり作ってみようかと思っています。

名付けやイラストもいつかできたらいいなと空想しています。
あとめっちゃ夢をいうなら、Live2Dか何かで動かせるようにしたい。なんならリアタイでトーク変換したい。

それから、AI合成にもっと詳しくなりたいですね。しばらく情報追ってなかったらこんなのとかこんなのとかこんなのが出てきている… 特に、コエイロインクは自分の声で作れるみたいなのでかなり興味があります。

ここまでお読みいただきありがとうございました。質問、感想あればコメントにぜひお願いします。

フォルマント - Wikipedia
声(母音)は三角関数(sin)の足し算で簡単に作れます - ニコニコ動画
声(母音)は三角関数(sin)の足し算で簡単に作れます 三角関数(sin)の合成で母音を作ってみた
「人の声」のつくりかた:合成音声の仕組み
こんにちは、SSLに新たに加わりました、 北海道大学 青木です。どうぞよろしくお願いします。SSLでは「音の技術」というとデータ通信関連の話題が多めですが、今回...
初音ミクとかの音声合成のしくみ
足立レイの音源公開しました!(中の人いない音源): メカニカルガール
お久しぶりです。レイのボディ関連のもろもろやモーキャプシステム等を開発する傍らここ1年ほど個人的に作っていたレイの声のライブラリ(UTAU向け)を公開しました&動画にしました! ニコニコ
404 Not Found
midiで音声を表現するテスト - ニコニコ動画
midiで音声を表現するテスト 波形合成でボーカルを作ってみようという試みです。 音声は全てmidi音源だけで表現しています(バックに...
声のようなものを作る【UTAU音源制作過程】 - ニコニコ動画
声のようなものを作る【UTAU音源制作過程】 なるべく手軽に簡単に作る方法を考えてみました。「耳のあるロボットの唄」本家動画:nm3611741マイリス...
音声認識〜周波数スペクトルで音素を判別
【足立レイ】中の人のいない合成音声作った【UTAU音源配布】 - ニコニコ動画
【足立レイ】中の人のいない合成音声作った【UTAU音源配布】 等身大ロボットを作ってるうp主ですが声がない事に気づいたので作ってみました。UTAU界隈で言う所謂無...
Login - lino

所々サイト死んでますね(´・ω・)…

コメント

タイトルとURLをコピーしました