日常会話が一番難しいんだよね
ぺらぺらの人にはもとより無縁の話だが、英会話で一番難しいのは日常会話だと思う。日常会話では、学校ではまず習わない類の慣用表現やら俗語やらがどんどん出てくるし、内容もさまざま、しかもあちこち飛んでいく。極めつけはジョークで、歴史的、文化的背景を理解していないと意味がわからないものがいっぱいあるから、周りがなんで笑ってるの?なんてことも珍しくない。
いや本題は英会話ではなくて、会話って難しいんだよね、という話。以下の件、そのスジの方にはもう知れ渡ってると思うのであらかじめ念のため。
㈱セルシスがベンチャー企業㈱アニモと共同で、音声合成技術を活用し、アニメのせりふやナレーションを制作するソフトの開発で提携したと発表したのは2007年5月1日のことだった(プレスリリース)。当時「そのスジ」の方々へのインパクトはけっこう大きかったのではないかと思う。7月までに第1弾となる製品をリリースする計画ということだったわけだが、その後いっこうに話を聞かない、と思ってセルシスのサイトをのぞいてみたら、もう発売されていた。
その製品が「Narration Studio」。なんだか妙に親近感のわくお値段。そのせいかどうかは知らないが、サンプル音声を聞くと、正直うーん。「マイクで自分の声を録音してアクセントを指定すると、ユーザーの考えているシーンに即した自然なアクセントの音声を作成」する機能がウリであるらしくて、確かにそれを使うとよくある読み上げソフトとはかなりちがった感じになるんだが、それでも厳しいという印象は否めない(こっちが元の音声、こっちがアクセント調整後)。少なくともこれをこのまま実際にアニメの声に使うのは、たとえ同人とかの方々でも、けっこう勇気がいるだろう。
このことを思い出したのも、最近人気の「初音ミク」。各地のそっち界の皆さんの間で話題騒然みたい。必ずしも安いというほどでもない価格だが、なんだか注文殺到で売り切れ状態とか。よほど彼らの「ツボ」を突いたらしく、ニコニコ動画にもいろいろなのが山ほど上がってる。
サイトにもデモソングが出ているが、いやこれ、けっこうすごい。
デモ1
デモ2
デモ3
もともと声優さんの声をサンプリングとかしたようなので、まるっきり機械音声というわけではないらしいが、それでも、この不自然さすらひょっとしたらこういう歌い方の人いるかも、と思わせるところがないでもない。セルシスのやつは機械で合成するらしいので、比べるほうが気の毒といえば気の毒ではあるが、いってみればこれは「コロンブスの卵」ではないか。まるっきり最初から作るよりこのほうがいい、ということか。
で、最初の話に戻るわけだ。歌ならまだいい。歌でのことばづかいはある程度決まりきってるから、自然な感じを出すこともそれほど難しくないのかもしれない。特に「初音ミク」は音楽のジャンルをある程度限定してるみたいだし。それと比べると、日常会話に出てきそうな表現の範囲はずっと広いんだろうな。㈱アニモのサイトをみてる限りでは、コールセンターの自動応答みたいな利用例が出ている。こういう用途ならいいんだけどね。機械音声に演技をやらせる時代というのはまだまだってことか。
でも一方でこの領域、けっこう進歩が早いかも、と直感的に思ったりもする。CGIだって「Tron」から「Jurassic Park
」まで11年だよ?10年もしたらどうなってることやら。もともとプロのレベルだと、製作コストのうち音響の部分はそんなに大きくないだろうけど、アマチュアの可能性を広げるものとしては市場的にも可能性があると思う。セルシスの狙いもそのへんなんだろうし。というわけで、今度の発展に期待。
The comments to this entry are closed.
Comments
コロンブスの卵というより,メモリがふんだんに使えるようになったので波形そのものを切り貼りするようになった…ということで,研究領域では5年ほど前から主流になってます。
ちなみに(コンピュータによる)音声合成の研究はパンチカードの時代からやられているので,CG進歩と比較しても…ちょっと…と思います。
Posted by: たろ | September 17, 2007 10:01 AM
たろさん、コメントありがとうございます。
私は素人なので、ならばなぜ音声を合成しようとするソフトがいまだにたくさんあるのかとか、歌と日常会話とでは(専門的見地からみて)何がどうちがうのかとか、そういうことがわからないでいるわけです。テキスト読み上げ技術の研究領域での最先端はセルシスのソフトとはどのくらいちがうのでしょうか?メモリがふんだんに使えるのであれば、素人考えでは大規模なライブラリを整備すれば日常会話のかなりの部分は自然なアクセントでしゃべれるのではないかと思うのですがどうなんでしょうか?なぜそういう技術を使った読み上げソフトは出ていないのでしょうか?ひょっとしてもう出てるんですか?
CGIとの比較については、もちろん専門の方のご見解をどうこうということではなく、ニーズがあれば技術が開発されるだろうということと、技術の進歩は思ったより早いことがけっこうあるということがいいたかっただけです。CGIの研究もパンチカードのころからやられていたのではないかと思っていたのですがちがうのでしょうか?素人目には、「Tron」で商業利用が行われてからのCGIの発達はそれまでとははっきりちがうくらい早くなったような印象があります。音声合成の分野も、より自然なアクセントで話すことに人々が価値を見出せば、ぐっと発達が早くなるように思いますがいかがでしょう?
で、結局、この分野には将来があるんですかないんですか?
ぜひご教示いただければと思います。
Posted by: 山口 浩 | September 18, 2007 01:58 AM
返事が遅くなりすみません。
いろいろご質問が書かれてるので,答えようと思ったら,だらだらと長くなりそうなので,リンク先でちょっとガス抜きをしてます。もしお時間があれば,お読みください。
ですので,ここでは単純に書きます。音声合成の分野で将来があるか…は残念ながら技術者としてはあると信じている…としかいえません。ただ品質レベルというよりは,どういうマーケット(パッケージかシステムか?)に幾ら(権利代も含めて)くらいで提供したら,大きく広がるのか?がわからず模索されているのが現状でしょう。
こういうのは技術者ではなくて,外の人が市場原理でその辺を整理したほうが,案外うまく行くように思います。初音ミクとかもそうじゃないですかね。
あっ,それと(CGIは専門じゃないのでこれ以上の比較は避けようと思いましたが)一点だけ。CGIの特撮がそうであったように,音声合成も声優だと絶対出来ないような特有の表現が見つかり,それが使われるようになると,広がるんでしょうね。「自然さ」よりそっちのほうが重要かも…。
それってなんなんだろう?と思います。
Posted by: たろ | September 19, 2007 10:19 PM
たろさん
ごていねいにありがとうございます。私は、技術はまったく分かりませんが、ニーズは明らかにあって、それもけっこう大きいだろうという観察から、直感的に「これは時間の問題」と思いました。
技術を市場をつなぐあたりに問題があるだろうこと、自然さよりも独特の表現に可能性がありそうなことについては、ご指摘に同意です。カギを握るのは、そういうものだ、という認識が広まるかどうかでしょうね。
Posted by: 山口 浩 | September 20, 2007 06:37 PM