その音声認識の研究は、先端研ではどういった形で展開していますか?
技術としては、インターネットと音声認識装置の2つを駆使する。僕が長年、福祉の現場で障害者支援の研究をしてきて思うのは、やっぱり機械に全部任せるのではなく、人が機械を使って人を助けるということ。当たり前のことなんですが、この分野の機械の使い方の基本だと思っています。機械でできることは機械にやらせる。でも機械にできないことで人間が得意なところは、人間がやると。産業化への道もずっと考えていたんですが、先端研に来て予算を頂いたり、
TBI(テクノロジー・ベンチャー・インキュベーション)の支援を受けて、急に具体化したんですね。
音声認識装置というのは、人間の脳がやっている高度な処理をベースにしなければ解決できない問題を抱えているので、開発は非常に難しいんです。今の音声認識装置は、どうしても間違いだらけになるし、人が変わって音声が変わると、対応できなくなる。この大きな壁を乗り越えることは、今の技術でも出来ない。ならば、ある特定の話者なら認識が95%ぐらいの精度になっているので、そのシステムをそのまま利用しようと。他の人が喋ったのを、機械に認識されている人が言い直すと、95%の精度で認識されるんです。そうすると誰が喋っても、認識率は一応高くなります。これをさらに大きなビジネスに展開するためには、クリアすべき問題が幾つかあるんですね。1つは言語のバリア。例えば英語で喋った時には、日本語で出るようにするとか。もしそこまでできれば、これは相当のニーズがあるでしょうね。実際は人間が同時通訳するんですが。
インターネットでネットワークを使って、話し手はどこにいても文字に直す人がどこかに居れば、そこに情報を送って文字だけを返すことができますよね。会議がどこでおこなわれていても、通訳の人が会議場に居なくても、通訳者のところに声を送って通訳された内容がそこに返ってくる。聞いている人、話す人、通訳する人、それから文字に直す人、それぞれどこにいてもいいんですよ。通訳設備のない会議場でも使えるし、旅費などの経費もトータルすると非常に安くなるはずですよね。こういうサービスが定着すれば、在宅の人でも仕事ができますよね。例えば視覚障害の人が声を聞いて喋って、それを文字にするとか。家からなかなか出られない障害者の人にも、雇用のチャンスを提供できるんじゃないか。これは今、うちの研究室で最も力を入れて取り組んでいるプロジェクトです。先端研でも非常に高く評価してくださって、十分な予算を頂いています。2005年にはビジネス化しようと今、価格設定をおこなっているところなんです。
実際に、2004年3月に北海道の夕張で開かれた国際映画祭でこのサービスを実施しました。4ヶ国語を日本語に直す必要があって、まず音声を東京の通訳センターに送り、そこからの情報を文字化するスタッフのいる札幌に送って、で、文字化された情報を夕張に返して、スクリーンに映したんですね。これは非常に大きなインパクトがありました。今はコンベンション関係の会社と通訳の会社、そしてBUGという僕の教え子が作った会社が連携して、今後どのように普及させるか考えています。
聴覚障害者のためだけではなく、いわゆる健常者にも言語のバリアフリーを提供し、さらに雇用の新しい創出につながるなど、大きな枠組みに発展していますね。
そういうビジネスになれば、工学の片方の役割は一応果たせるんですが、サイエンスの部分がまだ欠けている。つまり、行き詰った時に戻る場所がない。これがなければ工学として形にならないということで、いろいろなサイエンスに取り組んだんです。単純に身近な謎が基礎になるだろうと考えて、最初に取り組んだのは、九官鳥。九官鳥の声が人間と非常によく似た声に聞こえるのはなぜかと。そこで九官鳥を買ってきて、まね声を分析したりノドを解剖したりしてみると、声の波形自体は人間と全然違うんですね。それでも人間の耳には喋っているように聞こえる。これは人間の脳が、波形が違っても人間と同じ音声として処理しているということが段々わかってきたんですね。
そこから、多少不自然でも九官鳥と同じような“声”がつくれないかということで、「イントネーションの出せる人工喉頭」を開発しました。これは喉頭がんを取って声を出せなくなった人のために作ったんです。基本的には九官鳥と同じ発想で波形はかなり違うんですけど、人間の耳には同じように聞こえるよう、音を出しているんですね。だから声帯はなくても、装置から音を送り込んで、口を動かすと声になる。研究の基礎を身近なナゾ解きにおくと、例えばこういうものも出てくる。
その次にやったのはインコでした。ちょうど、あるTV会社から、般若心経を喋ったりする天才的なインコがいるので、ぜひ調べて欲しいと言われて、福岡まで行ったんです。調べてみたら、インコと九官鳥は、また全然違うことがわかった。そこでまた大きな謎が出てきたんです。九官鳥もインコも人間と似たような声を出す、でも発声法は全然違う。しかも口は開けたまま、破裂音のパとバとマが出せる。人間の場合は、口を閉じなければ絶対出せないんですよ、パとバとマは。その子音部をどのように出しているのか、それがどうしてもわからなかった。恐らく喉のところで直接出しているんだろうとは推測できたんですが、喉を開けて調べても、やはりわからない。
その後15年ぐらい経って、腹話術のいっこく堂がTVのある番組に出ているのを見て、びっくりしたんですよ。パとバとマを口を閉じないで喋っている。これは謎が解けるかもしれないというので、当時北大にいましたから、札幌近くの温泉場へ公演に来たいっこく堂を見に行ったんです。終わってから楽屋に行って「これは大変なことだ。これまでの常識を破るかもしれない」と話したんですね。「九官鳥やインコが口を開いたままパ、バ、マと言える謎がどうしてもわからなかったが、いっこく堂さんがやっている」と。この謎を解けばいろんなことに役に立つんですよ。例えば、口を閉じることのできない口唇口蓋裂という病気の患者さんは、口を開いたままではパ、バ、マが言えない。どのように発声していいのかがわからない。そういう話をしたら、いっこく堂さんが「役に立つなら是非自分を調べて欲しい」と。どうやって発声しているのかは、実は本人にもわからなかったんですね。だったら調べさせてくださいということで、後日、いっこく堂さんにセンサーをつけて音と画像を収録して、その声を分析したらナゾが解けたんです。
2004年10月に、全世界から腹話術のプロが集まる「第3回世界腹話術の祭典」が東京で開かれたんですが、そこで講演をして欲しいと頼まれましてね。彼らもパ、バ、マには苦労しているんですね。その仕組みがわかったということで、ビデオ等で示しながら、200人ぐらいの前で話したら、皆さん非常に喜んでくれたんですよ。というのは、単なるエンターテインメントとして自分たちの頑張ってきたことが、ひょっとしたら人の役に立つかもしれないというので。腹話術のことも随分勉強したんですが、そこで大変なことがわかってしまった。実はこのメカニズムは僕が発見したんじゃなくて、経験的に知られていたんですよ。世界でも著名な腹話術師のヴァレンタイン・ヴォックスさんが出した本の中に、パ、バ、マの発声の仕方が書いてあった。それが僕の立てた仮説と全く同じ。
話は変わりますが、廣瀬先生の「五感情報通信プロジェクト」に加わることになったきっかけは何でしょう。
先端研に来てからは、バリアフリーの福島先生の研究室とタイアップしながらやっているんですが、もう一方で廣瀬先生の「五感情報通信プロジェクト」にも参加することになったんですね。その発端が、コウモリなんですよ。九官鳥で味をしめたってこともあるんですが、コウモリが暗闇の中、自分たちの出す超音波の反射音でエサを見つけたりする、そのメカニズムを解析して、機械に乗せることができないだろうかと。
視覚障害をもった盲学校の生徒は普段、杖を使っていますが、頭の近くにあるようなヒサシや木の枝などの障害物が、実はとても怖いんですね。それを知らせる装置をというので、まず浮かんだのがコウモリ。今回もいろいろ調べて、コウモリと同じ音を超音波で発して、反射音を人間の耳に聞こえるよう変換することができた。その装置を持って盲学校へ行ったんですが、これが全然役に立たなかった。この程度なら何もなくたってできると言われた。彼らは気配でわかるんですよ。そこで今度は「気配って何だろう?」ということで、5年間、気配の研究をしたんです。気配、つまり障害物知覚というのは、音なんですね、音場の微妙な変化。我々の耳ではわからないけれども、脳の代償機能によってわかるようになる。視覚を失ったために、今まで必要とされていなかった聴覚の空間認識の領域が活性化するんです。壁の向こうに物があるのがわかったり、人によっては、目の前の人がどんな生地の服を着ているのか、わかったりする。大体4m先の直径6cmぐらいの円板がわかるとか。このメカニズムをうまく利用すると、気配を人工的に作って仮想障害物を生み出せますよね。スピーカーをたくさん並べて、コンピュータでコントロールすると、実際にはない障害物の存在を感じる。そうすると仮想の物体を認識させるという、バーチャル・リアリティの研究につながりますよね。映像の中に映像をはめる通常のVRの手法とは違って、ある音場の中に別の音をはめて、仮想障害物とします。そういう研究をしていた経緯で、廣瀬先生とも一緒に研究をすることになった。
この成果が例えば、ロボットが歩く時に障害物を、ちょうど視覚障害者がよけるような形で回避する、そういう技術につながっていくんですね。気配の謎解きというのはサイエンス。それから、視覚を失ったことで脳の機能がこのように変わるという仮説も、認知生理学として提供できれば、これもサイエンスとしての成果になる。ここを基盤にすれば、工学的にもいろいろ発展できる。福祉工学なんて金にも学問にもならない、工学ではないと言われてきたけれども、先端研では逆にバリアフリーだとか、こういう分野をこれからの産業にしていこうという考えがあって。ここへ来て2年半になりますが、研究のスピードが全然違いますね。