次のメディアはメタバース! AI研究者・三宅陽一郎氏が予想するAI×メディアの未来
博報堂DYメディアパートナーズ メディア環境研究所では、AIが社会や産業、メディアにもたらす影響について研究・洞察するプロジェクト「AI×メディアの未来」を立ち上げました。その一環として、さまざまな分野で活躍している有識者にインタビューを重ねています。
AIの新しい技術を試す場として、ゲーム上の仮想空間が積極的に活用され、ゲームとAIはお互いに成長を支え合ってきたとも言えるでしょう。今回は、コンテンツ領域のAI開発の第一人者であり、東京大学生産技術研究所で特任教授を務める三宅陽一郎さんにAIの社会実装の可能性、新しいメディアの形などについて、お話を伺いました。

AIが実際の空間を把握するために、メタバースやデジタルツインが必要
――三宅さんは、ゲームAI開発者として今までどういったことを研究されてきたのですか?
1994年以降、ゲームAIが急速に発展し、3Dゲームの登場がデジタルゲームにおけるAI技術の発展をもたらしていたのですが、私は2004年から20年ほどデジタルゲームのAIを開発してきました。
ゲームキャラクターは仮想空間、つまり3次元空間に存在していて、ロボットやドローンは実空間で動かなければいけないという違いはありますが、ゲームとロボットはAIという技術においてたいへん近い分野だと言えます。特にデジタルゲームはソフトウェアだけで完結するのでさまざまな実験がしやすいため、ロボティクスよりも早く人工知能の分野が進化してきたという背景があります。
そのため、現在はゲームAIで培われた技術をロボティクス分野に応用している段階です。
ゲームAIは、ゲーム全体を統括する「メタAI」、キャラクターの頭脳にあたる「キャラクターAI」、空間そのものを解析する「スパーシャルAI(空間AI)」の3つから構成されています。

特に最近は、「空間AI」が注目を集めつつあります。空間AIは一つの空間をAI化することです。空間AIはその空間を管理し、その空間の知識を保持し、その空間内に来たAIエージェントを助けます。たとえばある部屋に来たロボットやドローンに、その空間をうまく使うための空間情報や物の情報を与えます。またある場合には、強制的な制御を行います。例えば「ここは立ち入り禁止」「この物に対してはこの動きが可能」といったルールに沿って、AIエージェントを誘導する役割を担ってくれます。
実は人工知能は、ゲーム上でも実空間でも空間を認識するのが苦手なんです。そのため、人間が自然に行える空間認識を補うために「空間AI」が存在するわけです。
AIが現実と共創して認識空間を作り上げるために
――これら3つのAIは、実空間にもすでに応用されているのでしょうか?
デジタル空間に限らず、実空間にも応用可能です。例えば、デパートの入口にロボットを配置するとします。でも、ロボット単体では周囲しか認識できないので、ちゃんと動けないんです。
けれど、「メタAI」や「空間AI」が上から俯瞰したり、人の動きを予測したりすることで、見えていない「後ろの人をまず案内してください」とか、邪魔になっているので「少し後ろに下がってください」といった対応が可能になります。
人間とは違って、AIが実際の空間を把握するのは難しいんです。そこで、東京大学生産技術研究所の研究室では、建築分野の方と一緒に実空間とデジタルツイン(仮想空間)をセットで考えるアプローチを進めています。
例えば、会議室をそっくりそのまま仮想空間に再現し、その仮想空間を通じて人工知能に現実の情報を蓄積させている。AIと現実の間に、メタバースやデジタルツインメタバースといった仮想空間を挟むことで、AIがいろんな情報を集められるようにしています。

AIが空間把握や時間把握をうまく行えるようにするためには、生成AIが必要だと考えています。生成AIというと、何かコンテンツを作り出すイメージが強いですが、私は人間の「認識」そのものも「生成」であると考えています。
私たちが空間を認識しているのは、私たち自身が現実を題材に現実そっくりの空間イメージを作り出しているからです。たとえばドアの向こう側は見えもしないのに、自分がいるビルは見てもいないのに、頭の中で再現することができ、それゆえに人は空間を活用することができます。それはリアルタイムに現実世界をシミュレーションしているようなものです。だから予測も可能なのです。
とすると、「認識」と「生成」にはそれほど距離がない気がしています。ただし、人間は現実をインプットしながら、それによく似た認識空間を同時に生成している。いわば現実と共創して認識空間を作り上げているわけです。そのため、現実世界と認識世界がある程度似通い、同期しながらアップデートされていく。しかし、よく知られているように、人間は案外適当に現実世界を再現しているので勘違いが良くあるわけです。
さらに、人間の認識空間は単に客観的な空間が生成されるわけではなく、私たちの身体性に沿ったスケール、あるいは私たちの欲求が反映された形で生成されます。「食べる」「歩く」「横になる」といった可能性を満ちている。それは人間の生態に沿って色付けされた世界なのです。
このような認識空間はさまざまな哲学の中で探求されているんですが、私はその哲学を使いながら、それをキャラクターのエージェントアーキテクチャの中に組み込んでいければと考えています。要するに「作れるAI」にしなければ、少なくとも私にとっては意味がないんです。
しかし、今の人工知能は非常にシンプルで、認識や意思決定といった行為も単純なものにとどまっていて、空間や時間をうまく使うことができません。例えば人間の時間というのは、客観的な物理時間ではなく主観的時間です。人間は時間を生み出している。私たちの持つ時間は決して時計が作る時間ではない。このアナロジーでいえば、AIの時間とはCPUクロックではない。それはAI自身が内部から作り出す時間でなければなりません。
私は、AIも現実と共創しながら認識空間を生成するべきだと考えています。そして時間もです。知能は世界からの刺激と情報を受けて、主観的な空間と時間を生み出します。そのプロセスは未だ解明されていない。知能の本質的理解が足りない。AIもまた自らの認識空間と主観的時間を作り出してこそ知能と言えるのです。
――「キャラクターAI」についても教えてください。今の段階では、「キャラクターAI」が単独で知能を生み出すことは難しく、「空間AI」や「メタAI」の協力がないと実現しないのでしょうか?
「空間AI」や「メタAI」の協力がなくても動く、人間のような賢い「キャラクターAI」を作るという方向の研究も進んでいることは確かです。
ただ、エンジニアリング的にはかなり時間がかかりそうで、すぐに実現できるものではありません。産業的に考えても高性能なロボットが必要になるわけですが、それを作るのも簡単ではありません。安価で賢く動くロボットを作るなら、先ほどお話ししたような「空間AI」や「メタAI」の協力がある仕組みが現実的です。
「キャラクターAI」そのものを人間に近づける研究は自分も取り組んでいまして、そこで西洋哲学や東洋哲学を応用しています。まず環境内で身体を持って運動する知能には「無意識」的知能が必要になります。人間は無意識の中で空間を解釈し、時間を生成します。最近は、「唯識(ゆいしき)」という東洋哲学の思想を参考にしながら、「キャラクターAI」の深層構造を解明しようとしているところです。空間把握でもそうですし時間把握でもそうなんですけど、それは知能が生み出してるものですで、生成AIやキャラクターAIでも内部の機能として鍵になると考えています。認識とは生成でもあります。

スマートシティの社会実装は、産業化のスピードが鍵となる
――スマートシティへのAI実装は、いつ頃実現しそうでしょうか?
一般社会への広がっていくためには、産業化のスピードが鍵です。
最近、建築会社の人と話をしていると、「空間AI付きのビルと、空間AIなしのビルでは価値がまったく違う」という話題になります。空間AI付きのビルはロボットが動きやすい設計になっている一方、空間AIなしのビルはすべてロボットの(キャラクター)AI自身が頑張って制御しないといけない状態になります。
空間AIがあるビルでは、空間がロボットをサポートし制御できます。「このビルの清掃はすべてロボットで可能です」とか、「一部のサービスはロボットが担当します」といった形で効率化が進むわけです。
さらに、空間AIの次のステップとして「デジタルツインつきビル」もあります。ビルの仮想的なコピー(デジタルツイン)をデジタル空間上に作り、さまざまな情報を載せていく仕組みです。

この仕組みがあると、人間にとってもビルの管理が格段に楽になります。リアルタイムに遠隔からビル内の状態がシミュレーションされるからです。実際に「じゃあ、そういったスマートビルを作りませんか?」という提案につながる可能性が高まっています。
こういった技術がビジネスとして成立すれば、最初は局所的かもしれませんが、「このビルはスマートビルです」「空間AIが中でサポートしています」といった事例が増えていきます。
今後さまざまな空間にも応用されていくでしょう。空間AIとキャラクターAIのシステムは、ますます人々の生活を便利に、快適にしていく可能性があります。
メタバース×メディアで、どんな未来が描ける?
――三宅さん自身は、AIが社会やメディア産業に対してどういう影響を及ぼすとお考えですか?
AI産業という意味でいえば、次のメディアはメタバースだと私は考えています。人々がインターネットから何を知りたいかというと、おそらく一番優先度が高いのは現実の情報です。だから、インターネットができた頃は検索エンジン、次にSNSで人々は情報を得ていた。そして、その次に来るのが現実空間と同期できるデジタルツインメタバースではないかと予想しています。
さまざまな情報が蓄積されている仮想都市のような空間ができれば、人間のメディアとしても有用ですし、AIが現実を把握する材料も収集できるのでサービス向上につながっていくでしょう。AIがメディアを変えるというより、そのAIに役立つメディアがデジタルツインメタバースとして活用されていくのではないでしょうか。メタバースはAIの認識空間でもあります。
そのときに鍵となるのは、現実との同期のスピードです。既存のSNSより早く現実の情報をメタバースに反映することが、そこに人が集まる原動力になります。そうやって蓄積された情報を、AIが人間のサービスにまた活用していく。そんなビジョンを持っています。

――その新しいメタバースの形が広がっていく先に、どんな活用方法があると思いますか?
たくさんあると思います。例えば、メタバースで作られた渋谷の電光掲示板に広告を出すと、メタバース上に人の流れできます。仮想的ではありますが、理論上、その広告をどんな人が見たか分かりますよね?
これまでも「この看板は何人くらいが見たか」という推定はできましたが、さらに厳密な形で「この看板の下には、何時何分何秒にこの人たちがいました」という統計情報、見た人の変動がわかる。そうなれば、次はどの広告をどの時間に何を出すかまで、シミュレーションが可能になります。
ただし、メタバースの普及に伴い、個人のプライバシーに関する新たな課題も浮上するでしょう。匿名化されたデータであっても、仮想空間上で「この人がどこで何をしていたか」、動線や行動パターンが可視化されることで、個人の特定やプライバシー侵害のリスクが高まる可能性がありますから。
――SNSよりも早く現実の情報を取り込むことができるとなると、ジャーナリズムやニュースのあり方はどう変わっていくと思いますか?
今でもSNSが最初の情報源になることはありますが、それがメタバースになるとその仮想空間にある情報にアクセスすれば、誰でも時刻を指定してその場の状況が見えてしまう。だから、記者が現場に取材しに行ったり、刑事が現場に検証しに行ったりする前に、世の中の人のほうが先に現場の状況を知っているなんてこともあるでしょう。
やはりプライバシーの問題を鑑みると、最初は特定のビルや施設の管理内で広がっていく方向になります。
まずは学校や保育園など、クローズドな空間から導入されていって、やがて街全体にも導入されていく。そうすれば、スマートシティが実現するのではないでしょうか。

仮想空間上の「場作り」が求められている
――もう一つメタバースの使い方として当初はエンタメが多かったと思いますが、メタバースを活用した新しいエンタメのあり方は出てくると思いますか?
エンタメはもうすでに変わってきていて、メタバースとゲームを兼ね備えた『Fortnite(フォートナイト)』(Epic Games)では、仮想空間上でアーティストのライブを行っています。実空間まで行かなくても、仮想空間上で音楽のライブを鑑賞できる事例は実際にありますね。
実はデジタルゲームも、だんだんメタバース化しているんです。ゲーム内の仮想空間にコミュニティや施設をつくって、ゲームを中心とする世界をつくっています。今はそれぞれのゲームがユーザーを離さないように、メタバース化している状況です。
――それは日本だけでなく、世界的にその流れになっているのでしょうか?
日本よりもむしろ世界のほうが強いと思います。『Fortnite』のユーザー数は3.5億人以上と言われていて、日本の人口より多いですね。
もしその中でメディアとして広告を出すとすれば、3億人であろうが、10億人であろうが、仮想空間上で誰がどんな広告を見たか、ユーザーリストも作れてしまいます。
――メタバースに入る上で、日本にとって課題となっているのは何でしょうか?
やはりコミュニティの管理ですよね。コミュニティが活性化する「場」を作る能力が必要になってくると思います。毎月のようにアップデートしていかなければいけない一方で、あまりに濃い内容を提供すると場ではなく提供コンテンツになってしまう。
いわゆるコンテンツづくりではなく、「場作り」のノウハウです。このノウハウを蓄積することは、都市や広場を設計するのと似ています。
2024年12月18日インタビュー実施
聞き手:メディア環境研究所 冨永直基
編集協力:矢内あや+有限会社ノオト
※掲載している情報/見解、研究員や執筆者の所属/経歴/肩書などは掲載当時のものです。