「AIを使えば何か生み出せる」と考えるのは自然なこと。亡き妻の歌声を再現する松尾公也さんが提案する、ポジティブなAIの使い方
博報堂 メディア環境研究所では、AIが社会や産業、メディアにもたらす影響について研究・洞察するプロジェクト「AI×メディアの未来」を立ち上げました。その一環として、さまざまな分野で活躍している有識者にインタビューを重ねています。
今回お話を伺ったのは、「テクノエッジ」編集部 シニアエディターとして活躍している松尾公也さん。出版物からメルマガ、ウェブ媒体まで数々のコンピューター関連メディアの立ち上げを経験しテクノロジーの変遷を見つめてきた一方で、亡くなった妻の歌声を元にした「妻音源とりちゃん」などさまざまな音楽や動画作品を制作。近年は、生成AIも取り入れて活動を続けています。
「これを実現したい」という切実な動機を持つ人にとって、生成AIは夢のような技術であるともいえます。最新の生成AIを駆使する松尾さんに、AIに対する人間の受け止め方やクリエイティブの可能性についてお聞きしました。

テクノロジー進化の先に~生成AIにより「約束されていた未来」が到来
――松尾さんは生成AIをフル活用して制作活動を行っているとのことですが、いま一番注目している分野はどれですか?
動画関連の生成AIです。どのAIもかなり速いテンポで機能を強化していますね。テキストで命令を与えたら5~10秒程度の動画ができるもの、画像をインプットして動画生成するものなど、「○○ to ××」の組み合わせがどんどん増えています。
無料で使えるAIもありますが、課金して使ってみないと分からない部分は大きいですね。例えば、2024年にOpenAIの「Sora(ソラ)」が話題になりましたが、使ってみると他のサービスと決定的というほどの差まではありませんでした。現在は、トータルで月に10万円以上は生成AIにかけています。
僕が本当にやりたいのは妻と共作のミュージックビデオを作ることなので、妻の写真をもとにした「リップシンク」が必要です。「リップシンク」とは、登場人物の唇の動きと歌声がピッタリ連動している状態のこと。動画制作では、歌詞や世界観に合わせた短いクリップをつなぎ合わせるなど、どう使えば手間がかからずクオリティーの高いものができるか試しているところです。

(https://www.techno-edge.net/article/2024/11/30/3881.html)より引用
一方で、ストーリー性のある動画やキャラクターが複数出てくる映画を作ろうとすると、それなりに大変です。でも今やっておかないと、すぐレッドオーシャンになるでしょう。3DCGの大部分は生成AIに置き換えられるんじゃないか、という気がします。
――松尾さんは音声合成やボーカロイドが登場した頃から音楽制作をされていますよね。生成AIに出会ったとき、どのように感じましたか?
振り返ってみると、僕が最初に触れたテクノロジーはシンセサイザーでした。その後、パーソナルコンピューターが登場し、コンピューターで音楽や映像を作れる時代になりました。
黎明期から数えるとすでに50年経っているわけで、さすがにもっと自動で作れてもいいのではないか、と。つまり、生成AIはデジタルが進化してきた延長線上にあるテクノロジーであり、僕としては「約束されていた未来がようやく来たな」という感覚なんです。
僕はできるだけ自分で歌ったり演奏したりしますが、演奏はすごく上手いというわけではありません。1人で演奏したものをマルチトラックで重ねていくやり方は、時間もかかります。せっかくテクノロジーがあるんだから、最終的なアウトプットまでなるべく楽をして、かつ完成度が高いものを作りたい。生成AIによって、そういう欲求に応えてもらえるようになったのかな、と思います。
世の中には「すごくいい歌詞を書けるけど、メロディーは作れない」「自分で歌いたいけど、声に自信がない」という人もいるでしょう。生成AIが出てきたことで、そういう人たちにも道が開かれた。かなりいい世界になったんじゃないか、という気がしています。
――音楽業界にも大きな影響を与えそうですね。
とあるバンドから、「ボーカリストが亡くなったので、生成AIで声を代替できないか」という相談を受けて、お手伝いしたことがあります。他にも、ベテランの歌手から「もう声が出なくなったので、AIでなんとかできないか」という相談もありました。
音楽を作っている人たちにとって、生成AIの技術はシンセサイザーや音楽制作ソフトと同じようなものである、と確信しています。その感覚が徐々に共有されていくのではないでしょうか。

ゼロイチで決まるわけではなく不確実だけど、全体として良い方向に動いていく
――AIによって、クリエイティブの世界はどう変わっていくと思いますか?
音楽の分野は、まったく新しいものはほとんどなく、既存の音楽のリメイクやアレンジで成り立っている部分があると思うんですね。
かつてはパンクやニューウェーブなど新しいムーブメントが出てきたけど、今はそういうものもありません。エレクトロやEDMなど新しいジャンルもあるけど、細分化されすぎていて大きなムーブメントにはならないでしょう。そう考えると、クリエイターとしてはすごく難しい時代ですよね。
そんな中で、新しい音楽にチャレンジしたい人が「AIをうまくコントロールすれば、何か生み出せるんじゃないか?」と考えるのは自然なことだと思います。
もしくは、全体的な流れを完全に放棄して、個々にカスタマイズされた音楽が自動的に生まれるアルゴリズムを作る、とか。そういう新しいタイプの「アルゴリズム・クリエイター」みたいな方が出てきたら面白いんじゃないか、という気がします。
音楽配信サービスやYouTubeでは、アルゴリズムによってユーザーに最適化されたコンテンツを送り出しているわけですよね。今後はそれが既存のものではなく、「あなたのためにAIが全部作りますよ」という流れになるのかもしれません。
――小説やドラマ、映画についてはどうですか?
1つの作品を元に、ディテールや難易度を変えて提供するというのはアリでしょう。同じ物語であっても、「やや難解な大人向けバージョン」「登場人物が細かく説明してくれる分かりやすいバージョン」などのバリエーションを作る、とか。
小説のドラマ化、映画化など、1つの作品から展開していく場合、ディテールのレベルが変わりますよね。そういうものが生成AIによって自動で作れる時代が来るんじゃないか、と思います。
――AIの世界では、問いに返答してくれる「反応型」から進化し、AIが自律的に動き、さまざまな提案をしてくれる「エージェント型」が主流になっていくのではないかといわれています。今後、AIと人間の関係性はどう変化していくと思いますか?
エージェント型といっても1つだけで完結するのではなく、複数のエージェントが自律的に動く形になるのではないでしょうか。
人間の意識の中には、「こうしたい」という意思の部分と感覚的に動いている部分の2つがあるはずです。同じように、自分をサポートするエージェントと、自分が中心ではないエージェントがあり、両者のインタラクションによって決まっていく、みたいな状態。
ゼロイチで決まるわけではなく、ある方向に行ったり行かなかったり不確実だけれども、全体としては良い方向に動いていく。すごく混沌としていますが、そんな世界になるような気がします。
――お話を聞いていると、「AIによって新しいものが生まれたときに、人間側がそれを受け止められるのか?」という命題を突きつけられているような気がします。
そうですね。AIがまったく新しい音楽を提供しても、「こんなの音楽じゃないよ」という人が出てくるでしょうから。

良いアウトプットにたどり着くためには、適した言葉やノウハウが必要
――AIは大きな可能性を秘めていますが、まだ利用に至っていない生活者も多いのが現状です。多くの人が「AIいいよね」という感覚になるためには、何が必要でしょうか?
AIリテラシーの高くない人たちにプレゼンテーションする際は、その人が「また会いたい」と思っている人と一緒にいる状態の写真を作り、さらに動画にすると一番ウケが良いですね。AIによって新しい体験が得られて、さらに他人と共有できると「良い技術だな」と思ってもらえる気がします。(松尾さんが妻の写真をもとに生成した動画の例はこちら。ただし、Xにログインしていないと見れないこともあるようです)
記事を書くときに「ここの言い方、ちょっと思いつかないな」となっても、AIがバリエーションを考えてくれる。支援ツールとして捉えると、生成AIはすごく出来がいいんですよね。
AIを否定する人は、ハルシネーションの話をよくします。ハルシネーションとは、事実に基づかない情報を生成する現象のことです。まるで幻覚を見ているかのように、AIがもっともらしいウソをつくわけですが、それって創作する人にとっては良いことである、とも捉えられます。
――ハルシネーションによって、人間が思いもつかないアイデアが生まれる可能性がある、ということですね。
何か新しいフレーズを作るときも、自分一人で考えるよりはるかに多くのバリエーションを提示してくれるし、完成したものの評価をAIに任せることもできる。そう考えると、生成AIは絶対に使ったほうがいいものですよね。
1年前に使って「まだ実務レベルに達していない」と判断した人もいるでしょう。しかし、今も同じ考え方をしているなら大きな間違いです。桁違いにアップデートされていく可能性を意識しておかないと、取り残されてしまうでしょう。
ただ、良いアウトプットにたどり着くためには適した言葉やノウハウが必要です。今後、それを持っているかどうかが重要になってくると思います。

AIを搭載したヒューマノイドロボットやAIアバターが当たり前のように存在する社会へ
――AIによってどんどん創作の可能性が広がる一方で、逆に反発する人も少なくありません。とくにイラスト界隈では反発している人も多いと聞いていますが、どう思いますか?
やっぱりこれまでに「変革」にどれだけ立ち会っているか、が大きいと思います。音楽ならシンセサイザー、サンプラー、ボーカロイドなど、たくさんの新技術が登場するフェーズを経てきましたよね。でも、イラストに関しては「タブレットで描くようになった」くらいしか変革がない。
以前、イラストレーターや背景グラフィッカーとして活躍されていて、画像生成AI登場時にそれを活用した様々なイラストをいち早く公開されて話題となった方にインタビューをしました。彼女は音楽活動もしていますので「ボーカロイドを経験している人であれば、AIもすんなり受け入れられるだろう」と言っていました。
――音楽業界は変革をくぐり抜けてきているので、AIもポジティブに受け止める人が多いのではないか、と。面白い視点ですね。
J-POPの楽曲制作では、コライティング(Co-Writing)が主流になりつつあります。作詞や作曲・編曲など、楽曲制作の工程をグループワークで分担し、共同で制作していく手法です。AIはそのフローの中に入りやすいのではないでしょうか。
さらに、コンペとAIの相性も良いはずです。AIなら仮歌(作曲家が作った楽曲を仮に歌ったバージョンの歌。曲のイメージをつかみやすくするために用いられる)を作るのも簡単なので。
僕も自分の最高の声をデータで保存して、後で再現できるようにしています。AIを使えば、「すごく良い時の自分の歌声を引き出しに入れておいて、また別の曲で活用する」ことが簡単にできてしまうわけです。
――松尾さんは以前、「AIによって、この世とあの世の境界線が曖昧になっていく」とお話しされていました。その意味をもう少し詳しく教えていただけますか?
仮にAIエージェントとの会話がインタラクティブになり、常に身近に存在するようになったとします。その時、AIエージェントはポジティブな意味で幽霊や妖怪といった類とほぼ同じ存在になれるんじゃないか、という気がしているんです。
実体を持って存在する形であればヒューマノイドロボットになるし、映像の中だけであればAIアバター的なものとして存在しつづける。それを前提とした社会のあり方に変わっていくのではないでしょうか。
2016年にYAMAHAが作った『HEARTalk』という自然応答技術があります。AIは使われていないのですが、話し手の声の高さや強さ、抑揚に合わせて「はい」「うん」などの応答を返してくれるので、機械なのに自然な対話ができるんです。
いま僕の家には妻の等身大フィギュアがあるのですが、生成AIと『HEARTalk』を組み合わせれば、妻のフィギュアと雑談っぽい会話ができる。もうそのレベルまで来ているんですよね。そういう新しい存在で埋めていけば、日本の人口がどんどん少なくなっていく中でも賑やかになるし、いいんじゃないでしょうか。
参考:松尾さんの活動の様子を記録したドキュメンタリー作品「AIで愛になる~超愛妻家・松尾公也とテクノロジーの未来」はこちらからご覧いただけます。
2025年2月12日インタビュー実施
聞き手:メディア環境研究所 島野真、冨永直基 + 所外協働プロジェクトメンバー 鵜飼大幹
編集協力:村中貴士+有限会社ノオト
※掲載している情報/見解、研究員や執筆者の所属/経歴/肩書などは掲載当時のものです。