「NVIDIA、KIOXIAの開発トップが語る AIの未来!」後編
AI、ディープラーニングがもたらす未来とは

「デジタル・ツイン」や「メタバース」といった単語が、いまや日常会話でも聞かれるようになるなど、最先端技術の浸透度は日に日に増大している。そんななかAI開発の最前線を率いるキオクシア・折原良平、NVIDIA・井﨑武士氏はどんな技術に注目し、どんな未来像をその心のうちに描いているのか。また次なるキオクシアxNVIDIAのコラボレーションの可能性はいかに!?

拡大を続ける先端技術の地平

AI、ディープラーニングの分野で最前線の研究開発を続ける、キオクシアの折原良平とNVIDIAの井﨑武士氏。続く対談のテーマは、AIの社会実装、メタバース空間での拡張性など、加速度的に現実味を帯びる近未来の社会像へと移っていく。

折原:「TEZUKA2020」で使用したGANという技術は、メディアを生成する点で非常に注目されています。最初は生成できただけで喜んでいましたが、次第に生成をコントロールしたくなるわけです。NVIDIAさんの「StyleGAN」はそれを狙った技術です。最近ではそれと自然言語処理を組み合わせて、生成系のAIをコントロールするっていう研究があり非常に面白いなと思っています。

井﨑:キャプションから映像を作り出すとかでしょうか?

折原:そうですね。「この絵のここをこういうふうに変えて」などの指示を自然言語で出せるんです。

井﨑:たしかに自然言語がこの数年で非常に進化したのは大きいですね。主に自然言語処理 (NLP)の分野で使用されるトランスフォーマーモデルが出てから言語の認識も解釈も非常に進化しました。今度は画像の認識にまで広げようとしていたり、生成系のネットワークにも入り込んだりと、進化を遂げている領域です。

折原:ディープランニングの初期は、画像認識で実績の上がった方法を自然言語処理に持っていく流れでしたが、トランスフォーマーは逆で、自然言語処理でうまくいった方法を画像の世界に持っていく。そういう相互の流れがあるのは非常に面白いと思います。

井﨑:言語関係だと、特に「文章生成言語モデル」のGPT-3といった、いわゆるブログの記事やニュース記事をAIに書かせるものも、トランスフォーマーモデルを使った自然言語のひとつです。例えばアニメのキャラクターが動作をして、そこで自然に人間と対話できるエンジンができてくると、インテリジェントな対話ロボットのようになる。そういったものがどんどん生まれてくるんだろうなと思います。

──ニュース記事という話がありましたが、他にはどんな社会実装が期待できますか。

折原:一番身近なところでいうと、チャットボットがコールセンターの代わりとして最初に来るソリューションだと思います。金融系の会社はAIを使ったチャットボットをすでに実装していますし、いろいろなクラウドベンダーがSaaSを提供していますが、その辺りがよりインテリジェントになると思います。例えば人がしゃべってる声音から感情を読み取り、それに合わせた対応をしていく。精度がより高まり、より人間と自然なやりとりができる領域に入ってくると思います。

他にも、例えば小売店の販売員がバーチャルになり、液晶ディスプレイで注文をすると、それをきちんと解釈して商品の案内までしてくれる。もちろん人間と違ってネットワークにつながっているわけですから、そのお客さまに合わせてリコメンデーションを表示してくれたり。そういう世界が広がってくると思います。

折原:それにプラスして、画像や音声を認識する能力が組み合わさると、そのやりとりがより自然になり、人間らしくなると思いますね。

井﨑:そうですね。ジェスチャー認識が入ればかなりリアルになります。人の表情から感情を読み取るような、音声と画像を組み合わせてよりスムーズなやりとりができる、いわゆるマルチモーダルなシステムがこれからできるはずです。

折原:昨今、遠隔会議が増えましたが、人間のコミュニケーションの半分以上はノンバーバル(非言語)な情報で、それが伝わらないから遠隔会議はやりにくいといわれています。マルチモーダルなシステムにより、そういうものがカバーされていくのだと思います。

あと、ぼくが経験した面白い例があるのですが、フランスの学会に行ったときに、レストランをメールで予約したんです。英語で書いた文章をGoogle Translateにかけてフランス語にして出したんですね。それで行ってみたら、全然英語が通じない店で。仕方なく片言のフランス語で話したのですが、途中で店員さんが「あなたはフランス語でメールを書いていたから、書いて伝えて欲しい」とメモを持ってきたんです。つまりGoogle Translateがチューリングテストを通っているということなんですよね。

井﨑:Google Translateは最近精度が上がっていて、そのままコピペで使えるようなレベルにまで来ています。そういったチューリングテストも含め、人間と間違えてしまうくらいのレベルにまで来てるんだなと思います。

──先端技術という意味では、GauGANについてもお聞かせください。

井﨑:GANブームが2年ほど前にあり、GAN関連の論文ばかりの時期がありました。そこから比べると少し沈静化しましたが、GANは新しいアルゴリズムがいまだに出ています。NVIDIAではGauGANという論文を出しました。模式的に自分でグラフィックを描いたり、例えば岩や空の領域を指定すると、指定された領域があたかも自然な画像となるように創造されて写真が出てくるというものです。いまGauGAN2というアルゴリズムが進化しています。「TEZUKA2020」はStyleGANで、キャラクターを与えて創造しましたが、その周りの背景も含めて創造できるようになってきています。創造の領域はより広がっていくと思いますね。

そのほか最近面白いと思って注目しているのは、二次元の画像を「高精度な3Dイメージ」に変換するNeRF(Neural Radiance Fields=神経放射輝度フィールド)のようなアルゴリズムですね。いわゆる平面画像をもとに、3次元を再構成したり、視点を変えたり、移動させたり。空間が3次元に増えることでより創造性が増して、いろいろな分野での活躍シーンが出てくると思います。

──今後、メタバースが進化していくことで、3D空間におけるクリエーションというのも進むかもしれませんね。

井﨑:NVIDIAではOmniverseというプラットフォームを提供していますが、これは仮想空間における3Dデザインコラボレーションとリアル タイム シミュレーションのために開発されたプラットフォームです。複数のデザイナーが各拠点にいて、異なった3Dデザイン アプリを持ちつつも、あらゆる端末からリアルタイムに共同で編集できるコラボレーション環境を実現しています。

例えば工場の中のFAマシンや搬送ロボットなどの物理モデルをきちんとつくることで、動作をシミュレーションして移動経路の最適化やラインの配置、人員配置をシミュレーションできるような環境ができます。工場などの建造物をはじめ、ひとつの創造物を複数の方々が共同で編集しながら、そこで実社会のものと同じようにシミュレーションをする。日照条件、周囲の環境もシミュレーションして、これがきちんと動作していくかを検証しながらつくっていけるようなものが、今後増えていくと思いますね。

そうすると、これまで机やパソコンに向かっていたクリエーションの環境が、仮想空間の中での共同編集に変化していくのだろうと思います。

折原:井﨑さんのお話を聞いて思うのは、僕はプログラマーなので、つくるものはプログラムですが、プログラムだとそれがかなり実現されつつあるということです。プログラムで実現、ソフトウェアの世界で実現していることが、いろいろ形のあるものの世界、物のデザインの世界にもメタバースの力を借りて広がっていくのかなっていうような印象を持ちました。

井﨑:プログラミングもツールをはじめとしてどんどん進化をしてきているので、ハードコーディングする方もいれば、ノーコード、ローコードのようなツールを使って構築される方もいます。そういったいろいろなレイヤーの方が共同で物をつくれるような環境はこれからどんどん広がってくると思います。

そして今までプログラムはプログラマーのものでしたが、コモンといいますか、大衆が使えるようなレベルのものになり、そうなれば当然つくられるものも変化しますので、多様化が進むと思います。

折原:民主化されたわけですね。

井﨑:そうですね、おっしゃるとおりですね。

キオクシアとNVIDIAが目指す未来

「TEZUKA2020」に始まったキオクシアとNVIDIAのコラボレーション。次なるプロジェクトは、いつ、どんなかたちを帯びるのだろうか。デジタルヒューマン、地球シミュレーションなど興味とアイデアは尽きない。また急速にボーダーレス化が進むAI開発の世界で求められる資質について、折原、井﨑氏が意見を交わす。

折原:そうですね、NVIDIAさんはGANをはじめとしてディープラーニングの研究をされていて、ソフトウェアリソースもGitHubなどで公開されているので、今後も使わせていただくと思います。われわれもオープンソースコミュニティに貢献できるようになっていければと思っています。

井﨑:キオクシアさんはメモリなどの記憶装置を製造されているメーカーなので、今回のプロジェクト以外でもビジネス的にはお付き合いさせていただいています。前回は「記憶」というところからマンガによる手塚治虫復活プロジェクトとなりましたが、いわゆる創造物と考えると画像や音声などさまざまなものがあります。今後、そういった記憶媒体をもとにして、そこから何か新しい付加価値を創造できるようなサービス提供も考えられていくと思うので、われわれのアルゴリズムないしはGPUも含めて、ご助力できるところはないかなと期待を持っているところではあります。

──今後、キオクシアとNVIDIAで「TEZUKA」を超えるインパクトを持つプロジェクトを生み出すとしたらどんな領域が考えられますか。

折原:この2社だとものすごくコンピューティングパワーが必要で、ものすごくデータが大きい世界でしょうね。

井﨑:そういう面だと、デジタルヒューマンは360度カメラを使って、すごいデータ量を使って人間を1人デジタルで再構成する必要があります。そこに音声データが入り、人の行動のデータも入るので、コンピューテーションパワーと記憶容量が必要です。デジタルヒューマンは可能性があるかなと思います。

あとは、NVIDIAでやろうとしている「デジタルツイン」で、地球シミュレーションをしています。地球全体をモデル化するにはすごいデータ量が必要です。

──「地球シミュレーション」はインパクトが大きいですね。

井﨑:地下に二酸化炭素を埋め込もうなんていう話もあるなかで、それがどう地球に影響を及ぼすのかシミュレーションできる環境をつくろうとしています。きちんとモデルをつくらないと、見えてこないところがあり、当然データ量も必要になります。ただ、われわれの生活に一番関係してくるところですし、地球全体から見れば人間が生きている期間は非常に短いですが、今後人間がどうなるのか、いま私たちが生活している人間活動の結果なので、そこをうまくシミュレーションして、どういう改善していくか。AIで計算していく価値のある内容だと思っています。

折原:シミュレーションによって、この先どうなるのかリアルにわかるし、今度はそれに基づいてわれわれが行動を変容させないと良くならないわけですよね。そこはやっぱり認知科学、心理学の世界の知見が使えると思います。

──今後、エンジニアに求められる資質はどのようなものでしょうか。

井﨑:AIなどの使えるリソースがオープンソースの世界で非常に豊富になってきています。最先端の論文のアルゴリズムはGitHubに同時にアップされているので、それをすぐダウンロードすれば、最先端のアルゴリズムをそのまま自分で実装できてしまうわけです。

そういう状況なので、新しい技術が出てきたときに、一からそれを一生懸命勉強して云々、というよりは、使ってみてどういう風になるかを見て、じゃあここをどう改良するか、というやり方に変化してきています。ですから、こういう業界にこれから新しく取り組む方は、どんどん使っていくことがスタートだと思いますね。

特に従来の技術と違って、アルゴリズムで何かを実装するのが非常に容易なので、実際のサービスでどういう風に使うのか、応用技術をどんどん進めていき、ビジネスに活用していくのがいいと思います。そうするとフィードバックが得られますので、そこから次の改良につなげていくという好循環が生まれます。また、日本国内だけのことを考えていると置いていかれますので、世界の視点で情報を集めていくことが重要です。

折原:もともとAIは、数学や物理、心理学、文学などの広い分野で、いろいろな境界領域と接しています。だからこそ別の分野で勉強したことが役に立つことが多い。幅広い見識を持つことを若い研究者には薦めたいと思います。

──さまざまな分野でAIが活用されていくと思いますが、どのように広がっていくと思われますか。

井﨑:産業がボーダーレスになると思いますね。わたしたちも製造業を中心にビジネスすることが多かったのですが、AIに取り組むようになってから、製造業はもちろん、「TEZUKA2020」のようなエンタメになるケースもあれば、インターネットサービスやリテール、更には漁業、農業にまで広がることもあります。ありとあらゆるところにAIの活用の可能性がある。そういう意味では一つの技術で産業のボーダーレス化が進むとも言えます。

どの知識がどう活きるかは、正直わかりません。ドメインスペシフィックな知識とAIの技術を組み合わせたり、掛け合わせることで、そこに対して何かソリューションが生まれる。そのためにも幅広い知識を持つと同時にいま持っている知識を深めていく事がいろいろなところに役立ってくるのだと思います。

掲載している内容とプロフィールは取材当時のものです(2022年2月)