生成AIは言葉を「理解」しているのか？自然言語処理専門家による「言葉とは一体何なのか」の探求

2023.11.17

インタビューにご協力いただいた方

静岡大学情報学部行動情報学科准教授

狩野　芳伸氏

INTRODUCTION

仕事から日常生活まで、あらゆるシーンで欠かせない存在となっているインターネット。インタビューシリーズ「今と未来のインターネット」では、インターネットにさまざまな形で関わる有識者や企業等に話を聞き、活動や思いを通して、読者に多様な視点や新たな知見をお届けします。

今回お話を伺ったのは、自然言語処理のエキスパートとして、ゲームの「人狼」を使った嘘を見破るプロジェクトや、人間並みに言葉を操る対話対話システムなど、さまざまな研究を続けている、静岡大学情報学部の狩野芳伸准教授。

「言葉は人間の知能の中核」と語る狩野教授に、現在の研究テーマや生成AIが文章を生み出す仕組み、先生の感じる言葉の魅力などについて、お話を伺いました。（本文中：敬称略）

川上城三郎（株式会社Cadenza代表取締役社長、聞き手）

狩野准教授とCadenza代表川上城三郎 — 画像：左・狩野芳伸准教授、右・弊社代表川上城三郎

物理学から自然言語処理の道へ、「言葉とは一体何なのか」を探求し研究者に

川上

まず最初に、先生のこれまでのご経歴について、教えてください。

狩野芳伸氏（以下敬称略）

元々私は浜松の生まれで、父は物理学の研究者、母方の親族は電機系の研究者という、周囲に研究者が多い環境で育ちました。祖父も私と同じく静岡大学浜松キャンパスに勤めていて、電子工学研究所という研究所を作った時代の教授でした。

誰でも小さいころに、回答が難しい子どもならではの質問をして、親に答えてもらえない…そんな経験をしたことがあると思いますが、私はそうした思い出がないんです。物理学の研究者だった父は、私が尋ねたことなら何でも全て答えてくれましたね。

そんな父の影響もあり、まずは学問の王様ともいわれる物理を学ぶべきだと思い、東京大学の理学部物理学科に進学しました。

川上

最初は物理の道にすすまれたんですね。

狩野

そうなんです。しかし、物理学を学んだものの、次第に「物理で解析的に解けるものはほとんどない」と感じ始めます。

例えば私がリモコンを手に持ち、床に落とした場合に壊れて何が起こるか。物理学では計算しきれないんです。つまり物理学で理論的に方程式で計算できるのは、原子や分子といった世界の粒1つ分で、その数が増えるともう近似するしかなくなります。リモコンを落とすという例でいくと、原子レベルから計算するのは不可能に近い計算量になると思います。

そうしたある種の物理学のハードルを感じたのと同時に、違う分野にも興味を持つようになりました。これは「大学生あるある」とも言えますが、心理学や脳科学とか、高校で習ってこなかった学問の面白さに惹かれていったんです。

最初は脳科学をやろうかと思ったのですが、手先が不器用なため、親から「実験が必要な分野はやめた方がいい」とアドバイスされました。苦手な実験ではなく、当時得意だったコンピュータを使って、人間への理解を深められるもの…そう考え、東京大学情報理工学系研究科コンピュータ科学専攻にすすみ、「自然言語処理」の研究室に入りました。今の分野に関する研究を始めたのは、大学院に入ってからなんです。

川上

自然言語処理について、そして先生の現在の主な研究内容についてご紹介いただけますか。

狩野

自然言語処理とは何かというと、人間の言葉をコンピュータで処理することです。学問でいうと工学系なので、その技術を用いて人の役に立つソフトウェアを作るなど、どちらかというともの作りの分野ですね。一方で、言葉とは一体何なのか、サイエンスとして言語の原理探求をコンピュータで行う計算言語学という分野もあるんです。

珍しく工学系ではもの作りと原理探求の両方を同時にできるという意味でも、自然言語処理は私に合っていて面白いなと思いました。

私の研究室では、例えば嘘を見破る会話ゲーム「人狼」をプレイする人工知能を作るプロジェクトや、広告代理店と共同したキャッチコピーの自動生成プロジェクトなど、さまざまな取り組みを行っています。（編集部注：「人狼」は、会話の中から嘘を見破り、人狼と思われる人物を推測するゲーム。）

また応用として、精神疾患や発達障がいの自動診断支援、司法試験の自動解答プロジェクトなどもあります。

機械学習の応用という位置づけでは、どちらかというと言葉をデータと考え、手法を試す一つのデータとして言葉を使います。対して、私はどちらかというと「言葉とは一体何なのか」という、人間の知能の中核としての言葉に興味を持っています。

現在は、機械学習を使ったやり方の方が性能が良いものが出ています。ただし、言葉そのものの中身をしっかり見ているのかというと疑わしいところもあります。私自身は違うアプローチでも研究し続けて、もう20年になりますね（笑）。

「嘘」を見破るプロジェクトや「欺瞞」を察知する研究

川上

言語に関する興味深い研究がたくさんありますが、例えば人狼知能プロジェクトでは、どのような手法で嘘つきを見抜くのでしょうか。

狩野

あくまで私の研究では、という話になりますが、言葉の中身が嘘かどうかを見抜くやり方と、嘘つきっぽい人を探すというやり方、二つの手法があると思います。

中身が嘘かどうかを見抜く方がおそらく難しいですね。まず、本当とは何かというのを先に定義して、それと矛盾しているかどうかを当てるわけですよ。これは結構難しい。試してはいますが難しいです。

嘘つきっぽい人を探すという、こちらのやり方の方が比較的やりやすいと思います。例えば主語をあまり言わないとか、断定せずに曖昧なことを言うとか、人狼ゲームのログを活用して、嘘をついた人の発言のパターンを探るんです。

過去のゲームのログなので、誰が嘘つきか、正解がわかっています。それを使って嘘つきかどうかを自動分類するというのをやったところ、7割ぐらい当てることができました。

研究段階なので断定的なことは言えませんが、もしかしたら、人が嘘をつくときの言語のパターンがある程度あるのかもしれませんね。

川上

もう一つ、「SNSにおける欺瞞とその広がりの自動検出・推測と政治学・社会学的分析および予防的介入」の研究に関しても、概要を教えていただけますか。

狩野

この研究は、SNS上での欺瞞・つまり他者を意図的に間違った方向に導くような情報を察知しようというものです。嘘も欺瞞の一種ですね。

現在、世論を誘導しようとするフェイクニュースや誤った情報が世界中に流れています。身近なところだとステルスマーケティングなどもその一種です。今回の研究には世論調査やイデオロギー分析などをしている政治学の先生にも参加いただいていて、政治的な世論誘導なども研究対象にしています。ニュース記事なども含むのですが、一般のツイートの方が大量にデータが取れるため、そちらが主な内容になっています。

川上

どのようなアプローチで欺瞞を見抜こうとしているのでしょうか。

狩野

SNS上の発信は、個別の中身を見ても、ほとんどがそれが正しいのかどうかを判断することはできません。例えば誰かが今日3回トイレにいったと言っても、それが本当かどうかは本人でないとわからないですよね。

そのため今回は、同じ人が矛盾したことを言っていないかどうかを見るという方法をベースにしています。そうするとさらに意見の流れが見えてきて、この意見はここから来ているとか、ここと矛盾が生じているとか、最近よく目にするあの論調は全て同じ人が発信しているとか、いろいろなことが見えるのではと考えています。

それから、ある意見を誰かが発信した後に、ネット上でどのようにそれが広がっていくかというのも予測をしています。情報の発信側、受け手側、それぞれ個別のユーザーがこの内容を見たらどうなるかと推測したものを積み上げたいと思っているんです。この情報を見たユーザーはこういうタイプの人だから、この話題に対して影響を受けるだろう…という具合です。

どういうユーザーがどのような発信をするのか、またどういう人がそれを受信したら影響を受けやすいのか等を予測するために、サンプルとして旧Twitterのアクティブユーザー数千人に対して、細かく属性を聞く100問ぐらいのアンケート調査をしたんです。質問内容は、例えば年齢、職業、学歴といった基本的な項目から、支持政党や家庭環境、特定の問題について賛成か反対かなど、多岐にわたります。その上で、アンケートに回答してくれたユーザーのtweetを全部取り、属性と発信内容とを紐付ける作業をしています。

最終的には、欺瞞の発信から受信、リツイートなどによる伝達を察知して、欺瞞の広がりを防止する手立てが打てないかと考えています。

川上

逆に考えると、そうした情報の流れ、影響の与え方を熟知して、さらにプラットフォームを抑えれば、世論操作もできてしまうのではないですか？

狩野

その通りです。だからこれはある意味危険な研究ともいえます。しかし、おそらくそうしたシステムは既にもう世の中にあるのではないでしょうか。日本語にどれくらい対応しているかはわかりませんが、日本にもあるはずです。技術は使い方次第ですので、私の研究としては、結果を公開した上で一般の皆さんが使えるツールに落とし込み、欺瞞に流されないようにするために活用していただけたらいいなと思っています。

基本は「正解のものまね」、生成AIが文章を作る仕組みとは

川上

ChatGPTの登場で生成AIが一気に注目されていますが、そもそも生成AIとは何で、どのような仕組みで文章や画像を作っているのでしょうか。

狩野

生成AIは、「ディープラーニング（深層学習）」と呼ばれる機械学習の一種を使って、文章や画像、プログラムのコードなどを自動で作る人工知能の一種です。

機械学習にはいろいろなタイプがあるのですが、現在機械学習というと、「教師付き機械学習」という、正解を与えるとものまねしてくれるという仕組みを一般には指しますね。

川上

ひたすらこれはリンゴだよって言ってリンゴの写真を見せるとリンゴを覚える仕組みですね。

狩野

それです。結果的に関係性を学んでくれて、多分ここにこういう形があったらリンゴっぽいかなというのがだんだんわかってくるようになり、知らない画像でも、かつて見たものと比べると7割似ているからどちらかというとリンゴかな、と判断する…それが簡単に言うと基本的な機械学習の仕組みです。

今の生成AIはその機械学習を使ってはいるのですが、少し仕組みが違います。これがリンゴです、という正解、教師データと呼んでいますが、それを作るのは、膨大な手間とお金がかかります。例えば言葉でこの文章のどこに主語があるかを当てたいとすると、誰かに頼んでお金を払って主語に丸をつけてもらわないといけないんです。日本語全てをカバーしようと思うと、とてつもない量が必要ですよね。

そこでうまいこと考えた人がいまして、いわゆる穴ぼこ（マスク）を使ったんです。すでに世の中にたくさん落ちている文章を使って、自動でランダムに一部を穴ぼこにします。そして、その穴ぼこにどんな言葉が入るかを当てるクイズをコンピュータにやらせるというやり方です。

川上

元々ある文章を使っているため正解がある。人を雇って教師データをイチから作る必要がないんですね。

狩野

そういうことです。いくらでも作れますよね。文書さえ集めてくれば永遠にできるので、これを何兆回何京回とやらせているのが今の仕組みです。これを当てようと思うと言葉の意味も文法も必要ですし、周りの文脈によっても正解は変わってきますが、ずっとやっているとだんだん自然な文章が作れるだろうという考え方ですね。

実際それができているのが、深層言語モデルと言われているものです。穴ぼこ当てができるようになると、途中まで書いた文章の続きを書いたり、記事を書いたりできるようになります。文章を作れるようになるんですね。これが、現在のChatGPTがやっていることそのものです。ChatGPTに聞くと、あたかも何か考えて答えてくれるように見えますが、実は、全部次の単語、次の単語と予想したのを繋げているだけなんです。

川上

生成AIは、いろいろと問題点も指摘されていましたが、その点は現在どうなっているんでしょうか。

狩野

そうですね。ありもしないことや差別的な文章が出てしまう、それから武器の作り方など犯罪につながる方法も聞くと教えてくれるなど、いろいろな問題が話題になりました。

今のChatGPTはそれについても調整しています。人に再び〇×をつけてもらったんですね。人間にこういう質問だったらこういう答えがいいよねという正解を出してもらいます。さらに、例えば武器の作り方を教えてくださいと聞かれたら、その答えを出すのではなくて「それは答えられません」という方が良いとか、こちらの方が良いというものに人間に〇×をつけさせて追加したんです。

川上

とんでもない量の〇×が必要そうですね。

狩野

そうだと思いますが、OpenAI（ChatGPTを作った、人工知能の開発を行っているアメリカの企業）は公開していないので、どのくらいのデータを使ったか、どのデータを使ったか、わかっていません。もちろん後追いでいろいろな研究者が研究していますが、どれくらい何を用意したらいいかがはっきりせず、もしかしたらOpenAI自体もそれほどわかってない可能性もあるかもしれません。

分量的に力技でやった部分もあると思いますが、データの質も大事と言われています。そこは本当に研究途中でよくわかってないので、われわれも研究しているところです。

使いこなし、むしろ作る側にーー学生に伝えたい、生成AIとの付き合い方とは

川上

教育という観点で、生成AIを利用するときの注意点などはありますか？

狩野

レポートの作成時に学生が生成AIを使わないか等が懸念されていますが、気にしたところで見破ることはできないと思います。コンピュータが出始めたころ、コンピュータを使っても良いものかとか、インターネットを見て書くのはどうなんだという議論があったのと近いと思ってて、それはもう避けようがないし、時代の進化に合わせていくべきなのではないでしょうか。

特にうちは情報学部なので、学生も使いこなせるようにならないといけません。そのときに気をつけるべきところはたくさんあるので、そこは伝えていきたいと思っています。

良く言っているのが、「あくまでお友達に聞いたと思ってください」ということです。正確に言うと「あまり信頼できないお友達」ですね。

あまり信頼できないので、そのまま使うことはできませんし、チェックが大事です。どんなツールを使うにしても、恐らく学ぶ意欲がある学生は自分のためになる使い方をするでしょうし、ズルをしようとする学生は一つのツールの使用を禁止したところで、何らかの抜け道を考えてしまうでしょう。

例えば、プログラムの演習でChatGPTにプログラムを書かせた場合、それを見て自分の書いたものとの違いを検討するのか、まるまるコピペして提出するのかはその人次第です。ツールに丸投げした結果、自分がわからないままであれば何も意味がありません。そこがわかっていてくれればいいかなと思っています。あとは、著作権侵害に注意することですかね。

ブレストの相手にしたり、下書きをしたり、工夫すれば自身のためになる使い方はたくさんあると思います。今後は、大学生なら使えるべきだとなっていくでしょうし、情報系の学生はむしろ作れるぐらいじゃないといけないと思います。

「言葉は、人間の知能の中核」、自然言語処理の専門家として感じる言葉の面白さ

川上

先生は、言葉のどういう点に魅力や面白さを感じているのでしょうか。

狩野

改めてそう質問されると、なんなのでしょうね。昔から本を読むのも好きでしたし、話す言葉にも興味がありました。言葉って何だろうというのをおそらくずっと考えていたのだと思います。言葉を失ったら意思疎通ができないのに、その割に制約のある形をしていて…言葉の魅力は何か、改めて伝えるのは難しいですね。言葉に興味がない人なんているのでしょうか。そのぐらい自分にとっては当然の関心事なんですね。

逆に言葉抜きの自動マシンを作って楽しいかというと、あまり楽しくないのではないでしょうか（笑）。

今の生成AIみたいなものが、人間の言葉を「理解している」と言えるかどうかも、実際のところはわかりません。よく、「コンピュータは感情を持つのか」と聞かれるのですが、感情とか理解といった単語を機械に用いるときは、気を付ける必要があると思っています。これらの単語は我々にとって当たり前の事柄なので何気なく使ってしまいますが、よく考えると、どういう状態を指しているのか、定義ができていないのではないかと思います。感情とは何か、理解するとはどういうことか、どこまでいったら理解なのか。それを機械に当てはめようとすると、その定義を決めてからでないと、判断できません。

先ほどのコンピュータは感情を持つのかという問いに対しては、私は必ず「そもそも人間に感情はあるんですか」と答えるようにしています。あるとしたら、何であるとわかるのでしょうか。コンピュータに関しても、例えば「嬉しい」という言葉を言わせて、見た目上、感情があるようにふるまわせることは多分できるでしょう。しかしそれは嬉しいという感情を持っていることになるのでしょうか。

最初に、私は言葉をデータと捉えるのではなく、どちらかというと「言葉とは一体何なのか」という、人間の知能の中核としての言葉に興味を持っているとお伝えしましたが、こうした根本的な人間の「理解」、「意味」や「論理」といったことは、言葉の上に成り立っていると思います。

言葉とは、私にとって人間の知能の中核をなすものです。言葉とは一体何なのか、簡単ではありませんが、その探求を今後も続けていきたいと思います。

インタビュー年月日

2023.10.20