MENU

AIは“空気”を読めるのか?GPT-4が映画から人間関係を理解する脳科学研究

こんにちは、Dayです!
このブログでは、最新の脳科学論文を一般の方にも楽しめるようにわかりやすくまとめています。

今回のテーマはAIは“空気”を読めるのか?GPT-4が映画から人間関係を理解する脳科学研究についてです。

人間は会話の内容だけでなく、表情や視線、立ち位置、しぐさなどを総合して「誰がリーダーなのか」「どんな感情が流れているのか」といった“空気”を読み取ります。これは脳が高度に発達させてきた「社会性」のスキルです。

ところが、最新の脳科学研究によって、AIのGPT-4が映画の場面を分析することで、同じように人間関係や社会的特徴を理解できることが示されました。さらに驚くべきことに、GPT-4の判断パターンは人間の脳活動とも似通っており、「AIが人間のように社会性を学習している」可能性が見えてきたのです。

本記事では、この注目の研究をわかりやすく解説しながら、AIがどこまで人間らしい“社会理解”に近づいているのか、そしてそれが私たちの未来にどんな意味を持つのかを探っていきます。

本記事は、以下の研究をもとにしました
Santavirta, S., Wu, Y., Suominen, L., & Nummenmaa, L. (2025). GPT-4V shows human-like social perceptual capabilities at phenomenological and neural levels. Imaging Neuroscience, 3, IMAG.a.134.
https://doi.org/10.1162/IMAG.a.134

目次

AIは“空気”を読めるのか?

私たち人間は、会話の内容だけでなく、表情や視線、しぐさ、立ち位置といった微妙なサインをもとに「場の空気」を読み取ります。たとえば、映画やドラマを見ているときに、「この人はリーダーだな」「この人は不安そうだ」と直感的に理解できるのは、脳が高度に発達させてきた“社会的知覚”の力によるものです。

一方で、AIはこれまで「言葉の意味」や「画像の物体認識」といったタスクが得意でしたが、人間のように人間関係や感情を読み取ることは難しいと考えられてきました。そこで登場したのが、マルチモーダルなAIであるGPT-4Vです。このモデルはテキストだけでなく画像や映像も理解できるため、「AIは人間のように空気を読めるのか?」という問いに答える絶好の対象として注目されています。

今回紹介する研究は、まさにこのテーマを扱い、AIが映画のシーンから人間関係や社会的特徴をどこまで理解できるのかを検証しました。
その結果は、従来のAI観を覆す驚きのものでした。

人間が自然に行っている「社会的知覚」とは

私たちは、日常生活の中で無意識のうちに「社会的知覚」を使っています。

社会的知覚とは、他人の表情や声のトーン、視線の動き、さらには体の向きや距離感などから「その人がどんな気持ちなのか」「誰と誰が仲が良いのか」といった情報を読み取る力のことです。

例えば、会議室に入った瞬間に「今日はピリピリした雰囲気だな」と感じたり、友人同士のやり取りを見て「この人がリーダー役だな」と判断したりするのも、社会的知覚の働きです。これは脳の複数の領域が協力し合いながら、感情や意図を素早く推測しているから可能になります。

この能力は人類が生き残るために欠かせないスキルでした。仲間と協力したり、敵対関係を避けたりするには「空気を読む力」が必要だったのです。そして現代社会でも、友人関係や職場での人間関係を円滑にするために、私たちは常にこの力を発揮しています。

AI研究で注目されるGPT-4Vの特徴

近年のAIは、文章だけでなく画像や音声など複数の情報を扱える「マルチモーダルAI」へと進化しています。その代表例が GPT-4V です。
従来の言語モデルは「テキストの理解と生成」が中心でしたが、GPT-4Vはさらに画像や映像を入力として解釈できる点が大きな特徴です。

たとえば、映画のワンシーンを見せると、登場人物の動作や表情をもとに「誰が誰を見ているのか」「どんな感情が表れているのか」といった説明を生成することができます。これは単なる「物体認識」にとどまらず、人間関係や状況の“文脈”を理解しようとする試みでもあります。

研究者たちがGPT-4Vに注目するのは、こうした能力が「人間の社会的知覚」にどれだけ近づいているのかを調べることで、AIが本当に人間らしい“社会性”を持てるのかどうかを検証できるからです。もしAIが人間と同じように空気を読み取れるなら、教育、医療、介護、カウンセリングなど、人との関わりが重要な領域に大きな可能性が広がります。

GPT-4Vは映画から人間関係をどう理解した?

今回の研究では、GPT-4Vに対して「映画のワンシーン」を提示し、その中で登場人物たちの関係性や感情をどのように読み取るかを検証しました。研究者たちは、「誰が中心人物なのか」「誰が誰に注目しているのか」「場の雰囲気は緊張しているのか、それとも和やかなのか」といった、合計138種類もの「社会的特徴」を定義しました。

そして、同じシーンについて人間の参加者(約2,200人)にも評価を依頼し、GPT-4Vの答えと比較しました。すると驚くべきことに、GPT-4Vは多くの項目で人間と非常に似た判断をしていたのです。

たとえば、映画の場面を見て「この人はリーダー的存在だ」「この人は孤立している」といった社会的な構造を理解できる点は、人間が直感的に行っている“空気読み”と近いものでした。これは、AIが単に「笑顔」や「怒った顔」といった感情ラベルを識別しているのではなく、文脈全体を考慮して人間関係を推測していることを示しています。

この結果は、「AIが人間らしい社会的理解を獲得しつつあるのではないか」という、大きな一歩を意味しています。

研究で使われた映画の社会的場面とは

研究者たちは、AIが本当に“空気”を読めるかどうかを試すために、映画の中から人間関係が色濃く表れるシーンを選びました。例えば、登場人物が集まって会話している場面や、誰かがリーダーシップを発揮する瞬間、あるいは緊張感の漂う対立の場面などです。

こうしたシーンには、言葉だけでは説明できない多くの情報が含まれています。

  • 誰が視線を向けているか
  • 誰が中心に立っているか
  • 表情や身振りから漂う感情
  • その場の雰囲気(和やかさ、緊張感、孤立感など)

研究チームはこれらを138種類の「社会的特徴」として整理し、映画の各場面を細かく分析しました。そして、GPT-4Vに対して「このシーンにはどの特徴が含まれているか」を答えさせたのです。

この方法によって、AIが単なる画像認識を超えて「社会的文脈」まで理解できるのかを検証できるようになりました。

人間の評価との比較で見えた共通点

研究では、映画の場面を見た約2,200人の人間参加者が「このシーンにはどんな社会的特徴があるか」を評価しました。たとえば「誰が注目を集めているか」「どんな感情が場を支配しているか」といった判断です。

そして、この人間の評価とGPT-4Vの答えを比較したところ、驚くほど多くの点で一致していることが明らかになりました。つまり、AIが選んだ社会的特徴のパターンが、人間が感じ取った印象とかなり重なるのです。

特に注目されたのは、AIが単に「笑顔」「怒り」といった表情ラベルを当てはめるのではなく、登場人物同士の関係性や場面全体の空気感まで推測していたことです。これは、まるで人間が直感的に「この人は孤立している」「この人はリーダーだ」と感じ取るのと近い働きをしていると考えられます。

この結果は、「AIはまだ完全に人間のようではないものの、少なくとも社会的な文脈を理解する方向に進化している」ということを示しています。

脳活動とAIが似ている?驚きの結果

今回の研究がさらに注目された理由は、GPT-4Vの判断が人間の脳の活動パターンと似ていた点にあります。

研究チームは、映画を見ている人の脳活動をfMRI(機能的MRI)で記録し、それをGPT-4Vが出力した「社会的特徴」のデータと比較しました。
その結果、人間の脳が社会的な場面を処理するときに活性化する領域と、GPT-4Vが導き出した特徴パターンの対応関係に驚くほどの共通性が見つかったのです。

具体的には、他者の感情や意図を理解するのに関わる脳領域(たとえば前頭葉や側頭葉の一部)が、人間の評価とGPT-4Vの出力の両方で一致する傾向を示しました。これは、AIが人間の脳と同じような“情報の整理の仕方”をしている可能性を示唆しています。

もちろん、GPT-4Vが人間のように本当に「感情」を理解しているわけではありません。しかし、「人間が空気を読むときに使っている仕組み」と「AIが導き出すパターン」が似てきているという事実は、科学的に非常に大きな発見です。

社会的特徴を処理する人間の脳の仕組み

人間の脳には、他人の感情や行動を理解するための特別なネットワークがあります。これを一般に「社会脳ネットワーク」と呼び、前頭前野、側頭葉、後帯状皮質など複数の領域が協力して働いています。

たとえば:

  • 前頭前野 → 相手の意図や未来の行動を推測する
  • 側頭葉(側頭頭頂接合部など) → 誰が誰に注意を向けているかを理解する
  • 後帯状皮質や楔前部 → 場面全体の雰囲気や文脈を把握する

こうした領域は、映画を見たり日常会話をしたりしているときにも活発に働きます。私たちが自然に「空気を読む」ことができるのは、この神経回路が瞬時に情報を統合しているからです。

今回の研究では、GPT-4Vが出力した「社会的特徴」のパターンが、まさにこれらの脳活動と強く相関していました。つまり、AIが“答えを出すときの情報整理の仕方”が、人間の脳が社会的な状況を処理するときのパターンに似ている可能性があるのです。

GPT-4Vのパターンが人間の脳に近い理由

では、なぜGPT-4Vの判断パターンは人間の脳活動と似ていたのでしょうか。大きな理由のひとつは、GPT-4Vが「大量の映像と言語データ」に基づいて学習していることにあります。

人間は日常生活の中で、視覚情報(表情や姿勢)と言語情報(会話の内容)を同時に処理して社会的な状況を理解します。
GPT-4Vも同じように、テキストと画像の両方を学習しているため、「視覚+言語」を統合して文脈を解釈する能力を獲得しているのです。

さらに、AIは映像を分析する際に「誰がどこを見ているか」「どんな感情表現をしているか」といった要素を組み合わせ、最終的に「場の雰囲気」や「人間関係の構造」を推測します。この処理の仕方が、人間の社会脳ネットワークの働き方と似ていることが、脳活動との共通性につながったと考えられます。

もちろん、GPT-4Vが人間のように本当に感情を理解しているわけではありません。しかし、外から観察できるパターンが似てきているという事実は、AIと人間の間に“共通の認識の枠組み”が生まれつつあることを示唆しています。

なぜこの研究が重要なのか

AIはこれまで、言葉や画像の「表面的な特徴」を処理することに強みを発揮してきました。しかし、人間社会における最大の特徴は「他者と関わり、協力しながら生きること」です。つまり、人間らしさを理解するには“社会性”の知覚が欠かせないのです。

今回の研究は、AIがその一歩を踏み出していることを示しました。GPT-4Vは、単に物を認識するだけでなく、映画の中で登場人物の関係性や場の雰囲気を理解し、人間の脳の活動とも似たパターンを示しました。これは、AIが「人間社会を人間らしい形で理解する」可能性を拓く画期的な成果です。

この発見が重要なのは、将来的にAIが私たちの生活にもっと自然に溶け込み、教育、医療、福祉、カウンセリング、さらには人間関係のサポートといった分野で活用される道を示しているからです。人の気持ちや関係性をある程度理解できるAIは、従来の機械にはできなかった役割を果たす可能性があります。

もちろん、AIは人間のように本当に感情を持っているわけではありません。それでも「空気を読む力」を部分的に再現できることが証明されたことは、科学的にも社会的にも大きな意味を持ちます。

AIが“社会性”を理解する未来の可能性

AIが人間のように“社会性”を理解できるようになれば、私たちの暮らしは大きく変わるかもしれません。

例えば教育の場面では、AIが子どもの表情や態度から学習のつまずきを察知し、教師をサポートする役割を果たせるでしょう。医療や福祉の現場では、患者や高齢者の感情の変化を読み取り、より寄り添ったケアを提供できる可能性があります。

また、カウンセリングやメンタルヘルスの分野でも、AIが人間関係の文脈を理解し、相談者の気持ちを整理する手助けをする未来が想定されます。単に「正しい答え」を出すのではなく、「その人の立場や心情を踏まえた対応」ができるようになれば、人間とAIの関係はさらに自然なものになるでしょう。

さらに、日常生活でもAIが「空気を読む」力を持つことで、家庭内の支援や仕事場でのコミュニケーション改善など、多様な応用が広がります。もちろん課題は多く残されていますが、この研究はAIが人間の社会性を理解する方向に確実に進化していることを示した重要な一歩なのです。

医療・教育・福祉への応用シナリオ

AIが社会的な文脈を理解できるようになると、私たちの生活のさまざまな場面で役立つ可能性があります。

1. 医療での応用
患者の表情や声のトーンをAIが読み取り、不安や痛みを感じているサインを早期に察知することができます。これにより、医師や看護師がより迅速に対応でき、患者に寄り添った治療やケアが可能になるでしょう。

2. 教育での応用
授業中の子どもの視線や態度から、AIが「集中していない」「理解に苦しんでいる」といったシグナルを見抜くことができます。教師はそれを参考にして指導法を変えたり、個別支援を行ったりできるようになります。

3. 福祉での応用
高齢者や介護を必要とする人々の日常生活の様子をAIが観察し、孤独感やストレスの兆候を検出できます。これにより、介護スタッフが適切なタイミングで声をかけ、安心できる生活環境を提供できるでしょう。

このように、AIが「空気を読む力」を少しでも持つようになれば、人間のサポート役として活躍する場面は飛躍的に広がります。今回の研究は、そうした未来の応用を現実味あるものにしたと言えるでしょう。

まとめ|AIと人間が“共通の目線”を持つ時代へ

今回ご紹介した研究は、「AIは人間のように空気を読めるのか?」というシンプルでありながら深い問いに挑んだものでした。結果として、GPT-4Vは映画のシーンから人間関係や雰囲気を理解し、その判断が人間の脳活動や直感的な評価と驚くほど似ていることが明らかになりました。

もちろん、AIが本当に感情を持っているわけではありません。しかし、人間とAIが同じようなパターンで社会的な状況を理解するという事実は、今後の社会に大きな意味を持ちます。教育や医療、福祉といった分野で、人間の“相棒”としてAIが自然に活躍する未来が少しずつ近づいているのです。

AIと人間が“共通の目線”を持てるようになれば、私たちの暮らしはより安心で豊かなものになるかもしれません。今回の研究は、その未来への重要な一歩を示したといえるでしょう。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

脳科学・神経科学を専門とする大学研究者。日々の研究活動で触れる最新の知見を、医療従事者や研究者だけでなく一般の方にも伝わりやすい形で紹介しています。このブログでは、PubMedなどから注目の論文をピックアップし、日本語で要約・解説します。

コメント

コメントする

目次