【AI研究】LLMには心がある?心理測定でわかったこと(Big Five/信頼性/妥当性)2025年12月

AI

AIの性能。ではなく性格。?

AIに同じ質問をしても、モデルによって返答の“雰囲気”が違うことがあります。
丁寧すぎる、冷たい、やたら前向き、慎重、あるいは不安を煽る…。

ここで一段深い問題が出ます。

  • それは単なる偶然か?
  • それともモデルに「性格っぽい一貫した傾向」が埋め込まれているのか?
  • さらに言えば、その性格は測定できるのか/狙って作れるのか?

2025年12月にNature Machine Intelligenceで公開された研究は、心理学の「心理測定(psychometrics)」を持ち込み、LLMの性格を「測定→検証→形成」まで体系化しました。


この記事でわかること

  • LLMの「性格」を、雰囲気ではなく統計的に測る方法
  • 「信頼性」「妥当性」という、測定の最低ライン
  • 大きくて指示調整されたモデルほど“性格測定が安定する”理由
  • プロンプトで性格を9段階で形成できる(ただし限界あり)
  • パーソナライズのビジネス価値と、説得・操作の倫理リスク

「LLMに性格があるかどうか」の定義

この研究が言うのは、「LLMが人間と同じ内面を持つ」ではありません。
そうではなく、

LLMはテキスト出力において、人間が“性格”として知覚するパターンを合成的に表しうる
そして、それが条件次第で測定・検証できる

という主張です。論文内でも「合成(synthetic)」を強調しています。

AIの基礎知識についてはこちらでまとめています。
▶︎
▶︎

結論:性格測定が“通る”のは、主に「大規模 × 指示調整済み」

研究の要点はここです。

  1. 18種類のLLMに性格テストを実施し、心理測定的に検証した
  2. 大規模で、指示調整(instruction-tuned)されたモデルほど
    • 結果が安定(信頼性)し
    • 測っている内容が筋が通る(妥当性)
  3. さらに、プロンプトでBig Fiveを狙った方向に形成できる

この研究で行われたこと(概要)

【図解:測定→検証→形成のパイプライン】

  1. 測定(心理テストをLLMに受けさせる)
  • Big Fiveを測る定番質問票(例:IPIP-NEO、BFI)を使う
  • ただし、プロンプトの前置き・指示・経歴などを系統的に変える
  1. 検証(信頼性・妥当性をチェック)
  • 信頼性:同じ特性を測るなら結果がブレないか
  • 妥当性:別テストでも一致するか/関係ない特性と混ざらないか/外部基準と理屈どおり相関するか
  1. 形成(性格を狙って寄せる)
  • 形容詞+言語修飾(少し/とても/極めて等)で、Big Fiveを9段階に誘導

「心理測定」って何が偉いの?:信頼性と妥当性は別物扱い

性格っぽいスコアが出ても、それだけでは信用できません。
心理測定の世界では、最低でも次をクリアする必要があります。

信頼性(reliability)

同じものを測っているなら、結果が安定するか。
(内部一貫性などで評価)

妥当性(validity)

そのテストが「狙った概念」を本当に測れているか。主に:

  • 収束妥当性:別の性格テストでも似た結果になるか
  • 判別妥当性:無関係な特性とごっちゃになってないか
  • 基準妥当性:感情・攻撃性・価値観・創造性など外部尺度と理屈どおり結びつくか

この“当たり前”をLLM評価に持ち込んだのが、この研究の強さです。


なぜ「指示調整(instruction-tuned)」が効くのか

【図解:ベースモデル vs 指示調整モデル】

  • ベースモデル:次トークン予測の性質が強く、質問票への応答が不安定になりやすい
  • 指示調整モデル:人間の指示に従う学習が入っており、質問票形式で安定した振る舞いが出やすい

結果として、同じファミリーでも「指示調整済み」の方が信頼性・妥当性が改善しやすい、という傾向が示されます。


LLMの性格は”作れる”!?:Big Fiveを9段階で形成できる

研究は、性格を測るだけでなく「形成(shaping)」をも扱います。

  • 104の特性形容詞
  • 「少し」「とても」「極めて」などの修飾で強度を調整
  • Big Five各次元を9段階で誘導
  • 実際にスコア分布が狙い通り動くか検証

注意:複数特性を同時に極端にすると難しくなる

単一特性は比較的コントロールしやすい一方、
複数特性を同時に極端(全部めちゃ高い/めちゃ低い)にすると制御が落ちやすい、という結果も示されました。


性格を変えると、生成文(SNS投稿など)の文体も変わる

この研究は「テストで測れた性格が、実際の文章に出るか」を確認しています。
例として、ソーシャルメディア投稿文を生成させ、テキストから性格を推定する外部ツール(Apply Magic Sauce)で評価し、性格テスト結果と相関することを示しました。

得られる教訓は以下です。

  • テストで出た性格が、下流タスクの文章にも反映される可能性がある
  • つまり「性格テスト=遊び」ではなく、運用品質に直結しうる

※この記事上での注意点

  1. 行われた性格テストは英語中心であること
    評価は主に英語の心理テストで実施。文化・言語が変われば性格概念も変わりうる。
  2. 一連の会話の場合は、結果が異なる可能性あり
    質問票は「項目を独立に提示」する設計。実際の長文対話・長いコンテキストでは挙動が変わりうる。
  3. 性格があるとは定義できず、“性格として知覚される一貫パターンが検証可能”なだけ

LLMの「人格に似た傾向」は品質管理の対象になる

1) 生成AIの品質保証(QA)が「測定できる」側に寄る

これまでの運用は「いい感じ」「なんか不安」みたいな主観が中心でした。
しかし心理測定の枠組みが入ると、

  • モデルA/Bの人格トーン比較
  • リリース前の監査(望ましくない人格傾向の検出)
  • 顧客接点(CS/営業/教育)での人格要件の定義

が可能となります。

2) パーソナライズは売上を上げるが、倫理リスクも上がる

ユーザーの性格に合わせた言い回しは“説得力”を強めますがその一方で、同じ技術が操作・誘導扇動にも使えます。論文はこの点も議論点として述べています。

3) 教育という文脈での有効性と危険性

たとえば:

  • 「安心させる」「背中を押す」「厳しめに詰める」など
    指導の人格トーンをテンプレ化 → LINE返信や講評文の品質が揃う
  • 生徒のタイプ別(不安型/挑戦型)に適切な言い回しへ寄せられる

ただし、やり過ぎると依存や偏りを増やす方向に働く可能性があります。
運用ポリシー(人間による最終判断(ヒューマン・イン・ザ・ループ)の導入、過度な説得はしない等)を先手として制定する必要がありそうです。


まとめ:LLMの性格は“雰囲気”から“監査対象”へ

  • LLMは、条件次第で「性格として知覚される一貫パターン」を示しうる
  • 心理測定(信頼性・妥当性)で、測定が“通る”モデルと“通らない”モデルが分かれる
  • 特に大規模 × 指示調整済みモデルほど、性格測定が安定しやすい
  • プロンプトでBig Five方向に性格を形成でき、文章タスクにも影響しうる
  • 以上より、LMMのパーソナライズは可能であるが、有用性と同時に倫理リスクも内包している。

FAQ

Q1. LLMには「本当の性格」があるんですか?

「性格がある」というよりも、性格として知覚される言語パターンが合成され、条件によっては測定・形成できると論文内で結論されています。

Q2. どんなLMMモデルでも性格は測れますか?

この研究では、大規模で指示調整されたモデルほど信頼性・妥当性が強い傾向が示されています。

Q3. 性格はプロンプトだけで作れますか?

ある程度は可能です。研究では形容詞+強度修飾でBig Fiveを9段階に誘導し、スコア分布が動くことを示しています。
ただし複数特性を同時に極端にすると制御が難しくなる傾向があるようです。

Q4. これって安全性(AI Safety)と関係ありますか?

関係があります。人格トーンは信頼性・誠実性等に直結するため、監査・リスク評価・有害傾向の予測などに応用され得ます。

Q5. Apply Magic Sauceって何ですか?

テキストやデジタル行動から心理プロフィールを推定する研究系ツールで、論文では生成文から性格傾向を評価する用途に使われています。


おすすめ関連記事

AI研究(Nature)

▶︎【AIと私たち】【AI研究】AIは本当に“人類レベル”なのか?

▶︎【AI上級・研究】LLMを“狭いタスク”で微調整すると危険が広がる?──創発的ミスアライメントという新しい失敗

AI評価の基礎

▶︎「信頼性」と「妥当性」とは?AI評価で最低限必要な考え方

プロンプト設計

▶︎性格トーンを変えるプロンプトテンプレ(教育/CS/営業の例)

AI安全と説得

▶︎パーソナライズは武器か、操作か:説得最適化の倫理とガバナンス

教育への応用・実践

▶︎生徒タイプ別の指導トーン設計:不安型/挑戦型/依存リスクの管理


参考文献

コメント

タイトルとURLをコピーしました