200件以上のソースを「解析 vs 分析」の軸で再整理した結論。
生成AI(LLM)の能力を正面から検証し、従来AI(ML)との違いを明確にします。
生成AIの能力を正しく評価するために、「解析」と「分析」を明確に区別します。
機械的な計算処理。明確な正解が存在する。
解釈的な判断。文脈と洞察が求められる。
⚠ なぜこの区別が重要か: 「AIで分析できた」という成功事例の多くは、実は従来AIによる解析の実績です。 $4Bの不正支払い防止(米国財務省)、Netflixの推薦エンジン、Amazonの需要予測 — これらはすべて従来型ML(機械学習)の成果であり、生成AI(LLM)による成果ではない。 この区別を曖昧にすると、生成AIの能力を過大評価する原因になる。
ゼロショットの利便性は高いが、企業規模データでは精度が大幅に低下する。
ハイブリッド(人間+LLM)なら有効。LLM単独では58%精度。
構造化データの予測・分類で圧倒的実績。
事前定義パターン内で有効。新しい仮説生成は困難。
ゼロショットで動作する利便性は高いが、企業規模データでは精度が大幅に低下する。学術ベンチマークの数値と実環境の乖離が大きい。
きれいな学術スキーマ(Spider 1.0): GPT-4o 86.6%。現実世界のDB(BIRD): 46-82%(方法論により変動)。企業規模のDB(Spider 2.0, ICLR 2025): テキスト-to-SQLパーサー 0.7-5.7%、コードエージェント 10-21%。マーケティングDBは通常Spider 2.0に近い複雑さを持つ。
GPT-4ゼロショット: 単純な感情分類では従来のRoBERTa/BERTと同等〜やや上回る(Zhang et al., NAACL 2024)。しかし複雑な感情現象ではファインチューニング済み小規模モデルに劣る。課題: 確率的デコーディングによる実行間の精度変動(Herrera-Poyatos et al., 2025)。
ゼロショットGPT-4: タスクによりF1 0.13〜0.87と大幅に変動。微調整DeBERTa-V3: 複数タスクでF1 0.90以上(Bucher & Martini, 2024)。ゼロショットの価値はラベル付き学習データが不要なこと。学習データがあれば微調整モデルが上回る。
単純計算(ROAS = 売上/広告費): 高精度(GSM8Kで97%の多段階算数を解くため、単一除算はほぼ正確)。連鎖推論(複数テーブル→フィルタ→計算): 精度が大幅に低下。表形式推論: GPT-5 69.6%(MMTU, NeurIPS 2025)。企業DBへの質問応答: 16%(Sequeda et al., 2024)。
LLMが数値を直接推論するのではなく、Python/pandasコードを生成→決定論的に実行するパターンでは精度が向上する。DataSciBenchではGPT-4oが66%成功率(最高スコア)。数値推論を直接行うよりは改善される。パターン: LLMがコード生成 → ランタイムが実行 → 人間が検証。
2つのエンタープライズデータウェアハウス(計6データベース、最大366テーブル)に対する完全自動化テスト(Chen et al., 2024)。最先端LLMエージェントの完全自動成功率: 0%。ゴールドテーブル+カラムマッピング提供時でも4.2%。企業規模のDBでは、Text-to-SQLの完全自動化はまだ実現していない。
912の実世界スプレッドシートタスクでLLMの表計算能力をテスト(Ma et al., NeurIPS 2024)。GPT-4o単体: 17-20%(人間専門家: 71%)。後続のリーダーボード投稿ではエージェント方式で大幅改善が報告されており、ツール使用パターンの有効性を示唆する。
マーケティングにおける解釈的分析。ハイブリッド(人間+LLM)では一定の成果が報告されているが、LLM単独では限界が大きい。
LLMが質的インタビューの実施・モデレーション・テーマ生成・要約を担当(Arora et al., JM 2025)。人間+LLMハイブリッドが「人間のみ」「LLMのみ」の両方を上回ると報告。ただし、LLM単独では品質が低下した。
ブランドポジショニングマップ、類似性判断、属性評価を自動化(Li et al., Marketing Science Vol.43, 2024)。人間との一致率75%超。ただし検証は一部のカテゴリに限定。
実際の広告データで「なぜパフォーマンスが低下したか」を診断(SharedPhysics, 2025)。Claude: オーディエンス飽和・クリエイティブ疲労を正しく特定。しかし「コンバージョンファネル問題」の診断は実データで否定された(偽陽性)。筆者の評価: 「作業の80%まで到達するが、最後の20%は人間の介入が必要」「専門家にとってはコパイロット、初心者にとっては危険なオートパイロット」。
411の実世界データを使った統計・因果推論テスト(Liu et al., ACL Findings 2024)。GPT-4総合: 58%。テキストベースの統計推論: 89%。テキストベースの因果推論: 44.2%。因果推論はLLMのスコアが最も低い領域。論文は「相関と因果の混同」を指摘。
戦略的分析において信頼性較正の失敗が報告されている(Joshi, 2025、Springer系統的レビュー, 2025)。LLMは高い確信度で不正確な分析を出力する傾向があり、専門知識のないユーザーが誤りを検出しにくい。マーケティング領域ではブランドイメージ毀損のリスクが指摘されている。
LLMの因果推論能力は、条件によって精度が劇的に変動する。Corr2Cause (ICLR 2024): 相関→因果の発見タスクでGPT-4 F1 29%。CLADDER: 因果グラフ付きCausalCoTで最大70.4%(GPT-4)。Kiciman et al.: 既知の因果ペアでは97%一致。結論: LLMは学習データに存在する因果関係の「検索」は得意だが、新しい因果関係の「発見」は困難。
推論能力を強化したo4-miniモデルで、PersonQAベンチマークのハルシネーション率が48%(OpenAI System Card)。推論を「深く考える」ほどもっともらしい誤答を生成する「推論モデルのパラドクス」が報告されている。分析タスクでは、推論能力の強化がハルシネーション率の低下に直結しないことを示す。
LLMベースの消費者デジタルツインが購買行動を85.9%の精度で予測(ベースLLM 54.1%から向上)(Li et al., MSI 25-135)。NEC BestMoveは生成AIでマーケティング戦略を自動提案(ENEOSが先行活用を検討中)。
PwC Japan調査(2025春): 日本で「期待を大きく上回る」企業は10%(米国45%)。23%が「期待を下回る」。コンプライアンス懸念は44%(前回比+23pt)。Gartner予測(2024年7月): GenAIプロジェクトの30%が2025年末までにPoC後放棄される見通し。
「AIの分析成功事例」として語られるものの多くは従来型MLの実績である。生成AIとの違いを明確にするために整理する。
米国財務省: ML活用で$4B以上の不正支払いを防止(FY2024)。Netflix: 視聴の80%がML推薦(Gomez-Uribe & Hunt, ACM 2015のデータ)。Amazon: 売上の35%が推薦(McKinsey 2013年頃の報告)。チャーン予測、LTV予測、価格最適化は従来型MLが主流。臨床予測タスクではGPT-3.5/4よりローカルML(勾配ブースティング)が上回った(Brown et al., JAMIA 2025)。
k-meansクラスタリングによる顧客分類は正確だが、セグメントの意味付けは人間依存。時系列モデルは需要予測でLLMを上回る。しかし非構造化データの皮肉・矛盾・文脈の検出は困難であり、カスタマーレビューの「行間を読む」タスクではLLMに劣る。
「AIで分析に成功」として語られる事例の多くは、従来型MLによる計算処理(解析)の実績。米国財務省の$4B不正防止、Netflixの推薦、Amazonの需要予測はいずれも従来型ML。SECは2024年3月にDelphia社に$225K罰金を科し、DOJは2025年4月にNate社創業者を刑事訴追するなど、「AI Washing」への法的対応が進んでいる。
生成AIが従来AIを上回ると報告されている場面: (1) 学習データが存在しない新規タスク、(2) 人間との協働で質的インサイトを生成する場面。Journal of Marketing 2025では、人間+LLMハイブリッドが人間のみ・LLMのみの両方を上回ったと報告されている。
Dell'Acqua et al. (HBS 2024)の758名実験。フロンティア内(情報の統合・解釈 → 分析的タスク)ではAI利用で+40%品質向上。フロンティア外(正確な数値計算 → 解析的タスク)では19ポイント悪化。論文はユーザーが誤った結果を無批判に受け入れるリスクを指摘。
BCG (2024)、MIT Sloan (2024)、Google Cloudが共通して提示する構成:
GenAI gathers intent + context
→ Traditional ML scores / ranks / flags
→ GenAI explains + drafts next action
→ Human approves
「生成AIは分析に向いているのか」という問いは、タスクの種類を区別していない点で不十分である。
エビデンスが示唆するより適切な問いは: 「生成AIは、どの種類のタスクに、どのような条件で使えるのか」である。
| 組み合わせ | 評価 | 根拠 |
|---|---|---|
| 生成AI 解析 | ★★★☆☆ | ゼロショットの利便性は高い。ただし企業規模データでは精度が大幅に低下(BEAVER完全自動0%・半自動4.2%、企業DB質問応答16%)。学術ベンチマークとの乖離が大きい。 |
| 生成AI 分析 | ★★☆☆☆ | ハイブリッドなら有望(JM 2025)。因果推論: Corr2Cause F1 29%〜Kiciman 97%(既知ペア)/ CLadder 70%(CausalCoT)。o4-mini 48%ハルシネーション。 |
| 従来AI 解析 | ★★★★★ | 数百億ドル規模の実証済み実績。構造化データの予測・分類で最適解。 |
| 従来AI 分析 | ★★★☆☆ | 事前定義パターン内で有効。新しい洞察の生成は苦手。 |
複数の調査機関(BCG、MIT Sloan、Google Cloud)が提示する方向性は統合アーキテクチャである。生成AIをインターフェース層(意図把握、仮説生成、説明)、従来MLを意思決定エンジン(予測、スコアリング、ランキング)、人間を最終承認者として配置する。この三層構造が、現時点で参照されたエビデンスと整合する構成である。
このレポートは、生成AI(Claude Opus 4.6)がリサーチと執筆を行い、人間が企画・構成・レビュー・ファクトチェックの指示を行った。 つまり、このレポートが分析対象としている行為 — AIによる分析 — の実例そのものである。 レポートの結論を自身に適用した結果を以下に開示する。
第1回: 初稿で6件の事実誤認。例: HSBC $4B(実際は米国財務省)、因果推論97%(実際は44.2%)。
第2回: 新研究追加時にさらに7件以上の誤り。例: BEAVER「100企業DB、半自動18%」(実際は2DW/6DB、最大4.2%)、CLADDER「92%」(実際は70.4%)、SpreadsheetBench「69%」(論文に存在しない数値を捏造)。
第3回: 修正済みの両レポートを再ファクトチェックしてさらに約10件の誤り。例: Danske Bank数値が逆転(誤検知と詐欺検知の入れ替え)、GSM8K汚染「22.9%」(実際は最大13%)、MMLU汚染「19.0%」(実際は14-16ポイント)、Zillow損失「3万ドル/戸」(実際は約8万ドル)、FinSheet-Bench比較の誤解(異なるモデル・条件の数値を同一比較)。
3回のファクトチェックで計23件以上の誤りを修正。前回の修正後にも新たな誤りが発見され続けるという事実が、レポート自身が警告するハルシネーション問題の再現性を証明している。
表現バイアス: 初稿で15件の評価的表現(「革命的」「致命的」等)が含まれていた。
数値バイアス(追従性): 第2回ファクトチェックで、AIが生成した数値が系統的に生成AIの性能を過大評価していたことが判明。CLADDER 92%(実際は70.4%)、SpreadsheetBench 69%(論文に存在しない数値)、BEAVER半自動18%(実際は4.2%)。依頼者が「生成AIを分析に使いたい」という前提で調査を依頼しているため、AIが好意的な数値を生成する方向にバイアスがかかっていた。これはレポートが指摘する追従性(sycophancy)の実例であり、この発見を受けて結論テーブルの「生成AI×解析」の評価を★4から★3に下方修正した。
一部のソースは正確なURLを特定できず(arXivトップへの汎用リンク等)、「複数研究」としか記載できない項目も存在する。また、出典を誤った論文にリンクしていた例が5件(プロンプト感度、ベンチマーク汚染等)あり、修正した。これは生成AIによるリサーチの検証可能性の限界を示している。
本レポートの作成プロセス自体が、レポートが推奨する統合アーキテクチャの実践例である。AI初稿→人間指示→AI再検証→人間レビュー→新研究追加→再度ファクトチェック→再修正→評価の下方修正→さらに再ファクトチェック→再々修正。3回のサイクルが必要だった事実(しかも3回目でもまだ約10件の誤りが発見された)は、人間の検証が不可欠であること、かつ複数回の検証でも完全な正確性は保証されないことを示す。なお、この修正プロセスを経てもなお、本レポートに未検出の誤りが残っている可能性がある。
この注記自体も生成AIが執筆し、人間がレビューしている。