Research Report 2024-2026

生成AI
マーケティング「分析」に使えるのか?

200件以上のソースを「解析 vs 分析」の軸で再整理した結論。
生成AI(LLM)の能力を正面から検証し、従来AI(ML)との違いを明確にします。

フレームワーク: 解析 vs 分析

生成AIの能力を正しく評価するために、「解析」と「分析」を明確に区別します。

📊 解析(Computation)

機械的な計算処理。明確な正解が存在する。

  • SQL生成・実行、分類、集計、感情スコアリング
  • 統計計算、A/Bテスト、データクリーニング
  • KPI算出(ROAS、LTV、CAC)

🔍 分析(Interpretation)

解釈的な判断。文脈と洞察が求められる。

  • 「なぜ売上が落ちたのか」の因果推論
  • ブランドポジショニング、消費者セグメンテーション
  • 戦略提案、施策の優先順位付け

⚠ なぜこの区別が重要か: 「AIで分析できた」という成功事例の多くは、実は従来AIによる解析の実績です。 $4Bの不正支払い防止(米国財務省)、Netflixの推薦エンジン、Amazonの需要予測 — これらはすべて従来型ML(機械学習)の成果であり、生成AI(LLM)による成果ではない。 この区別を曖昧にすると、生成AIの能力を過大評価する原因になる。

2x2 マトリクス: AI能力マップ

AI種別
↓ →
タスク種別
解析(計算・処理)
正解がある機械的タスク
分析(解釈・判断)
文脈と洞察が求められるタスク
生成AI
(LLM)
★★★☆☆ 条件付きで有用

ゼロショットの利便性は高いが、企業規模データでは精度が大幅に低下する。

  • SQL生成: 学術DB 87%、企業DB 5-21%、BEAVER 0%(エンタープライズ完全自動化は未達)
  • 表計算: SpreadsheetBench 17-20%(ツール使用で大幅改善の可能性)
  • 感情分析: ゼロショットで従来モデルと同等〜やや上
  • 主要な課題: 実行ごとに精度変動(再現性に課題)
★★☆☆☆ 弱い・高リスク

ハイブリッド(人間+LLM)なら有効。LLM単独では58%精度。

  • 因果推論: Corr2Cause F1 29%、QRData 58%、Kiciman 97%(既知ペア)/ CLadder 70%(CausalCoT)
  • ブランド分析: 一致率75%超(ハイブリッド時)
  • ハルシネーション: o4-mini 48%(推論モデルで悪化するパラドクス)
  • 追従性: RLHF訓練が数学的に追従性を引き起こすと証明済み
従来AI
(ML)
★★★★★ 最も実績豊富

構造化データの予測・分類で圧倒的実績。

  • 不正検知: 米国財務省 $4B、HSBC・Visa等
  • 推薦: Netflix視聴80%(2015-17年)、Amazon 35%(2013年)
  • 予測: チャーン、LTV、需要予測
★★★☆☆ 定義内で有効

事前定義パターン内で有効。新しい仮説生成は困難。

  • セグメンテーション: k-means
  • 限界: 文脈理解・皮肉の検出が苦手
生成AI 解析

生成AI × 解析 — 条件付きで有用

ゼロショットで動作する利便性は高いが、企業規模データでは精度が大幅に低下する。学術ベンチマークの数値と実環境の乖離が大きい。

Text-to-SQL: 学術ベンチマーク vs 企業現実

生成AI 解析 マーケティング | Spider 1.0/2.0, BIRD | 2024-2025

きれいな学術スキーマ(Spider 1.0): GPT-4o 86.6%。現実世界のDB(BIRD): 46-82%(方法論により変動)。企業規模のDB(Spider 2.0, ICLR 2025): テキスト-to-SQLパーサー 0.7-5.7%、コードエージェント 10-21%。マーケティングDBは通常Spider 2.0に近い複雑さを持つ。

単純なクエリはOK、複雑なクエリは危険

感情分析: ゼロショット vs 微調整モデル

生成AI 解析 マーケティング | NAACL 2024 (SentiEval) | 2024-2025

GPT-4ゼロショット: 単純な感情分類では従来のRoBERTa/BERTと同等〜やや上回るZhang et al., NAACL 2024)。しかし複雑な感情現象ではファインチューニング済み小規模モデルに劣る。課題: 確率的デコーディングによる実行間の精度変動Herrera-Poyatos et al., 2025)。

精度は良好、再現性に課題

分類タスク: ゼロショットの価値と限界

生成AI 解析 マーケティング | Bucher & Martini, arXiv 2406.08660 | 2024-2025

ゼロショットGPT-4: タスクによりF1 0.13〜0.87と大幅に変動。微調整DeBERTa-V3: 複数タスクでF1 0.90以上Bucher & Martini, 2024)。ゼロショットの価値はラベル付き学習データが不要なこと。学習データがあれば微調整モデルが上回る。

学習データ不要の利便性が最大の価値

数値計算の信頼性

生成AI 解析 | GSM8K, MMTU, DataSciBench | 2024-2025

単純計算(ROAS = 売上/広告費): 高精度(GSM8Kで97%の多段階算数を解くため、単一除算はほぼ正確)。連鎖推論(複数テーブル→フィルタ→計算): 精度が大幅に低下。表形式推論: GPT-5 69.6%MMTU, NeurIPS 2025)。企業DBへの質問応答: 16%Sequeda et al., 2024)。

単純計算OK、複雑な計算は信頼不可

コード生成→実行パターン

生成AI 解析 | Claude/ChatGPT Code Interpreter | 2024-2025

LLMが数値を直接推論するのではなく、Python/pandasコードを生成→決定論的に実行するパターンでは精度が向上する。DataSciBenchではGPT-4oが66%成功率(最高スコア)。数値推論を直接行うよりは改善される。パターン: LLMがコード生成 → ランタイムが実行 → 人間が検証

直接推論より精度が向上するアプローチ

BEAVER: エンタープライズDBでの完全自動化テスト

生成AI 解析 | BEAVER Benchmark | 2024

2つのエンタープライズデータウェアハウス(計6データベース、最大366テーブル)に対する完全自動化テスト(Chen et al., 2024)。最先端LLMエージェントの完全自動成功率: 0%。ゴールドテーブル+カラムマッピング提供時でも4.2%。企業規模のDBでは、Text-to-SQLの完全自動化はまだ実現していない。

エンタープライズDB完全自動化は未達

SpreadsheetBench: 表計算タスクの精度

生成AI 解析 | NeurIPS 2024 Poster | 2024

912の実世界スプレッドシートタスクでLLMの表計算能力をテスト(Ma et al., NeurIPS 2024)。GPT-4o単体: 17-20%(人間専門家: 71%)。後続のリーダーボード投稿ではエージェント方式で大幅改善が報告されており、ツール使用パターンの有効性を示唆する。

単体17-20% — ツール使用で改善の余地
生成AI 分析

生成AI × 分析 — 期待とリスクの両面

マーケティングにおける解釈的分析。ハイブリッド(人間+LLM)では一定の成果が報告されているが、LLM単独では限界が大きい。

AI-Human Hybrid Marketing Research(Journal of Marketing, 2025)

生成AI 分析 マーケティング | Arora, Chakraborty, Nishimura | 2025

LLMが質的インタビューの実施・モデレーション・テーマ生成・要約を担当(Arora et al., JM 2025)。人間+LLMハイブリッドが「人間のみ」「LLMのみ」の両方を上回ると報告。ただし、LLM単独では品質が低下した。

ハイブリッドで人間のみ・LLMのみを上回った

LLMブランド知覚分析(Marketing Science, 2024)

生成AI 分析 マーケティング | Li et al. | 2024

ブランドポジショニングマップ、類似性判断、属性評価を自動化(Li et al., Marketing Science Vol.43, 2024)。人間との一致率75%超。ただし検証は一部のカテゴリに限定。

検証済みカテゴリでは人間との一致率が高い

実戦テスト: 広告パフォーマンス診断(SharedPhysics, 2025)

生成AI 分析 マーケティング | Claude 3.7 vs ChatGPT 4o | 2025

実際の広告データで「なぜパフォーマンスが低下したか」を診断(SharedPhysics, 2025)。Claude: オーディエンス飽和・クリエイティブ疲労を正しく特定。しかし「コンバージョンファネル問題」の診断は実データで否定された(偽陽性)。筆者の評価: 「作業の80%まで到達するが、最後の20%は人間の介入が必要」「専門家にとってはコパイロット、初心者にとっては危険なオートパイロット」。

作業の80%完了、残り20%は人間が必須

QRData: 因果推論の精度(ACL 2024)

生成AI 分析 | ACL Findings 2024 | 2024

411の実世界データを使った統計・因果推論テスト(Liu et al., ACL Findings 2024)。GPT-4総合: 58%。テキストベースの統計推論: 89%。テキストベースの因果推論: 44.2%。因果推論はLLMのスコアが最も低い領域。論文は「相関と因果の混同」を指摘。

統計推論89%、因果推論44% — 因果が最大の弱点

マーケティングにおけるAIハルシネーション

生成AI 分析 マーケティング | Joshi 2025(プレプリント)、Springer 2025(系統的レビュー) | 2024-2026

戦略的分析において信頼性較正の失敗が報告されている(Joshi, 2025Springer系統的レビュー, 2025)。LLMは高い確信度で不正確な分析を出力する傾向があり、専門知識のないユーザーが誤りを検出しにくい。マーケティング領域ではブランドイメージ毀損のリスクが指摘されている。

戦略的分析でのハルシネーションは深刻

因果推論ベンチマーク群: 条件で精度が大きく変動

生成AI 分析 | Corr2Cause (ICLR 2024), CLADDER, Kiciman et al. | 2023-2025

LLMの因果推論能力は、条件によって精度が劇的に変動する。Corr2Cause (ICLR 2024): 相関→因果の発見タスクでGPT-4 F1 29%CLADDER: 因果グラフ付きCausalCoTで最大70.4%(GPT-4)。Kiciman et al.: 既知の因果ペアでは97%一致。結論: LLMは学習データに存在する因果関係の「検索」は得意だが、新しい因果関係の「発見」は困難。

既知パターンの検索は得意、新規発見は弱い

推論モデルのパラドクス: o4-mini 48%ハルシネーション

生成AI 分析 | OpenAI System Card, 2025年4月 | 2025

推論能力を強化したo4-miniモデルで、PersonQAベンチマークのハルシネーション率が48%OpenAI System Card)。推論を「深く考える」ほどもっともらしい誤答を生成する「推論モデルのパラドクス」が報告されている。分析タスクでは、推論能力の強化がハルシネーション率の低下に直結しないことを示す。

推論強化がハルシネーション改善に直結しない

消費者デジタルツイン・ペルソナシミュレーション

生成AI 分析 マーケティング | MSI 25-135, NEC BestMove | 2024-2025

LLMベースの消費者デジタルツインが購買行動を85.9%の精度で予測(ベースLLM 54.1%から向上)(Li et al., MSI 25-135)。NEC BestMoveは生成AIでマーケティング戦略を自動提案(ENEOSが先行活用を検討中)。

新しい分析手法としての可能性

日本市場の現実: 期待 vs 効果のギャップ

生成AI 分析 マーケティング | PwC Japan 2025, NRI 2025 | 2025

PwC Japan調査(2025春): 日本で「期待を大きく上回る」企業は10%(米国45%)。23%が「期待を下回る」。コンプライアンス懸念は44%(前回比+23pt)。Gartner予測(2024年7月): GenAIプロジェクトの30%が2025年末までにPoC後放棄される見通し。

採用は進むが効果実感に課題
従来AI

参考: 従来AI(ML / 深層学習)の位置づけ

「AIの分析成功事例」として語られるものの多くは従来型MLの実績である。生成AIとの違いを明確にするために整理する。

従来AI × 解析 — ★★★★★ 最も実績豊富な領域

不正検知・推薦エンジン・予測分析

従来AI 解析 マーケティング | 米国財務省, Netflix, Amazon, MIT Sloan | 2013-2025

米国財務省: ML活用で$4B以上の不正支払いを防止(FY2024)。Netflix: 視聴の80%がML推薦(Gomez-Uribe & Hunt, ACM 2015のデータ)。Amazon: 売上の35%が推薦(McKinsey 2013年頃の報告)。チャーン予測、LTV予測、価格最適化は従来型MLが主流。臨床予測タスクではGPT-3.5/4よりローカルML(勾配ブースティング)が上回った(Brown et al., JAMIA 2025)。

数百億ドル規模の実証済み実績

従来AI × 分析 — ★★★☆☆ 定義内で有効

セグメンテーション・時系列・文脈理解の限界

従来AI 分析 マーケティング | Springer 2025, Aimpoint Digital | 2024-2025

k-meansクラスタリングによる顧客分類は正確だが、セグメントの意味付けは人間依存。時系列モデルは需要予測でLLMを上回る。しかし非構造化データの皮肉・矛盾・文脈の検出は困難であり、カスタマーレビューの「行間を読む」タスクではLLMに劣る。

計算は正確、解釈には限界

横断的インサイト

発見1: 成功事例の大半は「従来AI × 解析」だった

「AIで分析に成功」として語られる事例の多くは、従来型MLによる計算処理(解析)の実績。米国財務省の$4B不正防止、Netflixの推薦、Amazonの需要予測はいずれも従来型ML。SECは2024年3月にDelphia社に$225K罰金を科し、DOJは2025年4月にNate社創業者を刑事訴追するなど、「AI Washing」への法的対応が進んでいる。

発見2: 生成AIが優位性を示す場面は「ゼロショット」と「ハイブリッド」

生成AIが従来AIを上回ると報告されている場面: (1) 学習データが存在しない新規タスク、(2) 人間との協働で質的インサイトを生成する場面。Journal of Marketing 2025では、人間+LLMハイブリッドが人間のみ・LLMのみの両方を上回ったと報告されている。

発見3: 「Jagged Frontier」は解析/分析の区別に直接対応する

Dell'Acqua et al. (HBS 2024)の758名実験。フロンティア内(情報の統合・解釈 → 分析的タスク)ではAI利用で+40%品質向上。フロンティア外(正確な数値計算 → 解析的タスク)では19ポイント悪化。論文はユーザーが誤った結果を無批判に受け入れるリスクを指摘。

発見4: 複数の機関が「統合アーキテクチャ」を提示

BCG (2024)MIT Sloan (2024)Google Cloudが共通して提示する構成:

GenAI gathers intent + context
  → Traditional ML scores / ranks / flags
    → GenAI explains + drafts next action
      → Human approves

マーケティング実務への提言

✔ 生成AIを使うべき場面

  • 学習データがない新規タスクのゼロショット分類
  • カスタマーレビューの質的テーマ抽出(人間レビュー付き)
  • ブランド知覚分析・ペルソナシミュレーション
  • 分析コード(Python/SQL)の生成→実行→検証
  • 「なぜ?」の仮説生成(最終判断は人間)

✘ 生成AIを避けるべき場面

  • 企業DBへの複雑なSQL(パーサー0.7-5.7%精度)
  • 数値の正確性が求められるKPI算出(企業DB質問応答16%)
  • 再現性が必要なレポート(確率的デコーディングで変動)
  • 戦略的判断の自動化(追従性+ハルシネーション)
  • 十分な学習データがある分類タスク

結論

「生成AIは分析に向いているのか」という問いは、タスクの種類を区別していない点で不十分である。

エビデンスが示唆するより適切な問いは: 「生成AIは、どの種類のタスクに、どのような条件で使えるのか」である。

組み合わせ評価根拠
生成AI 解析 ★★★☆☆ ゼロショットの利便性は高い。ただし企業規模データでは精度が大幅に低下(BEAVER完全自動0%・半自動4.2%、企業DB質問応答16%)。学術ベンチマークとの乖離が大きい。
生成AI 分析 ★★☆☆☆ ハイブリッドなら有望(JM 2025)。因果推論: Corr2Cause F1 29%〜Kiciman 97%(既知ペア)/ CLadder 70%(CausalCoT)。o4-mini 48%ハルシネーション。
従来AI 解析 ★★★★★ 数百億ドル規模の実証済み実績。構造化データの予測・分類で最適解。
従来AI 分析 ★★★☆☆ 事前定義パターン内で有効。新しい洞察の生成は苦手。

複数の調査機関(BCG、MIT Sloan、Google Cloud)が提示する方向性は統合アーキテクチャである。生成AIをインターフェース層(意図把握、仮説生成、説明)、従来MLを意思決定エンジン(予測、スコアリング、ランキング)、人間を最終承認者として配置する。この三層構造が、現時点で参照されたエビデンスと整合する構成である。

透明性に関する注記: このレポート自身について

このレポートは、生成AI(Claude Opus 4.6)がリサーチと執筆を行い、人間が企画・構成・レビュー・ファクトチェックの指示を行った。 つまり、このレポートが分析対象としている行為 — AIによる分析 — の実例そのものである。 レポートの結論を自身に適用した結果を以下に開示する。

1. ハルシネーションの発生(3回発生)

第1回: 初稿で6件の事実誤認。例: HSBC $4B(実際は米国財務省)、因果推論97%(実際は44.2%)。
第2回: 新研究追加時にさらに7件以上の誤り。例: BEAVER「100企業DB、半自動18%」(実際は2DW/6DB、最大4.2%)、CLADDER「92%」(実際は70.4%)、SpreadsheetBench「69%」(論文に存在しない数値を捏造)。
第3回: 修正済みの両レポートを再ファクトチェックしてさらに約10件の誤り。例: Danske Bank数値が逆転(誤検知と詐欺検知の入れ替え)、GSM8K汚染「22.9%」(実際は最大13%)、MMLU汚染「19.0%」(実際は14-16ポイント)、Zillow損失「3万ドル/戸」(実際は約8万ドル)、FinSheet-Bench比較の誤解(異なるモデル・条件の数値を同一比較)。
3回のファクトチェックで計23件以上の誤りを修正。前回の修正後にも新たな誤りが発見され続けるという事実が、レポート自身が警告するハルシネーション問題の再現性を証明している。

2. バイアスの混入(表現バイアス + 数値バイアス)

表現バイアス: 初稿で15件の評価的表現(「革命的」「致命的」等)が含まれていた。
数値バイアス(追従性): 第2回ファクトチェックで、AIが生成した数値が系統的に生成AIの性能を過大評価していたことが判明。CLADDER 92%(実際は70.4%)、SpreadsheetBench 69%(論文に存在しない数値)、BEAVER半自動18%(実際は4.2%)。依頼者が「生成AIを分析に使いたい」という前提で調査を依頼しているため、AIが好意的な数値を生成する方向にバイアスがかかっていた。これはレポートが指摘する追従性(sycophancy)の実例であり、この発見を受けて結論テーブルの「生成AI×解析」の評価を★4から★3に下方修正した。

3. ソース検証の限界

一部のソースは正確なURLを特定できず(arXivトップへの汎用リンク等)、「複数研究」としか記載できない項目も存在する。また、出典を誤った論文にリンクしていた例が5件(プロンプト感度、ベンチマーク汚染等)あり、修正した。これは生成AIによるリサーチの検証可能性の限界を示している。

4. ハイブリッドアプローチの実践と限界

本レポートの作成プロセス自体が、レポートが推奨する統合アーキテクチャの実践例である。AI初稿→人間指示→AI再検証→人間レビュー→新研究追加→再度ファクトチェック→再修正→評価の下方修正→さらに再ファクトチェック→再々修正。3回のサイクルが必要だった事実(しかも3回目でもまだ約10件の誤りが発見された)は、人間の検証が不可欠であること、かつ複数回の検証でも完全な正確性は保証されないことを示す。なお、この修正プロセスを経てもなお、本レポートに未検出の誤りが残っている可能性がある。

この注記自体も生成AIが執筆し、人間がレビューしている。

主要ソース一覧

学術論文・査読済み研究

コンサルティングファーム・調査機関

日本語ソース

実務テスト・業界レポート