AIは障害の「相関」を見つける天才だが、「因果」を特定する能力を持たない。Anthropicが公式に認めたこの限界を理解することが、AI時代のインフラエンジニアの第一歩だ。
Anthropicが2026年3月のQCon Londonで「AI SREの限界」を公式に認めた。AIはなぜインフラ障害の根本原因を見誤るのか? 現役インフラエンジニアが、LLMのアーキテクチャ特性と因果推論理論から、その技術的メカニズムを前後編で徹底解説する。
はじめに:Anthropicが明かした「AI SRE」の残酷な現実
AIOps万能論が席巻する今、経営層から「AIで運用を完全自動化できないのか」と問われた経験はないだろうか。現場のインフラエンジニアなら、その要求がいかに現実離れしているか肌感覚でわかるはずだ。
そしてついに、AIの最前線を走るAnthropicが、その「肌感覚」を技術的に裏付けた。2026年3月、QCon LondonでAnthropicのAlex Palcuieは「AIは相関関係と因果関係を誤認し続ける」と公式に認めた。AI SREには明確な限界があると、開発元自身が宣言したのだ。
本記事では前後編に分けて、なぜ最先端のLLMでもSREの根本原因分析(RCA)でミスを犯すのか、その技術的背景とインフラエンジニアの生存戦略を紐解く。前編ではまず「AIが障害原因を見誤るメカニズム」を深掘りする。
AIはなぜインフラ障害の「原因」を見誤るのか?
マイクロサービスやKubernetes環境で障害が発生すると、オブザーバビリティツールから膨大なアラートが同時に吐き出される。カスケード障害では、1つのコンポーネントの異常が連鎖的に波及し、システム全体でメトリクスが一斉に異常値を示す。
問題は、これらのアラートはすべて「結果」であり「原因」ではないということだ。
具体例:原因と結果の取り違え
EコマースでDBのCPU使用率100%とAPIの504 Timeoutが同時発生。AIは過去データの相関から「DBの過負荷が原因」と判断する。しかし真の原因が誤デプロイによるアプリ側の無限リトライだった場合、DBのCPUスパイクは「症状」に過ぎない。
「相関関係」と「因果関係」の決定的な壁
LLMは本質的に、与えられたコンテキストから統計的に最も確率の高い次のトークンを予測する自己回帰モデルだ。これは条件付き確率に基づくパターンマッチングの極致であり、学習データ内の「共起性」の抽出に長けている。
しかしRCAで求められるのは、統計的相関の発見ではない。「どのコンポーネントの異常が、他の異常を引き起こしたか」という非可逆的な因果関係の特定だ。
Judea Pearlの因果推論階層(Ladder of Causation)
因果推論の権威Judea Pearlは推論を3段階に分類した。
第1階層「関連付け」:データ間の相関を見つける(AIが得意)
第2階層「介入」:「もしDBのコネクションプールを制限したら?」という操作の結果を推論する
第3階層「反事実」:「あの時ロールバックしていれば障害は防げたか?」という仮定の推論
現在のAIは第1階層で人間を凌駕するが、第2・第3階層の推論を行うアーキテクチャを持っていない。
さらにKubernetesの動的環境ではPodが数分単位で生成・消滅を繰り返す。AIが因果関係を正しく推論するには有向非巡回グラフ(DAG)としてのトポロジカル・コンテキストが不可欠だが、現状のオブザーバビリティデータは因果の方向性を保証しない。ここにAIとインフラ運用の構造的な溝がある。
「自律的修復(Self-Healing)」の罠と運用リスク
因果関係を誤認したままAIにシステムの運用権限を与えるとどうなるか。
Self-Healingが引き起こす最悪のシナリオ
・誤ったRCAに基づく自動スケールアウト → クラウドコストの暴走
・誤ったコンテナのKill → 二次災害(セカンダリ・インシデント)の発生
・原因と結果を取り違えたAIが「修復」と称してシステムを壊し続ける
AIOpsベンダーが謳う「完全な自己修復(Self-Healing Infrastructure)」は、現在の技術水準では危険なハイプに過ぎない。
AIにRead権限(観測・分析)を与えることとWrite権限(システム変更)を与えることは、次元の異なるリスクだ。前者は誤った「提案」で済むが、後者は本番環境に直接ダメージを与える。この区別を曖昧にしたまま自動化を進めることが、最も危険な運用判断だ。
まとめ:後編では「ではどうすべきか」を解説
前編では、AIがインフラ障害の根本原因分析(RCA)を見誤る技術的メカニズムを解説した。
LLMの確率的推論は相関の発見には優れるが、因果関係の特定には構造的な限界がある。この限界を無視して自律修復権限を与えることは、運用リスクを増大させるだけだ。
しかしこれはAIOpsの終焉ではない。後編ではHuman-in-the-Loop(HITL)による安全なAI活用設計と、エンジニアに求められるスキルシフトについて踏み込んでいく。

コメント