「Stable Diffusionで静止画は作れるが、動画にしたい」——AnimateDiffはその壁を一撃で突破するツールだ。既存のT2Iモデルを再チューニングなしにアニメーションジェネレーターへ変換できるフレームワークで、ComfyUI上で使うのが2026年現在の主流だ。VRAM不足・Flickering・CUDAエラーといった頻出トラブルの解決策も含め、導入から応用まで一気に解説する。
AnimateDiffとは?T2Iモデルをそのまま動画化する仕組み
AnimateDiffの核心はプラグアンドプレイ型のモーションモジュールだ。DreamBoothやLoRAで作った既存の画像生成モデルに、WebVid-10Mから動きのパターンを学習した「モーションモジュール」を挿し込むだけで、そのモデルをアニメーションジェネレーターに変換できる。
商用ツール(Gen-2・Pika Labs等)と比べた最大の強みはControlNetとの完全な統合だ。SparseCtrlやMotionLoRAを組み合わせれば、構図・カメラワーク・キーフレームを精密に制御できる。2026年現在、ComfyUI上の「AnimateDiff Evolved」ノードが事実上の標準環境になっている。
v3ではDomain Adapter LoRAが新たに導入された。動画学習データに含まれるウォーターマークや不自然なモーションブラーといったノイズの影響を分離・軽減するモジュールで、動きのパターン学習と画像の見た目の学習を切り分けることができる。推論時に取り外すことも、LoRAスケーラーで効果を調整しながら統合することも可能だ。
現実的なVRAM要件:NVIDIAとAMDで別物と思え
AnimateDiffは静止画生成よりバッチサイズ(フレーム数)分だけVRAMを消費する。NVIDIA環境では512×512・ControlNetなしでベースライン約5.6GBだが、AMD/ROCm環境では同条件で16GB超に跳ね上がる報告がコミュニティで多数確認されている。
| 環境 | 512×512(ControlNetなし) | ControlNet追加時 | 実用的な推奨VRAM |
|---|---|---|---|
| NVIDIA(CUDA) | 約5.6 GB | +2〜4 GB | 12 GB以上推奨 |
| AMD(ROCm) | 約16.3 GB | 17 GB超でOOM | 24 GB必須・要チューニング |
AMD/ROCmユーザーは必読:起動前に以下の環境変数を設定することでVRAM消費を抑制できる。export PYTORCH_HIP_ALLOC_CONF=garbage_collection_threshold:0.8,max_split_size_mb:512
さらに起動オプションに --opt-sdp-attention --no-half-vae を追加する。
ComfyUI-AnimateDiff-Evolvedのインストール手順
・ComfyUI-Advanced-ControlNet(フレームマスキング用)
・ComfyUI-VideoHelperSuite(動画読み込み・フレーム操作)
・comfyui_controlnet_aux(前処理ノード群)
ComfyUI/custom_nodes/ComfyUI-AnimateDiff/models/ に配置モーションモジュールとMotionLoRAの選び方
公式モデルとコミュニティ派生モデルの特性を把握して選ぶ。初心者はv3_sd15_mm.ckptを基本にすることを推奨する。
| モデル名 | 特徴 | サイズ |
|---|---|---|
| mm_sd_v15_v2 | 安定の標準モデル。MotionLoRA対応 | 約1.5 GB |
| v3_sd15_mm.ckpt | 最新v3。Domain Adapterでアーティファクト抑制 | 約1.56 GB |
| mm-Stabilized_mid | コミュニティ版。激しい破綻を防ぐ安定化版 | 約1.5 GB |
| temporaldiff-v1 | 高解像度生成に特化したコミュニティ版 | 約1.5 GB |
MotionLoRAはカメラワークを制御する軽量ファイル(各約74MB)だ。ZoomIn・ZoomOut・PanLeft・PanRight・TiltUp・TiltDownの6種類が公式から提供されており、V2モーションモジュールと組み合わせて使う。特定のカメラムーブを学習させるために必要な参照動画はわずか50本程度で済む軽量な仕組みのため、コミュニティ製のMotionLoRAも多数公開されている。複数のMotionLoRAを同時適用するとランダムな動きになりやすいため、1つに絞って使うのが基本だ。
SparseCtrlでImage-to-Videoを実現する(v3の目玉機能)
AnimateDiff v3で登場したSparseCtrlは、少数のキーフレーム画像やラフスケッチを入力すると、その間を自然に補間するアニメーションを生成する。
SparseCtrlエンコーダーの2種類:
- v3_sd15_sparsectrl_rgb.ckpt(1.85GB):既存の画像からImage-to-Videoを生成。キャラクターを原画から動かしたいときに使う
- v3_sd15_sparsectrl_scribble.ckpt(1.86GB):手書きラフ画で動きを指定。アクションやポーズの推移をコントロール
よくあるエラーと解決策まとめ
① Flickering(ちらつき)が発生する
フレームを1枚ずつ別々に処理するとフレーム間の整合性が崩れてちらつく。解決策:低解像度(384×512程度)でAnimateDiffを一括処理し、動きのベースを作る。その後VideoHelperSuiteで段階的にアップスケールする。個別フレーム処理はしない。
② 高解像度でCUDAエラーが出る
xformersとAnimateDiffのCrossAttention実装の相性問題(既知のバグ)。VRAM不足ではない。解決策:AnimateDiff側の生成解像度を512〜768pxに抑え、後工程でControlNet Tile等を使って高解像度化する2段階ワークフローに切り替える。
③ モジュールが認識されない
配置先ディレクトリの誤りが最多原因。ComfyUI/custom_nodes/ComfyUI-AnimateDiff/models/ に正しく置けているか確認し、ComfyUIを完全再起動する。それでも認識しない場合はComfyUI Managerから「Fix dependencies」を実行するとカスタムノードの依存関係が修復される。
まとめ:AnimateDiffは「構図制御」の要として使う
AnimateDiffはGen-2やKlingのような汎用動画生成ツールではなく、「意図通りのモーションを精密に作る」ことに特化したツールだ。v3+SparseCtrlで骨格となる動きを作り、Wan 2.1にリアリティと解像度を担わせるハイブリッドワークフローが、2026年現在のローカルAI動画制作における最有力の選択肢になっている。
具体的な流れはこうだ。①AnimateDiffでSparseCtrlを使い低〜中解像度のモーションベースを生成 → ②VideoHelperSuiteでフレーム抽出 → ③Wan 2.1のImage-to-Videoに渡してリアリティと高解像度を付与。この2段階構成により、VRAM 12GB以上の環境があれば商用ツールでは再現できない精度の動画制作が実現できる。
よくある質問
AnimateDiffはVRAM 8GBでも動きますか?
NVIDIA環境なら512×512の低解像度・少フレームで動作可能ですが、実用的な品質を出すには厳しい設定制限が伴います。解像度を384×512に抑え、フレーム数を16以下にした上でControlNetなしで試してください。AMD/ROCm環境では8GBではほぼ動作しません。
AnimateDiff v3とv2の違いは何ですか?
v3最大の変更点は「Domain Adapter LoRA」の導入です。動画データセット由来のウォーターマークや不自然なアーティファクトを軽減するモジュールで、動き(Motion)と外観(Appearance)の学習を分離します。v2ではMotionLoRAによるカメラワーク制御が可能で、v3ではSparseCtrlによるキーフレーム指定生成が追加されました。
SparseCtrlでどんな動画が作れますか?
RGBエンコーダーを使えば既存のキャラクターイラストや写真をそのまま動かすImage-to-Videoが可能です。Scribbleエンコーダーを使えば手書きのラフ画を入力してポーズや動きの推移を指定できます。どちらも少数のキーフレームを与えるだけで、中間フレームを自然に補間して生成します。
AnimateDiffとWan 2.1はどう使い分けますか?
AnimateDiffは「構図・カメラワーク・ポーズの精密な制御」が強みです。Wan 2.1は「テクスチャのリアリティ・物理挙動・光の表現」が優れています。AnimateDiffで動きのベースを生成し、そのフレームをWan 2.1のImage-to-Videoに渡して高解像度・高リアリティに仕上げるハイブリッドワークフローが最も強力です。
MotionLoRAはどのモーションモジュールで使えますか?
公式のMotionLoRA(ZoomIn/Out・PanLeft/Right・TiltUp/Down)はV2モーションモジュール(mm_sd_v15_v2)でのサポートが中心です。v3モーションモジュールとの互換性は限定的なため、カメラワーク制御を優先する場合はv2モジュールを選択してください。

コメント