【ハンズオン】Wan 2.1でアニメ風動画を生成する方法｜ComfyUI構築からプロンプト設計まで完全ガイド

2026年4月4日

Wan 2.1とComfyUIでアニメ風AI動画を生成するガイドのアイキャッチ画像

オープンソース最高峰の動画生成AI「Wan 2.1」を使えば、ローカル環境で高品質なアニメ風動画を生成できます。この記事では、ComfyUIでの環境構築から、2Dアニメ特化のプロンプト設計、リミテッドアニメーション風のコマ落ち再現まで、実践的なノウハウを徹底解説します。

Wan 2.1とは？アニメ動画生成に最適な理由

Wan 2.1は、テキストや画像から動画を生成するオープンソースAIモデルです。14Bパラメータの大規模モデルが圧倒的な画質と動きの自然さを実現し、特にアニメ表現との相性が抜群です。

商用APIに依存せず、自分のPC上で完結するためデータが外部に漏れないのも大きなメリット。ただしVRAM消費が激しいため、GPU環境の準備が重要です。

モデル	必要VRAM	解像度	推奨GPU
1.3B（軽量）	8GB〜	480P	RTX 3060 12GB
14B fp8（推奨）	12GB〜	480P	RTX 4070 Ti 12GB
14B fp16（高品質）	24GB〜	720P	RTX 5090 32GB

アニメ表現にはfp16がベスト

量子化モデル（fp8）でも動作しますが、輪郭線のシャープさやベタ塗りの色精度はfp16が圧倒的に優れます。VRAM 24GB以上のGPUを用意できるなら迷わずfp16を選択しましょう。

VRAM 24GB搭載BTOパソコンをサイコムで探す

ComfyUI環境構築：必要モデルの配置

Wan 2.1はComfyUI上で動作させるのが最も柔軟です。以下の4ファイルをダウンロードして所定のフォルダに配置します。

1 Diffusion Model（本体）

wan2.1_t2v_14B_fp16.safetensors を models/diffusion_models/ に配置。T2V（テキスト→動画）用とI2V（画像→動画）用は別ファイルなので注意。

2 Text Encoder + VAE

umt5_xxl_fp8_e4m3fn_scaled.safetensors を models/text_encoders/ に、wan_2.1_vae.safetensors を models/vae/ に配置。

3 CLIP Vision（I2V用）

画像から動画を生成するI2Vタスクには clip_vision_h.safetensors が追加で必要。models/clip_vision/ に配置します。

アニメ特化プロンプト設計：AIの「3D推論」を打ち消す

Wan 2.1は高度な物理シミュレーション能力を持つため、デフォルトでは3Dリアル寄りの映像を出力しようとします。純粋な2Dアニメを出すにはプロンプト設計が鍵です。

プロンプトの基本公式

Subject（被写体）+ Scene（背景）+ Motion（動き）+ Aesthetic（カメラ・照明）+ Stylization（画風）

Stylizationに「In a 2D anime style, cel-shaded, flat shading, anime screencap」を必ず含めること。

さらに重要なのがネガティブプロンプトです。以下をネガティブに指定することで、3Dっぽさを強制的に排除できます。

3D, Blender, Unreal Engine, Octane Render, CGI,
photorealistic, depth of field, realistic shadows,
deformed, artifacts, motion blur

デフォルトネガティブプロンプトの罠

公式推奨のネガティブプロンプトは実写・3D映像用に最適化されています。アニメ生成にそのまま使うと、求めている平面的な質感が失われることがあるため、上記のアニメ特化版に差し替えましょう。

リミテッドアニメーション（コマ落ち感）の再現

日本アニメ特有の「3コマ打ち（8fps）」のコマ落ち感こそ、視聴者が「アニメらしい」と感じる決定的要因です。しかしComfyUIのfps設定を単に下げるだけではスローモーション動画になるため、別のアプローチが必要です。

1 通常通り16〜24fpsで滑らかに生成

まずWan 2.1のネイティブ設定で高品質な動画を生成します。

2 Batch Imageノードで1フレームおきに間引き

生成後の後処理として、偶数フレームのみを抽出し中間フレームを削除します。

3 8〜12fpsで再結合して出力

間引いたフレームをVideo Saveノードで再結合。動作スピードを維持したまま、セルアニメ特有のチョッピーな動きを実現します。

VRAM不足を克服する最適化テクニック

14Bモデルはそのままでは12GB環境でOOM（メモリ不足）を起こします。以下の最適化で生成速度を劇的に改善できます。

手法	効果	注意点
TeaCache	計算を数倍高速化	euler_aサンプラーでピクセル化バグあり。uni_pc推奨
SageAttention	VRAM効率を劇的改善	I2Vワークフローで不具合の場合はオフに
fp8量子化モデル	VRAM 12GBで動作可能	アニメの色精度がやや低下

まとめ：ローカルPCがアニメ制作スタジオになる

Wan 2.1とComfyUIを組み合わせれば、商用APIに頼らず自分のPCだけで本格的なアニメ風動画が作れます。プロンプト設計で3D推論を抑制し、後処理でコマ落ち感を再現するテクニックは、他のAI動画ツールでは得られない独自の表現力をもたらします。

今後リリース予定のWan 2.5では音声同期生成にも対応予定。個人PCがフルスタックのアニメ制作環境になる未来はすぐそこです。

RTX 5090搭載のBTOパソコンで本格AI動画制作を始める

Wan 2.1でアニメ動画を生成するのに必要なVRAMは？▼

1.3Bモデルなら8GB、14B fp8モデルなら12GB、14B fp16モデルなら24GBが目安です。アニメの色精度を重視するならfp16（VRAM 24GB）が最適ですが、fp8でもTeaCacheなどの最適化を併用すれば十分実用的な品質が得られます。

生成した動画が3Dっぽくなってしまう場合の対処法は？▼

ネガティブプロンプトに「3D, Blender, Unreal Engine, CGI, photorealistic」を追加し、ポジティブプロンプトには「2D anime style, cel-shaded, flat shading」を含めてください。公式デフォルトのネガティブプロンプトは実写向けなので、アニメ用に差し替えることが重要です。

日本アニメ特有のコマ落ち感（リミテッドアニメーション）はAIで再現できますか？▼

はい。ComfyUIのfps設定を下げるのではなく、通常通り16〜24fpsで生成した後、Batch Imageノードで1フレームおきに間引き、8〜12fpsで再結合する後処理アプローチで再現できます。動作速度を維持したまま自然なコマ落ち感が得られます。

TeaCacheを使うと画質が劣化しますか？▼

しきい値0.090前後の設定なら視覚的な品質劣化はほとんどありません。ただし、サンプラーにeuler_aを使うとピクセル化バグが発生するため、uni_pcやgradient_estimationサンプラーに変更してください。