Endless | AIで映画的な広告を作る方法

数か月前、試したいことがありました。香水の広告みたいな質感のCMを作る。抽象的で、エーテリアルで、メッセージよりムードを優先したCM。ただし、その世界観とまったく無縁の商品で。ヒマワリ油です。

出来上がったのは30秒の動画。夕暮れの草原を歩く女性、背景には燃える家、そして最後のショットに置かれるヒマワリ油のボトル。すべてAI生成。1本のシネマ作品のように編集されています。

問題はモデルじゃない

90%の人がやっているフロー。動画ジェネレーターを開いて、プロンプトを書いて、生成して、がっかりして、単語を2つ書き換えて、もう一度。

監督は撮影現場に来て「いい感じのを撮って」とは言いません。ムードボード、設定済みのキャラクター、ショットリスト、サウンド戦略を持って現れる。AIでも完全に同じです。「生成された感じの広告」と「ディレクションされた広告」の差は、生成する前にやったことすべてに表れます。

マザーイメージ

シーケンスを組み立てる前に、すべてを定義する1枚の画像が必要です。ビジュアルトーン、パレット、光、ムード。私はこれをマザーイメージと呼んでいます。それ以降、生成するすべてのものはここから出発します。

ヒマワリ油の場合は、ムードボードのリファレンスを使ってイテレーションを重ね、狙いどおりの1枚にたどり着きました。草原の女性、夕暮れの光、シネマ的なテクスチャ。その画像と、それを生成したプロンプトが、プロジェクト全体のアンカーになりました。

今ならNano Banana Proにムードボードのリファレンスを渡せば、もっと簡単にいけます。これは何度も繰り返し見るパターン。タスクごとに最適なモデルは変わり続けます。重要なのは2〜3個試して比較すること。キャンバス上で、それらを横並びで見比べられます。

ストーリーボードを組み立てる

マザーイメージをキャンバスにドラッグして、選択して、Remixを使います。画像から別の画像を生み出したいので、Remix。何が必要かを言葉で書きます。

草原の女性から、バリエーションを依頼していきました。同じ女性の引きのショット。草原に家があると分かるショット。家が燃え始めるショット。草の上のバッグのクローズアップ。それぞれの新しい画像が、マザーをリファレンスに使うことで一貫性を保っていきます。

Remixで生成したストーリーボードのバリエーション。草原に座る女性とバッグ、マザーイメージと同じパレットと美学

ループ

ストーリーボードは、画像だけで作るわけではありません。ショットが揃ってきたら、動画に変換していく。すると、生成された動画の中に、自分がプロンプトで作ったどの画像よりも良い1フレームが現れることがあります。

Dualでは、動画を再生するとカメラボタンがあります。今のフレームをスクリーンショットして、画像として再利用できる。実際のフローはこうなりました。マザーイメージ → 新しいショットをRemix → 動画にConvert → 良いフレームを抽出 → 新たなリファレンスとして使用 → さらにRemix。常に行ったり来たりしています。

プロダクトを差し込む

商品はラストに登場させる必要がありました。草の上のバッグのクローズアップを取って、Remixでバッグをヒマワリ油のボトルに差し替える。それを動画に変換しました。

監督のように考える

広告は1ショットではありません。15秒なり30秒なりで何かを語るショットの連なりです。生成する前にシーケンスを設計しなかったら、つながらないクリップの山が出来上がります。

ヒマワリ油では、ナラティブはこうでした。穏やかでエーテリアルなショットの中の、草原の女性。フレームが開いていき、同じ草原に燃える家があると明かされる。穏やかからカオスへ。そして最後に、商品。

実際のシーケンス。エスタブリッシングの草原 → 歩く女性のミディアム → 家が見えてくる → 家が燃え始める → 火のクローズアップ → 火に照らされた油のボトルのインサート。

アニメーションをつける

画像を選び、動画にConvertして、モデルを選ぶ。今、最も完成度が高いのはKling 3.0。リアルな演技、安定したモーション、プロンプト追従性が高い。ただし遅い。Kling 2.6とSeedanceはより速い代替です。

ヒマワリ油ではSeedanceを使いました。ショットがほぼ静的で、女性はゆっくり歩き、火は動くけれどカメラは派手に動かない、という設計だったから。今ならもっと動きを付けたショットを作るはずです。女性を追うトラッキング、火を見せるためのクレーンアップ。今のモデルはそれが可能です。

動画用のプロンプトでは、画像にすでに含まれている情報を繰り返す必要はありません。スタイル、被写体、ライティングは画像にエンコード済み。指定すべきはカメラの動きとアクションだけ。

Klingでは、動画の冒頭だけでなく、終わり方も指定できます（start/last frame）。これは広告では決定的に重要。最後のフレームは商品やロゴ、最終構図にしたいわけです。

オーディオ

広告の音楽は、私が最初に決めたものでした。1フレームも生成する前から、どの曲を使うか、タイミングはどう取るかが決まっていた。それがショットの尺、カットの位置、リズムを決めていきます。音楽から始めれば、ショットが最初から正しい尺で生成されます。

この広告にセリフはありません。意図的にそうしました。当時、リップシンクのモデルは説得力ある結果を出してくれなかったのです。だから発想を切り替えた。音楽だけで成立する、純粋にビジュアルなピース。制約がクリエイティブの判断になりました。AIでディレクションする仕事の半分は、今のモデルが何をうまくできて何ができないかを見極め、できることを軸に設計することです。

今ならストーリーは違ってきます。Creatify AuroraやFabricといったモデルが、静止画と音声から信頼できるリップシンク動画を生成してくれる（Convert）。プロジェクトはボードに丸ごと保存されているので、古いアイデアを作り直したり拡張したりするのは、ボードを開いて新しいモデルで試すだけ。

パイプライン

美学。 リファレンスを集めたムードボード。プレッシャーなしで集めて、繰り返し見直す。

マザーイメージ。 すべてを定義する画像とプロンプトを見つけるまでイテレーションする。

ストーリーボード。 マザーから始まる画像to画像のRemix。ループは「ショットを生成 → 動画にConvert → 良いフレームを抽出 → 新たなリファレンスに」。

アニメーション。 動画にConvert。カメラ動作 + アクション。Start/end frameで着地点をコントロール。

オーディオ。 生成前に音楽を決める。プロンプトには「No music」と書いて、サウンドトラックは編集側でコントロール。

リサイクル。 Dualはすべての生成のインプットを保存しています。新しいモデルが出たら、ボードに戻って古いショットを再生成し、比較する。アイデアは消費期限がない。期限が切れるのはモデルです。

何が大事か

この広告が機能するのは、モデルが優秀だから（実際そう）ではなく、1フレームも生成する前にアイデア、ナラティブ、音楽、すべてを定義するマザーイメージがあったからです。モデルは実行するだけ。ディレクションは人間がやった。

数日前、ボードに戻って全ショットをKling v3で再実行してみました。何も考え直す必要はなかった。ボードにはすべて揃っている。マザーイメージ、プロンプト、パラメータ。モデルだけ切り替えて、もう一度生成しただけ。何か月も前のアイデアが、技術が向上したぶんだけ、より良く見える。リサイクルは一瞬でした。