2026.01.20

画像生成AIジェネレータを作ろう

画像生成AIを業務で使い倒すために

― Nano Banana Pro と画像・動画ジェネレーター実装の実践知 ―

はじめに

ここ数年、画像生成AI・動画生成AIの進化スピードは目を見張るものがあります。
「少し前までは難しかったこと」が、いつの間にか当たり前のように実現できるようになり、業務活用のハードルも急速に下がっています。

本記事では、画像生成AIの最新動向と、実際に業務で活用するために構築したAIジェネレーターの実装事例を紹介します。
結論から言うと、この分野はとにかく進化が速い。だからこそ“強い最新モデル”を前提に設計することが重要です。

画像生成AIの進化は、想像以上に速い

レーティングで見るモデル進化

（筆者作成・レーティングは2025年11月25日時点での数値）

画像生成AIの進化速度を定量的に見る指標として、LMArena のレーティングがあります。
実際の数値を比較すると、その伸びは非常に顕著です。

Image to Image モデルは わずか半年で +280 レート
これは「半年前のモデルに対して 4勝1敗相当」の性能差
同期間の自然言語モデル（Text to Text）の伸びと比べても、画像生成は約4倍のスピードで進化

この結果から分かるのは、

「半年前に最適だった設計や工夫が、今では不要、あるいは足かせになる可能性がある」

という現実です。

Nano Banana Pro とは何が違うのか

最新世代の画像生成モデルである Nano Banana Pro（gemini-3-pro-image-preview） は、従来モデルと比べて以下の点が大きく進化しています。

プロンプト理解力の向上
編集・加工耐性の向上
人物や構図の一貫性保持
画像・文字の扱いの改善

特に特徴的なのは、モデル自体にプロンプトエンハンスメント能力が内蔵されている点です。
これは後述する実装設計にも大きな影響を与えました。

業務活用事例：AI画像・動画ジェネレーターの開発

背景：ビジネス課題

本ブログで設定したペルソナは、以下のようなユーザーです。

ITやデザインの専門知識はない
商品画像の加工や動画化ができない
それでも「PVや売上を伸ばしたい」

この課題に対し、
「入力するだけで、ワクワクする商品画像・トップ画像・動画が生成されるAIジェネレーター」
を目標に開発を行いました。

AIオーケストレーションによる設計

今回のジェネレーターでは、単一モデルに任せない設計を採用しています。

処理フロー概要

画像入力
LLMによる画像分析
- 商品カテゴリ
- 商品名
- 色・特徴
- 利用シーン想定
  → JSON形式で構造化
プロンプト生成・エンハンス
- カメラワーク（close-up / wide shot など）
- スタイル（cozy / minimalist / cool tones など）
画像・動画生成モデルへ入力
複数バリエーションの出力

LLMと画像生成モデルを組み合わせることで、
「ウェブサイトで使える」ことを前提にした出力品質を安定させる設計です。

実験結果：プロンプトエンハンスは不要になった？

興味深かったのは、モデルごとの差です。

旧モデル（gemini-2.0-flash-preview-image-generation）
→ プロンプトエンハンスが明確に効く
Nano Banana Pro
→ エンハンス有無で大きな差が出ないケースが多い

これはつまり、

「人間側の工夫を、モデル側が吸収し始めている」

ということを意味します。

（図・筆者生成）

この画像をプロンプトエンハンスを行い生成したものと、行わずに生成したものを比較したのが、下図です。Nano-Banana-Proクラスのモデルでは、魅力度にあまり大きな変化がないと言えそうです。

（図は筆者作成）

振り返り：苦労した点と学び

API利用の現実的な課題

ベンダーごとにAPI設計が異なる
同一ベンダーでもモデルごとにクライアント実装が違う
モデル名を変えただけでは動かないケースが多い
Text / Image / Video で出力仕様が大きく異なる

結果として、モデル切り替えの実装コストが非常に高いという課題に直面しました。

共通インターフェース（共通規格）の重要性を強く実感

まとめ

画像生成・動画生成AIは、今もなお急速に進化している
最新モデルを前提に設計しないと、すぐに陳腐化する
画像編集・文字編集・人物一貫性は実用段階に入った
API利用時は「モデル交換コスト」を意識した設計が必須
利用シーンを想定したプロンプト設計は重要
→ ただし Nano Banana Pro 以降は、その役割自体が減りつつある

今後は、
「どう工夫するか」よりも「どのモデルを、どう早く取り入れるか」
が競争力を左右するフェーズに入っていくと考えています。

最後に

グループ研究開発本部 AI研究開発室では、データサイエンティスト/機械学習エンジニアを募集しています。ビッグデータの解析業務などAI研究開発室にご興味を持って頂ける方がいらっしゃいましたら、ぜひ募集職種一覧からご応募をお願いします。皆さんのご応募をお待ちしています。

グループ研究開発本部の最新情報をTwitterで配信中です。ぜひフォローください。

Follow @GMO_RD

画像生成AIジェネレータを作ろう

画像生成AIを業務で使い倒すために

― Nano Banana Pro と画像・動画ジェネレーター実装の実践知 ―

はじめに

画像生成AIの進化は、想像以上に速い

レーティングで見るモデル進化

Nano Banana Pro とは何が違うのか

業務活用事例：AI画像・動画ジェネレーターの開発

背景：ビジネス課題

AIオーケストレーションによる設計

処理フロー概要

実験結果：プロンプトエンハンスは不要になった？

振り返り：苦労した点と学び

API利用の現実的な課題

まとめ

最後に

関連記事

BAGEL: ByteDanceの画像生成・編集も可能なマルチモーダル統合オープン生成AI

検索拡張生成（RAG）を用いたQA botを爆速で作る方法（Assistants API編）

「機械学習 × 金融取引」実導入に向けた検討

ChatGPTで代替経済指標の分析をしてみた Part2

最新の記事

採用情報

インターンシップ

インタビュー

画像生成AIジェネレータを作ろう

画像生成AIを業務で使い倒すために

― Nano Banana Pro と画像・動画ジェネレーター実装の実践知 ―

はじめに

画像生成AIの進化は、想像以上に速い

レーティングで見るモデル進化

Nano Banana Pro とは何が違うのか

業務活用事例：AI画像・動画ジェネレーターの開発

背景：ビジネス課題

AIオーケストレーションによる設計

処理フロー概要

実験結果：プロンプトエンハンスは不要になった？

振り返り：苦労した点と学び

API利用の現実的な課題

まとめ

最後に

関連記事

BAGEL: ByteDanceの画像生成・編集も可能なマルチモーダル統合オープン生成AI

検索拡張生成（RAG）を用いたQA botを爆速で作る方法（Assistants API編）

「機械学習 × 金融取引」 実導入に向けた検討

ChatGPTで代替経済指標の分析をしてみた Part2

タグ

最新の記事

採用情報

インターンシップ

インタビュー

「機械学習 × 金融取引」実導入に向けた検討