2025.11.25

Nano Banana Pro (Gemini 3 Pro Image)で画像生成・編集をやってみた

TL;DR

  • GoogleがNano Banana Pro (Gemini 3 Pro Image)をリリースしました。Gemini 3 Proの推論プロセスを経て生成されるためNano Bananaの画像生成・編集機能がさらに強化されております。最大4Kまでの高解像度画像生成や、最大14枚までの入力画像を利用しての画像生成・編集が可能です。入力された人物に関しては5名まで一貫性を保ったまま新しいシーンを生成できます。更に、Google検索からリアルタイム情報に基づいた画像も生成できます。

はじめに:Nano Banana Pro (Gemini 3 Pro Image)とは?

こんにちは、グループ研究開発本部のAI研究開発室のNano Banana担当のT.I.です。振り返ると2022年のStable Diffusion の登場にはじまる画像生成AIのブームから3年と少しが経過しました。今年の夏に発表されたGoogleのGemini 2.5 Flash Image (通称Nano Banana)は、画像生成・編集タスクにおいて高い性能を発揮し話題となりました「Introducing Gemini 2.5 Flash Image, our state-of-the-art image model」。そして、以前のブログでもOpenAIのGPT Image 1 high fidelityとNano Banana、そしてオープンな画像生成・編集AIである Qwen-Image-Editとの比較を行いました。「Nano Banana: Gemini 2.5 Flash Image(とQwen-Image-Edit)で画像生成・編集を試してみた」。などと言っている間に、Googleはさらに強力な画像生成・編集モデルである Nano Banana Pro (Gemini 3 Pro Image)を発表しました「Introducing Nano Banana Pro」。Nano Banana と同様に Gemini appやAPI、Google AI Studioで利用可能です。Gemini app では、画像生成ツールを選択し、Thinkingモードを選択することで利用可能です。Fastモードでは従来のNano Bananaが利用されます。Google AI Plusなどの有料プランに加入していない無料ユーザーでも利用可能だそうですが、Nano Banana Proの利用回数に限度があり、それを超えると通常のNano Bananaのみの利用となるようです。

Gemini appでのNano Banana Pro (Gemini 3 Pro Image)の選択画面

早速試してみましょう。いつもの3人組の画像を夏のビーチに変更してみた結果が以下となります。

Gemini AppでのNano Banana Pro (Gemini 3 Pro Image)の画像編集の例

すっかり夏のビーチサイドの風景に変わりました登場人物はそのままなのですが、人物の向きや距離などが自然に調整されており、服装もセーターから夏らしい格好に変わっています。

Nano Banana Pro (Gemini 3 Pro Image)による画像編集を他のモデルと比較した結果。

他のモデルと比較した結果が上図となります。GPT Image 1 High Fidelity (右上) では、人物はそのまま服装はシンプルなTシャツで机の上のものがオリジナルとほぼ同じ構成で生成されています。一方で前回紹介したGemini 2.5 Flash Image(左下)では、服装がより自然で夏らしいものに変わっており、机の上の飲み物も涼しげなドリンクに変わっています。更に今回のGemini 3 Pro Image(右下)では、あ、髷が消えとる全体の構図がより自然になり、テーブルの上にフルーツが置かれているなど夏らしい雰囲気が強調されています。

Nano Banana Pro がこのようにただ人物の服装や背景を変えるだけでなく、全体の構図などを修正できるのは、Nano Banana Pro が、Gemini 3 Pro をベースにその知識を利用した推論を重ねているためです。Gemini app 上で、その推論プロセスを確認することができます。このように全体のシーンを理解してアイテムの修正など順々に推論を重ねた上で画像を修正していることがわかります。

Gemini App上でのNano Banana Pro (Gemini 3 Pro Image)の推論プロセスの例

以前にNano Banana がLMArenaで画像生成・編集タスクでトップに立ったことを紹介しましたが、さて、今はどうなっているでしょうか?以下のように早速、Nano Banana ProがNano Bananaを抑えてトップに立っています。

LMArena Image Edit Arenaのランキング(11/21時点)Nano Banana ProがトップにNano Bananaその次に君臨しています。

そして、Text-to-Imageに関してはこのようにNano Banana Pro (gemini-3-pro-image-preview)が2位のhunyuan-image-3.0から大きな差をつけてトップに立っています。

LMArena Text-to-Image Arenaのランキング(11/21時点) Nano Banana Proがトップに君臨しています。

Nano Banana Pro (Gemini 3 Pro Image)で画像生成・編集してみる

Gemini 3 Pro ImageはGemini appやGemini API、Google AI Studioで利用可能です。Nano Banana Pro はGemini 3 Proの推論能力を利用しての画像生成となるため、従来のNano Banana (Gemini 2.5 Flash Image)と比較して生成時間が長いです。コストも以下の通り3〜6倍程度に上がっています。Nano Bananaでも十分に画像生成・編集が可能ですので、用途に応じて使い分けるのが良いでしょう。

Gemini 3 Pro Image と Gemini 2.5 Flash Image (Nano Banana)の比較「Build with Nano Banana Pro, our Gemini 3 Pro Image model」より。

APIからNano Banana Pro (Gemini 3 Pro Image)を利用してみる

では、APIを使ってNano Banana Proの画像生成を試してみます。APIの詳細な利用方法については公式のドキュメント「Gemini 3 Developer Guide – Image generation」を参照してください。まず、必要なpythonのライブラリをインストールします。

$ pip install google-genai

また、APIの利用のためにGoogle AI StudioでAPIキーを取得して、GEMINI_API_KEYとして設定しておきます。Gemini APIを利用した画像生成は以下の通りです。Nano Banana Proモデル名としては、gemini-3-pro-image-previewを指定します。

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = (
    "Nano bananaがおしゃれなレストランで提供されている様子を、Geminiのテーマで描いてください。"
)

response = client.models.generate_content(
    model="gemini-3-pro-image-preview", # Nano Banana Pro の場合はこちら
#    model="gemini-2.5-flash-image", # Nano Banana の場合はこちら
    contents=[prompt],
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif image:= part.as_image():
        image.show()
        image.save('nanobanana_demo.png')

以上のコードを実行すると、以下のように画像が生成されます。

Gemini 3 Pro Imageで生成したNano bananaの画像の例

おしゃれなレストランとGeminiのテーマの解釈次第かと思いますが、なんかラグジュアリーでどことなくStar Trekっぽい感じなものが生成されました。ChatGPTに聞いてみたら「宇宙船内のラグジュアリーレストランで提供される、未来型デザートをテーマにした広告風フォトリアリスティックCG」だそうです。参考までに以前に紹介したNano Banana (Gemini 2.5 Flash Image)で生成した画像と比較すると、Nano Banana Proの生成画像は情報量が多い印象がありますね。

以前にNano Banana (Gemini 2.5 Flash Image)で生成したNano bananaの画像の例。こちらはChatGPTによると「星座テーマの分子ガストロノミーデザートを、宇宙美術のように撮影した、近未来ハイエンド料理写真」だそうです。

4K解像度の画像生成

Nano Banana Proでは、4K解像度までの画像生成が可能です。解像度とアスペクト比の指定は以下のように、aspect_ratioimage_sizeで文字列で指定します。

prompt = "南極の雪原でペンギンが歩いている高解像度写真。被写体にクローズアップ。夕暮れ時の風景"

aspect_ratio = "16:9" # "1:1","2:3","3:2","3:4","4:3","4:5","5:4","9:16","16:9","21:9"
resolution = "4K" # "1K", "2K", "4K"

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=prompt,
    config=types.GenerateContentConfig(
        image_config=types.ImageConfig(
            aspect_ratio=aspect_ratio,
            image_size=resolution,
        )
    )
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif image:= part.as_image():
        image.show()

実際に生成された画像は以下の通りです。ブログにアップロードしたものは解像度は落としてありますが、5,504×3,072 pixelsの画素数で生成されています。4K画質の出力では、2,000トークンを使用しており0.24ドル(約38円)のコストがかかっています(1K/2Kなら0.134ドル)。

Gemini 3 Pro Imageで生成した4K解像度のペンギンの画像の例

入力画像をもとにした画像生成

Nano Banana と同様に画像を与え内容の一貫性を保ちながら新しい画像生成も可能です。Nano Banana Proでは、14枚もの画像の入力に対応しており、アイテムなら6個まで人物なら5名まではその一貫性を保ちながら新しいシーンを生成できます。画像を入力するには、Image.open()を使って画像ファイルを読み込み、contentsにプロンプトと一緒にリストとして渡します。例の3人組に加えて、さらに2名の人物画像を追加し、オフィスでの集合写真を生成してみましょう。服装もあのままのダサセーターではまずいので、ビジネスウェアに変更するように指示してみます。

prompt = "これらの人々のオフィスでの集合写真、服装はビジネスウェアに変更してください。ポーズは自然体で、背景はモダンなオフィス環境にしてください。"

aspect_ratio = "16:9" # "1:1","2:3","3:2","3:4","4:3","4:5","5:4","9:16","16:9","21:9"
resolution = "4K" # "1K", "2K", "4K"

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=[
        prompt,
        Image.open('photo_chloe.jpg'),
        Image.open('photo_david.jpg'),
        Image.open('photo_jasper.jpg'),
        Image.open('photo_claire.jpg'),
        Image.open('photo_jasmine.jpg'),
    ],
    config=types.GenerateContentConfig(
        response_modalities=['TEXT', 'IMAGE'],
        image_config=types.ImageConfig(
            aspect_ratio=aspect_ratio,
            image_size=resolution
        ),
    )
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif image:= part.as_image():
        image.show()
Nano Banana Pro (Gemini 3 Pro Image)で生成したオフィスでの集合写真の例。入力された5名の人物がちゃんとそのまま服装だけがビジネスウェアに変更されています。

無事にクソダサセーターからビジネスウェアに変更され、5名の人物がちゃんと一貫性を保ったまま生成されていますね。

更に、Google Search を介したリアルタイム情報を活用した画像生成も可能です。利用するためにtools=[{"google_search": {}}]を指定します。

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents="現在の京都の天気のインフォグラフィックを作成してください。なお、現在の日時も含めてください。",
    config=types.GenerateContentConfig(
        response_modalities=['Text', 'Image'],
        tools=[{"google_search": {}}],
        image_config=types.ImageConfig(
            aspect_ratio="16:9",
            image_size="4K"
        )
    )
)

image_parts = [part for part in response.parts if part.inline_data]

if image_parts:
    image = image_parts[0].as_image()
    image.save('weather_kyoto.png')
    image.show()
Gemini 3 Pro Imageで生成した京都の天気のインフォグラフィックの例。2024年11月22日の京都の天気情報をGoogle Searchを介して取得し、4K解像度で生成しています。

ちゃんと現在の日時と京都の天気情報が反映されています。確認したところ気温などは実際にの情報と一致していました。また、しれっと漢字も正しくレンダリングされております。京都と秋をテーマとしたインフォグラフィックとしてちゃんと成立していますね。

なお、APIをコールする際にresponseModalitiesTextを追加しておくと、回答に利用した情報ソースなども取得できます。groundingMetadataに含まれているsearchEntryPointには必要な検索を実行するHTMLとCSSのコンテンツが含まれており、groundingChunksには利用されたトップ3の検索結果が含まれています。

search_entry_pointのHTMLをレンダリングすると上のようなボタンが表示されます。

このボタンをクリックすると実際にGoogle Searchの結果ページに遷移します。

Google Searchでの「weather in Kyoto, JP」の検索結果ページ

groundingChunkの内容は以下の通りになります。

response.candidates[0].grounding_metadata.grounding_chunks

# Output
[GroundingChunk(
web=GroundingChunkWeb(
    title='meteologix.com',
    uri='https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQEURjwO-_w5h_mjaT2Yoh3tVOh8nzZK7e7LcQjN12-JBz0sXdxmKDdzuHsRznHj9odacAIulV_Hh6Bx9d-PyM3HSkLm5XHFpXQhrybyTQQ1g2xtmcr-wrloaggkLODxNsobKplFKT_bChU-'
)
),
GroundingChunk(
web=GroundingChunkWeb(
    title='google.com',
    uri='https://www.google.com/search?q=weather+in+Kyoto,+JP'
)
),
GroundingChunk(
web=GroundingChunkWeb(
    title='google.com',
    uri='https://www.google.com/search?q=weather+in+小県郡,+JP'
)
)]

Google AI StudioでNano Banana Pro (Gemini 3 Pro Image)を利用してみる

ここまでAPIを使ってNano Banana Proの画像生成を紹介してきましたが、開発・検証用としてGoogle AI Studioからも利用可能です。AI Studioでは、Gemini appと同様にチャット形式で画像生成・編集できます。AI Studioでは、モデルは「Nano Banana Pro (gemini-3-pro-image-preview)」を選択します。「課金してください」と表示されているようにNano Banana Proの利用には有料APIキーとの連携が必要です(タダでは使えません)。

Google AI StudioでのGemini 3 Pro Image (Nano Banana Pro)の選択すると、Gemini appと同様にChatしながら画像生成と編集が可能ですが、無料ではなく有料APIキーとの連携が必要です。

これまでのデモで紹介した、解像度やアスペクト比の指定、Google Searchを利用するには右側の設定パネルで設定します。Google検索を利用した場合、このように先ほど紹介したEntryPointやGrounding Chunksも確認できます。

Google AI StudioでのGemini 3 Pro Image (Nano Banana Pro)の画像生成の例。右側の設定パネルで解像度やアスペクト比、Google検索の利用などを指定できます。

効果的なプロンプトのコツ (by Google)

Nano Banana Pro を使いこなすコツとしては、前回のブログでも紹介した内容のほぼ再掲になりますが、以下の公式の情報が参考になります。効果的な生成プロンプトのコツとテンプレートなどについて公式のブログなどの情報が参考となりますので、参照してみてください。これらの記事で紹介されていたコツを整理すると以下の通りです(ほぼほぼ直訳ですが)。

これらの記事では、以下のように効果的なプロンプトのポイントがまとめられています。

  • Subject(被写体):明確で具体的に(例:「光る青い瞳を持つロボットバリスタ」など)
  • Composition(構図):ショットのフレーミング(例:ワイドショット、ローアングルなど)
  • Action(動作):何をしているか(例:コーヒーを淹れている、呪文を唱えている)
  • Location(場所):どこで(例:火星の未来的なカフェなど)
  • Style(スタイル):全体の美的表現(例:フィルムノワール、水彩画など)
  • Editing Instructions(編集指示):既存画像の編集時は具体的に指示(例:「ネクタイを緑にする」「車を背景から削除する」)

また、より高品質な画像生成・編集のためのベストプラクティスとして以下のような解説があります。

  • 描写を非常に具体的にする:描写を詳細にするほど結果を大きく改善(例:「ファンタジーの鎧」ではなく「銀箔の模様が刻まれ、高い襟と隼の翼のような形をした胴を持つ、エルフの豪華な板鎧」。
  • 文脈と意図を明示:目的と文脈を伝えると精度向上(例:「ロゴを作成」ではなく「高級でミニマルなスキンケアブランドのロゴを作成」)
  • 反復と修正:会話型インターフェースを活用し小調整を重ねる(例:「ほかはそのままで、キャラクターの表情をもっと真剣にしてください」)
  • ステップバイステップでの生成:複雑なシーンは段階的に生成する(例:「まず、夜明けの穏やかな霧の森の背景を作る。次に前景に、苔むした古い石の祭壇を加える。最後にその祭壇の上に、一本の発光する剣を置く。」)
  • 意味的なネガティブプロンプトを利用する:「車なし」と否定せず、「交通の気配のない、人気のない空っぽの通り」など肯定的に表現する
  • カメラ表現で構図を制御:構造の制御のために具体的な撮影用語を使う(例:広角ショット、マクロショット、ローアングル視点など)

カメラワークやライトニングやフォーマットといった指示も効果的だそうです。

  • 構図とアスペクト比:キャンバスを明確に定義。(例:「縦長9:16のポスター」「シネマティックな21:9のワイドショット」)
  • カメラと照明の詳細:撮影監督のようにショットを指示。(例:「浅い被写界深度(f/1.8)のローアングルショット」 「ゴールデンアワーの逆光で長い影を演出」、「落ち着いたティール調のシネマティックカラーグレーディング」)
  • テキスト情報を具体化する:表示すべきテキストとその見た目を明確に記述(例:「上部へ太字・白・サンセリフ書体で『URBAN EXPLORER』の見出しを配置」)
  • 事実制約(ダイアグラムの作成時): 正確性の必要性を明記し、入力データ自体が事実に基づいていることを保証する(例:「科学的に正確な断面図」、「ヴィクトリア朝時代の歴史的正確性を確保」)。
  • 参照画像の利用:画像をアップロードして使用する場合、各画像の役割を明確に定義する(例:「画像Aをキャラクターのポーズに、画像Bをアートスタイルに、画像Cを背景に使用」)。

これらのポイントを押さえることで、より意図に沿った高品質な画像生成・編集が可能となりますので、色々と試してみてください。

まとめ

今回のブログでは、GoogleのNano Banana Pro(Gemini 3 Pro Image)の紹介とAPIを利用した画像生成・編集の例を紹介しました。以前にNano Banana を紹介した際にも、GPT Image 1 High FidelityやQwen-Image-Editと比較して、Nano Banana の性能は優れていると感じましたが、Nano Banana Proになったことで、更に高品質で自然な画像生成・編集が可能となっている印象を受けました。Google検索による情報検索も組み合わせたリアルタイム情報の活用や、4K解像度での生成、最大5名までの人物を一貫性を保ちながら新しいシーンを生成できる点など、画像生成・編集タスクにおいて非常に強力なツールとなっています。日本語の文字レンダリングもかなり改善されており、コマ割り漫画のような複雑な構図でもかなり自然に生成できるようになっています(参考:凄すぎてもはや意味不明!画像生成AIの到達点「Nano Banana Pro」ついに公開)。

最後に

グループ研究開発本部 AI研究開発室では、データサイエンティスト/機械学習エンジニアを募集しています。ビッグデータの解析業務などAI研究開発室にご興味を持って頂ける方がいらっしゃいましたら、ぜひ募集職種一覧からご応募をお願いします。皆さんのご応募をお待ちしています。

東京大学医科学研究所との共同研究プロジェクトのデータサイエンティスト(バイオインフォマティクス)を募集しております。火力の高い優秀な方のご応募をお待ちしております。(by Ideogram 3.0)

参考資料

  • Twitter
  • Facebook
  • はてなブックマークに追加

グループ研究開発本部の最新情報をTwitterで配信中です。ぜひフォローください。

 
  • AI研究開発室
  • 大阪研究開発グループ

関連記事