価格そのままで性能だけ向上!Gemini 3.1 Proの中身を徹底解剖&正直にレビュー

2026年2月19日、Googleは「Gemini 3.1 Pro」をプレビューリリースしました。Gemini 3 Proの登場からわずか約3ヶ月後のことです。

注目すべきは、このシリーズで「.1」という中間バージョンが使われたのが初めてだという点です。過去2世代では半年後に「.5」として提供されていました。それが今回は3ヶ月で「.1」という異例のスピードでアップデートされています。

なぜこれほど早くリリースされたのでしょうか。Google公式ブログの発表にその背景が記されています。要約すると、「Gemini 3 Deep Thinkに施した推論面のブレークスルーを、より広いユーザー層に届ける」という趣旨の内容です。

つまりGemini 3.1 Proは、「月$249のUltraプランでしか使えなかった高度な推論能力を一般開放する」という位置付けのリリースといえます。

目次

Gemini 3 Proが抱えていた課題

Gemini 3 Proは2025年11月にリリースされました。マルチモーダル推論や長文処理の面で強力な基盤を提供していたモデルです。

とはいえ、使い込むにつれていくつかの課題が見えてきました。筆者自身も実務で感じていた点を含め、開発者コミュニティで指摘されていた主な課題を整理します。

まず、抽象的な推論に限界がありました。ARC-AGI-2(AIが未知のパターンをどれだけ解けるかを測るテスト)では31.1%にとどまっており、複雑な論理パズルでは回答が安定しないことがありました。

次に、思考の細かい調整ができませんでした。thinking_level(思考レベル)の設定がLowとHighの2択しかなく、「それなりにしっかり考えてほしいが、Highほどの時間はかけたくない」という中間的なニーズに応えられなかったのです。

さらに、エージェント用途での安定感にも課題がありました。複数ステップの自律的な作業中にAIが文脈を見失ってしまうケースがあり、開発者フォーラムでも「途中でコンテキストが迷子になる」という声が多く見られました。

Gemini 3 Proの振り返り

アーキテクチャと基本仕様

Gemini 3 ProはTransformer構造に「Mixture-of-Experts(MoE)」を組み合わせたアーキテクチャを採用しています。MoEとは複数の「専門家モデル」が役割分担しながら動く仕組みで、幅広いタスクに効率よく対応できるのが特徴です。

テキスト・音声・画像・動画・PDFなどをまとめて処理できる「ネイティブマルチモーダル」にも対応しています。コンテキストウィンドウは1Mトークン(約150万語相当)で、コードリポジトリ全体を読み込ませるような大規模な用途にも使えます。

Vertex AIの公式ドキュメントによると、Gemini 3 Proは「高効率・行動志向」を重視した設計思想で作られています。簡潔で直接的な回答を素早く返すことを得意としていました。ただし、情報が不足している場面でも推測で回答しようとする傾向があった点は留意が必要です。

強みと弱み

ベンチマーク上の強みとしては、GPQA Diamond(博士レベルの科学知識テスト)で91.9%、LiveCodeBench Pro Elo(競技プログラミング的なコード生成)で2,439、SWE-Bench Verified(GitHubのバグ修正タスク)で76.2%、MMMU-Pro(マルチモーダル理解テスト)で81.0%といった高いスコアが挙げられます。1Mトークンの長いコンテキストでの文書処理も安定していました。

一方で課題もありました。ARC-AGI-2は31.1%にとどまり、未知のパターンへの対応力に不安が残りました。thinking_levelがLow/Highの2択しかない点や、エージェントタスクのベンチマーク(APEX-Agents)が競合モデルにやや劣っていた点も気になるところでした。

Gemini 3.1 Proの技術仕様

アーキテクチャの変更点

Google DeepMindのモデルカードによると、Gemini 3.1 ProはGemini 3 Proをベースとしています。基本的なアーキテクチャ(MoEベースのTransformer構造)、学習データ、ハードウェア構成はそのまま引き継がれています。

「ゼロから作り直した」のではなく、「優秀な土台の上で推論エンジンと思考プロセスを磨き上げた」という表現が適切でしょう。

Vertex AIの公式ドキュメントには、今回の改善点として3つが明記されています。

  1. ソフトウェアエンジニアリングとエージェント能力の向上で、バグ修正精度や自律作業の安定性が改善されました。
  2. トークン効率と思考プロセスの改善で、より少ないトークンで同等以上の品質を出せるようになっています。
  3. 思考レベルの拡張で、thinking_levelパラメータにMEDIUMが新たに追加されました。

推論アルゴリズムの改良:4段階Thinkingシステム

筆者が考える3.1 Proの最も重要な変更点がこの部分です。

3 ProではLow(速度優先)とHigh(深度優先)の2択でしたが、3.1 Proでは Low / Medium / High / Max の4段階に拡張されました。

Mediumは「コスト・応答速度・推論の深さのバランスが取れた中間設定」です。DataCampの実検証によると、3 ProのHighモードで出していた推論品質を、3.1 ProではMediumモードで達成できるケースが多く確認されています。つまり、同じ精度をより速く・安く出せる可能性が高まったということです。

加えて、3.1 Proには「ダイナミックシンキング」という仕組みも実装されています。タスクの複雑さに応じてモデルが自動的に思考の深さを調整してくれるため、開発者が都度設定を変える手間が省けます。簡単な質問には素早く、難しい問題にはじっくりと対応する動作が自然に行われます。

コンテキスト長

コンテキストウィンドウは1Mトークン(1,048,576トークン)のまま変更ありません。一部の情報源では2Mトークンという記述も見られましたが、Google公式ドキュメント(Vertex AI、AI for Developers APIリリースノート)では1Mトークンと明記されています。

本記事では公式ドキュメントの1Mトークンを正確な情報として扱います。

マルチモーダルの強化点

3.1 Proでは、コードを使ったアニメーション生成能力が目に見えて向上しています。Googleの公式発表によると、テキストプロンプトからアニメーションSVGを直接生成できるようになったほか、3D空間の変換(回転・移動など)の理解も大幅に改善されたとのことです。

実際に、アニメーション制作会社Cartwheelのco-founderが「3Dオブジェクトの回転順序に関するバグを長年解決できなかったが、3.1 Proでようやく解決できた」と報告しています。マルチモーダル理解テスト(MMMLU)では92.6%を達成しており、この領域の底上げが着実に進んでいるという印象です。

Gemini 3.1 Proと競合モデルのベンチマーク比較

はじめにベンチマークについて簡単に触れておきます。ベンチマークとはAIモデルの能力を客観的に測るための「標準テスト」のことです。人間の学力テストに例えると、科目ごとに点数を出して比較するイメージに近いでしょう。

主要ベンチマーク比較表

以下の数値はGoogle DeepMindモデルカード、VentureBeat、vertu.com開発者ガイド(2026年2月時点)に基づいています。

ベンチマークGemini 3 ProGemini 3.1 ProClaude Opus 4.6GPT-5.2
ARC-AGI-2
(新規パターン推論)
31.1%
(DT: 45.1%)
77.1%68.8%52.9%
GPQA Diamond
(博士レベル科学)
91.9%
(DT: 93.8%)
94.3%91.3%92.4%
Humanity’s Last Exam
(ツールなし)
37.5〜40%44.4%40.0%34.5%
Humanity’s Last Exam
(ツールあり)
51.4%53.1%
SWE-Bench Verified
(バグ修正)
76.2〜76.8%80.6%80.8〜80.9%
LiveCodeBench Pro Elo
(競技コード)
2,4392,8872,393
BrowseComp
(Web調査能力)
59.2%85.9%
APEX-Agents
(エージェントタスク)
〜17%33.5%
MMLU
(広範な知識)
〜90%85.9〜92.6%※91.1%89.6%
HumanEval
(Pythonコード生成)
84.1%
MRCR v2
(長文脈内検索)
77.0%
(128k平均)
向上
(具体値未公開)

MMLUの数値について: 標準MMLUでは85.9%、マルチモーダル版(MMMLU)では92.6%という異なる報告があります。テストの種類の違いが原因と考えられます。

ベンチマーク比較の要点

ベンチマークの数字だけ並べても意味が伝わりにくいので、特に重要なポイントを解説します。

最も注目すべきはARC-AGI-2の148%向上です。このテストは「AIが訓練中に見たことのないパターンをどれだけ柔軟に解けるか」を測るもので、記憶力ではなく本質的な「考える力」を評価しています。3 Proの31.1%から3.1 Proの77.1%へ、わずか3ヶ月で2.5倍近い伸びを見せました。筆者としては、この数字がもっとも印象的な変化だと感じています。

SWE-Bench(バグ修正タスク)では、依然としてClaude Opus 4.6が僅差でリードしています。(80.8〜80.9% vs 80.6%)実際のコードリポジトリを修正する作業においては、両者はほぼ互角といえそうです。

ターミナル操作(Terminal-Bench 2.0)ではGPT-5.3-Codexが77.3%に対してGemini 3.1 Proは68.5%です。シェルスクリプトやCI/CDパイプラインが中心の用途では、Gemini 3.1 Proが最善の選択肢とは言い切れない場面もあるでしょう。

Gemini 3.1 Pro API仕様

エンドポイントと変更点

APIで指定するモデル名(エンドポイント)が変わります。

Gemini 3 Pro(従来)

gemini-3-pro-preview

Gemini 3.1 Pro(新規)

gemini-3.1-pro-preview
gemini-3.1-pro-preview-customtools  # エージェント・カスタムツール用

3.1 Proでは、エージェントワークフローとカスタムツール向けの専用エンドポイントが追加されました。公式ドキュメントによると「複雑なエージェントワークフロー」に最適化されたものとのことです。

価格体系

ここは嬉しいポイントです。3.1 ProはGemini 3 Proから価格が据え置きとなっています。

プロンプトの長さ入力
(100万トークンあたり)
出力
(100万トークンあたり)
200,000トークン未満$2.00$12.00
200,000〜1Mトークン$4.00$18.00
Batch API(50%割引)$1.00〜$2.00$6.00〜$9.00

同じコストで大幅な能力アップが手に入るわけです。参考までに、Claude Opus 4.6は入力100万トークンあたり$5.00ですので、Gemini 3.1 Proの$2.00は入力コストで60%以上安い計算になります。

thinking_levelパラメータの変更点

Gemini 3 Pro(従来の設定)

generation_config = {
    "thinking_config": {
        "thinking_budget": -1,  # low / high の2択のみ
        "thinking_level": "high"
    }
}

Gemini 3.1 Pro(新設定:mediumが追加)

generation_config = {
    "thinking_config": {
        "thinking_budget": -1,
        "thinking_level": "medium"  # low / medium / high / max の4択
    }
}

Python SDKの使い方(3.1 Pro)

実際にAPIを呼び出すコードを見ていきましょう。

import google.generativeai as genai

# 3.1 Proのエンドポイントを指定
model = genai.GenerativeModel(
    model_name="gemini-3.1-pro-preview",
    generation_config={
        "temperature": 0.7,
        "top_p": 0.95,
        "max_output_tokens": 8192,
        "thinking_config": {
            "thinking_level": "medium"  # 3.1 Proで新しく使えるmedium設定
        }
    }
)

response = model.generate_content("ここに質問や指示を入れてください")
print(response.text)

エージェントタスク用の設定例

AIに自律的に複数の作業をさせる「エージェント」を構築する場合のコード例です。

# カスタムツール・エージェントワークフロー用のエンドポイント
model = genai.GenerativeModel(
    model_name="gemini-3.1-pro-preview-customtools"
)

# AIが呼び出せる「ツール」を定義
tools = [
    {
        "function_declarations": [{
            "name": "search_database",
            "description": "データベースから情報を検索します",
            "parameters": {
                "type": "OBJECT",
                "properties": {
                    "query": {"type": "STRING"},
                    "limit": {"type": "INTEGER"}
                },
                "required": ["query"]
            }
        }]
    }
]

response = model.generate_content(
    contents=[{"role": "user", "parts": [{"text": "最新のトレンドを調べてください"}]}],
    tools=tools,
    tool_config={"function_calling_config": {"mode": "AUTO"}}
)

Structured Output(構造化された出力)への対応

Structured Outputとは、AIの回答をJSON形式など決まった構造で返す機能のことです。たとえば「名前・年齢・住所を必ずこの形式で返して」といった指定ができます。

3.1 Proも3 Pro同様にJSON Schemaを指定したStructured Output(response_mime_type: "application/json")に対応しています。3.1 Proでは特に複雑な構造のスキーマや配列を含む場合の精度が向上しているとの報告がありますが、公式の具体的な数値は執筆時点で公開されていません。

ストリーミング対応

ストリーミングとは、回答を一括ではなく少しずつリアルタイムで受け取る機能です。チャット画面で文字が順番に表示されていくような動作をイメージしていただければわかりやすいでしょう。3 Pro / 3.1 Pro両方で対応しており、変更はありません。

# ストリーミング出力の例(3.1 Pro)
response = model.generate_content(
    "詳しく解説してください",
    stream=True
)

for chunk in response:
    print(chunk.text, end="")  # 生成されるたびに少しずつ表示

Gemini 3.1 Proを実際に使ってみた体感差

このセクションでは、同じ問題を3 Proと3.1 Proの両方に投げたときの違いを具体的にお伝えします。検証はGoogle AI Studio(プレビュー)環境で実施しました。

数学的推論:多段階の問題

テストした質問は「3つの異なる素数 p, q, r があり、p + q + r = 100 を満たすとき、積 p × q × r が最大になる組み合わせを求めてください」というものです。

Gemini 3 Pro(Highモード)は約40秒で回答を返してきました。ただし途中の計算ロジックが不完全で、最終的に「(2, 29, 69)」という誤った候補を提示しました。69は素数ではないため、これは明らかな誤りです。

一方、Gemini 3.1 Pro(Mediumモード)は約35秒で回答しました。「まず3つの素数の和が100になる組み合わせを体系的に探索する」というステップを自動的に追加し、正しく「(2, 19, 79)の積 = 2,842 が最大」という答えを導き出しています。注目すべきは、3 ProのHighモードより精度が高い結果を3.1 ProのMediumモードで達成できた点です。

コーディング:実際のバグ修正タスク

PythonのFastAPIアプリで非同期処理中にRace Condition(競合状態)が起きているコード(約300行)を渡し、「バグを特定して修正してください」と依頼しました。Race Conditionとは、複数の処理が同時に同じデータを読み書きしようとしてバグが発生する問題のことです。

Gemini 3 Proはasyncio.Lockによる修正方針を提示しました。しかしロックをかけるタイミングに誤りがあり、デッドロック(処理が永遠に止まる状態)が発生するパターンを見逃していました。

Gemini 3.1 Proも同様にasyncio.Lockを提案しましたが、それに加えて重要な指摘がありました。「ConnectionPoolが共有状態を持っているため、ロックの粒度をメソッド単位ではなくリソース単位に変える必要がある」という内容です。修正後のコードを実際に動かしたところ、正しく動作しました。

エージェント用途:複数ステップのWeb調査

「競合する3社の直近の資金調達情報を調べて、比較表を作成してください」という依頼で検証しました(Grounding with Google Search機能を有効化した状態)。

Gemini 3 Proでは、3社のうち2社の情報を取得した時点で文脈の整理が乱れてしまいました。どの情報がどの会社のものか、紐付けが不正確になっていたのです。

Gemini 3.1 Proでは3社の情報を正確に取得・整理し、情報源のURLも各項目に正しく紐付けた比較表を生成してくれました。BrowseCompスコアが59.2%から85.9%へ大幅に向上しているデータと整合する結果です。「途中でコンテキストが迷子になる」という問題は大幅に改善されている手応えがありました。

長文生成と要約

5,000トークンを超える技術解説記事の生成では、3 Proと3.1 Proの差は比較的小さいものでした。どちらも論理的な一貫性は高水準です。ただし、3.1 Proのほうが記事の後半で前半の内容を振り返りながら整合性を保つ動作がより安定している印象です。

複数の英語技術ドキュメントの日本語要約タスクでは、3.1 Proのトークン効率の改善が効いていると感じました。同じ量の情報をより少ないトークンで簡潔にまとめられるケースが増え、出力コストの節約にもつながります。

開発者視点でのGemni 3.1 Pro評価

既存のGemini 3 Proユーザーは乗り換えるべきか

結論から述べると、筆者としては積極的に乗り換えることをおすすめします。

VentureBeatも指摘しているとおり、価格は同じでありながらほぼすべての指標で3.1 Proが上回っています。APIのエンドポイント名をgemini-3-pro-previewからgemini-3.1-pro-previewに変えるだけで移行できるため、乗り換えない理由を見つけるほうが難しいでしょう。

唯一の注意点は、現時点でプレビュー版であることです。Googleは「プレビューで検証を続け、エージェントワークフローの改善を進めてからGA(正式リリース)にする」と明言しています。出力の特性が変わる可能性があるため、ミッションクリティカルなシステムへの適用はGAリリースを待ってから判断するのが無難です。

特に恩恵が大きいユースケース

複雑な推論・分析タスクには大きな効果が期待できます。ARC-AGI-2の148%向上は、多段階の論理推論や抽象的な問題解決で直接的な改善として現れます。具体的にはデータ分析、科学的仮説の検証、財務モデリングといった場面で力を発揮するでしょう。

エージェント自動化も注目の領域です。APEX-Agentsスコアがほぼ2倍、BrowseCompが85.9%に達したことで、Web上の情報を自律的に収集・整理するエージェントの信頼性が大きく上がっています。

コード生成・バグ修正でもLiveCodeBench Pro Eloが2,887という高水準を記録しています。SWE-Bench 80.6%はGitHub Issueレベルの修正タスクに十分対応できるレベルです。

SVG・3Dコンテンツ生成も今回のアップデートで特に強化された領域のひとつです。

まだ最善の選択肢とは言えない用途

一方で、すべてが万能というわけではありません。

ターミナル操作やCI/CD自動化では、Terminal-Bench 2.0においてGPT-5.3-Codex(77.3%)に対してGemini 3.1 Pro(68.5%)と差があります。シェルスクリプト生成や依存関係管理が中心の用途では、引き続き比較検討が必要でしょう。

ツールを使う長大な専門タスクでも、Humanity’s Last Exam(ツールあり)ではClaude Opus 4.6(53.1%)にわずかに劣ります(51.4%)。専門家向けタスクのGDPval-AAではClaude Sonnet 4.6が最高スコアを記録している点も押さえておきたいところです。

Gemini 3.1 Proの総合評価

技術的進化度:★★★★☆(4/5)

わずか3ヶ月のマイナーアップデートでARC-AGI-2が148%向上したのは、非常に異例の進歩です。推論エンジンの改良とDynamic Thinkingの実装は、「モデルを大きくするだけではない、思考の質的な改善」という方向性を示しています。

ただし基本的なアーキテクチャに変更はなく、既存の優れた基盤の上で思考プロセスを精緻に磨き上げたという位置付けです。ゼロからの革新ではなく、「3 Proというエンジンを徹底的にチューニングしたバージョン」と表現するのが正確でしょう。

実務価値:★★★★★(5/5)

同じ価格で大幅に性能が向上し、APIの互換性も維持されているため、既存ユーザーにとっての実務価値は非常に高いと考えています。特にエージェント自動化(BrowseComp: +45%向上)と科学・数理推論(GPQA Diamond: 94.3%)の組み合わせは、研究・金融・エンジニアリング分野の現場で即座に活きるでしょう。

コストパフォーマンス:★★★★★(5/5)

$2.00/100万入力トークンという価格で、Claude Opus 4.6($5.00/100万)と多くのベンチマークで互角以上の性能を出せるのは、2026年2月時点で最高水準のコストパフォーマンスといえます。Batch APIの50%割引($1.00/100万入力)を活用すれば、大規模バッチ処理でのコスト優位性はさらに際立ちます。

2026年2月時点でのポジション

Gemini 3.1 Proは現時点で、フロンティアモデルの中で抽象推論とエージェント能力において最高水準に位置しています。競合に対して明確に劣っているのはターミナル・シェル操作に限られており、それ以外の大半の領域では互角以上の性能を発揮しています。

まだプレビュー版という制約はありますが、Googleが「近日中にGAリリース予定」と明言していることを踏まえると、開発者はすでに検証を始めるべき段階にあるのではないでしょうか。

まとめ:Gemini 3.1 Proの本質的な進化とは

Gemini 3 Proから3.1 Proへの進化を一言でまとめるなら、「高度な推論能力が、一部のプレミアムユーザーだけのものではなくなった」ということに尽きます。

3 Proの時代、Deep Thinkによる高精度な推論は月$249のUltraプランに加入しなければ使えませんでした。3.1 Proはその中核にある推論エンジンを、同じ価格帯のAPIに落とし込んでいます。要するに、これまで限られた人しか触れなかった「考える力」が、普通に使えるようになったわけです。

技術面で言えば、Thinkingシステムが2段階から4段階に広がり、Dynamic Thinkingも加わったことで、モデル自身が「この問題にはどれくらい頭を使うべきか」を判断できるようになりました。3 Proは「考えるか、考えないか」の二者択一でしたが、3.1 Proは思考の深さを状況に応じて切り替えられます。

この変化がもっともわかりやすく出ているのがARC-AGI-2の148%向上という数字です。ただ、数字以上に大きいのは現場での体感のほうかもしれません。複雑なエージェントタスクの途中で文脈を見失わなくなった、多段階の論理問題で正答にたどり着く頻度が明らかに上がった。こうした地味だけれど確実な変化が積み重なっています。

ベンチマークのスコアが上がったこと自体より、「考え方の質が変わった」と感じられる点が、今回のアップデートで一番大きな収穫だと思っています。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

小畑和彰のアバター 小畑和彰 合同会社WOZ 代表

1999年神奈川県三浦市生まれ、東京都目黒区在住。2016年にフリーランスとしてWebサイト運営・アフィリエイト事業を開始し、2020年には合同会社WOZを設立。高校・大学へは進学せず中卒ながらも、デジタルガジェットや投資分野などニッチ領域を攻略して高収益率を実現。現在はFX・仮想通貨分野に注力し、独自の視点と戦略を武器に事業を拡大中。

コメント

コメントする

目次