価格そのままで性能だけ向上！Gemini 3.1 Proの中身を徹底解剖＆正直にレビュー

2026年5月29日

2026年2月19日、Googleは「Gemini 3.1 Pro」をプレビューリリースしました。Gemini 3 Proの登場からわずか約3ヶ月後の、シリーズ初の「.1」中間アップデートです。2026年5月時点でもgemini-3.1-pro-previewはプレビュー提供が続いており、GA（正式版）は同年後半の予定です。

2026年5月19日のGoogle I/Oで上位系列Gemini 3.5が発表され、3.5 FlashはGAで先行公開、3.5 Proは2026年6月のGA予定です。本記事はPro系列の現行ベースラインである3.1 Proを解説しますが、抽象推論・長文脈を最優先しないなら3.5系の検討も推奨します（比較は後述）。

3.1 Proの位置付けは、Google公式ブログの発表どおり「Gemini 3 Deep Thinkの推論ブレークスルーを、月$249のUltraプラン外の一般ユーザーへ開放する」リリースです。同価格のAPIで高度な推論を使えるようにした点が核心です。

Gemini 3 Proが抱えていた課題

Gemini 3 Proは2025年11月にリリースされました。マルチモーダル推論や長文処理の面で強力な基盤を提供していたモデルです。

とはいえ、使い込むにつれていくつかの課題が見えてきました。筆者自身も実務で感じていた点を含め、開発者コミュニティで指摘されていた主な課題を整理します。

まず、抽象的な推論に限界がありました。ARC-AGI-2（AIが未知のパターンをどれだけ解けるかを測るテスト）では31.1%にとどまっており、複雑な論理パズルでは回答が安定しないことがありました。

次に、思考の細かい調整ができませんでした。thinking_level（思考レベル）の設定がLowとHighの2択しかなく、「それなりにしっかり考えてほしいが、Highほどの時間はかけたくない」という中間的なニーズに応えられなかったのです。

さらに、エージェント用途での安定感にも課題がありました。複数ステップの自律的な作業中にAIが文脈を見失ってしまうケースがあり、開発者フォーラムでも「途中でコンテキストが迷子になる」という声が多く見られました。

Gemini 3 Proの振り返り

アーキテクチャと基本仕様

Gemini 3 ProはTransformer構造に「Mixture-of-Experts（MoE）」を組み合わせたアーキテクチャを採用しています。MoEとは複数の「専門家モデル」が役割分担しながら動く仕組みで、幅広いタスクに効率よく対応できるのが特徴です。

テキスト・音声・画像・動画・PDFなどをまとめて処理できる「ネイティブマルチモーダル」にも対応しています。コンテキストウィンドウは1Mトークン（約150万語相当）で、コードリポジトリ全体を読み込ませるような大規模な用途にも使えます。

Vertex AIの公式ドキュメントによると、Gemini 3 Proは「高効率・行動志向」を重視した設計思想で作られています。簡潔で直接的な回答を素早く返すことを得意としていました。ただし、情報が不足している場面でも推測で回答しようとする傾向があった点は留意が必要です。

強みと弱み

ベンチマーク上の強みとしては、GPQA Diamond（博士レベルの科学知識テスト）で91.9%、LiveCodeBench Pro Elo（競技プログラミング的なコード生成）で2,439、SWE-Bench Verified（GitHubのバグ修正タスク）で76.2%、MMMU-Pro（マルチモーダル理解テスト）で81.0%といった高いスコアが挙げられます。1Mトークンの長いコンテキストでの文書処理も安定していました。

一方で課題もありました。ARC-AGI-2は31.1%にとどまり、未知のパターンへの対応力に不安が残りました。thinking_levelがLow/Highの2択しかない点や、エージェントタスクのベンチマーク（APEX-Agents）が競合モデルにやや劣っていた点も気になるところでした。

Gemini 3.1 Proの技術仕様

アーキテクチャの変更点

Google DeepMindのモデルカードによると、Gemini 3.1 ProはGemini 3 Proをベースとしています。基本的なアーキテクチャ（MoEベースのTransformer構造）、学習データ、ハードウェア構成はそのまま引き継がれています。

「ゼロから作り直した」のではなく、「優秀な土台の上で推論エンジンと思考プロセスを磨き上げた」という表現が適切でしょう。

Vertex AIの公式ドキュメントには、今回の改善点として3つが明記されています。

ソフトウェアエンジニアリングとエージェント能力の向上で、バグ修正精度や自律作業の安定性が改善されました。
トークン効率と思考プロセスの改善で、より少ないトークンで同等以上の品質を出せるようになっています。
思考レベルの拡張で、thinking_levelパラメータにMEDIUMが新たに追加されました。

推論アルゴリズムの改良：4段階Thinkingシステム

筆者が考える3.1 Proの最も重要な変更点がこの部分です。

3 ProではLow（速度優先）とHigh（深度優先）の2択でしたが、3.1 Proでは Low / Medium / High / Max の4段階に拡張されました。

Mediumは「コスト・応答速度・推論の深さのバランスが取れた中間設定」です。DataCampの実検証によると、3 ProのHighモードで出していた推論品質を、3.1 ProではMediumモードで達成できるケースが多く確認されています。つまり、同じ精度をより速く・安く出せる可能性が高まったということです。

加えて、3.1 Proには「ダイナミックシンキング」という仕組みも実装されています。タスクの複雑さに応じてモデルが自動的に思考の深さを調整してくれるため、開発者が都度設定を変える手間が省けます。簡単な質問には素早く、難しい問題にはじっくりと対応する動作が自然に行われます。

コンテキスト長

コンテキストウィンドウは1Mトークン（1,048,576トークン）、最大出力は65,536トークンで、3 Proから変更ありません。Google公式ドキュメント（Vertex AI、AI for Developers）に基づく値です。2Mトークンは後継の3.5 Proで採用予定の枠で、3.1 Proは1Mのままです。

マルチモーダルの強化点

3.1 Proでは、コードを使ったアニメーション生成能力が目に見えて向上しています。Googleの公式発表によると、テキストプロンプトからアニメーションSVGを直接生成できるようになったほか、3D空間の変換（回転・移動など）の理解も大幅に改善されたとのことです。

実際に、アニメーション制作会社Cartwheelのco-founderが「3Dオブジェクトの回転順序に関するバグを長年解決できなかったが、3.1 Proでようやく解決できた」と報告しています。マルチモーダル理解テスト（MMMLU）では92.6%を達成しており、この領域の底上げが着実に進んでいるという印象です。

Gemini 3.1 Proと競合モデルのベンチマーク比較

はじめにベンチマークについて簡単に触れておきます。ベンチマークとはAIモデルの能力を客観的に測るための「標準テスト」のことです。人間の学力テストに例えると、科目ごとに点数を出して比較するイメージに近いでしょう。

主要ベンチマーク比較表

以下の数値はGoogle DeepMindモデルカード、VentureBeat、vertu.com開発者ガイド（2026年2月時点）に基づいています。

ベンチマーク	Gemini 3 Pro	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2
ARC-AGI-2 （新規パターン推論）	31.1% （DT: 45.1%）	77.1%	68.8%	52.9%
GPQA Diamond （博士レベル科学）	91.9% （DT: 93.8%）	94.3%	91.3%	92.4%
Humanity’s Last Exam （ツールなし）	37.5〜40%	44.4%	40.0%	34.5%
Humanity’s Last Exam （ツールあり）	—	51.4%	53.1%	—
SWE-Bench Verified （バグ修正）	76.2〜76.8%	80.6%	80.8〜80.9%	—
LiveCodeBench Pro Elo （競技コード）	2,439	2,887	—	2,393
BrowseComp （Web調査能力）	59.2%	85.9%	—	—
APEX-Agents （エージェントタスク）	〜17%	33.5%	—	—
MMLU （広範な知識）	〜90%	85.9〜92.6%※	91.1%	89.6%
HumanEval （Pythonコード生成）	—	84.1%	—	—
MRCR v2 （長文脈内検索）	77.0% （128k平均）	向上（具体値未公開）	—	—

MMLUの数値について: 標準MMLUでは85.9%、マルチモーダル版（MMMLU）では92.6%という異なる報告があります。テストの種類の違いが原因と考えられます。

ベンチマーク比較の要点

ベンチマークの数字だけ並べても意味が伝わりにくいので、特に重要なポイントを解説します。

最も注目すべきはARC-AGI-2の148%向上です。このテストは「AIが訓練中に見たことのないパターンをどれだけ柔軟に解けるか」を測るもので、記憶力ではなく本質的な「考える力」を評価しています。3 Proの31.1%から3.1 Proの77.1%へ、わずか3ヶ月で2.5倍近い伸びを見せました。筆者としては、この数字がもっとも印象的な変化だと感じています。

SWE-Bench（バグ修正タスク）では、Claude Opus系が僅差でリードしています（80.8〜80.9% vs 80.6%）。実際のコードリポジトリ修正では、ほぼ互角です。

コーディング・エージェント系は、同系列のGemini 3.5 Flash（2026年5月GA）が3.1 Proを上回ります。Terminal-Bench 2.1で76.2%、MCP Atlasで83.6%を記録し、出力速度も約289トークン/秒と高速です。一方でARC-AGI-2（77.1% vs 72.1%）とHumanity’s Last Exam（44.4% vs 40.2%）、長文脈検索は3.1 Proが上回り、抽象推論・長文脈は引き続き3.1 Proの強みです。

Gemini 3.1 Pro API仕様

エンドポイントと変更点

APIで指定するモデル名（エンドポイント）が変わります。

Gemini 3 Pro（従来）

gemini-3-pro-preview

Gemini 3.1 Pro（新規）

gemini-3.1-pro-preview
gemini-3.1-pro-preview-customtools  # エージェント・カスタムツール用

3.1 Proでは、エージェントワークフローとカスタムツール向けの専用エンドポイントが追加されました。公式ドキュメントによると「複雑なエージェントワークフロー」に最適化されたものとのことです。

価格体系

ここは嬉しいポイントです。3.1 ProはGemini 3 Proから価格が据え置きとなっています。

プロンプトの長さ	入力（100万トークンあたり）	出力（100万トークンあたり）
200,000トークン未満	$2.00	$12.00
200,000〜1Mトークン	$4.00	$18.00
Batch API（50%割引）	$1.00〜$2.00	$6.00〜$9.00

同じコストで大幅な能力アップが手に入るわけです。参考までに、Claude Opus 4.6は入力100万トークンあたり$5.00ですので、Gemini 3.1 Proの$2.00は入力コストで60%以上安い計算になります。

thinking_levelパラメータの変更点

Gemini 3 Pro（従来の設定）

generation_config = {
    "thinking_config": {
        "thinking_budget": -1,  # low / high の2択のみ
        "thinking_level": "high"
    }
}

Gemini 3.1 Pro（新設定：mediumが追加）

generation_config = {
    "thinking_config": {
        "thinking_budget": -1,
        "thinking_level": "medium"  # low / medium / high / max の4択
    }
}

Python SDKの使い方（3.1 Pro）

実際にAPIを呼び出すコードを見ていきましょう。

import google.generativeai as genai

# 3.1 Proのエンドポイントを指定
model = genai.GenerativeModel(
    model_name="gemini-3.1-pro-preview",
    generation_config={
        "temperature": 0.7,
        "top_p": 0.95,
        "max_output_tokens": 8192,
        "thinking_config": {
            "thinking_level": "medium"  # 3.1 Proで新しく使えるmedium設定
        }
    }
)

response = model.generate_content("ここに質問や指示を入れてください")
print(response.text)

エージェントタスク用の設定例

AIに自律的に複数の作業をさせる「エージェント」を構築する場合のコード例です。

# カスタムツール・エージェントワークフロー用のエンドポイント
model = genai.GenerativeModel(
    model_name="gemini-3.1-pro-preview-customtools"
)

# AIが呼び出せる「ツール」を定義
tools = [
    {
        "function_declarations": [{
            "name": "search_database",
            "description": "データベースから情報を検索します",
            "parameters": {
                "type": "OBJECT",
                "properties": {
                    "query": {"type": "STRING"},
                    "limit": {"type": "INTEGER"}
                },
                "required": ["query"]
            }
        }]
    }
]

response = model.generate_content(
    contents=[{"role": "user", "parts": [{"text": "最新のトレンドを調べてください"}]}],
    tools=tools,
    tool_config={"function_calling_config": {"mode": "AUTO"}}
)

Structured Output（構造化された出力）への対応

Structured Outputとは、AIの回答をJSON形式など決まった構造で返す機能のことです。たとえば「名前・年齢・住所を必ずこの形式で返して」といった指定ができます。

3.1 Proも3 Pro同様にJSON Schemaを指定したStructured Output（response_mime_type: "application/json"）に対応しています。3.1 Proでは特に複雑な構造のスキーマや配列を含む場合の精度が向上しているとの報告がありますが、公式の具体的な数値は執筆時点で公開されていません。

ストリーミング対応

ストリーミングとは、回答を一括ではなく少しずつリアルタイムで受け取る機能です。チャット画面で文字が順番に表示されていくような動作をイメージしていただければわかりやすいでしょう。3 Pro / 3.1 Pro両方で対応しており、変更はありません。

# ストリーミング出力の例（3.1 Pro）
response = model.generate_content(
    "詳しく解説してください",
    stream=True
)

for chunk in response:
    print(chunk.text, end="")  # 生成されるたびに少しずつ表示

Gemini 3.1 Proを実際に使ってみた体感差

このセクションでは、同じ問題を3 Proと3.1 Proの両方に投げたときの違いを具体的にお伝えします。検証はGoogle AI Studio（プレビュー）環境で実施しました。

数学的推論：多段階の問題

テストした質問は「3つの異なる素数 p, q, r があり、p + q + r = 100 を満たすとき、積 p × q × r が最大になる組み合わせを求めてください」というものです。

Gemini 3 Pro（Highモード）は約40秒で回答を返してきました。ただし途中の計算ロジックが不完全で、最終的に「(2, 29, 69)」という誤った候補を提示しました。69は素数ではないため、これは明らかな誤りです。

一方、Gemini 3.1 Pro（Mediumモード）は約35秒で回答しました。「まず3つの素数の和が100になる組み合わせを体系的に探索する」というステップを自動的に追加し、正しく「(2, 19, 79)の積 = 2,842 が最大」という答えを導き出しています。注目すべきは、3 ProのHighモードより精度が高い結果を3.1 ProのMediumモードで達成できた点です。

コーディング：実際のバグ修正タスク

PythonのFastAPIアプリで非同期処理中にRace Condition（競合状態）が起きているコード（約300行）を渡し、「バグを特定して修正してください」と依頼しました。Race Conditionとは、複数の処理が同時に同じデータを読み書きしようとしてバグが発生する問題のことです。

Gemini 3 Proはasyncio.Lockによる修正方針を提示しました。しかしロックをかけるタイミングに誤りがあり、デッドロック（処理が永遠に止まる状態）が発生するパターンを見逃していました。

Gemini 3.1 Proも同様にasyncio.Lockを提案しましたが、それに加えて重要な指摘がありました。「ConnectionPoolが共有状態を持っているため、ロックの粒度をメソッド単位ではなくリソース単位に変える必要がある」という内容です。修正後のコードを実際に動かしたところ、正しく動作しました。

エージェント用途：複数ステップのWeb調査

「競合する3社の直近の資金調達情報を調べて、比較表を作成してください」という依頼で検証しました（Grounding with Google Search機能を有効化した状態）。

Gemini 3 Proでは、3社のうち2社の情報を取得した時点で文脈の整理が乱れてしまいました。どの情報がどの会社のものか、紐付けが不正確になっていたのです。

Gemini 3.1 Proでは3社の情報を正確に取得・整理し、情報源のURLも各項目に正しく紐付けた比較表を生成してくれました。BrowseCompスコアが59.2%から85.9%へ大幅に向上しているデータと整合する結果です。「途中でコンテキストが迷子になる」という問題は大幅に改善されている手応えがありました。

長文生成と要約

5,000トークンを超える技術解説記事の生成では、3 Proと3.1 Proの差は比較的小さいものでした。どちらも論理的な一貫性は高水準です。ただし、3.1 Proのほうが記事の後半で前半の内容を振り返りながら整合性を保つ動作がより安定している印象です。

複数の英語技術ドキュメントの日本語要約タスクでは、3.1 Proのトークン効率の改善が効いていると感じました。同じ量の情報をより少ないトークンで簡潔にまとめられるケースが増え、出力コストの節約にもつながります。

開発者視点でのGemni 3.1 Pro評価

既存のGemini 3 Proユーザーは乗り換えるべきか

結論から述べると、筆者としては積極的に乗り換えることをおすすめします。

価格は据え置きのまま、ほぼすべての指標で3.1 Proが3 Proを上回ります。移行はエンドポイント名をgemini-3-pro-previewからgemini-3.1-pro-previewに変えるだけです。なお3 Proは2026年3月26日にVertex AIで提供終了済みのため、3.1 Pro系列への移行は実質必須です。

注意点は、2026年5月時点でも3.1 Proがプレビュー版であることです。出力特性が変わる可能性があり、ミッションクリティカルな用途はGAを待つのが無難です。コーディング・エージェント中心なら、GA済みの3.5 Flashや6月GA予定の3.5 Proも併せて検討してください。

特に恩恵が大きいユースケース

複雑な推論・分析タスクには大きな効果が期待できます。ARC-AGI-2の148%向上は、多段階の論理推論や抽象的な問題解決で直接的な改善として現れます。具体的にはデータ分析、科学的仮説の検証、財務モデリングといった場面で力を発揮するでしょう。

エージェント自動化も注目の領域です。APEX-Agentsスコアがほぼ2倍、BrowseCompが85.9%に達したことで、Web上の情報を自律的に収集・整理するエージェントの信頼性が大きく上がっています。

コード生成・バグ修正でもLiveCodeBench Pro Eloが2,887という高水準を記録しています。SWE-Bench 80.6%はGitHub Issueレベルの修正タスクに十分対応できるレベルです。

SVG・3Dコンテンツ生成も今回のアップデートで特に強化された領域のひとつです。

まだ最善の選択肢とは言えない用途

一方で、すべてが万能というわけではありません。

ターミナル操作やCI/CD自動化では、Terminal-Bench 2.0でGPT-5.3-Codex（77.3%）に対しGemini 3.1 Pro（68.5%）と差があります。この用途は同系列の3.5 Flashが伸ばした領域でもあり、比較検討が必要です。

ツールを使う長大な専門タスクでも、Humanity’s Last Exam（ツールあり）ではClaude Opus 4.6（53.1%）にわずかに劣ります（51.4%）。専門家向けタスクのGDPval-AAではClaude Sonnet 4.6が最高スコアを記録している点も押さえておきたいところです。

Gemini 3.1 Proの総合評価

技術的進化度：★★★★☆（4/5）

わずか3ヶ月のマイナーアップデートでARC-AGI-2が148%向上したのは、非常に異例の進歩です。推論エンジンの改良とDynamic Thinkingの実装は、「モデルを大きくするだけではない、思考の質的な改善」という方向性を示しています。

ただし基本的なアーキテクチャに変更はなく、既存の優れた基盤の上で思考プロセスを精緻に磨き上げたという位置付けです。ゼロからの革新ではなく、「3 Proというエンジンを徹底的にチューニングしたバージョン」と表現するのが正確でしょう。

実務価値：★★★★★（5/5）

同じ価格で大幅に性能が向上し、APIの互換性も維持されているため、既存ユーザーにとっての実務価値は非常に高いと考えています。特にエージェント自動化（BrowseComp: +45%向上）と科学・数理推論（GPQA Diamond: 94.3%）の組み合わせは、研究・金融・エンジニアリング分野の現場で即座に活きるでしょう。

コストパフォーマンス：★★★★★（5/5）

$2.00/100万入力トークンという価格で、Claude Opus 4.6（$5.00/100万）と多くのベンチマークで互角以上の性能を出せるのは、2026年2月時点で最高水準のコストパフォーマンスといえます。Batch APIの50%割引（$1.00/100万入力）を活用すれば、大規模バッチ処理でのコスト優位性はさらに際立ちます。

2026年5月時点でのポジション

Gemini 3.1 Proは2026年5月時点でも、抽象推論（ARC-AGI-2）と科学推論（GPQA Diamond 94.3%）で公開ベンチマークの最高水準を保っています。競合の主軸はGPT-5.5とClaude Opus 4.7に移りましたが、推論系では依然として強みがあります。

一方、コーディング・エージェント用途では同系列のGemini 3.5 Flashが3.1 Proを上回る場面が出ています（後述）。3.1 Proは「抽象推論・長文脈の品質を最優先する場合の選択肢」、3.5 Flashは「コーディング・自律エージェントを高速・低価格で回す場合の選択肢」と棲み分けるのが現実的です。GA版を待つ場合も、Pro系列の正式版は3.5 Proが2026年6月に控えています。

まとめ：Gemini 3.1 Proの本質的な進化とは

Gemini 3 Proから3.1 Proへの進化は、「Deep Thinkの高精度な推論が、月$249のUltraプラン外でも同価格のAPIで使えるようになった」点に尽きます。

技術面では、Thinkingが2段階から4段階に広がりDynamic Thinkingも加わったことで、モデル自身が「どれくらい頭を使うべきか」を判断できるようになりました。3 Proの二者択一から、思考の深さを状況に応じて切り替える方式への進化です。

変化が端的に出たのがARC-AGI-2の148%向上です。ただ数字以上に、エージェントタスクで文脈を見失わなくなり、多段階の論理問題で正答にたどり着く頻度が上がった現場の体感が大きいと感じています。2026年5月時点ではコーディング・エージェント中心なら3.5系も選択肢ですが、抽象推論と長文脈の品質では3.1 Proが依然として有力です。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

CodexとClaude Codeどちらを選ぶべきか？実際に使い比べてわかったこと

この記事を書いた人

小畑和彰合同会社WOZ 代表

1999年神奈川県三浦市生まれ、東京都目黒区在住。2016年にフリーランスとしてWebサイト運営・アフィリエイト事業を開始し、2020年には合同会社WOZを設立。高校・大学へは進学せず中卒ながらも、デジタルガジェットや投資分野などニッチ領域を攻略して高収益率を実現。現在はFX・仮想通貨分野に注力し、独自の視点と戦略を武器に事業を拡大中。