可用文本图像输入工具调用

GPT-5.5

GPT-5.5 是当前 OpenAI 官方模型页推荐的旗舰起点,适合先作为能力基准;如果预算敏感,再向 GPT-5.4 mini 或 nano 下探。

官方模型 ID
gpt-5.5

模型定位

GPT-5.5 是 OpenAI 当前 GPT 系列里的旗舰模型,官方定位偏向复杂推理、代码和专业工作。

适合场景

  • 高难度代码生成、代码审查和工程任务
  • 长文档、多资料、多步骤分析
  • 需要稳定质量的专业写作、研究和方案输出
  • 需要图像输入、函数调用、结构化输出或工具调用的应用

价格与上下文

  • 输入价格:$5 / MTok
  • 缓存输入:$0.50 / MTok
  • 输出价格:$30 / MTok
  • 上下文窗口:1,050,000 tokens
  • 最大输出:128,000 tokens

选择建议

如果不确定从哪个 OpenAI 模型开始评估,可以先用 GPT-5.5 做能力基准;如果成本或延迟更重要,再比较 GPT-5.4 mini、GPT-5.4 nano。

能力评测

GPT-5.5 官方评测对比

根据 OpenAI 发布 GPT-5.5 时披露的评测数据重绘,主要比较 GPT-5.5、GPT-5.4、Claude Opus 4.7 和 Gemini 3.1 Pro。

OpenAI 发布页
重点模型
GPT-5.5
更新时间:2026-04-23
代码

SWE-Bench Pro (Public)

真实 GitHub 问题修复

GPT-5.5
58.6%
GPT-5.5
58.6%
GPT-5.4
57.7%
Claude Opus 4.7
64.3%
Gemini 3.1 Pro
54.2%
代码

Terminal-Bench 2.0

命令行工作流

GPT-5.5
82.7%
GPT-5.5
82.7%
GPT-5.4
75.1%
Claude Opus 4.7
69.4%
Gemini 3.1 Pro
68.5%
专业工作

GDPval

真实知识工作任务

GPT-5.5
84.9%
GPT-5.5
84.9%
GPT-5.4
83.0%
Claude Opus 4.7
80.3%
Gemini 3.1 Pro
67.3%
电脑使用

OSWorld-Verified

看屏幕并操作界面

GPT-5.5
78.7%
GPT-5.5
78.7%
GPT-5.4
75.0%
Claude Opus 4.7
78.0%
工具调用

MCP Atlas

多工具编排

GPT-5.5
75.3%
GPT-5.5
75.3%
GPT-5.4
70.6%
Claude Opus 4.7
79.1%
Gemini 3.1 Pro
78.2%
推理

GPQA Diamond

高难科学问答

GPT-5.5
93.6%
GPT-5.5
93.6%
GPT-5.4
92.8%
Claude Opus 4.7
94.2%
Gemini 3.1 Pro
94.3%
评测项能力方向GPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
SWE-Bench Pro (Public)真实 GitHub 问题修复58.6%57.7%64.3%54.2%
Terminal-Bench 2.0命令行工作流82.7%75.1%69.4%68.5%
GDPval真实知识工作任务84.9%83.0%80.3%67.3%
OSWorld-Verified看屏幕并操作界面78.7%75.0%78.0%未列出
MCP Atlas多工具编排75.3%70.6%79.1%78.2%
GPQA Diamond高难科学问答93.6%92.8%94.2%94.3%

评测分数适合用来快速了解模型在代码、推理、工具调用等方向的表现,实际选型还需要结合任务类型、价格和响应速度一起看。