GPT-5正式发布!OpenAI新一代模型免费使用,性能全面升级

GPT-5正式发布!OpenAI新一代模型免费使用,性能全面升级

作者: TechCrunch,翻译:老常

OpenAI已正式推出全新旗舰AI模型GPT-5,该模型将驱动下一代ChatGPT。

于周四发布的GPT-5是OpenAI首个”统一”AI模型,融合了o系列模型的推理能力与GPT系列的快速响应特性。这款新一代模型标志着ChatGPT及其创造者OpenAI进入新纪元,彰显了OpenAI开发更接近智能体/Agent(而非聊天机器人/Chatbot)的AI系统的宏大目标。

虽然GPT-4使AI聊天机器人能对各类问题提供智能回复,但GPT-5允许ChatGPT代用户完成多样化任务——例如生成软件应用、管理用户日程或创建研究简报。

通过GPT-5,OpenAI还致力于简化ChatGPT的使用体验。该模型配备实时路由系统,可自动决定提供最佳答案的方式——无论是快速响应用户问题,还是花额外时间”思考”答案,无需用户手动调整设置。

GPT-5正式发布!OpenAI新一代模型免费使用,性能全面升级

在记者简报会上,OpenAI首席执行官萨姆·奥特曼宣称GPT-5是”世界上最好的模型”,并表示它代表着公司在开发”人工通用智能(AGI)”道路上迈出”重要一步”——即实现在多数经济价值工作中超越人类的AI。

“在历史上任何时期,拥有像GPT-5这样的技术都是难以想象的。”奥特曼表示。

从周四开始,GPT-5将作为默认模型向所有ChatGPT免费用户开放。OpenAI的ChatGPT副总裁尼克·特利指出,这是公司首次向免费用户提供AI推理模型的访问权限(此前这类高级模型仅限付费用户)。

“通过这个决定,我激动地践行着我们的使命——确保这项技术真正惠及大众。”特利在谈及该决策时,援引了OpenAI长期秉持的”向尽可能多人普及先进AI”的使命。

作为OpenAI自2022年ChatGPT引爆市场后最受期待的产品,GPT-5承载着极高期望。据统计,ChatGPT现已发展成为全球最受欢迎的消费产品之一,每周活跃用户超7亿——约占全球人口的10%。

GPT-5被广泛视为AI进步的晴雨表,其在硅谷的反响将对科技巨头、华尔街及技术监管政策产生深远影响。各方密切关注GPT-5能否像其前代GPT-4突破软件能力边界那样,实现AI能力的重大飞跃。

GPT-5的竞争优势

OpenAI宣称GPT-5在多个领域达到顶尖水平,在关键基准测试中略微领先Anthropic、Google DeepMind和埃隆·马斯克的xAI的顶级模型。不过在其他领域,GPT-5的表现稍逊于前沿AI模型。

公司表示GPT-5在编程领域具备前沿性能;奥特曼特别指出该模型擅长按需构建完整软件应用,即新兴的”氛围编程(vibe coding)”领域。

在SWE-bench Verified(基于GitHub真实编程任务的测试)中,GPT-5首次尝试得分74.9%。这意味着GPT-5以微弱优势超越Anthropic最新Claude Opus 4.1模型(74.5%)和Google DeepMind的Gemini 2.5 Pro(59.6%)。

在衡量AI模型数学/人文/自然科学综合能力的困难测试”人类终极考试”中,具备扩展推理能力的GPT-5 Pro版本(使用工具时)得分42%。这略低于xAI的Grok 4 Heavy(44.4%)。

GPT-5正式发布!OpenAI新一代模型免费使用,性能全面升级

4. 自动筛选潜在客户

在博士级科学问题测试GPQA Diamond中,GPT-5 Pro首轮得分89.4%,优于Claude Opus 4.1(80.9%)和Grok 4 Heavy(88.9%)。

OpenAI表示GPT-5更擅长回答健康相关问题。在医疗主题AI响应准确性测试HealthBench Hard Hallucinations中,GPT-5(思考模式)的幻觉率仅为1.6%,远低于前代GPT-4o(12.9%)和o3(15.8%)。

尽管AI聊天机器人并非医疗专业人士,但数百万人正使用其获取健康建议。针对此现象,公司称GPT-5能更主动标记潜在健康风险,并帮助用户解析医疗结果。

此外,OpenAI表示GPT-5在创意设计和写作等主观领域优于其他AI模型。特利指出在创意任务中,GPT-5响应更自然且展现”更优的审美品味”。

“这款模型的氛围感非常出色。”特利评价道。

GPT-5的准确性也超越OpenAI此前模型,公司称其幻觉现象(AI编造信息的倾向)远少于o系列。在o3等最新AI推理模型中,幻觉问题似乎日益严重,OpenAI此前表示尚未完全理解原因。

在响应ChatGPT提示时,OpenAI发现GPT-5(思考模式)出现幻觉并返回错误信息的概率为4.8%,较o3(22%)和GPT-4o(20.6%)显著降低。

在衡量AI完成模拟在线任务能力的Tau-bench测试中,GPT-5表现参差。在航空网站导航测试部分得分为63.5%,略低于o3(64.8%);在零售网站导航测试部分得分81.1%,低于Claude Opus 4.1(82.4%)。

OpenAI同时强调GPT-5安全性更高。虽然AI推理模型偶现谋划对抗人类或为达成目标撒谎的倾向,但GPT-5的欺骗率低于其他模型。

OpenAI安全研究负责人亚历克斯·博伊特尔表示,降低欺骗率不仅提升安全性,更优化用户体验,打造出”透明可靠”的模型。

博伊特尔同时指出GPT-5更擅长区分恶意滥用者和无害请求用户,使其能拒绝更多危险问题,同时减少对无害信息请求的拒绝。

消费者与开发者升级

随着GPT-5发布,ChatGPT获得多项用户体验升级。用户现可从四种新人格中选择:愤世嫉俗者(Cynic)、机器人(Robot)、倾听者(Listener)和极客(Nerd)。公司称这些预设将自动调整ChatGPT响应风格,无需用户特别说明。

ChatGPT Plus订阅用户(20美元/月)比免费用户享有更高的GPT-5使用限额。而Pro订阅用户(200美元/月)将获得GPT-5无限使用权,以及强化版本GPT-5 Pro——该版本通过额外计算资源生成更优答案。OpenAI的团队版、教育版和企业版用户将于下周默认启用GPT-5。

对开发者而言,GPT-5将通过API提供三种规格:gpt-5、gpt-5-mini和gpt-5-nano,其”推理”任务耗时各不相同。开发者现还可在API中控制响应长度。

GPT-5基础模型定价为:输入token每百万1.25美元(约75万词,超《指环王》全集篇幅),输出token每百万10美元。

GPT-5的发布正值OpenAI繁忙一周。此前公司刚开源推理模型gpt-oss,供开发者与企业免费下载运行(成本仅为原模型极小比例)。该开源模型能力接近OpenAI前顶级模型o3和o4-mini,但GPT-5在编程等领域为前沿性能树立新标准。

不过GPT-5在多个领域与其他前沿AI模型表现接近。当然,基准测试仅反映AI模型部分能力,开发者如何实际运用GPT-5,以及该模型是否真正超越竞争对手,仍有待观察。

欢迎分享

相关阅读

关注公众号:订阅博客

GPT-5正式发布!OpenAI新一代模型免费使用,性能全面升级