能力追上博士生,OpenAI发布最强o1系列模型

来源: 虚惊!日本解除特大地震预警,这周首相取消外访,瓶装水限购

责任编辑: 毋悠

发布时间: 2024-09-13 19:50:29

0

0

图源:OpenAI

界面新闻记者 | 陈振芳

界面新闻编辑 | 文姝琪

9月13日凌晨1点,OpenAI发布o1系列模型,包括o1-preview(下称o1预览版)和o1-mini。针对这一消息,该公司创始人Sam Altman在X上表示:“no more patience,?jimmy.(需要耐心等待的时刻结束了)”

OpenAI表示:“该模型代表了人工智能能力的新水平。鉴于此,我们将计数器重置为1,并将该系列命名为o1。这也意味着,o1就是此前坊间盛传即将发布“草莓”模型。

作为早期模型,o1模型还不具备ChatGPT的许多实用功能,例如浏览网页信息以及上传文件和图片。但OpenAI强调对于复杂的推理任务来说,这是一个重大进步。”

目前,ChatGPT Plus和Team用户已经能够在ChatGPT中访问o1模型,但每周发送消息次数限制为o1预览版30条消息和o1-mini50条消息。ChatGPT Enterprise和Edu用户将从下周开始使用这两种模式。

此外,符合API使用等级5的开发人员已经可以开始使用API中的两种模型进行原型设计,速率限制为20RPM,这些模型的API目前不包括函数调用、流式传输、对系统消息的支持和其他功能。

ChatGPT会员被分为Plus、Team、Pro三档,每月订阅价格分别为20美元、60美元(最低)、200美元。值得一提的是,就在o1模型发布前一天,OpenAI刚刚上线ChatGPT Pro会员,售价高达200美元/月

该公司表示,o1模型在物理、化学和生物学的具有挑战性的基准任务上的表现达到博士生水平。同时,在数学和编码方面表现出色。在国际数学奥林匹克(IMO)资格考试中,GPT-4o仅正确解决了13%的问题,而o1推理模型得分为83%o1编码能力在Codeforces比赛中达到89%

相较于早期模型,o1模型展示了强大的能力,美国数学邀请赛2024AIME)中,?GPT4oo1 预览版o1正式版准确率分别为13.4%56.7%83.3%。

Codeforces代码比赛中,GPT4oo1 预览版o1正式版Codeforces准确率分别为11.0%62%89%。

在回答博士级科学问题 (GPQA Diamond)对比上,GPT4o人类专家o1的准确率是56.1%、69.778%。

图源:OpenAI

Sam Altman在X上表示,o1模型的的微调版本在国际信息学奥林匹克竞赛(IOI)中得分为49分,并且每个问题有10000次提交,获得金牌。

OpenAI指出o1模型增强推理能力在解决科学、编码、数学和类似领域的复杂问题特别有用。例如医疗研究人员可以使用o1来注释细胞测序数据,物理学家可以使用o1来生成量子光学所需的复杂数学公式,开发人员可以使用o1来构建和执行多步骤工作流程。

o1系列模型擅长准确生成和调试复杂代码。不过,OpenAI也指出,大型语言模型(例如o1)是在大量文本数据集上进行预训练的。虽然这些高容量模型具有广泛的世界知识,但对于实际应用而言,它的成本高昂且速度缓慢。

为此,OpenAI还发布了更具性价比的推理模型——o1-mini,作为一款较小的模型,o1-mini比o1预览版便宜80%。

具体到价格方面,o1预览版API每百万输入15美元,每百万输出60美元o1-mini则是每百万输入3美元,每百万输出12美元。

作为对比,gpt-4o每百万万输入2.5美元,每百万输出10美元gpt-4o-mini百万万输入0.15美元,每百万输出0.6美元

需要推理而无需广泛世界知识领域,o1-mini将是一种更快、经济高效的模型。OpenAI建议,ChatGPTPlus、Team、Enterprise和Edu用户可以使用o1-mini作为o1预览版的替代方案,具有更高的速率限制和更低的延迟。

o1-mini在STEM能力(自然科学、技术、工程和数学)方面,尤其在数学和编码——在AIME和Codeforces等评估基准上的表现几乎与o1相当。在一些需要推理的学术基准上,例如GPQA(科学)和MATH-500,o1-mini的表现优于GPT-4o。由于缺乏广泛的世界知识,o1-mini在MMLU等任务上的表现不如GPT-4o,在GPQA上落后于o1预览版。

在需要智能和推理的基准测试中,o1-mini的表现优于o1预览版和o1,但其在需要非STEM事实知识的任务上表现较差。

数学能力方面,在高中AIME数学竞赛中,o1-mini(70.0%)与o1(74.4%)相当,同时价格便宜得多,且成绩优于o1预览版(44.6%),o1-mini的得分(约11/15个问题)大约位列美国高中生前500名。

o1在高中AIME数学竞赛表现。图源:OpenAI

编码方面,在Codeforces竞赛网站上,o1-mini的Elo得分为1650,与o1的1673分不相上下,且高于o1预览版的1258。这一得分使该模型在Codeforces平台上竞争的程序员中处于前86%。

人类偏好评估方面,在推理能力较强的领域,o1-mini比GPT-4o更受欢迎,但在以语言为中心的领域,o1-mini并不比GPT-4o更受欢迎。

由于o1-mini专注于STEM推理能力,其关于日期、传记和琐事等非STEM主题的事实知识可与GPT-4omini等小型LLM相媲美。该公司将在未来版本中改进限制,并尝试将模型扩展到STEM之外的其他模态和专业。

OpenAI计划向所有ChatGPTFree用户提供o1-mini访问权限。除了新的OpenAIo1系列之外,该公司还计划继续开发和发布GPT系列中的模型。

该公司还特别强调了AI安全问题,为了适应这些模型的新功能,OpenAI加强了安全工作、内部管理和联邦政府合作。OpenAI最近与美国和英国的人工智能安全研究所正式达成协议。

在开发这些新模型的过程中,OpenAI提出了一种新的安全训练方法,利用它们的推理能力,使它们遵守安全和协调准则。衡量安全性的一种方法是测试当用户试图绕过安全规则(下称“越狱”)时,最严格的越狱测试中,GPT-4o得分为22(0-100分制),而o1预览模型得分为84。

新闻热榜

1

美国或迎首位女总统,哈里斯胜率高达7成!特朗普:车轮战不公平

2

广西交投玉林公司:强化内部审计推动安全生产提质增效

3

狐狸小姐不好惹:来自超甜职场CP的心动狙击,甜到令人窒息

4

"乌克兰上万大军调动为何瞒过俄罗斯?

5

周五美国WTI原油收跌1.9%

6

喊打的伊朗没有出手,要谈的乌克兰攻入俄境内,中国咋办?

7

女实习医生被奸杀引发全国抗议,印度30万医护人员走上街头

8

云南省孤儿和事实无人抚养儿童基本生活保障标准连续3次提高

9

最高检印发《关于办理财务造假犯罪案件有关问题的解答》

10

党纪学习教育丨对不落实组织决定行为的处分规定

11

长荣酒店国旗事件引众怒!长荣集团承认错了!长荣:再给一次机会

12

这是真正的火车呀,电动车锂电池的危害之大,不可想象。

13

沙田镇主要领导调研“百千万工程”和人居环境提升工作

14

莫雷加德称感到自豪

15

结婚登记不需户口簿

16

唐山官场持续震荡,深夜通报:原副市长曹全民被查!

17

《大国之道》:国家文化安全是国家安全重要保障

18

福建一正厅级干部,已任市委常委(附简历)

19

河南省监狱管理局发布“18岁考生上岸”情况通报

20

通报男子蒙面抢金店

21

美国共和党副总统候选人万斯所乘飞机出现紧急情况迫降

22

中国拖拉机比不过印度货?在非洲市场惨遭冷遇,问题出在哪?

23

江西省市场监督管理局党组书记、局长谢来发接受审查调查

24

"台“海巡署”:对2·14撞船涉事人员不予起诉,对大陆提三点要求

25

浙江宁波江北区全面提升基层药品监管水平

26

艺术体操创历史夺金

27

76-俄乌局势因北约东扩跌宕起伏

28

外交部:对佩通坦女士当选泰国总理表示祝贺

29

美国总统大选辩论将于9月10日在费城举行

30

《世界和平全指望你家玻璃了》

31

#热点新闻事件#美国#大洪水#天灾面前无能为力美国犹他州一居民拍下大洪水破窗灌进房子瞬间画面@DOU+小助手

32

#江西市场监督管理局局长谢来发被查#虽然谢来发是个正厅级干部,还算不上大老虎,但

33

20240816昆明市工商联(总商会)十三届常委会议召开

34

立秋后仍要警惕晒伤

35

山西临汾:电力护航一“糯”千金

36

聚焦高质量发展丨大别山里“别样蓝”

37

泽连斯基赌输了,谁也没料到局势反转如此之快,乌克兰已没有退路

38

中国移动通信集团上海有限公司原资深经理(总经理级)张维华被开除党籍

39

近日,中国普法发布案例,顾客网购宠物货不对板获3倍赔偿

40

打造“敏捷服务”,江苏部署实施29项“高效办成一件事”

20

特朗普和高龄粉丝互动:你真美你看起来也就60多岁高龄女粉丝:我快100了

20

黄金跳水美元反弹

20

河北唐山又一厅官落马:曾任副市长的曹全民通报被查

20

联合国机构说超4万人在加沙地带死亡是“残酷的里程碑”

20

2024年全国生态日启动仪式暨研讨会在香港举行

20

周鸿祎:对制造业有敬畏心理,无意造车,AllinAI!

20

2024年海坪彝族火把节闭幕式现场,真的太震撼了,2025年再见

20

离岸人民币升破7.1元

20

台公布恶性撞船事件调查结论,国台办表态

热门攻略

1

浴场粪大肠菌群超标

2

外媒关注:中国庆祝全国生态日加快绿色转型

3

【金色热线】云南省总工会领航筑牢职工权益保障网多项举措暖人心

4

普京在远东摆好台,中方作出积极回应,中俄芥蒂或将解开?

5

特朗普:别劝我,我有权对她人身攻击

6

婺城区政协召开专题议政性常委会

7

古特雷斯:联合国准备为加沙儿童接种脊髓灰质炎疫苗

8

拒挂中国国旗,台资酒店道歉,此事处理欠周全,不希望影响两岸人民情感

9

国务院副总理南下,赴东南大省

10

台湾花莲县发生4.0级地震,震源深度18千米

11

省交通运输厅工程建设事务中心调研地铁5号线智慧工地一体化建设

12

探秘大自然的绿色宝藏:蒲公英

13

特朗普承诺若赢得选举后将与中国搞好关系

14

美国、卡塔尔和埃及就新一轮加沙停火谈判发布联合声明

15

在事实面前,美国的“全球叙事”不攻自破|参考独家

16

老年甜宠剧围猎父母

17

国台办:台公布的恶性撞船事件“调查结论”推卸责任不能接受

18

“80后”副市长王巍,被查

19

被安排卧铺禁用枕头

20

标题:媒体人的失范:朱小龙事件引发的思考

20

社会类:入围奖-《“面北”爱情故事》

20

文件传输助手或泄密

20

俄外交部召见意大利大使抗议该国记者非法进入库尔斯克

20

8月16日,据《日经亚洲》援引消息人士的话报道,孟加拉国可能从印度引渡前总理哈西

20

信仰的美国与现实的美国存在多大差异?一位亚裔女性的困惑

20

湖南省中级法院院长座谈会召开

20

山西临汾:电力护航一“糯”千金

20

俄罗斯法院再次延长4名音乐厅恐袭案嫌疑人羁押期限

20

菲尔普斯阴阳中国

20

改变柬埔寨命运的运河已开建,越南遭受重大打击,发展之路更艰辛

20

垃圾桶内发现男婴

20

成功破局!皎漂港对我国有多重要?马六甲海峡不再是唯一

20

执法人员怒怼举报人

20

美国总统大选辩论将于9月10日在费城举行

20

澳媒:澳大利亚将迎来更多中国汽车品牌

20

庞天仪同志逝世

20

【核准前公示!#安徽将建一条高速公路#】安徽将建一条高速公路。安徽省发改委网

20

澳门公布行政长官选举日程表

20

学习全会精神助推法院高质量发展

20

两块钱坐出了航班的感觉这位公交车司机坚持“国际范”

20

商务部:进一步放宽外国投资者战略投资上市公司的限制

20

省“二青会”田径项目圆满收官!

20

银昆高速太彭段建成通车

20

江西省市监局局长谢来发涉嫌违纪违法,正接受省纪委监委审查调查

20

省政协举办“进一步全面深化改革的宏伟蓝图”专题讲座

20

进一步完善彩票兑奖与适用税法有关口径

20

佛山市港澳台同胞热议党的二十届三中全会精神

20

义乌对比昆山,江苏浙江百强县“一哥”之争,谁实力更胜一筹?

热门游戏

  • 1
    与涉案人员订立攻守同盟,擅权滥权,贪敛钱财!黑龙江一原副市长涉嫌“三宗罪”

    射击枪战 /热度:73799

    点击下载

    标题:媒体人的失范:朱小龙事件引发的思考

  • 2
    美国共和党副总统候选人万斯所乘飞机出现紧急情况迫降

    射击枪战 /热度:30244

    点击下载

    他信和泰国军方又撕破脸了?37岁女儿出任泰国最年轻总理

  • 3
    美国共和党副总统候选人万斯所乘飞机出现紧急情况迫降

    射击枪战 /热度:74895

    点击下载

    专家解读人民币暴涨

  • 4
    崩坏3 【新华社权威快报|补贴更高、流程更快!#汽车以旧换新这么干#】商务部等7部门

    射击枪战 /热度:23034

    点击下载

    张雨霏奖牌太多超重

  • 5
    原神 在加沙地带的紧张局势持续,且新一轮停"

    射击枪战 /热度:51952

    点击下载

    倡导绿色祭扫新风尚筑牢环保安全双防线

  • 6
    出发吧麦芬 以进一步全面深化改革为强大动力扎实做好各项工作坚定不移完成全年经济社会发展目标任务

    射击枪战 /热度:93843

    点击下载

    以制度建设推动人民生活品质提高

  • 7
    永劫无间手游 “非常罕见!”尹锡悦“光复节”这么做,连日本都惊讶了

    射击枪战 /热度:40794

    点击下载

    安徽省蚌埠市人大常委会原副主任汤春义接受审查调查

  • 8
    向僵尸开炮 中国女子拳击首金

    射击枪战 /热度:44667

    点击下载

    主体封顶!十堰这家专用车智造园预计12月底试生产

  • 9
    鸣潮 锚定现代化改革再深化|数看千帆之上海篇

    射击枪战 /热度:49329

    点击下载

    高德红外:公司将严格按照相关法律法规履行信息披露义务

  • 10
    艾塔纪元 过度用呼吸机致死亡

    射击枪战 /热度:52277

    点击下载

    光伏板下牧牛羊

关于我们 | 联系我们 | 加入我们 | 网站地图 | 自助投稿 | 在线举报 | 玩家心声 | 最新咨询 | 竞技对战 | 竞技排行榜单 | 游戏赛事直播 |