北京时间3月15日凌晨,OpenAI发布了多模态预训练大模型GPT-4,这也是其大型语言模型的最新版本。
与此前的版本相比,GPT-4具备强大的识图能力,文字输入限制也提升至2.5万字;GPT-4的回答准确性也显著提升,还能够生成歌词、创意文本从而实现风格变化。同时,GPT-4在各类专业测试及学术基准上也表现优良。
“这是OpenAI努力扩展深度学习的最新里程碑。”OpenAI介绍,“GPT-4是一个大型多模态模型,它接受图像和文本输入、进行文本输出,虽然在许多现实场景中它尚且不如人类,但在各种专业和学术基准上表现出与人类相当的性能。”
考试表现达到“人类水平”
从整体而言,GPT-4实现了多重能力的跃升。
在一段发布会视频演示中,GPT-4花了10秒就生成了一个网站:用户只画了一个草图,告诉它大致框架,GPT-4立刻生成网站代码。
升级之后,GPT-4在各种职业和学术考试上表现和人类水平相当。工程师们让两个版本的模型进行了数十种人类的考试,从数学、化学、量子力学,到英语言文学、律师考试、大学入学能力测验等,GPT-4的水平几乎都胜过前一个版本GPT-3.5。
例如,GPT-4能够在模拟律师考试中成绩超过90%考生,在SAT阅读和数学考试中做美国高考SAT试题,GPT-4在阅读写作中拿下710分、数学拿下700分(满分800),分别超越93%和89%考生。
需要注意的是,相较于此前的GPT模型而言,GPT-4最大的突破之一是在文本之外还能够处理图像内容。OpenAI表示,用户同时输入文本和图像的情况下,它能够生成自然语言和代码等文本。
目前在官网上,OpenAI已经给出了一系列相关案例。例如,在以下输入图片并设问“这些图片有何可笑之处?请逐一描述。”GPT-4便会在对每张图片进行表述后表示,“这幅图的幽默之处在于,把一个大而过时的VGA接口插入一个小而现代的智能手机充电端口是荒谬的。”
除了普通图片,GPT-4还能处理更复杂的图像信息,包括表格、考试题目截图、论文截图、漫画等。此外,在多语种方面,GPT-4也体现出优越性。在测试的26种语言中,GPT-4在24种语言方面的表现均优于GPT-3.5等其他大语言模型的英语语言性能,其中包括部分低资源语言如拉脱维亚语、威尔士语等。在中文语境中,GPT-4能够达到80.1%的准确性。
与此前的GPT模类似,GPT-4基础模型可在训练完预测文档中的单词。在数据样本方面,也同样使用公开可用的数据及许可数据。为了提升基础模型回应与用户之间意图的匹配性,OpenAI同样选择了强化学习人类反馈(RLHF)来微调模型行为。
GPT-4仍不完全可靠
尽管GPT-4功能强大,GPT-4仍然存在与早期GPT模型类似的限制。它仍然不是完全可靠的,比如会对事实产生“幻觉”,并出现推理错误。OpenAI提醒,在使用语言模型的输出时,特别是在高风险的情况下,应该非常小心谨慎。
但相较于以前的模型,GPT-4大大减少了hallucinations(网络错觉)。在内部的对抗性事实性评估中,GPT-4的得分比GPT-3.5高40%。
“该模型在其输出中会有各种偏差,我们在这些方面已经取得了进展,但仍有更多工作要做。根据我们最近的博文,我们的目标是使我们建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观,允许这些系统在广泛的范围内被定制,并获得公众对这些范围的意见。”公告称。
OpenAI还指出,GPT-4通常缺乏对其绝大部分数据截止后(2021年9月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,或者过于轻信用户明显的虚假陈述。有时它也会像人类一样在困难的问题上失败,例如在它产生的代码中引入安全漏洞。GPT-4也可能在预测中自信地犯错。
GPT-4与过去的模型会存在类似风险,如产生有害的建议、错误代码或不准确信息。然而,GPT-4的额外能力还导致了新的风险面。“为了明确这些风险的具体情况,我们聘请了50多位来自人工智能对接风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家对该模型进行对抗性测试。”OpenAI表示,这些领域专家的反馈和数据为缓解和改进模型提供了依据,比如他们已经收集了额外的数据,以提高GPT-4拒绝有关如何合成危险化学品的请求的能力。
此外,GPT-4在人类反馈的强化学习(RLHF)训练中加入了一个额外的安全奖励信号,通过训练模型来拒绝对此类内容的请求,从而减少有害产出。
与GPT-3.5相比,这些缓解措施大大改善了GPT-4的许多安全性能。与GPT-3.5相比,OpenAI将模型对非法内容请求的响应倾向降低了82%,而GPT-4对敏感请求(如医疗建议和自我伤害)的响应符合OpenAI政策的频率提高了29%。
OpenAI强调,总的来说,模型级干预措施增加了诱发不良行为的难度,但仍然存在“越狱”的情况,以产生违反使用指南的内容。
新版本已在必应中应用
从商业应用角度而言,目前GPT-4没有免费版本。
不过在GPT-4发布后,OpenAI也直接升级了ChatGPT,目前,GPT-4的访问权限仅面向ChatGPT Plus的付费订阅用户及企业和开发者开放。
想要访问GPT-4的API,用户可以注册等待,OpenAI将邀请部分开发者进行体验。
此外,在GPT-4发布后,微软方面则宣布,目前全新必应预览版中已经搭载了定制版本的GPT-4。
“如果您在过去五周内的任何时间使用过新的必应预览版,那么您已经体验过这个强大模型的早期版本。”微软表示,“随着OpenAI对GPT-4及更高版本进行更新,必应将从这些改进中受益。”综合《21世纪经济报道》