竞品还在追赶，OpenAI 用 GPT-4 飚赢自己

2023-03-16 发布在观点737

赶在百度“文心一言”发布前一天，OpenAI祭出了GPT-4，这对于百度、谷歌们来说，可能是一个重大打击。

人们已经领略过GPT-3.5加持下的ChatGPT，但GPT-4比“前辈”更强大，它具有更高的可靠性和准确性，能够读懂图片，甚至还能角色扮演。目前，GPT-4已被应用到ChatGPT和Bing上，再一次刷新外界对AI的能力认知。

GPT-4越耀眼，谷歌、百度等竞争对手们便越焦虑。毕竟，其他公司忙着对标GPT-3.5时，OpenAI快速将大模型升级为GPT-4，一骑绝尘的样子丝毫“不讲武德”，像一个孤独求败的杀手，眼望着挑战者的到来。

GPT-4打败GPT-3.5

知名KOL和菜头说，因为OpenAI在3月15日凌晨发布了GPT-4，他和他的一些老朋友都没睡好，微信里的消息提示此起彼伏，“感觉像是回到了乔布斯还在世的时候，大家相约线上看苹果发布会的那些夜晚。”

北京时间3月15日凌晨，GPT-4发布受万众瞩目，这是采用GPT-3.5的ChatGPT火爆后的必然结果。看客们想要知道，它比GPT-3.5到底强多少？人们甚至没有兴趣拿它来对比别的同类产品，因为能站在同一起跑线上与之对比的还没有出现。

OpenAI很了解围观者的胃口，在那场更像是产品演示的发布会里，开发者一上来就让GPT-3.5和GPT-4分别尝试回答同样的问题。结果，熬夜的人没白等。

一开始，OpenAI的开发者复制了一篇博客文章，并交给了GPT-3.5，让它进行总结，要求是每个单词都要以“G”开头。结果GPT-3.5直接选择了放弃。轮到GPT-4，它快速地给出了答案，完全符合要求。随后，开发者又让它尝试以字母“A”开头回答同样的问题，GPT-4又做到了。

这还没完，如同提升“节目效果”一样，开发者直接和Discord社群互动起来，选取了网友提出的字母“Q”。再来一遍，GPT-4依然轻松拿捏。

这轮演示，OpenAI特地选取了一个超过GPT-3.5“阈值”的问题来测试，意在表现GPT-4的能力进化水平。正如官方所解释的，在随意的谈话中，GPT-3.5 和 GPT-4 之间的区别可能很微妙，当任务的复杂性达到足够的阈值时，差异就会出现——GPT-4比GPT-3.5更可靠、更有创意，并且能够处理更细微的指令。

为了全面且可视化地评估GPT-4的能力提升程度，OpenAI展示了它与GPT-3.5共同参与了多项模拟考试的情况，包括统一律师资格考试、研究生入学考试、医学知识自测、艺术史、微积分等等，结果GPT-4几乎碾压了GPT-3.5。比如，在模拟律师考试中，GPT-4的分数在应试者的前10%左右，而GPT-3.5 的得分排在倒数10%左右。

各项考试中GPT-4领先GPT-3.5

如同苹果发布会每次都会带来一个大彩蛋，GPT-4也带来了一项跨越式的功能——接受视觉输入。这意味着，GPT-4能够看懂图片了。

官方解释：GPT-4在给定由散布的文本和图像组成的输入的情况下，可生成文本输出（自然语言、代码等）。换言之，给它一张带有文字的图片，并提出要求，它就能给出想要的结果。

在演示中，开发者画了一张网站的草图，要求GPT-4用简短的 HTML/JS 将这个草图变成彩色的网站。仅仅几秒钟后，GPT-4就带来了一个完整的网页。

不仅如此，GPT-4还能尝试理解一些流行的“梗图”。如下图所示，让它解释这张图的笑点在哪，GPT-4不但Get到了，还一本正经地解释了一通。

GPT-4解释“梗图”的笑点

GPT-4的识图功能只有体验过才能知道是否如OpenAI说得这么厉害。遗憾的是，目前视觉输入还没有完全开放，仅在一小部分开发者中进行测试。OpenAI创始人Sam Altman解释称，此举是为了防止可能出现的安全性和伦理问题。

GPT-4还有一项特别本领，它可以扮演不同的角色和说话的方式，这与具有固定语气和风格的GPT-3.5不同。基于这个功能，用户可以让GPT-4实现角色扮演并定制它的性格。

就像当年的一代代新款iPhone给人们带来惊奇感受，GPT-4展现了比它的上一代更强大的能力。不过，它也并不完美。与GPT-3.5一样，GPT-4有时仍会虚构事实，“一本正经地胡说八道”还不能完全避免。OpenAI宣称，在内部对抗性真实性评估中，GPT-4的得分比GPT-3.5高40%，显然，它还有很大的提升空间。

谷歌、百度更焦虑了

OpenAI正和当初的苹果走在一样的道路上：成为引领者，并在别人苦苦追赶时，又猛地拉开一大截。

就在GPT-4发布前，互联网巨头谷歌也在YouTube上发布了一支预告片，宣布将AI整合到Gmail电子邮件和GoogleDocs文档等办公应用中。谷歌在视频中费了很大力气展示相关功能，告诉人们可以在文件中进行头脑风暴、校对、写作和改写；利用幻灯片中自动生成的图片、音频和视频，将创意构想变为现实等。

然而，“一点水花都没有，几个小时之后GPT-4开发布会，人一下子就全跑光了。”和菜头如此描述他的观察。从社交网络上舆论风向看，谷歌的AI新动作被铺天盖地的GPT-4消息所淹没——无论是海外的推特还是国内的微博，GPT-4都登上了热搜榜。

和谷歌一样被冷落的AI玩家还有Meta。不久前，Meta公布了旗下全新的AI大型语言模型LLaMA，宣称可帮助研究人员降低生成式AI工具可能带来的“偏见、有毒评论、产生错误信息的可能性”等问题。Meta还放话，这一大模型仅用约1/10的参数规模，就能匹敌OpenAI GPT-3、谷歌PaLM等主流大模型的性能表现。这一新动态在GPT-4到来后，没有在舆论场上再露脸。

OpenAI的光芒越盛，其他科技巨头们就越焦虑。

2月，仓促应战ChatGPT的谷歌还闹出过笑话，其开发的聊天机器人Bard首秀“翻车”，答错问题导致其市值一天之内蒸发约1000亿美元。

在国内，百度也在加急研发与ChatGPT类似的聊天机器人“文心一言”。按照预告，百度将在今天下午举办有关文心一言的新闻发布会。在许多人也许还在好奇文心一言能否比肩GPT-3.5模型下的ChatGPT，结果，OpenAI赶在百度发布会前带来了更强大的GPT-4。

别人忙着对标GPT-3.5时，OpenAI如同冷血杀手一般，亲手击败了自己出品的GPT-3.5。同类竞争公司们有多焦虑，网友们已经自行脑补出了各种“梗图”。

“那种提刀在手，环顾天下，寂寞如雪的感觉，让我忍不住感慨：即便在美国本土，这件事也和绝大多数美国科技公司无关了。”和菜头形容，OpenAI迭代的速度让他感觉到心惊肉跳，“所有试图追赶的人和公司，目前落后进度最少两年。在这种AI爆发式增长的时代，两年就是三辈子。”

回顾GPT的发展，它用5年时间里完成了从量变到质变的飞跃。2018年，GPT-1首次发布，当时的模型参数只有1.17亿个，随后的GPT-2将标准提高到15亿个参数，GPT-3和GPT-3.5的神经网络直接提升到1750亿个参数，而到了GPT-4，采用的参数超过2000亿个，并利用了超过200万个数据源（GPT-3.5使用了45万个数据源），包括互联网上的各种文本、图像、音频和视频数据。

相比之下，2022年初谷歌曾披露其LaMDA 模型参数为1370亿个，不如当时的GPT-3多。而据百度透露，文心一言大模型参数规模达到2600亿，相比GPT-4更多，这或许还能让它留给人们一些期待。

不过，有专家指出，模型参数并不是决定AI聊天机器人能力的绝对因素，在此基础上，对数据的清洗和标注、模型结构设计、训练推理的技术积累都会决定最终产品的表现。

GPT-4甚至不用担心产品化了，它已经应用于ChatGPT和微软的搜索引擎必应（Bing）上。一骑绝尘后，尘土里若隐若现着谷歌和百度。