(资料图)
能打败GPT的只有OpenAI自己!
CHATGPT火遍全球才四个月,OpenAI就带来了更强大的GPT-4。
目前来看主要特点是:
逻辑推理更强,能代替你考律师证
文字输入更多,限制提升至 2.5 万字
识图能力,甚至可以给你讲个笑话
更聪明,很难PUA它了
更安全,忽悠它越狱更难了
除此之外,更重要的是,OpenAI还开放了GPT-4的API,这意味着基于GPT-4会衍生出各种各样的APP和花样功能。
微软营销主管在GPT-4发布后第一时间证实,微软的新必应已经用上了GPT-4。
此外,基于GPT-4的软件也开始涌现出来,有帮助盲人和低视力用户提升视觉能力的。
来源:Open AI
也有基于GPT-4打造的教育、编程软件,他们甚至开始用GPT-4打起广告招募学员了...
来源:Open AI
而GPT-4的商业前景并不止这些,玩梗讲故事、写代码、考试等,各种专业和学术水准,直接和人类相当!
01
能力超90%人类
你能想象10秒生成一个网站,速成一篇论文,标准化考试始终名列前茅的大佬吗?GPT-4就是传说中“别人家的孩子”。
与ChatGPT所用的模型相比,GPT-4不仅能够处理图像内容,且回复的准确性有所提高。
而且一本正经胡说八道的情况,基本不会再出现了。
通俗来讲,GPT-4提高了ChatGPT的核心技术,相比此前版本,具有更广泛的一般知识和解决问题的能力,使得聊天软件能够以更高的准确度解决更难的问题。
OpenAI表示,新模型产生的错误答案更少,将更少地偏离谈话轨道,更少地谈论禁忌话题,甚至在许多标准化测试中比人类表现得更好。“当任务的复杂性达到足够的阈值时,差异就会出现”,GPT-4更可靠、更有创意,并且能够处理更细微的指令。“
表现究竟有多好?
考试基本全过
据OpenAI 透露,GPT-4 通过了所有基础考试,而且还是高分通过。
比如,GPT-4在模拟律师资格考试的成绩在考生中排名前 10% 左右,在 SAT 阅读考试中排名前7%左右,在SAT数学考试中排名前11% 左右。
来源:Open AI
相比之下,原先的最强产品GPT-3.5 ,真实得分在倒数10%左右,GPT-4 的强大可想而知。而且满分为800分的 SAT Math,它从590 分提升到了700 分。
来源:Open AI
看图玩梗
OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整 ,从而在真实性、可控性等方面取得了有史以来最好的结果。
GPT-4使用了第四代大型语言模型,与之前的GPT系列相比,GPT4最重大的突破就是实现了多模态化。
具体来说,就是可以接受文本和图像形式的提问了,新能力与纯文本设置并行,允许用户指定任何视觉或语言任务。
不光能识图还能根据文本创造的语境来理解图片,通过穿插的文本和图像组成的输入,它能够生成自然语言、代码等文本输出。此外,还能一秒识梗,还能解释梗在哪里,为什么会有这个梗。
它的读图能力不仅能用于理解幽默,还可以用于进行更学术的应用。处理更复杂的图像信息,包括表格、考试题目截图、论文截图。
比如在提供一张柱状图时,它可以从中抓取关键信息,做出总结并进行进一步的计算分析;而当提供一些论文的截图时,它还能处理图片中的文字和图中图,精炼其中的要点,并归纳出论文图片里的主旨大意。
来源:Open AI
不过Open AI表示,目前图像输入仍处于研究预览阶段,暂不公开。但Open AI公司已经在其官网上为大家展示了些图像输入的例子。
比如当用户问到这张图片有什么好笑的,它是这么回答:
来源:Open AI
GPT:图片显示了一个“闪电电缆”适配器的包,有三个面板。
1:智能手机,VGA接口(一个大的,蓝色的,通常用于电脑显示器)插入充电端口。
2:“闪电电缆”适配器的包装上有一个VGA连接器的图片。
3:VGA连接器的特写,末端有一个小的Lightning连接器(用于给iphone和其他苹果设备充电)。
这幅图的幽默之处在于,把一个大而过时的VGA接口,插入一个小而现代的智能手机充电端口是荒谬的。
再比如,当用户问你能解释一下这个图片的梗吗?
GPT-4:这张图片是把两件不相关的事情结合在一起的笑话:来自太空的地球图片和鸡块。
这个表情包中的幽默来自于文字和图像的意外并置,文本设定了对地球宏伟形象的期望,但这个形象实际上却是炸鸡块。
虽然一本正经解释梗的感觉有点怪,但GPT-4显然是理解了图片之后才能有这番解释出现,就是GPT系列模型进步最大的地方,
除此之外,GPT-4 的长度限制提升到 32K tokens,即能处理超过 25000 个单词的文本,并且可以使用长格式内容创建、扩展对话、文档搜索和分析等。
OpenAI 还贴心地发布了 GPT-4 开发者视频,手把手教你如何自己当程序员、检查错误信息、报税。
关于“胡编乱造”和“有害答案”
OpenAI称,该公司花费6个月的时间,利用对抗性测试程序和ChatGPT的经验教训迭代调整GPT-4,从而在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果。
在公司内部的对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5高出40%,相应的“不允许内容请求的倾向”降低了 82%,根据政策响应敏感请求(如医疗建议和自我伤害)的频率提高了29%。
Open AI也表示“至少对我们而言,GPT-4训练运行前所未有地稳定,成为首个能够提前准确预测其训练性能的大型模型。”
该模型在多种语言方面均表现出优越性。OpenAI称,在测试的26种语言中,GPT-4在24种语言方面的表现均优于GPT-3.5以及其他大语言模型语言性能表现。其中还包括了像拉脱维亚语、威尔士语、斯瓦希里语这些冷门到邪门的语言。
来源:Open AI
其中GPT-4的中文能够达到80.1%的准确性,而GPT-3.5的英文准确性仅为70.1%,目前GPT-4英文准确性提高到了85.5%。
也需要改进
当然Open AI的新孩子也并不全然都是优点,在推特上就有用户连夜写出了自己的一份心得测评说,GPT-4还是和以前一样,不太会幻想未来;仍然回避一些敏感的话题。
此外,GPT4对于这种非文本输入的处理能力还是有限,比如GPT-4在GRE数学部分上只取得了55分,在SAT的数学部分上只有52.6分的成绩。
02
通用人工智能时代来了
在ChatGPT凭借一己之力,在极短的时间内引爆全球AI产业变革的时候,微软、谷歌等科技巨头有了危机感,准备先下手为强,抢夺市场。
来源:Open AI
微软大张旗鼓的表示新版必应已搭载GPT-4,谷歌也发布了Big Bard,其内部正在测试一款名为“Apprentice Bard“的 AI 模型,它基于一种”突破性的对话技术”——LaMDA ,可提供问答搜索能力。甚至连布林本人都亲自来改代码了,只为与ChatGPT竞争。
首富马斯克也想分一杯羹,马老板频频与一位曾在OpenAI短暂工作的两年的员工建立联系,试图成立AI实验室,开发出ChatGPT的替代品。
针对微软和OpenAI的合作,谷歌也完全复制了这个模式,支持了一家由前OpenAI员工组成的初创公司——Anthropic,打造了一款ChatGPT的最强竞品,目前还在优化构建方面。
在中国市场,也有一些大语言模型可以期待,比如百度的文心一言,将会在明天发布。原美团联合创始人王慧文的创业公司“光年之外”也是如火如荼。
随着这些AI大模型的落地,我们距离通用人工智能也越来越近了。