Shanghai财经网,✅Shanghai经济网,Shanghai财经频道,上海商业新闻网,上海本地新闻媒体✅

您好,欢迎访问Shanghai上海财经新闻网,我们将竭诚为您服务!

多模态GPT-4被吹爆,但仍会“一本正经胡说八道”

2023-03-16 09:53来源:未知 频道:财经头条 阅读:
《上海财经网》上海财经第一门户网站!
 追踪网络热点,关注财经动态,传播大沪文化,倡导网络新时代!
http://news.shanghaima.com/上海财经网欢迎您! 

上海财经网【上海财经号】:

今年初以来,以AI大模型GPT3.5为基础的聊天机器人ChatGPT引发大量关注,股市上相关概念遭到热炒。正当ChatGPT的热度有所下降时,微软投资的OpenAI又推出了GPT-4,号称功能比GPT3.5更强大。

北京时间3月15日凌晨,OpenAI正式发布大型多模态模型GPT-4。据介绍,与ChatGPT只能接收文字不同,GPT-4能接收图像和文本输入来输出文本内容;扩写能力得到增强,能处理超过2.5万个单词的文本;更具创造力,回答准确性显著提高;能够生成歌词、创意文本,实现风格变化;并且能够处理更细微的指令。

“这是我们迄今为止功能最强大的模型!”OpenAI的高管和工程师在介绍视频里直言:“GPT-4是世界第一款高体验、强能力的先进AI系统,我们希望很快把它推向所有人。”

新的大模型一经发布,便受到网友们的热捧。但仍然值得的一提的是,虽然GPT-4的功能进一步增强,但仍然不完全可靠。OpenAI坦言,GPT-4仍然会产生幻觉、生成错误答案,并出现推理错误。

自去年11月推出以来,ChatGPT已经能够根据用户提示生成原创文章、故事和歌词,但它也引发了一些担忧。最近几周,人工智能聊天机器人(包括来自微软和谷歌的工具)因情绪反应过激、犯事实错误和完全“幻觉”而受到指责。

GPT-4文字输入限制提升至2.5万个单词

专业场景中接近人类水平

开发GPT大模型的OpenAI称,GPT-4能接受图像和文本输入,输出文本内容,虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中已做到人类水平的表现。

之前人们使用的ChatGPT只有处理文本的能力,GPT-4开始接受图像作为输入介质。比如,给它展示一张图片,问它手套掉下午会发生什么,很快会得到“它会掉到木板上,并且球会被弹飞”的回答。

OpenAI还用一张“梗图”演示了GPT-4的新功能。用户提问:解释下图的笑点是什么,并对图片中的每部分进行描述。GPT-4会分别对每张图中的内容进行描述,并指出这幅图把一个大而过时的VGA接口插入一个小而现代的智能手机充电端口,是荒谬的。

GPT-4也能简练指出图片的违和之处。用户提问:“这张图片有什么不寻常之处”时,GPT-4简练地回答出“一名男子正在行驶中的出租车车顶上使用熨衣板熨烫衣服”。

不仅是图像理解,它还可以阅读图片形式的论文。通过几张论文的图片,GPT-4可以总结内容,也可以对指定内容展开解释。

除了在文本输入的基础上进一步接受了图像输入外,GPT-4还升级成为了一个“学霸”,基准测试表现远远优于现有模型。OpenAI表示,如果是随意聊天,用户可能不太能感受出GPT-3.5与GPT-4之间的区别。但当任务的复杂性达到足够的阈值时,GPT-4将明显比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。“在我们的内部评估中,它产生正确回应的可能性比GPT-3.5高40%。”

根据测试,在“美国高考”SAT中,GPT-4的分数增加了150分,现在能拿到1600分中的1410分。它还通过了模拟律师考试,且分数在应试者的前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。

此外,GPT-4对于英语以外的语种支持也得到了大大的优化。许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言中的性能,OpenAI使用Azure Translate将MMLU基准测试(一套涵盖57个主题的14000个多项选择题)翻译成各种语言。在测试的26种语言中,有24种语言,GPT-4优于GPT-3.5和其他大语言模型的英语语言性能。

在API(应用程序编程接口)方面,GPT-4还开放了一个使用功能,允许修改“系统提示”。之前ChatGPT的回答总是冗长而平淡,这是因为系统提示中规定了“你只是一个语言模型……你的知识截止于2021年9月”。现在通过修改这句话,GPT-4就可以展现出更多样的性格,比如扮演苏格拉底。

OpenAI请GPT-4模型以苏格拉底风格教学,绝对不能给学生答案;相反地,还要不断提出好问题帮助学生思考。ChatGPT果真循循善诱,以提问代替直接回答。取自OpenAI官网

仍然不完全可靠

在体验ChatGPT之时,不少用户会发现ChatGPT时不时会“一本正经地胡说八道”,而GPT-4尽管号称功能更全面,但会出现幻觉、胡说八道的毛病还是没能完全改掉。

OpenAI介绍,尽管功能已经非常强大,但GPT-4仍与早期的GPT模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。GPT-4仍然会生成错误答案,并出现推理错误。

也就说,在GPT-4身上依然可以看到之前版本“一本正经地胡说八道”的情形。OpenAI强调,仍然推荐在使用它的时候要附加诸如人工审查、或者附加上下文,甚至在高风险情境中,要避免使用它。

不过OpenAI也提到,该系统已经接受了六个月的安全培训,在内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5高:“响应不允许内容的请求的可能性降低了82%,产生真实事实的可能性提高了40%,优于GPT-3.5。”

网传GPT-3和GPT-4参数对比图,但此次OpenAI没有给出GPT-4参数量

“它仍然存在缺陷,仍然有限,但它有明显的改进。它比以前的模型更有创意,它的幻觉明显减少,而且它的偏见也更少。”OpenAI公司CEO奥特曼在Twitter上称,GPT-4是其模型“最有能力且最符合”人类价值观和意图的模型。

这也意味着,相较之前的模型来说,GPT-4虽然仍可能“一本正经地胡说八道”,但频率有所减小。

不过频率的减小还是不能让人们放松警惕。在GPT-4发布后,微软营销主管表示,“如果你在过去六周内的任何时候使用过新的Bing预览版,你就已经提前了解了OpenAI最新模型的强大功能。”

这似乎可以理解为,微软的新必应早就已经用上了GPT-4。而结合前段时间对新必应的争议来看,已经用上了GPT-4的新必应还是出现了不少“发疯”行为。

此外,与前一代一样,GPT-4是基于2021年9月之前的数据训练的,所以GPT-4对于2021年9月之后发生的事件仍然缺乏有效理解,也不会从其经验中进行学习。OpenAI表示:“GPT-4仍有许多已知的局限性,我们正在努力解决,例如社会偏见、幻觉和对抗性提示。”

本文系观察者网独家稿件,未经授权,不得转载。

本文地址: http://caijing.shanghaima.com/caijing/41542.html
严正声明:本文仅代表作者个人观点,与上海财经网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,上海财经号系信息发布平台,上海财经网仅提供信息存储空间服务。如有侵权请出示权属凭证联系管理员(3455677927@qq.com)删除!
|上海财经网|上海财经新闻网|上海财经网电子版官网|上海财经网电子版阅读|上海财经大学网站|上海财经媒体|上海财政局网站|上海报业集团|上海财经网专栏|上海财经网东方财经|投诉上海财经网|上海财经网有哪些内容|上海财经网在哪里看|上海财经网地址|上海财经网新版上线|上海财经网新浪博客|上海财经网新闻频道|上海财经杂志|上海财经网APP|上海财经网记者新闻采访|

上一篇:湊湊火锅致歉:对出餐电子秤再次校准 全国餐厅设“公平秤”

下一篇:饮料中被非法添加管制精神药品,检察机关诉1.7亿惩罚性赔偿

相关推荐


关注我们

    Shanghai财经网,✅Shanghai经济网,Shanghai财经频道,上海商业新闻网,上海本地新闻媒体✅
返回顶部