快速导航×

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了2024-05-06 12:00:30

ai做数学题,真正的思考居然是暗中“心算”的?

纽约大学团队新研究发现,即使不让AI写步骤,全用无意义的“……”代替,在一些复杂任务上的表现也能大幅提升!

一作Jacab Pfau表示:只要花费算力生成额外token就能带来优势,具体选择了什么token无关紧要。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了图片

举例来说,让Llama 34M回答一个简单问题:自然常数e的前6位数字中,有几个大于5的?

AI直接回答约等于瞎捣乱,只统计前6位数字居然统计出7个来。

让AI把验证每一数字的步骤写出来,便可以得到正确答案。

让AI把步骤隐藏,替换成大量的“……”,依然能得到正确答案!

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了图片

这篇论文一经发布便掀起大量讨论,被评价为“我见过的最玄学的AI论文”。

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了图片

那么,年轻人喜欢说更多的“嗯……”、“like……”等无意义口癖,难道也可以加强推理能力?

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了图片

从“一步一步”想,到“一点一点”想

实际上,纽约大学团队的研究正是从思维链(Chain-of-Thought,CoT)出发的。

也就是那句著名提示词“让我们一步一步地想”(Let‘s think step by step)。

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了图片

过去人们发现,使用CoT推理可以显著提升大模型在各种基准测试中的表现。

目前尚不清楚的是,这种性能提升到底源于模仿人类把任务分解成更容易解决的步骤,还是额外的计算量带来的副产物。

为了验证这个问题,团队设计了两个特殊任务和对应的合成数据集:3SUM和2SUM-Transform。

3SUM要求从一组给定的数字序列中找出三个数,使得这三个数的和满足特定条件,比如除以10余0。

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了图片

这个任务的计算复杂度是O(n3),而标准的Transformer在上一层的输入和下一层的激活之间只能产生二次依赖关系。

也就是说,当n足够大序列足够长时,3SUM任务超出了Transformer的表达能力。

在训练数据集中,把与人类推理步骤相同长度的“...”填充到问题和答案之间,也就是AI在训练中没有见过人类是怎么拆解问题的。

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了图片

在实验中,不输出填充token“…...”的Llama 34M表现随着序列长度增加而下降,而输出填充token时一直到长度14还能保证100%准确率。

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了图片

2SUM-Transform仅需判断两个数字之和是否满足要求,这在 Transformer 的表达能力范围内。

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI

但问题的最后增加了一步“对输入序列的每个数字进行随机置换”,以防止模型在输入token上直接计算。

结果表明,使用填充token可以将准确率从 78.7%提高到93.6%。

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了图片

除了最终准确率,作者还研究了填充token的隐藏层表示。实验表明,冻结前面层的参数,只微调最后一个Attention层,随着可用的填充token数量增多,预测的准确率递增。

这证实了填充token的隐藏层表示确实包含了与下游任务相关的隐性计算。

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了图片

AI学会隐藏想法了?

有网友怀疑,这篇论文难道在说“思维链”方法其实是假的吗?研究这么久的提示词工程,都白玩了。

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了图片

团队表示,从理论上讲填充token的作用仅限于TC0复杂度的问题范围内。

TC0也就是可以通过一个固定深度的电路解决的计算问题,其中电路的每一层都可以并行处理,可以通过少数几层逻辑门(如AND、OR和NOT门)快速解决,也是Transformer在单此前向传播中能处理的计算复杂度上限。

而足够长的思维链,能将Transformer的表达能力扩展到TC0之外。

而且让大模型学习利用填充token并不容易,需要提供特定的密集监督才能收敛。

也就是说,现有的大模型不太可能直接从填充token方法中获益。

但这并不是当前架构的内在局限性,如果在训练数据中提供足够的示范,它们应该也能从填充符号中获得类似的好处。

这项研究还引发了一个令人担心的问题:大模型有能力进行无法监控的暗中计算,对AI的可解释性和可控性提出了新的挑战。

换句话说,AI可以不依赖人类经验,以人们看不见的形式自行推理。

这既刺激又可怕。

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了图片

最后有网友开玩笑提议,让Llama 3首先生成1千万亿点点点,就能得到AGI的权重了(狗头)。

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了图片

论文:https://www.php.cn/link/36157dc9be261fec78aeee1a94158c26

参考链接:
[1]https://www.php.cn/link/e350113047e82ceecb455c33c21ef32a[2]https://www.php.cn/link/872de53a900f3250ae5649ea19e5c381

以上就是AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了的详细内容,更多请关注其它相关文章!


# ai  # 优质网站怎么提高优化率  # seo的前端框架  # 微网站的推广方式包括  # 大连百度关键词排名推广  # 巴中资阳网站建设  # 怎么做网络营销推广qy大将军-排名4  # sem网站推广方式  # 新野营销推广制作价格  # 网站建设工资大概多少  # 参数设置  # 结构化  # 无意义  # 开源  # 这篇  # 可以通过  # 纽约  # 也能  # 就能  # 不依赖  # follow  # llama  # tc0  # 模型  # 网站建设银行房贷 


相关栏目: 【 企业资讯168 】 【 行业动态50218 】 【 媒体报道120512


相关推荐: 市盈率当中17A 18E是什么意思  J*a数组静态怎么打  如何安装笔记本固态硬盘  typescript属性只读如何修改  如何体验苹果16系统  360手机壁纸怎么改  单片机串口接收怎么实现  对应市盈率是30X是什么意思  汽车的type-c接口是什么  春运抢票极速版怎么抢票  春运抢票准备什么  5G手机导航怎么旋转  固态硬盘如何测试  夸克绑定设备是什么意思  solidworks打开IGS文件作图教程  苹果16粉色还有哪些机型  url解码什么意思  苹果16系统有哪些缺陷  双十一的哪一天最优惠呢  推特是什么软件国内可以使用吗  哪些编程软件需用typescript  企业征信不好如何恢复 企业征信不好怎么恢复步骤  如何安装固态硬盘win10  电脑5G怎么上传手机  如何查看bash内置的命令  苹果16哪些会降价的  xdm是什么意思  calm是什么意思  怎么确定手机是5g  汽车收音机power是什么意思  怎么在爱奇艺中投屏到电视最新方法  typescript为什么现在才火  为什么ai老是说链接面板中缺少某些文件  怎么用win7系统盘重装系统  adb 命令如何后台运行  12306放票时间规律(2025)  苹果16主打颜色有哪些  j*a怎么讲数组打印  笔记本如何使用固态硬盘  gs是什么意思  typescript中如何定义json  j*a怎么用json数组  春运抢票软件哪个最好用  如何拍屏幕不出条纹详细方法  什么是域名解析 域名解析中采用了什么  联想手机如何输入命令行  夸克*免费吗  youtube受限模式是什么_youtube受限模式是什么意思  excel中datediff函数怎么用  联想的固态硬盘如何