首页 > 自媒体素材 > 自媒体素材 > 苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著

苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著

发布时间:2025-06-06 16:18:19来源: 18638159832
AI「思考」只是假象?
 
  刚刚,一项来自苹果的重磅研究揭示了「大推理模型(LRM)」背后的惊人真相——这些看似聪明的模型,在面对稍复杂点的题目时,准确率居然会全面崩溃!
 
  随着问题变难,推理模型初始会延长思考,但随后思考深度反而下降,尽管仍有充足token预算——它们恰在最需要深入思考时选择了放弃!
 
  这太违背直觉了,似乎Scaling Law在推理时完全失效了。
 
  值得一提的是,论文作者中还有Samy Bengio,他也是图灵三巨头Yoshua Bengio的兄弟。
 
 
  论文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
 
  LRM模型因能「写出思考过程」而备受期待,被认为是AI推理能力跃升的关键。
 
 
  DeepSeek-R1 模式的开源开启了LLM进化到LRM的进程
 
  但研究人员通过可控游戏环境的系统实验证明:现有LRMs不仅在高复杂度任务上力不从心,甚至还展现出一种「反常的推理崩溃曲线」——题目越难,它们反而越不「努力」。
 
  研究还通过在相同计算token预算下对比思考模型与普通模型,发现:
 
  不同于大多数仅衡量最终性能的研究,这项最新研究分析了它们实际的推理轨迹——深入观察其冗长的「思考」过程。
 
  三种不同的性能区间
 
  与以往主要依赖数学问题来评估语言模型推理能力的研究不同,本研究引入了可控的解谜环境。
 
  这种环境可以精确调节问题的复杂度,同时保持逻辑过程的一致性,从而更严谨地分析模型的推理模式和局限性。
 

自媒体素材更多>>

广东省人工智能与机器人产业联盟第一届第一次会员大会召开 广西持续实施“数商兴农”行动 助推农村电商高质量发展 兴趣电商模式帮助降低农业销售的供应链成本 2025上海国际碳中和博览会聚焦“两新” 京东展示全链路绿色解决方案 广东荔枝成交额增长超560%,京东发起行业最大规模助销行动 淘宝天猫祭出官方物流品牌“极速上门”,联合顺丰开启首期服务公测 淘宝买空调格力变杂牌,商家:零件是格力的! 上海日光盘频出,为何我的二手房还在跌? 最新数据!天津新房成交TOP10,都是新产品! 上海黄浦区“中福古玩城”98套商场房产1.5亿成交 使用权剩15年 苹果iPhone重大飞跃!全球首款2nm芯片曝光 5299 → 2999 元:苹果 iPad mini(A17 Pro)eSIM 版京东低过 WLAN 版 苹果 Apple TV + 全新自然纪录片《The Wild Ones》7 月 11 日全球首播,带你探索濒危物种 苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著 vivo X Fold5将推全新金属漆面绿版,延续全球最轻薄大折叠设计 vivo X Fold5绿色新配色亮相,轻量化三防设计引关注 微软 Win11 测试新功能:用户离开时自动限制 CPU 性能以提升电池续航 前苹果设计师发布iOS 26前瞻概念图,毛玻璃效果很有质感和动感 苹果宣布WWDC25将于6月10日举行,iOS 26等系统更新引关注 华为智慧屏 6 月更新亮点公布:升级鸿蒙 AI、4K 投屏,适配超十款设备 小尺寸 大屏幕 强性能 红魔电竞平板3 Pro的参数越来越有意思了 广东机器人“爆单”!背后藏着怎样的产业密码? 嘉立创拟上市:高效硬件服务助力机器人产业发展 远东股份人形机器人技术“出圈”!优必选已落地,智元送样试验ing 陈国远与国远社团:共筑AI智能量化交易的金融梦想 5月第四周长沙新房成交652套 “湘十条”利好楼市持续向好 楼市公益活动征集“房源点评志愿者” 苹果AirPods将推出睡眠智能感知等多项新功能 vivo X Fold5暂定本月登场:全球最轻骁龙8 Gen3大折叠 华为首款鸿蒙AI手表正式官宣,智能手表迎来真正“AI”革命