AI「思考」只是假象?
刚刚,一项来自苹果的重磅研究揭示了「大推理模型(LRM)」背后的惊人真相——这些看似聪明的模型,在面对稍复杂点的题目时,准确率居然会全面崩溃!
随着问题变难,推理模型初始会延长思考,但随后思考深度反而下降,尽管仍有充足token预算——它们恰在最需要深入思考时选择了放弃!
这太违背直觉了,似乎Scaling Law在推理时完全失效了。
值得一提的是,论文作者中还有Samy Bengio,他也是图灵三巨头Yoshua Bengio的兄弟。
论文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
LRM模型因能「写出思考过程」而备受期待,被认为是AI推理能力跃升的关键。
DeepSeek-R1 模式的开源开启了LLM进化到LRM的进程
但研究人员通过可控游戏环境的系统实验证明:现有LRMs不仅在高复杂度任务上力不从心,甚至还展现出一种「反常的推理崩溃曲线」——题目越难,它们反而越不「努力」。
研究还通过在相同计算token预算下对比思考模型与普通模型,发现:
不同于大多数仅衡量最终性能的研究,这项最新研究分析了它们实际的推理轨迹——深入观察其冗长的「思考」过程。
三种不同的性能区间
与以往主要依赖数学问题来评估语言模型推理能力的研究不同,本研究引入了可控的解谜环境。
这种环境可以精确调节问题的复杂度,同时保持逻辑过程的一致性,从而更严谨地分析模型的推理模式和局限性。