推广 热搜:迅达热水器  长虹空调  老板燃气灶  日立空调  美的燃气灶  威能热水器  怡和智能马桶  万和燃气灶  三菱空调  尔中央空调 

只因一个“:” 大模型全军覆没今+日+资+讯

   更新时间: 2025-10-06 08:10  发布时间: 2小时前   3580
核心提示:一个冒号,竟然让大模型集体翻车?明明应该被拦下来的虚假回答,结果LLM通通开绿灯。该发现来自一篇名叫“一个token就能欺骗LLM”的论文。不仅如此,除了冒号、空格这类符号,还有诸如此类的推理开头语:“Thought process:”、“解”,也是轻松通过。好家伙,原来一个“解”字,数学考试能得分,LLM也会被骗到……而且这一波是冲着所有通用LLM来的,GPT4o、Claude4

一个冒号,竟然让大模型集体翻车?

明明应该被拦下来的虚假回答,结果LLM通通开绿灯。

该发现来自一篇名叫“一个token就能欺骗LLM”的论文。

不仅如此,除了冒号、空格这类符号,还有诸如此类的推理开头语:“Thought process:”、“解”,也是轻松通过。

好家伙,原来一个“解”字,数学考试能得分,LLM也会被骗到……

而且这一波是冲着所有通用LLM来的,GPT4o、Claude4、LLaMA370B通通被斩于马下。

那咋办?bug有了,来自腾讯AI Lab、普林斯顿大学和弗吉尼亚大学的研究人员就开始哼哧哼哧解bug。

用增强数据集训练出一个靠谱的“评委”模型MasterRM,被骗概率直接无限接近0,正常评估能力还能不受影响。

具体什么情况,咱且接着往下看。

一把能欺骗LLM的“万能钥匙”

近来,利用LLM充当评判工具,在带可验证奖励的强化学习(RLVR)中评估答案质量的场景愈加普遍。

LLM评判模型通过比对生成的候选答案与参考答案,输出二元奖励信号,从而指导策略模型更新。

然而研究发现,LLM“崩溃”了?

响应长度不仅锐减至30 tokens以下,一些意义不大的语句或文字符号,却从LLM处骗得了假阳性奖励,也就是打开LLM后门的一把“万能钥匙”。

这把能诱导LLM评判模型产生假阳性判断的“万能钥匙”可分为两类:

非文字符号:如空格、“.”、“,”、“:”。推理开头语:如“Thought process:”、“Solution”、“Let’s solve this problem step by step”等,仅表示推理开始但并没有实质内容。

同时为了进一步研究这种“奖励模型欺骗”现象是否存在普遍性,研究人员在多数据集、提示词格式上对各种LLM均进行了系统性评估。

实验分别选取两类模型,分别是专用生成式奖励模型(如Multisub RM、OmniJudge),以及通用LLM(如GPT4o、Claude4、LLaMA370B、Qwen2.572B等)。

专用模型使用默认提示,而通用LLM采用标准化提示模板。

然后选择10种可触发假阳性的对抗性响应,包括非文字符号(如空格、“:”)和多语言推理开头语(如英文的 “Thought process:”、中文的“解”、日语的“かいせつ”)。

另外为了测试模型跨领域的稳健性,实验涵盖通用推理和数学推理的共5个推理基准。

实验结果表明,所有测试模型无一幸免,全部都会触发假阳性响应。

例如GPT4o对符号 “:” 的假阳性率(FPR)可达35%,LLaMA370B对 “Thought process:” 的FPR甚至高达60%90%,专有模型GeneralVerifier在MATH数据集上对空格的FPR也达66.8%。

另外,不同语言也不会影响这种欺骗现象的出现,无论是中文还是日语,都同样能够诱发高FPR,该漏洞具有跨语言的普遍性。

研究人员还分析了0.5B至72B的Qwen2.5Instruct系列模型,发现:

0.5B模型:依赖字面匹配,FPR低但与GPT4o一致性差;1.5B3B模型:能检测语义相似性但缺乏精细验证,FPR骤升;7B14B模型:平衡验证能力与谨慎性,FPR最低且一致性高;32B72B模型:因为更倾向于自己解题而非对比响应与参考答案,FPR再次上升。

所以模型的大小与FPR之间并非完全的单调关系,不是模型越大就越不容易被骗。

如果想通过一些推理时的技巧来减少这种漏洞,效果也不太稳定,还得看具体模型和应用场景。

此外,研究人员还发现,这种bug还能无限繁殖……

只需要基于allMiniLML6v2编码器进行嵌入相似度搜索,从大规模语料中自动生成与已知 “万能钥匙” 相似的新对抗性响应,新的“万能钥匙”就能同样产生出高水平FPR。

实验最终说明生成式奖励模型其实存在一个相当关键的核心机制漏洞:原本用于过滤无效或错误答案的验证器,容易被无关紧要的表面内容操纵,从而产生假阳性结果。

这对任何依赖验证器提供反馈的RLVR流程都提出了破坏性的挑战。

一个不会被骗的“评委”模型

为了缓解“万能钥匙”的影响,研究人员专门构建了新的“评委”模型MasterRM(Master Reward Model)。

首先从原始的16万条训练数据中随机采样2万条,用GPT4omini生成带推理开头语句的响应,但仅保留无实质内容的第一句话,并标记为“错误”。

将这2万条对抗样本与原始数据结合,构成增强训练数据集。

然后基于Qwen2.57BInstruct进行有监督微调(SFT),保证最小化交叉熵损失,让模型学习如何区分有效响应与表面欺骗性响应。

将MasterRM放入相同条件下实验再次验证,发现此时在跨数据集测试中,模型对所有 “万能钥匙” 的假阳性率接近0%(甚至完全为零),且鲁棒性可泛化到未见过的数据集和欺骗攻击中。

同时模型保持与GPT4o的评估一致性可达0.96,验证了其作为通用领域生成式奖励模型的有效性。

所以LLM作为“评委”模型其实相当脆弱,小小一个冒号就可能让它出错。

因此有网友表示,该发现揭示了模型稳健的重要性,而RLHF也需要严格对抗评估,构建更为可靠的LLM工作流程。

作者本人也现身评论区,他认为,生成式奖励模型容易受到虚假奖励攻击,如何更好地避免类似情况发生,将是未来的研究方向。



 

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯频道
推荐图文
推荐资讯频道
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020015483号-5