众所周知,“AI”已然成为了近年来最大的风口之一。一方面,只要与AI扯上关系的行业基本都能“原地起飞”,就算不是真的飞起来,起码也能吸引到不少的关注。
但在另一方面,也能时不时能看到一些“AI闹笑话”的消息。比如某个知名AI又产出奇葩回答了,比如有患者因为医生开的治疗方案“和AI不一样”而闹矛盾,比如一些专业学者指出AI里的某些知识点“虚空造史”、还编得有鼻子有脸等等。
那么以上这些问题的根源,到底是什么呢?
当然,从技术的角度来说,可以讲这是时代的局限性,是现在的AI还不够完善,是模型的训练量还不够大,所用的硬件算力还不够高。
但从非技术这个角度来看,事情或许就没有这么复杂了。因为纵观到目前为止的各种“AI事故(和故事)”,问题的症结似乎都可以归纳为“信任”二字。
首先,我们来说说用户对AI的“信任”。相信不少家中有长辈的朋友可能会经历过这样的事情,一旦教会他们使用AI,事情便会变得不可收拾,Ta们会对AI的回答盲目信任、奉为圭臬。而对于大多数非专业的人来说,就算明知AI的回答有问题,可能也很难去争辩AI“到底哪里犯了错”。
有时候我们三易生活内部进行讨论时也会感叹,由于现在部分用户对于AI十分盲信,所以那些互联网搜索引擎公司不如干脆停掉传统广告业务,直接在AI回答里植入广告得了。反正只要说成是“AI说的”就会有人信,真出了事甚至也能甩锅给AI,还搞什么传统的搜索竞价排名呢。
当然,用户盲信AI,AI是不是也盲信用户呢?是的,而且实际上程度可能还要更加严重。
比如有用过如今那些AI问答、AI工具的朋友可能就知道,AI对于用户的“忍让度”几乎可以说是无限大。无论用户提出的问题有多么反智,AI都会“不急不躁”地给出回答。甚至在有些案例里,明明AI给出的回答是对的,但用户因为自己的原因非要说AI犯错了,AI也只会无条件地顺从用户的判断,而完全不会去指正。很显然,对于那些真的想要从AI中学到知识的人来说,这就绝对不算是一种好的现象。
但这还不是最糟糕的情况。由于AI对用户存在着盲目的信任,而且对于大语言模型来说,他们其实是没法区分自己“对话”的对象究竟是开发者、还是一般用户。所以这就造成了另一个问题,也就是所谓的“提示词注入攻击”。
比如IBM官网给出的这个例子,由于大语言模型无条件地信任用户,所以当用户“恰好”输入了符合开发者习惯的命令后,AI就会将用户当作开发者、并执行此命令。
这种针对AI的攻击最大的危险性,就在于甚至不需要攻击者懂得任何编程语言,因为AI自己就起到了直接“理解”自然语言的作用。而且大家也千万不要觉得,类似的攻击只能起到“找乐子”的作用。
比如在刚发布的一款AI助手类软件“Claude”的使用说明里,就可以看到其开发者对于注入式攻击的警告。因为这款AI助手能够帮助用户阅读网页、填写表单、撰写和发送邮件,所以它可能会被网页里隐藏的命令语句“蛊惑”,向攻击者发送包含用户隐私的邮件。而这,便是AI盲信用户所可能导致糟糕结果的其中一种极端体现。
那么除了用户和AI之间的“互相盲信”,还有没有其他情况呢?当然有,那就是AI和AI之间糟糕的“信赖关系”。
如果说用户盲信AI是出于“对威权的崇拜”、AI对用户的盲信则是出于商业利益的“刻意逢迎”,那么AI和AI之间的“信任关系”,绝大多数就只能解释为开发者的纯粹偷懒行为了。
比如最近这几天许多使用了DeepSeek V3.1模型的AI服务,被开发者发现其推理输出结果会时不时出现牛头不对马嘴的“极”字,严重影响了编译效率,有时甚至会让问题的回答变得面目全非。
那么问题到底出在哪呢?一位曾经测试过DeepSeek-R1早期模型的网友给出了高赞回答。他认为这很可能是R1时期的BUG没有在迭代时被清理干净,结果新版模型在自行蒸馏的过程中,直接被当作“成熟经验”给学去了。也就是说,这是一个典型的“AI教坏AI”事件。
当然,大多数时候,“AI教坏AI”的例子影响力没有DeepSeek这次那么大,但其“错”的程度绝对可以比这更离谱。
比如大家都知道,现在不少网站的文章实际上都是靠“AI生成”。而当今那些AI助手服务,很多实际又要靠互联网上的公开内容抓取来生成观点和信息。于是乎,如果AI抓取了AI生成的文章,然后产出的观点又被AI拿去写成了新的文章,结果会变成什么样呢?
结果就是,互联网工程任务组(IETF)近日直接颁布了一份新的草案,建议今后使用了AI生成内容的网站,直接在网站标头里加入专门的“AI生成”标签。这样一来,其他AI就能知道这里面的东西“可能不靠谱”,从而避免AI反复“自己抄自己”,出现让错误内容越来越离谱的情况。
不过这个看起来很好的举措并非强制性的,而是要靠网站自愿,所以真正的效果怎样,就只能是大家自求多福了。
【本文图片来自网络】