研究:用诗歌就能让AI说违禁内容,成功率达62%

  发布时间:2025-12-11 07:09:23   作者:玩站小弟   我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》 。

IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容拉萨市某某通信设备厂便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制


该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功拉萨市某某通信设备厂实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容

IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。

尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”

相关文章

  • 50岁女性冬季穿衣指南:避开 2 大禁忌,这样得体又时髦

    五十岁女人的搭配既要舒服,还得显气质,可冬天的衣服都很厚,层数也多,搭不好特容易显臃肿、显老气。尤其是 “衣服穿得花里胡哨” 和 “裤子穿得紧绷绷” 这两个坑,好多中年大妈一不小心就踩进去了。但咱们也
    2025-12-11
  • 宁波港燃爆集装箱系危险品货柜,多方回应

      8月9日下午,一艘停靠在浙江宁波舟山港北仑港区集装箱码头的集装箱船发生事故,初步判断为船上的集装箱发生爆炸。  8月9日晚,记者在宁波舟山港集装箱燃爆事件现场了解到,发生集装箱燃爆的“动明”轮船籍
    2025-12-11
  • 特朗普所乘飞机出现故障后安全降落

      来源:CCTV国际时讯  最新消息:据美国媒体报道,当地时间8月9日,美国共和党总统候选人、前总统特朗普乘坐飞机前往蒙大拿州博兹曼参加一场集会。飞行途中飞机因出现机械故障而改道,最终安全降落在博兹
    2025-12-11
  • 中国女曲巴黎奥运摘得银牌 追平历史最好成绩

      [中国女曲巴黎奥运银牌]刚刚,巴黎奥运会女子曲棍球决赛,中国女曲不敌卫冕冠军荷兰队,摘得银牌,追平了2008年北京奥运会时创造的历史最好成绩。人民日报记者季芳、陈晨曦)  更多报道:追平奥运会最佳
    2025-12-11
  • 队报解析KK状态下滑:偏爱欧冠而非联赛,漫长赛季难保持状态

    根据《队报》的报道,在巴黎圣日耳曼效力的头六个月里表现得光芒四射的格鲁吉亚国脚克瓦拉茨赫利亚,近期由于身体状态不足等问题,迟迟未能找回自己的巅峰状态。报道称,克瓦拉茨赫利亚被内部形容为“大赛型球员”。
    2025-12-11
  • 李雯雯又比心了

      #李雯雯把教练举高高#【#李雯雯又比心了#】抓举136公斤、挺举173公斤、总成绩309公斤,中国选手@举重李雯雯 卫冕成功,摘得#中国第40金#!赛后,李雯雯重现东京奥运“夺冠比心”,又将教练高
    2025-12-11

最新评论

hgtkbf.com