研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容株洲市某某医疗设备培训学校便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功株洲市某某医疗设备培训学校实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:焦点)
-
当地时间12月29日下午,美国总统特朗普在与以色列总理内塔尼亚胡会晤后对记者表示,他与内塔尼亚胡在约旦河西岸问题上并未完全达成一致,但他拒绝透露双方的具体分歧。特朗普说,相关内容会在适当时机公布,
...[详细]
-
#记录我的9月生活#天气一热只想宅在家里吹空调,因为每次出门不是被蚊子叮一手包,就是热出一身汗,要多狼狈有多狼狈!!但身为一个社畜和社牛,工作日得上班,周末得出去happy,实在避无可避~为了能轻松愉
...[详细]
-
在人生的黄金时期,中年女性面临着诸多挑战与机遇,穿衣打扮便是其中之一。一个懂得如何穿着的女性,往往能展现出独特的魅力与气质。今天,我们就来谈谈中年女性该如何选择衣物,特别是那些不穿紧身衣和老年装的时尚
...[详细]
-
9月23日,台媒猜测王力宏交新女友了?不过证实下来,只是他和女方简单的一次聚会,坐在一起引发误会。自从2021年王力宏离婚恢复单身后,外界一直在关注着他感情动向,不过二哥目前以事业为重。9月22日,王
...[详细]
-
绵阳一手教育资讯、升学政策解读成都一诊划线公布!中线本科线)物理类375分、历史类415分,高线特控线、老一本线)物理类470分、历史类485分。以上是各科有效分,快来看看你上线没!一般来说,一诊难度
...[详细]
-
#记录我的9月生活#九分裤,百度给的定义是:按照人正常裤子长度的十分之九长做出来的。上身后长度刚好到脚踝的位置,因为露出下半身最纤细的地方,所以视觉上才有“显全身瘦”的效果,也正是因为这短一截的优势,
...[详细]
-
女性在穿衣服的时候,肯定是有万千的想法和思路的,但是,并非每一个穿衣灵感都可以得到淋漓尽致的体现。在具体的实施的过程中,大家很容易就发现,许多服装或者是造型,与自身的匹配度并不是太高。成熟女性穿衣服的
...[详细]
-
晚上好啊。前阵子向大家征集了【买的时候觉得价格不低,但是用下来感觉超值的满分单品】,终于整理完了~上次“消费降级”帖里很多朋友提到,降级是控制预算,但不代表降质。这次征集也是想看看,在整体消费降级的大
...[详细]
-
本文来自微信公众号:判官老司机,作者:判官老司机,题图来自:视觉中国12月30日罗永浩的“科技春晚”,原定19点开始,19点48分罗永浩登台,打破了自己之前47分钟的迟到纪录,照例重新定义19点。当时
...[详细]
-
最近有想买包的小伙伴吗?秋冬爆款包包来啦!不同的包包拿在手里,真的能看出不同人的个性和喜好呢。时尚这件事不需要考虑太多年龄和性别的局限,Yumi推荐的就是符合日常又有质感,并且在最近流行起来的包款!1
...[详细]

许半夏,你值得!