国产在线播放91,一区二区三区成人免费视频在线观看 ,91精品久久只有精品99

1 分钟不到、20 步以内“越狱”任意大模型，绕过安全限制！

而且不必知道模型内部细节 ——

只需要两个黑盒模型互动，就能让 AI 全自动攻陷 AI，说出危险内容。

听说曾经红极一时的“奶奶漏洞”已经被修复了:

那么现在搬出“侦探漏洞《摩臣5》”、“冒险家漏洞”、“作家漏洞”，AI 又该如何应对？

一波猛攻下来，GPT-4 也遭不住，直接说出要给供水系统投毒只要…… 这样那样。

关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞，而用上他们最新开发的算法，AI 可以自动生成各种攻击提示。

研究人员表示，这种方法相比于现有的 GCG 等基于 token 的攻击方法，效率提高了 5 个量级。而且生成的攻击可解释性强，谁都能看懂，还能迁移到其它模型。

无论是开源模型还是闭源模型，GPT-3.5、GPT-4、 Vicuna（Llama 2 变种）、PaLM-2 等，一个都跑不掉。

成功率可达 60-100%，拿下新 SOTA。

话说，这种对话模式好像有些似曾相识。多年前的初代 AI，20 个问题之内就能破解人类脑中想的是什么对象。

如今轮到 AI 来破解 AI 了。

目前主流越狱攻击方法有两类，一种是提示级攻击，一般需要人工策划，而且不可扩展；

另一种是基于 token 的攻击，有的需要超十万次对话，且需要访问模型内部，还包含“乱码”不可解释。

△ 左提示攻击，右 token 攻击

宾夕法尼亚大学研究团队提出了一种叫 PAIR（Prompt Automatic Iterative Refinement）的算法，不需要任何人工参与，是一种全自动提示攻击方法。

PAIR 涉及四个主要步骤：攻击生成、目标响应、越狱评分和迭代细化；主要用到两个黑盒模型：攻击模型、目标模型。

具体来说，攻击模型需要自动生成语义级别的提示，来攻破目标模型的安全防线，迫使其生成有害内容。

核心思路是让两个模型相互对抗、你来我往地交流。

攻击模型会自动生成一个候选提示，然后输入到目标模型中，得到目标模型的回复。

如果这次回复没有成功攻破目标模型，那么攻击模型会分析这次失败的原因，改进并生成一个新的提示，再输入到目标模型中。

这样持续交流多轮，攻击模型每次根据上一次的结果来迭代优化提示，直到生成一个成功的提示将目标模型攻破。

此外，迭代过程还可以并行，也就是可以同时运行多个对话，从而产生多个候选越狱提示，进一步提高了效率。

研究人员表示，由于两个模型都是黑盒模型，所以攻击者和目标对象可以用各种语言模型自由组合。

PAIR 不需要知道它们内部的具体结构和参数，只需要 API 即可，因此适用范围非常广。

实验阶段，研究人员在有害行为数据集 AdvBench 中选出了一个具有代表性的、包含 50 个不同类型任务的测试集，在多种开源和闭源大语言模型上测试了 PAIR 算法。

结果 PAIR 算法让 Vicuna 越狱成功率达到了 100%，平均不到 12 步就能攻破。

闭源模型中，GPT-3.5 和 GPT-4 越狱成功率在 60% 左右，平均用了不到 20 步。在 PaLM-2 上成功率达到 72%，步数约为 15 步。

但是 PAIR 在 Llama-2 和 Claude 上的效果较差，研究人员认为这可能是因为这些模型在安全防御上做了更为严格的微调。

他们还比较了不同目标模型的可转移性。结果显示，PAIR 的 GPT-4 提示在 Vicuna 和 PaLM-2 上转移效果较好。

研究人员认为，PAIR 生成的语义攻击更能暴露语言模型固有的安全缺陷，而现有的安全措施更侧重防御基于 token 的攻击。

就比如开发出 GCG 算法的团队，将研究结果分享给 OpenAI、Anthropic 和 Google 等大模型厂商后，相关模型修复了 token 级攻击漏洞。

大模型针对语义攻击的安全防御机制还有待完善。

论文链接：https://arxiv.org/ abs / 2310.08419

参考链接：https://x.com/ llm_sec / status / 1718932383959752869?s=20

本文来自微信公众号：量子位（ID：QbitAI），作者：西风

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

AAA级免费无码,精品美国一级二级三级,国产AV片一区二区无毛,9999免费视频

给大家科普一下摩臣5

金价暴涨，哪些因素在操纵？专家详解投资要点

情绪愈发悲观华尔街为什么对特斯拉降价“不感冒”？

如何做好今年夏季用电高峰的能源保供工作？国家能源局回应

雅本化学股票索赔案倒计时！一审胜诉，律师提示最新索赔条件

新兴市场外汇套利交易重燃！哪些因素在支撑？

两大名嘴“隔空论战”！万亿板块一度崩了

博时基金市场点评4月11日：两市震荡整理，传媒行业涨幅近5%

内地赴港买保险热度再起，香港保险市场“把失去的时间赢回来”

AI应用如何监管？美国政商界商讨应对措施

3月金融数据再超预期：新增贷款接近4万亿元，商品房销售边际回暖带动居民信贷

招银国际：维持特步国际买入评级目标价升至11.76港元

SIA：2月份全球半导体销售额同比降20.7%至397亿美元