LLM的越狱攻击 - 知乎
2024年7月17日 这也反映了一个有意思的现象,即能力强的大模型可以理解base64编码,这种强能力可以被越狱攻击利用:欺负安全检测机制不具备识别base64编码能力但是大模型本身有强泛化能力可以识别bas...知乎2024年03月26日揭示了LLMs中存在的多语言越狱挑战,考虑了无意识和有意识的两种场...2024年04月22日ReNeLLM 框架示意图,将越狱攻击泛化为Prompt改写和场景嵌套两个步...2024年04月22日越狱是黑盒攻击,因此措辞组合基于启发式和手动探索。魏等人。(202...
2024年09月21日

