网安学院郭山清教授、李政教授团队在人工智能安全方向取得新成果-网络空间安全学院

首页

首页 > 学院新闻 > 正文

网安学院郭山清教授、李政教授团队在人工智能安全方向取得新成果

发布日期：2025/03/20 点击量：

近日，网络空间安全学院郭山清教授、李政教授团队在人工智能安全方向的研究成果“Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-To-Image Generation Models”被网络与系统安全顶级会议IEEE S&P接收。该论文的第一作者为学院博士研究生董英凯，通讯作者为郭山清教授、李政教授。

近年来，文生图模型为艺术创作、社交媒体内容生成等领域提供了前所未有的便捷性。然而，由于其输入空间广泛且具备高度的输入灵活性，该类模型在应对越狱攻击时面临严峻挑战，攻击者可利用多样化的输入方式绕过其安全机制。尽管研究人员已提出多种越狱攻击方法来揭示此类风险，但现有技术仍面临语义困惑度高、搜索模式固定等挑战，导致攻击效率和隐蔽性受限。为此，本研究提出了新型越狱攻击框架JailFuzzer，该框架创新性地结合了模糊测试技术与大语言模型智能体的先进特性，能够根据上下文信息自适应地调整变异策略，进而自动生成自然且语义连贯的越狱提示词，完成高效且隐蔽的越狱攻击。实验表明，JailFuzzer能够对主流文生图模型以高于81.93%的成功率实现越狱攻击，致使其生成含有不当内容的恶意图片，并在综合性能上优于所有基线方法。

IEEE S&P又称Oakland，与ACM CCS、USENIX Security、NDSS并列称为网络与系统安全领域的四大国际顶级学术会议，该会议近十年的平均录用率仅为14%。

图文：董英凯沈雨彤

审核：魏普文

上一条：密码与数字经济安全全国重点实验室第一届学术委员会第一次会议举行

下一条：天融信专家团队走进网安课堂讲授网络空间安全技术前沿

首页

网安学院郭山清教授、李政教授团队在人工智能安全方向取得新成果

联系我们