香港城市大学博士后研究员郑翔应邀作学术报告

新闻动态
阅读次数:

        2025年5月28日,应南方科技大学斯发基斯可信自主系统研究院(RITAS)牛健宇研究助理教授的邀请,香港城市大学博士后研究员郑翔在工学院南楼443B围绕“基于强化学习的大型语言模型(LLM)对抗评估与防御增强”进行学术报告。

 

 

图 1 郑翔研究员作学术报告


       当前,LLM基于其理解、推理、编程、规划、决策的能力,在客户服务、法律咨询、医疗健康等领域已有了更为深入的应用,在性能提升的同时,如何解决LLM的安全性问题也日益受到重视。基于这一背景,郑翔研究员聚焦安全评测视角,为在场的师生介绍了LLM安全评测的技术框架、轻量化工具与防御方案。
       基于强化学习的LLM对抗评估与防御增强,是指通过对抗性测试——如修改提示词、注入噪声等手段,评估LLM在恶意输入下的容错边界,利用强化学习算法优化攻击策略从而发现漏洞,并设计防御机制增强模型鲁棒性。在报告中,郑翔研究员介绍了一系列近期的相关工作,譬如基于好奇心驱动的LLM黑盒审计框架(CALM),利用视觉语言模型的黑盒防御机制抵御越狱攻击(BlueSuffix),更贴近真实场景的多维度系统性安全评估(ROSE)等等。

图 2 近期工作概况(BlueSuffix)


       报告结束后,在场的师生围绕报告核心议题并结合自身研究方向展开深入的学术探讨,郑翔研究员从技术实现、实验验证及行业应用等维度对师生们的提问进行系统性回应,报告在热烈的学术对话中圆满结束。