近期,上海交通大学浦江国际学院学生论文被国际机器学习大会(International Conference on Machine Learning,缩写为ICML)录用,论文标题为《Secure Multi-agent Reinforcement Learning for Service Systems with Affinity and Byzantine Nodes: Stability Analysis and Protection Design》(具有亲和力与拜占庭节点的服务系统安全多智能体强化学习:稳定性分析与防护机制)。两位共同第一作者分别是学院2022级本科生蒋意凡和2024级博士生潘家晟,指导教师为学院副教授金力。此项研究由国家自然科学基金资助,上海大学李梦甜老师参与合作。

ICML是机器学习领域最具影响力的顶级学术会议,致力于推动这一人工智能分支的前沿探索。大会以发表和展示机器学习各方面的最新研究成果享誉全球,内容覆盖人工智能、统计学、数据科学等密切相关学科,并深入机器视觉、计算生物学、语音识别和机器人学等关键应用方向。

所谓“拜占庭攻击”,源自计算机科学中一个经典难题——拜占庭将军问题。一队将军各守一方,只能靠信使传话协商进攻,但其中几名已叛变,故意传递矛盾信息。在今天的AI(人工智能)系统中,这体现为被操控或出故障的节点在交换梯度、参数时随意说谎,企图扰乱群体学习。这种“内部污染”比外部攻击更难察觉,因为它直接腐蚀了智能体之间赖以协作的信息通道。

此项研究聚焦LLM(大语言模型)推理路由、边缘计算调度和智能制造配送三类场景。它们的共同点在于,队列可以无界增长,没有预设上限;同时,任务与服务器之间存在隐式的“亲密度”:某个GPU(图形处理器)因缓存了特定请求,处理同类任务时明显加速;移动机器人频繁往返同一仓库,也能减少切换成本。一旦这种亲和结构被恶意打乱,不仅效率骤降,整个系统都可能失稳。

为同时应对“内鬼”、保持稳定和保障效率,此项研究设计了两项互补的算法机制。其一是同步策略混合:每个智能体既有一套从经验中习得的策略,也保留一个简单的“安全策略”,比如“总把任务派给队列最短的服务器”。系统越危险,安全策略的权重就越大,犹如为学习过程配备了“安全气囊”。其二是W-MSR(加权均值子序列缩减)韧性共识:节点接收邻居传来的数值后,先排序,再剔除最高与最低的若干个值,仅以剩余部分的均值更新自身,好比讨论时心照不宣地忽略那些胡言乱语者。两种机制相互配合,策略混合在行为层面抑制发散,韧性共识在信息层面过滤干扰,确保学习在攻击下仍能收敛。

在理论层面,此项研究突破了现有方法通常依赖有界状态空间或有限基函数的局限,首次在无界状态空间下建立了去中心化多智能体强化学习的几乎必然收敛性。研究通过构造指数型李雅普诺夫函数,证明了策略混合机制的几何遍历性,并基于泊松方程与随机逼近的微分包含框架,在双时间尺度上严格刻画了韧性共识与策略优化的联合收敛条件,并给出了拜占庭扰动下收敛邻域与非渐近相对误差的理论刻画。这套分析框架将物理系统的稳定性、学习过程的收敛性以及对抗环境下的韧性统一纳入严谨的数学语言,为后续同类研究提供了可参照的理论基准。

实验覆盖三类场景,攻击者比例统一设为20%。未加防护时,各场景的服务时间均急剧恶化,队列近乎无限膨胀;启用防御算法后,服务时间回落至仅略高于正常水平,任务与服务器间的亲和力指标也从尖锐紊乱恢复到结构清晰。对于迈向大规模去中心化协作的AI算力网络与工业物联网而言,容忍内部节点作恶的学习机制正逐渐成为一项基础能力。此项研究所提供的,不只是一个场景的修复方案,更是一套将稳定性保障与韧性学习融为一体的设计思路。

作者简介

蒋意凡

2022级本科生

本科期间发表CCF-A论文2篇,获校优秀毕业生称号,2026年9月起将在浦江国际学院攻读硕士学位。

潘家晟

2024级博士生

研究方向为多智能体强化学习理论。

金力

副教授

国家级青年人才,IEEE高级会员。本科毕业于上海交通大学,博士毕业于美国麻省理工学院,曾于美国纽约大学任教。研究方向为网络控制理论及智慧交通、算力集群等应用。