GLFC:基于动态联邦的类别增量学习模型
背景与引言
由于本地客户端经常收集新类数据并且对于旧类的存储空间非常有限,这使得FL全局模型在实际场景中遭受到灾难性遗忘问题。此外,带有新类别数据的新参与客户端可能会参与到FL全局模型训练过程,这将进一步加剧灾难性遗忘问题。
为了解决这些实际情况,本文提出了一个具有挑战性的问题,称为联邦类增量学习(Federated Class-Incremental Learning: FCIL)。基于FCIL设置中,每个本地客户端都根据自己的喜好收集训练数据,而带有新类别数据的新参与客户端可以随时加入FL训练,即当前客户端和新增客户端上的数据分布是非独立同分布的(non-iid)。FCIL目标是通过本地客户端协作训练一个全局模型,以在隐私保护和有限存储能力的限制下持续学习新类别。
在FCIL设置中不断处理新类别数据,一个直观的想法是简单地将FL和增量学习整合在一起。然而,这种策略需要中央服务器知道新类别数据到达的时间和位置相关信息(隐私敏感信息),但是这违反了FL对隐私保护的要求。此外,由于数据之间的non-iid特性可能导致不同客户端上的异构性遗忘,并且进一步加剧对于旧类别的异构性全局灾难性遗忘。
本文主要贡献如下:1)解决了一个实际的FL问题(FCIL),其主要挑战是缓解本地客户端的类别不平衡以及跨客户端的non-iid分布带来的对旧类的灾难性遗忘问题;2)提出了一种新的全局-局部遗忘补偿(GLFC)模型来解决FCIL问题,同时有效的缓解了局部和全局的灾难性遗忘问题;3)通过设计类感知梯度补偿损失和类语义关系蒸馏损失来解决局部遗忘问题,并基于代理服务器选择最好的旧模型在本地客户端上进行类语义关系提炼从而有效缓解全局遗忘问题。
相关工作
联邦学习(FL):联邦学习(FL)是一种分布式学习框架,它可以通过聚集局部模型参数来训练全局模型。为了协作学习全局模型,通过权重机制聚合局部模型,现有方法主要关注于:局部模型逼近全局模型以加速收敛、或基于服务器策略减少计算开销。然而由于本地客户端存储旧类数据的内存有限,现有FL方法并不能有效持续地学习新类别。
增量学习(CIL):CIL旨在不断学习新类别,同时解决对旧类别能力的遗忘。增量学习主要使用调节器来平衡损失以及使用知识蒸馏来克服灾难性遗忘,因此新旧类之间的类不平衡设计是其面临的一个关键挑战。但是由于新类别数据的相关信息无法获取(隐私保护需求),因此现有的CIL方法并不能用于解决本文提出的FCIL问题。
GLFC模型设计
关于GLFC模型整体概述图如下图1所示,为了解决FCIL问题,GLFC模型通过类感知梯度补偿损失和类语义关系蒸馏损失来解决局部遗忘,同时通过代理服务器为本地客户端选择最佳的旧模型从而解决全局遗忘问题。
局部灾难性遗忘补偿:在第t个增量任务中,给定第l个本地客户端Sl并具有新类别的训练数据Tlt以及存储旧数据Ml,基于小批量进行交叉熵损失函数:
全局灾难性遗忘补偿:虽然通过类感知梯度补偿损失和类语义关系蒸馏损失可以解决局部由于类不平衡带来的局部灾难性遗忘,但是无法解决来自其他本地客户端的异构性遗忘(即全局灾难性遗忘)。换句话说,由于跨本地客户的non-iid分布导致的全局灾难性遗忘将会进一步恶化本地灾难性遗忘问题。因此,有必要从全局角度解决客户端之间的异构遗忘问题。
此外,根据经验设置γ = 0.1来控制本文中高斯噪声的影响,一些添加扰动重建后的原型样本如下图2所示。
实验部分
实验细节与设置:在实验中使用了三个数据集(CIFAR-100, ImageNetSubset, 以及TinyImageNet)。为了与FCIL设置中的基线类增量学习方法(SS-IL, iCaRL, PODNet, DDE, GeoDL, BiC)进行公平比较,整体实验使用相同的协议来设置增量任务,并且使用相同的骨干网络ResNet18。对于所有任务,使用学习率为2.0的SGD优化器对所有模型进行训练,每个客户端的样本存储器M1被设置为2000。对于本地客户端,使用学习率为0.1的SGD优化器构建扰动样本,使用学习率为1.0的L-BFGS优化器为代理服务器重建原型样本。在初始的增量任务中,将本地客户端的数量初始化为30个,随着学习任务的连续到达,再引入另外10个新的本地客户端。在每一轮全局迭代过程中,随机选择10个客户端进行20个轮次的本地训练,每个客户端随机接收60%的类别数据。最后,实验基于3个随机种子2021/2022/2023运行了3次实验,报告了平均结果。
性能比较:如下表1,2,3所示,充分说明了本文提出的GLFC模型的有效性,其中△代表本文GLFC模型与其他方法相比的改进程度。我们可以观察到,在FCIL设置下,本文的GLFC模型比现有的类增量方法在平均准确率方面提高了4.4%∼15.1%,其充分验证了本文模型可以使本地客户端协作训练一个全局的联邦类增量模型。此外,与其他方法相比,GLFC模型对于所有增量任务都有稳定的性能提升,这验证了其在解决FCIL遗忘问题上的有效性。
消融实验:如上表1,2,3所示,通过消融实验来研究模型中每个模块的影响,其中Ours-w/oCGC, Ours-w/oCRD和Ours-w/oPRS分别表示GLFC模型在不使用LGC、LRD和代理服务器SP的情况下的性能。与GLFC模型相比,Ours-w/oCGC, Ours-w/oCRD和Ours-w/oPRS的性能明显下降(降幅为1.1%∼10.1%),这表明所有模块对于训练全局类增量模型都是必不可少的,代理服务器对于通过评估重建样本来选择最佳旧模型也是必不可少的。
增量任务的定性分析:如下图3和4所示,通过对基准数据集上的各种增量任务(T=5,10,20)进行定性分析以验证GLFC模型的卓越性能。我们可以观察到,在不同任务数量设置下,GLFC模型比其他基线方法表现得更好,这表明GLFC模型可以使多个本地客户端以流的方式学习新类,同时解决局部和全局遗忘问题。
总结归纳
此外,对于本文个人认为:1)数据隐私保护:本文中不直接传输数据,而是对于数据添加高斯噪声扰动来传输扰动后的原型数据,通过梯度加密和梯度重构可以更好的实现隐私保护;2)动态联邦设置:关于动态联邦学习,可能存在更多情形(例如: 无标签的新数据加入到全局数据中去、在线or离线方式训练FL全局模型),特别是本文使用代理服务器为所有客户端选择最佳的历史模型对于以后的动态联邦学习训练方式具有一定启发性。
相关链接
https://openaccess.thecvf.com/content/CVPR2022/papers/Dong_Federated_Class-Incremental_Learning_CVPR_2022_paper.pdf
Code:
Publisher:
作者简介:
huan,西安电子科技大学硕士在读,计算机科学与技术专业。研究方向为联邦学习,模型压缩方向。
往期推荐