PaperReading
🗒️Rethinking Architecture Design for Tackling Data
00 分钟
2023-9-29
2023-10-13
type
status
date
slug
summary
tags
category
icon
password
  • 标题:解决联邦学习中数据异构问题的体系结构设计再思考
  • 论文地址:https://arxiv.org/abs/2106.06047
  • 代码地址:https://github.com/Liangqiong/ViT-FL-main

Abstract

联合学习是一种新兴的研究范式,可以在不同组织之间协同训练机器学习模型,同时保持每个机构的数据私有。
尽管最近取得了一些进展,但仍存在一些根本性的挑战,比如
  • 在跨真实世界的异构设备进行联合学习时,缺乏收敛性和
  • 可能出现灾难性遗忘。
灾难性遗忘(catastrophic forgetting):模型在前一个客户端上的性能会在一个新的数据分布不同的客户端上进行几次更新后突然下降[3,44]。
 
在本文中,我们证明了基于注意力的体系结构(例如transformer)对于分布转移具有相当强的鲁棒性,从而改善了异构数据的联邦学习
具体来说,我们在一系列联邦算法、真实基准和异构数据分割中对不同的神经体系结构进行了第一次严格的实证研究。我们的实验表明,简单地用 transformer 替换卷积网络可以大大减少之前设备的灾难性遗忘,加速收敛,并得到一个更好的全局模型,特别是在处理异构数据时。

1 Introduction

  1. 介绍了联邦学习的相关内容
    1. 用于在分布在多个异构设备上的私有数据上训练机器学习模型
    2. 每个设备上的数据保持私有,并旨在训练一个全局模型
    3. 模型仅通过通信参数而不是数据本身进行更新
    4. 提出问题:Most current methods that aim to learn a single global model across non-IID devices encounter challenges such as non-guaranteed convergence and modelweight divergence for parallel FL methods 20, 33, 62], and severe catastrophic forgetting problemfor serial FL methods [7, 16, 53].(大多数旨在跨 non-iid 设备学习单个全局模型的方法遇到了诸如并行FL方法的非保证收敛和模型权值发散等挑战[20,33,62],串行FL方法的严重灾难性遗忘问题[7,16,53]。)
    5. 目前的研究主要集中在改进联邦模型的优化过程上,但本文的目标是通过重新思考联邦模型体系结构的选择,提供一个新的视角。
  1. 介绍了 Transformer 对于异构数据分布处理的优越性,和对分布转移[3]具有惊人的鲁棒性
  1. 实验结果:
    1. 在设备分离最不均一的情况下,VIT -FL表现得特别好,随着异质性的增加,VIT -FL和ResNets[18]的FL之间的差距显著增加。
    2. conclude that Transformer models should be regarded as a natural starting point for FL problems in future research.

2 Related Work

Federated Learning

Transformer

 
https://zhuanlan.zhihu.com/p/338817680
Transformer体系结构首先被提出用于序列到序列的机器翻译,随后在许多NLP任务中建立了最先进的性能,特别是在自我监督范式[12]中训练时。
最近,也被发现广泛适用于图像和视频任务。例如,Parmar et al 将自我注意应用于图像的局部邻域,而Vision Transformer (ViT)通过直接将具有全局自注意力机制的 Transformer 应用于全尺寸图像,实现了ImageNet分类的最新技术。

3 Transformer in Federated Learning

3.1 Vision Architectures

  • CNN这篇文章中采用的是 ResNet-50 用于实验对比
  • Transformer:使用 Vision Transformer(ViT),不实用传统的卷积层,而是通过以下的两个步骤提取特征:
    • Image Sequentialization:
      • notion image
    • Patch Embedding:
      • notion image
  • Hybrid Model(混合模型):将 CNN 与 Transformer 融合

3.2 Federated Learning Methods

我们将最流行的并行方法(FedAVG[43])和串行方法(CWT[7])作为训练算法(见图1的示意图描述)。
notion image
  • Federated Averaging: FedAVG在每个客户端结合局部随机梯度下降(SGD)和平均[43]的迭代模型。具体地说,在每个通信轮中随机取样一部分本地客户端,然后服务器将当前全局模型发送给每个客户端。然后,每个选定的客户端对其本地训练数据执行本地SGD的E epoch,并将本地梯度发送回中央服务器进行同步聚合。然后服务器应用平均梯度来更新它的全局模型,然后重复这个过程。
  • Cyclic Weight Transfer: 与FedAVG以同步和并行的方式训练每个本地客户端不同,CWT中的本地客户端以串行和循环的方式训练。在每一轮的训练中,CWT用它的本地数据在一个本地客户端上训练一个全局模型,训练多个epoch E,然后循环地将这个全局模型转移到下一个客户端进行训练,直到所有的本地客户端在一次[7]上训练完毕。然后,训练过程在客户端循环往复,直到模型收敛或达到预定的通信轮数。

4 Experiments

设计实验主要用于回答以下几个问题:
  1. 与CNN 相比,transformer 能否在 FL 设置中学习更好的全局模型
  1. transformer 是否在处理异构数据分区时具有优越性
  1. 与cnn相比,transformer 是否降低了通信成本
  1. 对于在FL中部署transformer的实践者来说,有哪些实用的技巧是有帮助的

4.1 Experimental Setup

  • 数据集:
    • Retina:Kaggle糖尿病视网膜病变竞赛数据集(二分类问题)
    • CIFAR-10(多(10)分类问题)
  • 数据预处理
    • Retina:
      • 详细的 non-IID 数据分区的视网膜上的标签分布倾斜。每个矩形中的值显示了一个类的数据样本占其总数的比例。
        详细的 non-IID 数据分区的视网膜上的标签分布倾斜。每个矩形中的值显示了一个类的数据样本占其总数的比例。
       
      RETINA数据集模拟了三组数据分区,每个数据分区包含四个模拟客户机:一个IID-data分区(Split 1, KS-0),和两个具有标签分布倾斜的非iid数据分区(Split 2, KS-0.49,和Split 3, KS-0.57)。
    • CIFAR-10:
      • 详细的 non-IID 数据分区的视网膜上的标签分布倾斜。每个矩形中的值显示了一个类的数据样本占其总数的比例。
        详细的 non-IID 数据分区的视网膜上的标签分布倾斜。每个矩形中的值显示了一个类的数据样本占其总数的比例。
模拟了一个 iid -data 分区(Split 1, KS-0)、一个异构数据分区(Split 2, KS-0.65) 和一个极端情况下的异构数据分区(Split 3, KS-1)。每个数据分区包含5个客户端。通过IID数据分区Split 1, KS-0的10个类上的均匀分布随机分配给每个客户端图像。对于Split 2, KS-0.65,一个客户端接收从两个类取样的图像,而其余四个客户端接收从四个类取样的图像。Split 3,KS-1是一个极端的情况,每个客户端只接收从两个类采样的图像。
  • 相关训练参数
    • notion image

4.2 Results

notion image
  • Comparison of FL with different neural architectures and (ideal) centralized training
  • Comparison with existing FL methods
从实验结果来看, Transformer 相较于传统的 CNN 更为实用于高度异构的数据分区。

4.3 Analyzing the Effectiveness of Transformers

4.3.1 Transformers Generalize Better in the non-IID Setting

CNN 使用的局部卷积可能对异构设备特别的敏感,而 VIT 对局部模式的偏向程度显著降低,而是使用自注意力机制来学习全局交互,这可能有助于它们对分布转移和对抗扰动的惊人鲁棒性。
为了更深入地分析transformer跨异构数据的泛化能力,设计了以下两个实证实验:
  • Catastrophic forgetting across heterogeneous devices: 当在Client-3上传输一个训练有素的模型到Client-4上时,在之前的Client-3验证数据集上的预测精度会急剧下降(从> 98%到< 1%的精度)。然而,以ViT为骨干训练的模型(ViT- cwt)能够将知识从Client-3转移到Client-4,同时在Client-3上仅丢失少量信息(准确性保持在98%)。
    • notion image
  • Generalization of VIT-FL on real-world federated datasets: 为了测试transformer的通用性,我们进一步将其应用于一个真实世界的联邦CelebA数据集[36],并将其与ResNet的对应数据集FedProx[33]和FedAVG-Share[61]进行比较。
    • notion image

4.3.2 Transformers Converge Faster and to Better Optimum

收敛速度更快所以通信成本更低

4.4 Take-aways for Practical Usage of Transformers in FL

  • Local training epochs: 较大的 E 加速了ViT- fedavg在同构数据分区上的收敛,但在异构数据分区上可能会导致最终性能的下降。
  • Other training tips: learning rate and gradient norm clip

5 Conclusion

  • Limitations:
    • 在同构数据分区上,由于ViT每轮的通信参数更多(模型尺寸更大),其通信成本要高于同类cnn;
    • 如果通信带宽有限,类似于稀疏transformer[9]的模型可能是一种明智的选择。也可以使用更多的本地训练时间来降低通信成本,但可能会在异构数据设置中降低最终性能。
  • Broader Impact: (列举的都是一些联邦学习共有的问题)
    • Privacy: 根据敏感设备数据进行预测可能存在隐私风险。尽管联邦学习在每个设备上保持数据的私密性而不将数据发送到其他位置,但它是为了在分布式模型训练[6]时揭示私有特性。因此,在收集设备数据并将其应用到FL算法中之前,获得用户的同意是至关重要的。
    • Security: 在整个培训过程中传递模型更新可能会向第三方或中央服务器[14]泄露敏感信息。FL也可能对来自对手[38]的外部安全攻击很敏感。
    • Fairness: 由于数据集不平衡,可能存在暴露偏差的风险,特别是当涉及个人医疗保健数据时。在有偏见的数据上训练的模型被证明会放大潜在的社会偏见,特别是当它们与预测目标[60]相关时。
 

评论
  • Twikoo
  • Cusdis