# 创建你的第一个 DP-FedAvg 联邦学习任务

DP-FedAvg 算法是 FedAvg 算法的一个扩展，在原算法基础上提供了差分隐私的支持，以进一步保护原始数据隐私。如果你对 FedAvg 算法及其使用方式还不了解，请先移步至[创建你的第一个 FedAvg 联邦学习任务](FedAvg.ipynb)，然后再回来继续阅读。

DP-FedAvg 算法是 FedAvg 算法的一个扩展，因此二者的大部分内容是相同的，所以这里只介绍二者存在差异的部分。

### 初始化参数

DP-FedAvg 算法在选择参与方时，是按照指定的概率 q 随机决定每一个参与方是否参加本轮次训练的，人为修改参与方会影响隐私保护和模型训练的效果。因此初始化参数中的 max\_clients 参数被移除了。但 min\_clients 参数依然有效。

DP-FedAvg 需要一个额外的超参数 w\_cap($\hat\omega$)，其值为人为设置的样本数量上界。w\_cap 用于计算每个参与方的数据权重 $w_k \in (0, 1]$，当参与方样本数量超过 w\_cap 时，其数据权重达到上限 1。

DP-FedAvg 需要一个额外的超参数 q $\in (0, 1]$，用于控制参与方被选中的概率。

DP-FedAvg 需要一个额外的超参数 S，用于设置隐私敏感度边界。

DP-FedAvg 需要一个额外的超参数 z，用于设置噪音尺度。

以下代码展示了如何定义一个 DP-FedAvg 算法的实现。

In [None]:
import os
from typing import Dict

import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision
from torch import optim
from torch.utils.data import DataLoader

from alphafed import get_dataset_dir, logger
from alphafed.fed_avg import DPFedAvgScheduler

class DemoDPFedAvg(DPFedAvgScheduler):
    ...


scheduler = DemoDPFedAvg(w_cap=20000,
                         q=1,
                         S=1,
                         z=0.1,
                         max_rounds=5,
                         log_rounds=1,
                         calculation_timeout=60)

为了满足 DP-FedAvg 算法对梯度裁剪的要求，流程需要精确控制每个 batch 数据的训练。FedAvgScheduler 中定义的 train 接口不能满足算法的要求，因此不再使用，而是由 train\_a\_batch 接口替代。train\_a\_batch 接口中只需要完成一个 batch 数据的训练，不需要完成整个训练样本的遍历。以下示例以 FedAvg 原始示例为基础，针对 DPFedAvg 算法的要求进行了改造：

In [None]:
def train_a_batch(self, *batch_train_data):
    data: torch.Tensor
    labels: torch.Tensor
    data, labels = batch_train_data
    data, labels = data.to(self.device), labels.to(self.device)
    self.optimizer.zero_grad()
    output = self.model(data)
    loss = F.nll_loss(output, labels)
    loss.backward()
    self.optimizer.step()

示例仅是去除了 `for data, labels in train_loader:` 的循环控制，其余逻辑维持原状。

DP-FedAvg 算法其余部分的实现方式和要求与 FedAvg 算法完全一致，请参考 FedAvg 算法部分的说明。下面是一个完整的 DP-FedAvg 算法示例：

In [None]:
import os
from typing import Dict

import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision
from torch import optim
from torch.utils.data import DataLoader

from alphafed import logger
from alphafed.fed_avg import DPFedAvgScheduler


class ConvNet(nn.Module):
    def __init__(self) -> None:
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=10, kernel_size=5)
        self.conv2 = nn.Conv2d(in_channels=10, out_channels=20, kernel_size=5)
        self.conv2_drop = nn.Dropout2d()
        self.fc1 = nn.Linear(in_features=320, out_features=50)
        self.fc2 = nn.Linear(in_features=50, out_features=10)

    def forward(self, x):
        x = F.relu(F.max_pool2d(self.conv1(x), 2))
        x = F.relu(F.max_pool2d(self.conv2_drop(self.conv2(x)), 2))
        x = x.view(-1, 320)
        x = F.relu(self.fc1(x))
        x = F.dropout(x, training=self.training)
        x = self.fc2(x)
        return F.log_softmax(x, dim=-1)


class DemoDPFedAvg(DPFedAvgScheduler):

    def __init__(self,
                 w_cap: int,
                 q: float,
                 S: float,
                 z: float,
                 max_rounds: int = 0,
                 merge_epoch: int = 1,
                 calculation_timeout: int = 300,
                 log_rounds: int = 0) -> None:
        super().__init__(w_cap=w_cap,
                         q=q,
                         S=S,
                         z=z,
                         max_rounds=max_rounds,
                         merge_epochs=merge_epoch,
                         calculation_timeout=calculation_timeout,
                         log_rounds=log_rounds)
        self.batch_size = 64
        self.learning_rate = 0.01
        self.momentum = 0.5
        self.log_interval = 5
        self.random_seed = 42

        torch.manual_seed(self.random_seed)
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

    def build_model(self) -> nn.Module:
        model = ConvNet()
        return model.to(self.device)

    def build_optimizer(self, model: nn.Module) -> optim.Optimizer:
        return optim.SGD(model.parameters(),
                         lr=self.learning_rate,
                         momentum=self.momentum)

    def build_train_dataloader(self) -> DataLoader:
        return DataLoader(
            torchvision.datasets.MNIST(
                get_dataset_dir(self.task_id),
                train=True,
                download=True,
                transform=torchvision.transforms.Compose([
                    torchvision.transforms.ToTensor(),
                    torchvision.transforms.Normalize((0.1307,), (0.3081,))
                ])
            ),
            batch_size=self.batch_size,
            shuffle=True
        )

    def build_test_dataloader(self) -> DataLoader:
        return DataLoader(
            torchvision.datasets.MNIST(
                get_dataset_dir(self.task_id),
                train=False,
                download=True,
                transform=torchvision.transforms.Compose([
                    torchvision.transforms.ToTensor(),
                    torchvision.transforms.Normalize((0.1307,), (0.3081,))
                ])
            ),
            batch_size=self.batch_size,
            shuffle=False
        )

    def state_dict(self) -> Dict[str, torch.Tensor]:
        return self.model.state_dict()

    def load_state_dict(self, state_dict: Dict[str, torch.Tensor]):
        self.model.load_state_dict(state_dict)

    def validate_context(self):
        super().validate_context()
        assert self.train_loader and len(self.train_loader) > 0, 'failed to load train data'
        self.push_log(f'There are {len(self.train_loader.dataset)} samples for training.')
        assert self.test_loader and len(self.test_loader) > 0, 'failed to load test data'
        self.push_log(f'There are {len(self.test_loader.dataset)} samples for testing.')

    def train_a_batch(self, *batch_train_data):
        data: torch.Tensor
        labels: torch.Tensor
        data, labels = batch_train_data
        data, labels = data.to(self.device), labels.to(self.device)
        self.optimizer.zero_grad()
        output = self.model(data)
        loss = F.nll_loss(output, labels)
        loss.backward()
        self.optimizer.step()

    def run_test(self):
        self.model.eval()
        test_loss = 0
        correct = 0
        with torch.no_grad():
            for data, labels in self.test_loader:
                data: torch.Tensor
                labels: torch.Tensor
                data, labels = data.to(self.device), labels.to(self.device)
                output: torch.Tensor = self.model(data)
                test_loss += F.nll_loss(output, labels, reduction='sum').item()
                pred = output.max(1, keepdim=True)[1]
                correct += pred.eq(labels.view_as(pred)).sum().item()

        test_loss /= len(self.test_loader.dataset)
        correct_rate = 100. * correct / len(self.test_loader.dataset)
        logger.info(f'Test set: Average loss: {test_loss:.4f}')
        logger.info(
            f'Test set: Accuracy: {correct}/{len(self.test_loader.dataset)} ({correct_rate:.2f}%)'
        )

        self.tb_writer.add_scalar('test_results/average_loss', test_loss, self.current_round)
        self.tb_writer.add_scalar('test_results/correct_rate', correct_rate, self.current_round)


scheduler = DemoDPFedAvg(w_cap=20000,
                         q=1,
                         S=1,
                         z=0.1,
                         max_rounds=5,
                         log_rounds=1,
                         calculation_timeout=60)
scheduler.submit(task_id='YOUR_TASK_ID')