# Task: Exploring the performance of the generative model under differential privacy

<br>

咳咳咳，欢迎来到这个课程作业。我们简要的介绍一下这个任务的基本情况，相关情况相信伍老师已经对大家做了一个基本的说明，在这里我再不厌其烦地啰嗦几句。

<br>

首先，本项任务是一个开放性的作业，在这项作业中，大家会学习到什么是差分隐私，并对差分隐私框架下的生成模型的进展有一些直观的了解。
之后我们希望大家能发挥自己地聪明才智去探索一些不一样的策略，来确保模型满足差分隐私，并达到更好的效果（开放性地挑战）。

<br>

因此，大家的任务可以基本分成两个部分：

- 基本任务：学习并完成我们这个notebook中的内容
- 开放式的挑战：我们希望大家能够尽自己的可能去挑战“差分隐私下的生成模型”这个课题，也就是说，我们希望大家能够尽可能地去探索差分隐私框架下生成模型的极限是什么。

<br>

本项任务的由以下几个部分组成：

- 首先是对生成模型和差分隐私的一个简要介绍
- 我们介绍了当下如何保证深度学习模型的差分隐私的几类重要的方法
- 我们给出了一些方法的代码，希望大家在调试的过程中能够加深对这些知识的理解
- 开放式的作业环节

<br>

Overall, during this notebook, You will:

- get familiar with the **Differential Privacy**
- understanding how modern Generative model behave under differential privacy
- learn how to use the library '**opacus**' to add differential privacy to the deep neural network

Now, let's go!

# Generative models 

<br>
生成领域最常见的几类模型应该是变分自编码器，生成对抗网络，以及最近如火如荼的扩散模型~

我们在这里主要看一下生成对抗网络，这个部分我们并不会细讲，相信大家对GAN已经有了足够的了解，如果希望有一个更深的了解，或许[NIPS 2016 Tutorial](./references/NIPS_2016_Tutorial.pdf) 是一个不错的学习材料。 


# What is differential privacy? 

<br>

近些年来，先进的机器学习技术，特别是深度神经网络(Deep Neural Networks, DNN)，已经在图像处理，语音处理，医疗诊断，图像生成等领域取得了巨大的成功并引起了广泛地关注。深度学习的成功在很大程度上取决于用于训练机器学习模型的大量数据的收集，比如 ImageNet。然而，这些数据集合通常包含着许多敏感信息，在理想的情况下，我们希望我们的深度学习算法能够保证这些数据的隐私，换句话说，要能够保证输出模型从任何个人用户的细节中泛化出来。不幸的是，当下成熟的机器学习算法并没有做出这样的保证，事实上，尽管最先进的深度学习算法可以很好地泛化到测试集，但它们往往在实际训练过程中表现出过拟合这一现象，这表明模型对某些特定的训练数据是存在隐式的记忆的，这就导致了隐私泄露的问题。

<br>

与此同时，研究者们已经提出了几种侵犯隐私的攻击方式，以表明我们可以从不同的机器学习系统中提取敏感的私人信息， 因而，如何在保护此类隐私信息的同时允许数据集具有较高的学习效用自然受到了广泛的关注，差分隐私 (Differential Privacy, 以下简称为DP)正是保护在敏感数据上训练的 ML 模型隐私的常用技术。

<br>

差分隐私这一概念最早于2006年由美国哈佛大学的Cynthia Dwork等学者提出，这些年一直在稳健发展。通俗来讲，差分隐私就是针对给定的数据集合，在保留统计学特征的前提下去除个体特征以保护用户隐私。与之前隐私保护方法最大的不同之处在于，差分隐私引入了一种全新的数据保护模式来控制数据的搜集、查询及使用过程。这样的方法使得数据安全性、隐私性在得到理论保证的前提下，最大限度地支持了基于数据驱动的科学研究及商业活动，最大化地保留了已有数据的可用价值。


# Deep learning with differential privacy

<br>
目前主流的差分隐私深度生成模型基于如下两个框架：

- 差分隐私的随机梯度下降算法(DPSGD)

- 教师模型的私有聚合（PATE）

我们在这个作业中我们专注于DPSGD算法的应用，DPSGD算法执行了一种带噪声的梯度下降形式，和传统的梯度下降算法不同，为了确保差分隐私，我们需要对反向传播过程中地梯度添加噪声（详见PPT，或者参照这份学习这份笔记 [Notes](./references/DP_notes.pdf)）。

# Environment for the experiment

由于pytorch比较简单, 我们接下来的实验都基于pytorch来写。


推荐大家使用conda来建立一个虚拟环境, 请大家务必先在虚拟环境里面先安装好pytorch等包, 然后从这个虚拟环境里重新启动notebook。


本实验不需要安装太多的库，大概就是**pytorch** 以及我们的需要用的DP库[opacus](https://opacus.ai/).


你可以通过conda或者pip的形式来安装，例如：

In [1]:
# The first step, make sure you have installed the required lib
# !pip install opacus

## How to use libary 'opacus'?

In [None]:
## This is just a demo code

# define your components as usual
model = Net()
optimizer = SGD(model.parameters(), lr=0.05)
data_loader = torch.utils.data.DataLoader(dataset, batch_size=1024)

# enter PrivacyEngine
privacy_engine = PrivacyEngine()
model, optimizer, data_loader = privacy_engine.make_private(
    module=model,
    optimizer=optimizer,
    data_loader=data_loader,
    noise_multiplier=1.1,
    max_grad_norm=1.0,
)
# Now it's business as usual
## 好了，这样就大功告成了，非常简单是不是~

# Something must note here!!!

<br>

在上面的示例代码中我们给出了如何使用 facebook 开发的库 “opacus” 来对寻常的深度学习模型的训练添加差分隐私。

示例看起来非常简单，但是有几个值得注意的地方，首先是这个 Privacy_engine 中的设置，
你可能会好奇这个 noise_multiplier, max_grad_norm 等都是什么意思~

如果你真的一点都不理解的话，还是建议你从头看一遍这份笔记[Notes](./references/DP_notes.pdf). 

之后你可能会从这份 [F&Q](https://opacus.ai/docs/faq) 中获取补充内容，如果一切顺利的话，你应该可以大致了解这个类中的参数的具体含义了~


## How to build a generative model under differential privacy?

在接下来的实验中请先确保你已经成功安装了pytorch和opacus！我们现在开始从头搭建一个DP框架下的生成模型~~~

<br>

考虑最简单的生成模型-DCGAN, 其生成器结构如下：

<br>

![avatar](./images/dcgan_generator.png)

<br>

接下来，我们使用DP-SGD来训练这个一个DCGAN，看看是什么结果~


In [None]:
"""
Runs DCGAN training with differential privacy.

简单来说，因为我们使用DP-SGD的话会对梯度加噪声，很自然的，我们可以预期我们的生成结果不会很好。
一般来说，小的模型会在DP框架下取得更好的效果（这里潜在的逻辑是： 越小的模型我们在反向转播是对梯度添加的噪声也越小，故而对模型性能的影响ye'bu's）。

"""

"""
Runs DCGAN training with differential privacy.
code from https://github.com/pytorch/opacus/blob/main/examples/dcgan.py
"""
from __future__ import print_function

import argparse
import os
import random

import torch.backends.cudnn as cudnn
import torch.nn as nn
import torch.optim as optim
import torch.utils.data
import torchvision.datasets as dset
import torchvision.transforms as transforms
import torchvision.utils as vutils
from opacus import PrivacyEngine
from tqdm import tqdm


parser = argparse.ArgumentParser(formatter_class=argparse.ArgumentDefaultsHelpFormatter)
parser.add_argument("--data-root", required=True, help="path to dataset")
parser.add_argument(
    "--workers", type=int, help="number of data loading workers", default=2
)
parser.add_argument("--batch-size", type=int, default=64, help="input batch size")
parser.add_argument(
    "--imageSize",
    type=int,
    default=64,
    help="the height / width of the input image to network",
)
parser.add_argument("--nz", type=int, default=100, help="size of the latent z vector")
parser.add_argument("--ngf", type=int, default=128)
parser.add_argument("--ndf", type=int, default=128)
parser.add_argument(
    "--epochs", type=int, default=25, help="number of epochs to train for"
)
parser.add_argument(
    "--lr", type=float, default=0.0002, help="learning rate, default=0.0002"
)
parser.add_argument(
    "--beta1", type=float, default=0.5, help="beta1 for adam. default=0.5"
)
parser.add_argument("--ngpu", type=int, default=1, help="number of GPUs to use")
parser.add_argument("--netG", default="", help="path to netG (to continue training)")
parser.add_argument("--netD", default="", help="path to netD (to continue training)")
parser.add_argument(
    "--outf", default=".", help="folder to output images and model checkpoints"
)
parser.add_argument("--manualSeed", type=int, help="manual seed")
parser.add_argument(
    "--target-digit",
    type=int,
    default=8,
    help="the target digit(0~9) for MNIST training",
)
parser.add_argument(
    "--device",
    type=str,
    default="cuda",
    help="GPU ID for this process (default: 'cuda')",
)
parser.add_argument(
    "--disable-dp",
    action="store_true",
    default=False,
    help="Disable privacy training and just train with vanilla SGD",
)
parser.add_argument(
    "--secure-rng",
    action="store_true",
    default=False,
    help="Enable Secure RNG to have trustworthy privacy guarantees. Comes at a performance cost",
)
parser.add_argument(
    "-r",
    "--n-runs",
    type=int,
    default=1,
    metavar="R",
    help="number of runs to average on (default: 1)",
)
parser.add_argument(
    "--sigma",
    type=float,
    default=1.0,
    metavar="S",
    help="Noise multiplier (default 1.0)",
)
parser.add_argument(
    "-c",
    "--max-per-sample-grad_norm",
    type=float,
    default=1.0,
    metavar="C",
    help="Clip per-sample gradients to this norm (default 1.0)",
)
parser.add_argument(
    "--delta",
    type=float,
    default=1e-5,
    metavar="D",
    help="Target delta (default: 1e-5)",
)

opt = parser.parse_args()

try:
    os.makedirs(opt.outf)
except OSError:
    pass

if opt.manualSeed is None:
    opt.manualSeed = random.randint(1, 10000)
print("Random Seed: ", opt.manualSeed)
random.seed(opt.manualSeed)
torch.manual_seed(opt.manualSeed)

cudnn.benchmark = True


try:
    dataset = dset.MNIST(
        root=opt.data_root,
        download=True,
        transform=transforms.Compose(
            [
                transforms.Resize(opt.imageSize),
                transforms.ToTensor(),
                transforms.Normalize((0.5,), (0.5,)),
            ]
        ),
    )
    idx = dataset.targets == opt.target_digit
    dataset.targets = dataset.targets[idx]
    dataset.data = dataset.data[idx]
    nc = 1
except ValueError:
    print("Cannot load dataset")

dataloader = torch.utils.data.DataLoader(
    dataset,
    num_workers=int(opt.workers),
    batch_size=opt.batch_size,
)

device = torch.device(opt.device)
ngpu = int(opt.ngpu)
nz = int(opt.nz)
ngf = int(opt.ngf)
ndf = int(opt.ndf)


# custom weights initialization called on netG and netD
def weights_init(m):
    classname = m.__class__.__name__
    if classname.find("Conv") != -1:
        m.weight.data.normal_(0.0, 0.02)
    elif classname.find("BatchNorm") != -1:
        m.weight.data.normal_(1.0, 0.02)
        m.bias.data.fill_(0)


class Generator(nn.Module):
    def __init__(self, ngpu):
        super(Generator, self).__init__()
        self.ngpu = ngpu
        self.main = nn.Sequential(
            # input is Z, going into a convolution
            nn.ConvTranspose2d(nz, ngf * 8, 4, 1, 0, bias=False),
            nn.GroupNorm(min(32, ndf * 8), ndf * 8),
            nn.ReLU(True),
            # state size. (ngf*8) x 4 x 4
            nn.ConvTranspose2d(ngf * 8, ngf * 4, 4, 2, 1, bias=False),
            nn.GroupNorm(min(32, ndf * 4), ndf * 4),
            nn.ReLU(True),
            # state size. (ngf*4) x 8 x 8
            nn.ConvTranspose2d(ngf * 4, ngf * 2, 4, 2, 1, bias=False),
            nn.GroupNorm(min(32, ndf * 2), ndf * 2),
            nn.ReLU(True),
            # state size. (ngf*2) x 16 x 16
            nn.ConvTranspose2d(ngf * 2, ngf, 4, 2, 1, bias=False),
            nn.GroupNorm(min(32, ndf), ndf),
            nn.ReLU(True),
            # state size. (ngf) x 32 x 32
            nn.ConvTranspose2d(ngf, nc, 4, 2, 1, bias=False),
            nn.Tanh()
            # state size. (nc) x 64 x 64
        )

    def forward(self, input):
        if input.is_cuda and self.ngpu > 1:
            output = nn.parallel.data_parallel(self.main, input, range(self.ngpu))
        else:
            output = self.main(input)
        return output


netG = Generator(ngpu)
netG = netG.to(device)
netG.apply(weights_init)
if opt.netG != "":
    netG.load_state_dict(torch.load(opt.netG))


class Discriminator(nn.Module):
    def __init__(self, ngpu):
        super(Discriminator, self).__init__()
        self.ngpu = ngpu
        self.main = nn.Sequential(
            # input is (nc) x 64 x 64
            nn.Conv2d(nc, ndf, 4, 2, 1, bias=False),
            nn.LeakyReLU(0.2, inplace=True),
            # state size. (ndf) x 32 x 32
            nn.Conv2d(ndf, ndf * 2, 4, 2, 1, bias=False),
            nn.GroupNorm(min(32, ndf * 2), ndf * 2),
            nn.LeakyReLU(0.2, inplace=True),
            # state size. (ndf*2) x 16 x 16
            nn.Conv2d(ndf * 2, ndf * 4, 4, 2, 1, bias=False),
            nn.GroupNorm(min(32, ndf * 4), ndf * 4),
            nn.LeakyReLU(0.2, inplace=True),
            # state size. (ndf*4) x 8 x 8
            nn.Conv2d(ndf * 4, ndf * 8, 4, 2, 1, bias=False),
            nn.GroupNorm(min(32, ndf * 8), ndf * 8),
            nn.LeakyReLU(0.2, inplace=True),
            # state size. (ndf*8) x 4 x 4
            nn.Conv2d(ndf * 8, 1, 4, 1, 0, bias=False),
            nn.Sigmoid(),
        )

    def forward(self, input):
        if input.is_cuda and self.ngpu > 1:
            output = nn.parallel.data_parallel(self.main, input, range(self.ngpu))
        else:
            output = self.main(input)

        return output.view(-1, 1).squeeze(1)


netD = Discriminator(ngpu)
netD = netD.to(device)
netD.apply(weights_init)
if opt.netD != "":
    netD.load_state_dict(torch.load(opt.netD))

criterion = nn.BCELoss()

FIXED_NOISE = torch.randn(opt.batch_size, nz, 1, 1, device=device)
REAL_LABEL = 1.0
FAKE_LABEL = 0.0

# setup optimizer
optimizerD = optim.Adam(netD.parameters(), lr=opt.lr, betas=(opt.beta1, 0.999))

if not opt.disable_dp:
    privacy_engine = PrivacyEngine(secure_mode=opt.secure_rng)

    netD, optimizerD, dataloader = privacy_engine.make_private(
        module=netD,
        optimizer=optimizerD,
        data_loader=dataloader,
        noise_multiplier=opt.sigma,
        max_grad_norm=opt.max_per_sample_grad_norm,
    )

optimizerG = optim.Adam(netG.parameters(), lr=opt.lr, betas=(opt.beta1, 0.999))


for epoch in range(opt.epochs):
    data_bar = tqdm(dataloader)
    for i, data in enumerate(data_bar, 0):
        ############################
        # (1) Update D network: maximize log(D(x)) + log(1 - D(G(z)))
        ###########################

        optimizerD.zero_grad(set_to_none=True)

        real_data = data[0].to(device)
        batch_size = real_data.size(0)

        # train with real
        label_true = torch.full((batch_size,), REAL_LABEL, device=device)
        output = netD(real_data)
        errD_real = criterion(output, label_true)
        D_x = output.mean().item()

        # train with fake
        noise = torch.randn(batch_size, nz, 1, 1, device=device)
        fake = netG(noise)
        label_fake = torch.full((batch_size,), FAKE_LABEL, device=device)
        output = netD(fake.detach())
        errD_fake = criterion(output, label_fake)

        # below, you actually have two backward passes happening under the hood
        # which opacus happens to treat as a recursive network
        # and therefore doesn't add extra noise for the fake samples
        # noise for fake samples would be unnecesary to preserve privacy

        errD = errD_real + errD_fake
        errD.backward()
        optimizerD.step()
        optimizerD.zero_grad(set_to_none=True)

        D_G_z1 = output.mean().item()

        ############################
        # (2) Update G network: maximize log(D(G(z)))
        ###########################
        optimizerG.zero_grad()

        label_g = torch.full((batch_size,), REAL_LABEL, device=device)
        output_g = netD(fake)
        errG = criterion(output_g, label_g)
        errG.backward()
        D_G_z2 = output_g.mean().item()
        optimizerG.step()

        if not opt.disable_dp:
            epsilon = privacy_engine.accountant.get_epsilon(delta=opt.delta)
            data_bar.set_description(
                f"epoch: {epoch}, Loss_D: {errD.item()} "
                f"Loss_G: {errG.item()} D(x): {D_x} "
                f"D(G(z)): {D_G_z1}/{D_G_z2}"
                "(ε = %.2f, δ = %.2f)" % (epsilon, opt.delta)
            )
        else:
            data_bar.set_description(
                f"epoch: {epoch}, Loss_D: {errD.item()} "
                f"Loss_G: {errG.item()} D(x): {D_x} "
                f"D(G(z)): {D_G_z1}/{D_G_z2}"
            )

        if i % 100 == 0:
            vutils.save_image(
                real_data, "%s/real_samples.png" % opt.outf, normalize=True
            )
            fake = netG(FIXED_NOISE)
            vutils.save_image(
                fake.detach(),
                "%s/fake_samples_epoch_%03d.png" % (opt.outf, epoch),
                normalize=True,
            )

    # do checkpointing
    torch.save(netG.state_dict(), "%s/netG_epoch_%d.pth" % (opt.outf, epoch))
    torch.save(netD.state_dict(), "%s/netD_epoch_%d.pth" % (opt.outf, epoch))

# How about your result?

Note: 本实验可能需要一个至少（4G）的GPU才跑得起来，如果你遇到了GPU显存不够的问题，可以尝试如下一个解决思路
- 调小 batch-size
- 调小模型的大小（具体来说就是ndf和ngf）
- 用cpu跑（如果你没有显卡的话~）

<br>

在这里，我给出的我的实验结果

<center>
    <img style="border-radius: 0.3125em;
    box-shadow: 0 2px 4px 0 rgba(34,36,38,.12),0 2px 10px 0 rgba(34,36,38,.08);" 
    src="./images/real_samples.png">
    <br>
    <div style="color:orange; border-bottom: 1px solid #d9d9d9;
    display: inline-block;
    color: #999;
    padding: 2px;">真实的图片</div>
</center>

<center>
    <img style="border-radius: 0.3125em;
    box-shadow: 0 2px 4px 0 rgba(34,36,38,.12),0 2px 10px 0 rgba(34,36,38,.08);" 
    src="./images/fake_samples_epoch_024.png">
    <br>
    <div style="color:orange; border-bottom: 1px solid #d9d9d9;
    display: inline-block;
    color: #999;
    padding: 2px;">生成的图片</div>
</center>

<br>

显然，我们可以发现对梯度加噪声这一步对模型的结果有很大的影响，具体来说
- 从生成的结果来看，图片非常的模糊
- 从多样性来看，模型陷入了 model collapse, 生成的图片的非常单一.

自然的，我们可以考虑一个对一个更强的GAN来加DP，并希望这种方式能够取得更好的效果，或者其他方式，例如：

<br>

- 比如,考虑[wasserstein GAN](https://arxiv.org/abs/1704.00028)，这是GAN的一个突破，他解决了模型不易训练的问题，自然的，有人就已经做了这个工作[DP+WGAN](https://arxiv.org/pdf/1802.06739.pdf)

<br>

- 或者引入先验知识的CGAN, [DP+CGAN](https://arxiv.org/abs/2001.09700)

<br>

- 又或者，我们不考虑使用DPSGD，我们针对GAN的这种特定结构，对训练过程中的一部分加噪声，这就有了2020年CVPR的一篇文章[GS-WAGN](https://arxiv.org/pdf/2006.08265.pdf)

<br>

- 又或者，不管是DP-SGD还是GS-WGAN，他们都是基于训练过程的DP方式（对训练过程中的梯度加扰动），那么既然GAN在训练过程中其实是不断地衡量真实数据和生成数据之间的部分，那么，对于目标函数做扰动是不是可行的？这也就有了21年ICML的一篇文章 [DP-SWD](https://arxiv.org/pdf/2107.01848.pdf)


#  GS-WGAN: A Gradient-Sanitized Approach for Learning Differentially Private Generators (NeurIPS 2020).

<br>

在之前的实验中，我们看到直接使用DP-SGD来训练DCGAN效果可以说是比较差的，这自然就使得研究人员去探究怎么去给生成模型加DP(或者说噪声)能够既保持一定的模型实用性，又能有比较好的DP保证。现在我们简单的讲一讲2020年NeurIPS的一篇文章[GS-WAGN](https://arxiv.org/pdf/2006.08265.pdf)。

<br>

首先，我们先来分析一下 DP-SGD 在干什么

<br>

<center>
    <img style="border-radius: 0.3125em;
    box-shadow: 0 2px 4px 0 rgba(34,36,38,.12),0 2px 10px 0 rgba(34,36,38,.08);" 
    src="./images/dp_sgd.png">
    <br>
    <div style="color:orange; border-bottom: 1px solid #d9d9d9;
    display: inline-block;
    color: #999;
    padding: 2px;">DP_SGD</div>
</center>

<br>

首先是正常的反向传播，得到各个网络层参数的梯度，然后为了确保差分隐私，我们需要为梯度添加噪声，这由两步组成
- 梯度裁剪 $ clip(g^{(t)},C) $ ，这个C是一个人为给定的超参数，意思是我们的梯度最大不能超过这个阈值，这一步的目的是为了控制敏感度，可以这样直观理解，如果有某个部分的梯度特别重要，那我们会认为这一部分就容易受到攻击。

- 添加噪声 $ +N(0, \delta^2C^2I) $, 这一步就是正常的加噪步骤了。
- 最后由被扰动的梯度代替原来的梯度进行反向传播。

好，那DP_SGD的问题是什么呢？

- 梯度裁剪这一步损失了太多的信息，自然导致了实用性的下降
- 在实际的过程中，寻求一个合理的C（技能保证模型的性能，又能确保隐私）其实也并不容易。

那怎么解决这个缺点呢， 作者通过针对GAN的结构选择性的添加噪声并结合 Wasserstein GAN 的想法对梯度加一个正则来控制这个敏感度。

<br>

首先是选择性的添加噪声机制

<br>

<center>
    <img style="border-radius: 0.3125em;
    box-shadow: 0 2px 4px 0 rgba(34,36,38,.12),0 2px 10px 0 rgba(34,36,38,.08);" 
    src="./images/GS_WGAN.png">
    <br>
    <div style="color:orange; border-bottom: 1px solid #d9d9d9;
    display: inline-block;
    color: #999;
    padding: 2px;">GS-WGAN</div>
</center>

<br>

上图显示了GS-WGAN的示意图，左图是正常的GAN的流程，右图是GS-WGAN的流程。

<br>

我们可以看到，正常的GAN的流程是什么？ 我们从高斯白噪声出发，经过生成器生成一个一张（或者一个batch）的假样本，然后我们将生成的样本和真实样本（也就是我们需要保护的数据）送入判别器，然后得到相应的loss, 然后梯度回传，更新判别器和生成器。

<br>

注意到，在上面我们使用DP-SGD训练DCGAN的时候，我们实际上是对判别器的梯度加了噪声，然后根据后处理机制，只要 $ \Delta D(x) $ 是DP的，那么我生成器的梯度 $ g_G $ 也自然是DP的，这种方式实际上是对整个GAN都加了噪声。

<br>

然而，由于DP框架下生成模型的只需要我们 release 这个生成器 (generator)， 也就是说实际上我们并不需要对这整个模型加噪声，我们只要将这个DP机制加在生成器上，也就是说，我们的判别器还是正常的训练，只不过扰动的梯度代替生成器的梯度来训练我们的generator,如下：

<br>

<center>
    <img style="border-radius: 0.3125em;
    box-shadow: 0 2px 4px 0 rgba(34,36,38,.12),0 2px 10px 0 rgba(34,36,38,.08);" 
    src="./images/GS_WGAN_2.png">
    <br>
    <div style="color:orange; border-bottom: 1px solid #d9d9d9;
    display: inline-block;
    color: #999;
    padding: 2px;">选择性的添加噪声</div>
</center>

<br>

至于在损失函数中添加一个正则项来控制梯度不会太大（或者说控制敏感度）这一技巧也在论文中的[第4章节](https://arxiv.org/pdf/2006.08265.pdf), 这里我们就不展开讲了，有兴趣的同学可以自行阅读。

<br>

<center>
    <img style="border-radius: 0.3125em;
    box-shadow: 0 2px 4px 0 rgba(34,36,38,.12),0 2px 10px 0 rgba(34,36,38,.08);" 
    src="./images/GS_WGAN3.png">
    <br>
    <div style="color:orange; border-bottom: 1px solid #d9d9d9;
    display: inline-block;
    color: #999;
    padding: 2px;">GS-WGAN的结果</div>
</center>

<br>

<br>

我们可以看到，这个结果还是比较好的（至少在MINIST数据集上），这篇文章的代码可以在[这里](https://github.com/DingfanChen/GS-WGAN)找到，考虑到同学们可能并没有一个至少22G的显卡，这个模型可能大家跑不起来，因此，在这里，有条件的同学可以试一试。

# What should you do？

到这里，我们的主体内容已经基本结束了，我们总结一下，到目前为止，我们基本为大家讲述了差分隐私目前在生成模型领域的一些进展。

- 从最自然的想法——就是使用一个保证差分隐私的算法去训练一个生成模型（我们展示了如何使用DPSGD算法去训练DCGAN模型的例子）

- 到发现直接用 DPSGD 算法去做不太好之后，研究人员选择了一些改进策略，比如选择性的添加噪声(这就有了GS-WGAN)

- 又或者基于梯度扰动的算法可能不是很好，那我就直接做一个DP的目标函数(这就是[DP-SWD](https://arxiv.org/pdf/2107.01848.pdf)得想法）, 等等，这里不一一列举。

<br>

在上面我们简要介绍了GS-WGAN的核心想法，目的是希望大家能通过这个例子来理解当下的研究者是如何对这个问题进行改进的，这也是我们希望大家去探索的~

具体来说，**我们希望大家能够做这些事情**: 

- 给出一个你天马行空的想法，可以参照下面的一些思路。
- 如果可以的话，尽量给出你的实验结果。
- 一份报告（或者说就是一个小论文），他并不一定要多么的严谨，但是核心内容应当是：你的想法是什么，依据是什么？

实际上，我们并不要求大家一定要将这个作业的有多么的完备，换句话说，（可以没有严格的隐私分析，没有完备的实验，也没有太多仔细的分析，当然有是最好），那我们希望大家做什么？ 就是尽可能地给一个你的思路，然后用一些基本的实验或者理论来做支撑，如果条件允许的话，尽可能地给出你的实验，越详细越好。我们将根据大家的报告内容来给大家的这次作业打分，祝大家旅途愉快~

<br>

**一些可能的思路（2023.06）**：

***探索不同的生成模型？*** 

我们前面看到使用DPSGD算法去训练DCGAN的效果是非常差的，那么有的人就想到了更好的生成模型[WassesteinGAN](https://arxiv.org/pdf/1802.06739.pdf).

当然，既然是生成模型，我们自然可以不局限于GAN, [DP+VAE](https://arxiv.org/abs/1812.02274)的方式也是可行的.

或者，和最近大火的扩散模型结合起来？比如[DP+DDPM](https://nv-tlabs.github.io/DPDM/)或者[这个](https://arxiv.org/abs/2302.13861)
（PS：之前看的时候还没有太多人做，好像现在已经卷起来了~）

***不同的训练方式？***

比如换一个DP框架，比如下面是一些基于PATE框架的文章
- [PATE-GAN](https://openreview.net/forum?id=S1zk9iRqF7)，
- [Data-Lens](https://arxiv.org/pdf/2103.11109.pdf)
- [G-PATE](https://arxiv.org/abs/1906.09338)

***不同的数据场景？***

在之前的介绍中研究着们其实专注于结构化的数据生成，我们是不是可以考虑非结构化的图数据生成策略（当然可以，其实已经有一些人在尝试了~）

一个核心的问题是，当我们尝试非结构化数据的时候，我们需要考虑那些问题，这里我们给出一些方向，比如

   - sampling定理在非结构化数据上怎么做? 简单来说就是给一张图，我们怎么去采样子图？可以参考的方向有[Random Walk Sampling](https://arxiv.org/abs/2301.00738)，有没有别的想法？
   - Graph Condendation. 基于目前数据集压缩的一些工作，在结构化数据上已经见到了相关的[DP做法](https://arxiv.org/abs/2211.04446),那其实图数据集的压缩也是有的，比如[Graph Condensation for Graph Neural Networks](https://arxiv.org/abs/2110.07580)

***又或者对现有的DP-SGD算法做改进？*** 

既然差分隐私在大模型上有维数灾难（用人话讲就是，大模型参数更多，自然的我要加的噪声也更多，那如果考虑梯度扰动的方法，我能不能把梯度先往低维空间投影，然后在加噪声，最后用这个低维的梯度在更新网络参数？），这方面地工作可以参考
- [对网络每一层的参数做低秩的矩阵分解](https://arxiv.org/pdf/2106.09352.pdf), 
- 又或者[梯度的低维空间投影](https://openreview.net/forum?id=7dpmlkBuJFC).
- more...

<br>