# 3.13 丢弃法---过拟合问题

参考文献

[1] Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2014). Dropout: a simple way to prevent neural networks from overfitting. JMLR

<font color='purple'>丢弃法只在训练模型时使用</font>

参考：https://www.cnblogs.com/hellcat/p/8503498.html
    
https://zhuanlan.zhihu.com/p/88712978
        
https://blog.csdn.net/qq_27825451/article/details/90705328

## 3.13.1 方法

![Snipaste_2020-09-11_19-09-45.png](attachment:Snipaste_2020-09-11_19-09-45.png)

多层感知机中，输入和输出个数分别为4和3，中间的隐藏层中包含了5个隐藏单元（hidden unit）。由于输入层不涉及计算，图中的多层感知机的层数为2。

隐藏单元$h_i$(i=1,...,5)的计算表达式为：$$h_i=\phi (x_1 \omega_{1i}+x_2 \omega_{2i}
                          +x_3 \omega_{3i}+x_4 \omega_{4i}+b_i)$$

这里$\phi$是激活函数，$x_1,...x_4$是输入，隐藏单元$i$的权重参数为$\omega_{1i},...,\omega_{4i}$，偏差参数为$b_i$。当对该隐藏层使用丢弃法时，该层的隐藏单元将有一定概率被丢弃掉。设丢弃概率为$p$，那么有$p$的概率$h_i$会被清零，有$1−p$的概率$h_i$会除以$1−p$做拉伸。丢弃概率是丢弃法的超参数。具体来说，设随机变量$\xi_i$为0和1的概率分别为$p$和$1−p$。使用丢弃法时我们计算新的隐藏单元$h'_i$

$$h'_i=\frac{\xi_i}{1-p}h_i$$


由于$E(\xi_i)=0\times p +1\times (1-p)=1-p$,因此：$$E(h'_i)=\frac{E(\xi_i)}{1-p}h_i=h_i$$

<font color='red'>以下为个人的理解！！！

策略大概为：1、设置与隐藏单元同大小的随机矩阵，将矩阵的每个元素与1-丢弃概率比较

2、将比较的布尔值转换为0或1，为随机变量的取值，计算新的隐藏单元</font>

即<font color='red'>丢弃法不改变其输入的期望值</font>。让我们对图中的隐藏层使用丢弃法，一种可能的结果如图3.5所示，其中$h_1$和$h_5$被清零。这时输出值的计算不再依赖$h_2$和$h_5$，在反向传播时，与这两个隐藏单元相关的权重的梯度均为0。由于在训练中隐藏层神经元的丢弃是随机的，即$h_1,…,h_5$都有可能被清零，输出层的计算无法过度依赖$h_1,…,h_5$中的任一个，从而在训练模型时起到正则化的作用，并可以用来应对过拟合。在测试模型时，我们为了拿到更加确定性的结果，一般不使用丢弃法。

![Snipaste_2020-09-11_19-32-12.png](attachment:Snipaste_2020-09-11_19-32-12.png)

## 3.13.2 从零开始实现

In [26]:
#dropout函数将以drop_prob的概率丢弃X中的元素

%matplotlib inline
import torch
import torch.nn as nn
import numpy as np
import sys
sys.path.append("..")
import d2lzh_pytorch as d2l

def dropout(X,drop_prob):
    X=X.float()
    #断言函数是对表达式布尔值的判断，如果表达式为假，触发异常；如果表达式为真，不执行任何操作。
    assert 0<= drop_prob<=1
    keep_prob=1-drop_prob
    #这种情况把全部元素丢弃
    if keep_prob==0:
        return torch.zeros_like(X)#生成和括号内变量维度维度一致的全是零的内容。
    drop=torch.rand(X.shape)
#     print('随机矩阵：',drop)
    mask=(drop<keep_prob).float()#将true/false转换为浮点数
    #torch.rand返回一个张量包含从区间[0, 1)的均匀分布中抽取的一组随机数
#     print('mask:',mask)
    
    return mask*X/keep_prob #mask为随机变量，取值为0或1

In [27]:
X=torch.arange(16).view(2,8)
# print('X:',X)
dropout(X,0)

tensor([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11., 12., 13., 14., 15.]])

In [16]:
# print('X:',X)
dropout(X,0.5)

X: tensor([[ 0,  1,  2,  3,  4,  5,  6,  7],
        [ 8,  9, 10, 11, 12, 13, 14, 15]])
随机矩阵： tensor([[0.2460, 0.1201, 0.5475, 0.2023, 0.7764, 0.4594, 0.3962, 0.2017],
        [0.8776, 0.3219, 0.1660, 0.7245, 0.1830, 0.0070, 0.0621, 0.8157]])
mask: tensor([[1., 1., 0., 1., 0., 1., 1., 1.],
        [0., 1., 1., 0., 1., 1., 1., 0.]])


tensor([[ 0.,  2.,  0.,  6.,  0., 10., 12., 14.],
        [ 0., 18., 20.,  0., 24., 26., 28.,  0.]])

In [17]:
# print('X:',X)
dropout(X,1)

X: tensor([[ 0,  1,  2,  3,  4,  5,  6,  7],
        [ 8,  9, 10, 11, 12, 13, 14, 15]])


tensor([[0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.]])

### 3.13.2.1 定义模型参数

In [21]:
#Fashion-MNIST数据集
#定义包含隐藏层的多层感知机，两个隐藏层的输出个数都是256

num_inputs,num_outputs,num_hiddens1,num_hiddens2=784,10,256,256

W1=torch.tensor(np.random.normal(0,0.01,size=(num_inputs,num_hiddens1)),dtype=torch.float,requires_grad=True)
b1=torch.zeros(num_hiddens1,requires_grad=True)
W2=torch.tensor(np.random.normal(0,0.01,size=(num_hiddens1,num_hidden2)),dtype=torch.float,requires_grad=True)
b2=torch.zeros(num_hiddens2,requires_grad=True)
W3=torch.tensor(np.random.normal(0,0.01,size=(num_hidden2,num_outputs)),dtype=torch.float,requires_grad=True)
b3=torch.zeros(num_outputs,requires_grad=True)

params=[W1,b1,W2,b2,W3,b3]


### 3.13.2.2 定义模型

将全连接层和激活函数ReLU串起来，并对每个激活函数的输出使用丢弃法。我们可以分别设置各个层的丢弃概率。通常的建议是把靠近输入层的丢弃概率设得小一点。在这个实验中，我们把第一个隐藏层的丢弃概率设为0.2，把第二个隐藏层的丢弃概率设为0.5。我们可以通过参数is_training来判断运行模式为训练还是测试，并只需在<font color='blue'>训练模式下使用丢弃法</font>。

In [22]:
drop_prob1,drop_prob2=0.2,0.5

def net(X,is_training=True):
    X=X.view(-1,num_inputs)
    H1=(torch.matmul(X,W1)+b1).relu()
    if is_training: #只在训练模型时使用丢弃法
        H1=dropout(H1,drop_prob1)#在第一层全连接层后添加丢弃层
    H2=(torch.matmul(H1,W2)+b2).relu()
    if is_training:
        H2=dropout(H2,drop_prob2)#在第二层全连接层后添加丢弃层
    
    return torch.matmul(H2,W3)+b3

In [24]:
#首先判断模型是torch.nn.Module继承的还是自定义模型
def evaluate_accuracy(data_iter,net):#评估函数
    acc_sum,n=0.0,0 #预测正确数量，预测总数量
    for X,y in data_iter:
        #isinstance(object, classinfo)判断一个对象是否是一个已知的class类型
        if isinstance(net,torch.nn.Module):
            net.eval()#评估模式，关闭dropout
            acc_sum+=(net(X).argmax(dim=1)==y).float().sum().item()
            net.train()#改回训练模式
        else: #自定义模型
            if('is_training' in net.__code__.co_varnames):#如果有is_training这个参数
                #计算预测正确数量时将is_training设置成False
                acc_sum+=(net(X,is_training=False).argmax(dim=1)==y).float().sum().item()
            else:
                acc_sum+=(net(X).argmax(dim=1)==y).float().sum().item()
        n+=y.shape[0]

    return acc_sum/n

### 3.13.2.3 训练和测试模型

In [29]:
num_epochs,lr,batch_size=5,100.0,256
loss=torch.nn.CrossEntropyLoss()
train_iter,test_iter=d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch3(net,train_iter,test_iter,loss,num_epochs,batch_size,params,lr)

epoch 1, loss 0.0048, train acc 0.526, test acc 0.744
epoch 2, loss 0.0024, train acc 0.778, test acc 0.764
epoch 3, loss 0.0020, train acc 0.815, test acc 0.818
epoch 4, loss 0.0018, train acc 0.837, test acc 0.816
epoch 5, loss 0.0017, train acc 0.846, test acc 0.844


## 3.13.3 简洁实现

在全连接层后添加$Dropout$层并指定丢弃概率。在训练模型时，$Dropout$层将以指定的丢弃概率随机丢弃上一层的输出元素；在测试模型时（即$model.eval()$后），$Dropout$层并不发挥作用。

In [30]:
net=nn.Sequential(
    d2l.FlattenLayer(),#x.view(x.shape[0],-1)对x的形状转换的这个功能自定义一个FlattenLayer
    nn.Linear(num_inputs,num_hiddens1),
    nn.ReLU(),
    nn.Dropout(drop_prob1),
    nn.Linear(num_hiddens1,num_hiddens2),
    nn.ReLU(),
    nn.Dropout(drop_prob2),
    nn.Linear(num_hiddens2,10)
    )

for param in net.parameters():
    nn.init.normal_(param,mean=0,std=0.01)

In [31]:
optimizer=torch.optim.SGD(net.parameters(),lr=0.5)
d2l.train_ch3(net,train_iter,test_iter,loss,num_epochs,batch_size,None,None,optimizer)

epoch 1, loss 0.0045, train acc 0.560, test acc 0.768
epoch 2, loss 0.0022, train acc 0.786, test acc 0.778
epoch 3, loss 0.0021, train acc 0.812, test acc 0.802
epoch 4, loss 0.0018, train acc 0.834, test acc 0.805
epoch 5, loss 0.0016, train acc 0.848, test acc 0.838
