# Dropout

$$\begin{split}\begin{aligned}
h' =
\begin{cases}
    0 & \text{ 概率为 } p \\
    \frac{h}{1-p} & \text{ 其他情况}
\end{cases}
\end{aligned}\end{split}$$

## 从零开始实现

In [1]:
import torch
from torch import nn
from d2l import torch as d2l

In [9]:
# rand 均匀分布， randn 正态分布；
torch.rand((2, 3)), (torch.rand((2, 3)) > 0.5), (torch.rand((2, 3)) > 0.5).float()

(tensor([[0.3628, 0.8062, 0.8302],
         [0.7695, 0.5216, 0.4206]]),
 tensor([[ True, False,  True],
         [ True, False, False]]),
 tensor([[0., 0., 0.],
         [0., 1., 1.]]))

In [10]:
def dropout_layer(X, dropout):
    assert 0 <= dropout <= 1
    # 在本情况中，所有元素都被丢弃
    if dropout == 1:
        return torch.zeros_like(X)
    # 在本情况中，所有元素都被保留
    if dropout == 0:
        return X
    mask = (torch.rand(X.shape) > dropout).float() # 看上面的测试
    return mask * X / (1 - dropout) # 完成dropout

In [12]:
# 测试dropout_layer()

In [14]:
X = torch.arange(16, dtype = torch.float32).reshape((2, 8))

print(X)
print(dropout_layer(X, 0.))
print(dropout_layer(X, 0.5))
print(dropout_layer(X, 1.))

tensor([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11., 12., 13., 14., 15.]])
tensor([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11., 12., 13., 14., 15.]])
tensor([[ 0.,  0.,  0.,  0.,  0., 10., 12., 14.],
        [16.,  0.,  0., 22., 24., 26., 28.,  0.]])
tensor([[0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.]])


定义模型

将暂退法应用于每个隐藏层的输出（在激活函数之后）， 并且可以为每一层分别设置暂退概率： 常见的技巧是在靠近输入层的地方设置较低的暂退概率。 下面的模型将第一个和第二个隐藏层的暂退概率分别设置为0.2和0.5， 并且暂退法只在训练期间有效。

In [None]:
dropout1, dropout2 = 0.2, 0.5

class Net(nn.Module):
    def __init__(self, num_inputs, num_outputs, num_hiddens1, num_hiddens2, is_training = True):
        super(Net, self).__init__()
        
        self.num_inputs = num_inputs
        self.training = is_training
        self.lin1 = nn.Linear(num_inputs, num_hiddens1)  # 第一层，输入层之后那一层
        self.lin2 = nn.Linear(num_hiddens1, num_hiddens2)# 第二层
        self.lin3 = nn.Linear(num_hiddens2, num_outputs) # 第三层，输出层；
        self.relu = nn.ReLU()                            # 第三层，输出层之后用激活函数；
        