In [1]:
import torch
from torch import nn
from d2l import torch as d2l

In [2]:
'''
上面的代码定义了一个名为`dropout_layer`的函数，它实现了dropout技术，用于在训练神经网络时进行正则化。函数接受两个参数：输入张量`X`和`dropout`概率。

首先，函数检查`dropout`值是否在0和1之间。如果`dropout`等于1，这意味着我们希望将所有输入单元都关闭，函数返回一个与`X`形状相同的全零张量。

接下来，函数创建一个随机`mask`，该`mask`具有与输入张量`X`相同的形状。`mask`中的每个元素都是一个随机生成的0或1，根据概率`dropout`来确定。如果随机数大于`dropout`，则将`mask`中的元素设置为1，否则设置为0。

然后，函数将输入张量`X`与`mask`相乘，从而随机关闭一些输入单元（将它们的值设置为0）。

最后，为什么需要除以`(1.0 - dropout)`？这是为了在应用dropout时保持输入张量的期望值不变。当我们将输入张量的一部分元素设置为0时，其平均值会降低。
为了补偿这种降低，我们将剩余非零元素的值放大，使得经过dropout处理后的输入张量的期望值与原始输入张量的期望值相同。
具体来说，我们将每个非零元素除以概率`1.0 - dropout`，因为在应用dropout后，非零元素的预期比例正好是`1.0 - dropout`。
这样，即使在应用dropout时关闭了一些输入单元，我们仍然可以保持输入张量的期望值不变，从而使得网络在训练过程中保持稳定。
'''
def dropout_layer(X, dropout):
    assert 0 <= dropout <= 1
    if dropout == 1: return torch.zeros_like(X)
    mask = (torch.rand(X.shape) > dropout).float()
    return mask * X / (1.0 - dropout)