In [1]:
import torch
import torch.nn as nn
from d2l import torch as d2l

# 批量规范化
> 批量规范化是一种可以加速深度网络收敛的有效技术, 接后之后的残差块, 批量规范化可以使得训练 100 层以上的网络成为可能

## 训练深度网络
批量规范化本质上是对于数据偏移的消除

训练深度神经网络中可能出现的问题如下:
1. 数据预处理方式可能对于最终结果产生巨大影响, 比如在使用 `MLP` 预测房价的时候, 需要表转化输入特征, 使得平均值为 `0`, 方差为 `1` $x \rightarrow \frac {x - \mu}{\sigma}$
2. 对于典型多层感知机或者卷积神经网络, 训练过程中, 中间层的变量可能具有更大的变化范围, 随着时间的推移, 模型参数随着训练更新而变化, 并且这一种偏移会影响网络的收敛
3. 更深的网络更加复杂, 容易过拟合

批量规范化应用于单个可选层(或者所有层), 原理: 在每一次训练迭代中, 首先需要规范化输入, 也就是 $x \rightarrow \frac {x - \mu}{\sigma}$, 之后需要使用比例系数和比例偏移, 并且注意只有使用足够大的小批量, 批量规范化这一种方法才是有效并且稳定的 ; 但是使用批量规范化的时候, 批量大小的选择可能更加重要

从形式上来说: 使用 $\mathbf{x} \in \mathcal{B}$ 表示来自一个小批量 $\mathcal{B}$ 的输入, 批量规范化根据如下表达式转换 $\mathbf{x}$:

$$
\mathrm{BN}(\mathbf{x}) = \boldsymbol{\gamma} \odot \frac{\mathbf{x} - \hat{\boldsymbol{\mu}}_{\mathcal{B}}}{\hat{\boldsymbol{\sigma}}_{\mathcal{B}}} + \boldsymbol{\beta}.
$$

其中 $\hat{\boldsymbol{\mu}}$ 为小批量 $\mathcal{B}$的样本呢均值, $\hat{\boldsymbol{\sigma}}$ 为样本方差, 同时包含拉伸参数($\mathbf{\gamma}$)以及偏移参数 $\mathbf{\beta}$, 都是需要学习的参数

在训练过程中, 批量规范化可以将每一层主动矩阵, 并且重新重新调整为给定的平均值和大小, 从形式上来看, 二者的计算方式如下:
$$
\hat{\boldsymbol{\mu}}_{\mathcal{B}} = \frac{1}{|\mathcal{B}|} \sum_{\mathbf{x} \in \mathcal{B}} \mathbf{x},
\\
\hat{\boldsymbol{\sigma}}_{\mathcal{B}}^2 = \frac{1}{|\mathcal{B}|} \sum_{\mathbf{x} \in \mathcal{B}} \left( \mathbf{x} - \hat{\boldsymbol{\mu}}_{\mathcal{B}} \right)^2 + \epsilon. 
$$
其中方差加上一个偏移防止方差为 `0` 的时候出错

## 批量规范化层
## 全连接层
使用批量规范化的全连接层的输出和计算详情如下:
$$
\mathbf{h} = \phi(\text{BN}(\mathbf{W}\mathbf{x} + \mathbf{b})).
$$
## 卷积层
对于卷积层, 样本批量化发生在卷积层之后以及非线性激活函数之前, 需要对于这些通道的每一个输出执行批量规范化, 每一个通道都有自己的拉伸以及偏移系数, 这两个参数都是标量(平移不变性), 假设批量中含有 $m$ 个样本, 输出大小为 $p \times q$, 那么对于卷积层, 我们在每一个输出通道的 $m \times p \times q$ 个元素中同时执行每个批量规范化
### 预测过程
批量规范化在训练过程和预测过程中的模式不同,将训练得到的模型用于预测的时候, 不需要样本均值中的噪声以及微批量上轨迹每一个小批量产生的样本方差, 一种常用的方法是通过移动平均估计估算整个训练数据集的样本均值和方差, 并且在预测时使用他吗呢得到确定的输出

## BatchNorm层实现

### 造轮子

In [2]:
def batch_norm(X, gamma, beta, moving_mean, moving_var, eps, momentum):
    # 判断当前模式
    if not torch.is_grad_enabled():
        # 如果是预测模式, 直接输出预测值
        X_hat = (X - moving_mean) / torch.sqrt(moving_var + eps)
    else:
        assert len(X.shape) in (2, 4)
        if len(X.shape) == 2:
            # 使用全连接层的情况
            mean = X.mean(dim=0)
            var = ((X - mean) ** 2).mean(dim=0) 
        else:
            # 使用二维卷积层
            mean = X.mean(dim=(0, 2, 3), keepdim=True)
            # 对于每一个批量以及通道求解均值
            var = ((X - mean) ** 2).mean(dim=(0, 2, 3), keepdim=True)
        X_hat = (X - mean) / torch.sqrt(var + eps)
        # 更新移动平均的均值和方差
        moving_mean = momentum * moving_mean + (1 - momentum) * mean
        moving_var = momentum * moving_var + (1 - momentum) * var
    Y = gamma * X_hat + beta # 缩放和移位
    return Y, moving_mean.data, moving_var.data

注意到其中 `momentum` 用于利用当前批次方差来更新全局的统计量(全局平均数以及全局移动方差), 调用 `model.eval()` 之后, `Batch Norm` 层会使用训练阶段累积的全局统计量来表转化输入, 而不是实时接计算批次统计量, 其中 momentum 表示当前批次对于全局的影响

In [3]:
# BatchNorm 层
class BatchNorm(nn.Module):
    # num_features: 完全连接层的输出数量或者卷积层的输出通道数
    # num_dims: 2 -> 全连接层, 4 -> 卷积层
    def __init__(self, num_features, num_dims):
        super().__init__()
        if num_dims == 2:
            shape = (1, num_features)
        else:
            shape = (1, num_features, 1, 1)
        self.gamma = nn.Parameter(torch.ones(shape))
        self.beta = nn.Parameter(torch.zeros(shape))
        self.moving_mean = torch.zeros(shape)
        self.moving_var = torch.ones(shape)  # 针对于每一个特征
    def forward(self, X):
        if self.moving_mean.device != X.device:
            self.moving_mean = self.moving_mean.to(X.device)
            self.moving_var = self.moving_var.to(X.device)
        Y, self.moving_mean, self.moving_var = batch_norm(
            X, self.gamma, self.beta, self.moving_mean, 
            self.moving_var, eps=1e-5, momentum=0.9
        )

### 简洁实现
> 使用 LeNet 为例

In [4]:
# 注意这里的维数为:  维度数量 * 形状, 后面的形状表示维数
net = nn.Sequential(
    nn.Conv2d(1, 6, kernel_size=5), nn.BatchNorm2d(6), nn.Sigmoid(),
    nn.AvgPool2d(kernel_size=2, stride=2),
    nn.Conv2d(6, 16, kernel_size=5), nn.BatchNorm2d(16), nn.Sigmoid(),
    nn.AvgPool2d(kernel_size=2, stride=2), nn.Flatten(),
    nn.Linear(256, 120), nn.BatchNorm1d(120), nn.Sigmoid(),
    nn.Linear(120, 84), nn.BatchNorm1d(84), nn.Sigmoid(),
    nn.Linear(84, 10)
)