为了追求更高的性能，卷积网络被设计得越来越深，然而网络却变得难以训练收敛与调参。原因在于，浅层参数的微弱变化经过多层线性变换与激活函数后会被放大，改变了每一层的输入分布，造成深层的网络需要不断调整以适应这些分布变化，最终导致模型难以训练收敛。由于网络中参数变化导致的内部节点数据分布发生变化的现象被称做**ICS（Internal Covariate Shift）**。ICS现象容易使训练过程陷入饱和区，减慢网络的收敛。

前面提到的ReLU从激活函数的角度出发，在一定程度上解决了梯度饱和的现象，而2015年提出的**BN层，则从改变数据分布的角度避免了参数陷入饱和区**。由于BN层优越的性能，其已经是当前卷积网络中的“标配”。

BN层首先对每一个batch的输入特征进行白化操作，即去均值方差过程。假设一个batch的输入数据为x:B=｛x1, …, xm｝，首先求该batch数据的均值与方差，如式（3-5）和式（3-6）所示。

![3.1.5.1batch%E6%95%B0%E6%8D%AE%E7%9A%84%E5%9D%87%E5%80%BC%E4%B8%8E%E6%96%B9%E5%B7%AE.jfif](attachment:3.1.5.1batch%E6%95%B0%E6%8D%AE%E7%9A%84%E5%9D%87%E5%80%BC%E4%B8%8E%E6%96%B9%E5%B7%AE.jfif)

以上公式中，m代表batch的大小，μB为批处理数据的均值，σB^2为批处理数据的方差。在求得均值方差后，利用式（3-7）进行去均值方差操作：

![3.1.5.2%E5%8E%BB%E5%9D%87%E5%80%BC%E6%96%B9%E5%B7%AE%E6%93%8D%E4%BD%9C.jfif](attachment:3.1.5.2%E5%8E%BB%E5%9D%87%E5%80%BC%E6%96%B9%E5%B7%AE%E6%93%8D%E4%BD%9C.jfif)

白化操作可以使输入的特征分布具有相同的均值与方差，固定了每一层的输入分布，从而加速网络的收敛。然而，白化操作虽然从一定程度上避免了梯度饱和，但也限制了网络中数据的表达能力，浅层学到的参数信息会被白化操作屏蔽掉，因此，BN层在白化操作后又增加了一个线性变换操作，让数据尽可能地恢复本身的表达能力，如公式（3-7）和公式（3-8）所示。公式（3-8）中，γ与β为新引进的可学习参数，最终的输出为yi。

![3.1.5.3%E7%BA%BF%E6%80%A7%E5%8F%98%E6%8D%A2%E6%93%8D%E4%BD%9C.jfif](attachment:3.1.5.3%E7%BA%BF%E6%80%A7%E5%8F%98%E6%8D%A2%E6%93%8D%E4%BD%9C.jfif)

**BN层可以看做是增加了线性变换的白化操作**，在实际工程中被证明了能够缓解神经网络难以训练的问题。

## BN层的优点主要有以下3点：
### 1.缓解梯度消失，加速网络收敛。BN层可以让激活函数的输入数据落在非饱和区，缓解了梯度消失问题。此外，由于每一层数据的均值与方差都在一定范围内，深层网络不必去不断适应浅层网络输入的变化，实现了层间解耦，允许每一层独立学习，也加快了网络的收敛。

### 2.简化调参，网络更稳定。在调参时，学习率调得过大容易出现震荡与不收敛，BN层则抑制了参数微小变化随网络加深而被放大的问题，因此对于参数变化的适应能力更强，更容易调参。

### 3.防止过拟合。BN层将每一个batch的均值与方差引入到网络中，由于每个batch的这两个值都不相同，可看做为训练过程增加了随机噪音，可以起到一定的正则效果，防止过拟合。

In [1]:
import torch
from torch import nn

#使用BN层需要传入一个参数为num_features，即特征的通道数
bn = nn.BatchNorm2d(64)

#eps为公式中的ε，momentum为均值方差的动量，affine为添加可学习参数
bn

BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)

In [2]:
input = torch.randn(4, 64, 224, 224)
output = bn(input)

#BN层不改变输入、输出的特征大小
output.shape

torch.Size([4, 64, 224, 224])

### 在测试时，由于是对单个样本进行测试，没有batch的均值与方差，通常做法是在训练时将每一个batch的均值与方差都保留下来，在测试时使用所有训练样本均值与方差的平均值。

### 尽管BN层取得了巨大的成功，但仍有一定的弊端，主要体现在以下两点：
①由于是在batch的维度进行归一化，BN层要求较大的batch才能有效地工作，而物体检测等任务由于占用内存较高，限制了batch的大小，这会限制BN层有效地发挥归一化功能。

②数据的batch大小在训练与测试时往往不一样。在训练时一般采用滑动来计算平均值与方差，在测试时直接拿训练集的平均值与方差来使用。这种方式会导致测试集依赖于训练集，然而有时训练集与测试集的数据分布并不一致。

能不能避开batch来进行归一化呢？答案是可以的，最新的工作**GN（Group Normalization）**从通道方向计算均值与方差，使用更为灵活有效，避开了batch大小对归一化的影响。具体来讲，GN先将特征图的通道分为很多个组，对每一个组内的参数做归一化，而不是batch。GN之所以能够工作的原因，笔者认为是在特征图中，不同的通道代表了不同的意义，例如形状、边缘和纹理等，这些不同的通道并不是完全独立地分布，而是可以放到一起进行归一化分析。