## 批量归一化
本节我们介绍批量归一化$（batch normalization）$层，它能让较深的神经网络的训练变得更加容易$ [1]$。在$3.16$节（实战$Kaggle$比赛：预测房价）里，我们对输入数据做了标准化处理：处理后的任意一个特征在数据集中所有样本上的均值为$0$、标准差为$1$。标准化处理输入数据使各个特征的分布相近：这往往更容易训练出有效的模型。

通常来说，**数据标准化预处理对于浅层模型就足够有效了**。随着模型训练的进行，当每层中参数更新时，靠近输出层的输出较难出现剧烈变化。但对深层神经网络来说，**即使输入数据已做标准化，训练中模型参数的更新依然很容易造成靠近输出层输出的剧烈变化**。这种计算数值的不稳定性通常令我们难以训练出有效的深度模型。

批量归一化的提出正是为了应对深度模型训练的挑战。在模型训练时，批量归一化利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。**批量归一化和下一节将要介绍的残差网络为训练和设计深度模型提供了两类重要思路**。

### 批量归一化层
对全连接层和卷积层做批量归一化的方法稍有不同。下面我们将分别介绍这两种情况下的批量归一化。

### 对全连接层做批量归一化
我们先考虑如何对全连接层做批量归一化。通常，我们将批量归一化层置于全连接层中的仿射变换和激活函数之间。设全连接层的输入为$u$，权重参数和偏差参数分别为$W$和$b$，激活函数为$\phi$。设批量归一化的运算符为$BN$。那么，使用批量归一化的全连接层的输出为
<center>
    $\phi(BN(\mathbf{x}))$
</center>

其中批量归一化输入$\mathbf{x}$由仿射变换
<center>
    $\mathbf{x}=\mathbf{W}\mathbf{u}+\mathbf{b}$
</center>

得到。考虑一个由m个样本组成的小批量，仿射变换的输出为一个新的小批量$\mathbf{\beta}={\mathbf{x}^{(1)},...,\mathbf{x}^{(m)}}$。它们正是批量归一化层的输入。对于小批量$\mathbf{\beta}$中任意样本$\mathbf{x}^{(i)}\epsilon\mathbb{R}^{d},1\le i\le m$，批量归一化层的输出同样是$d$维向量
<center>
    $ \mathbf{y}^{(i)}=\mathbf{B}\mathbf{N}(\mathbf{x}^{(i)}) $
</center>

并由以下几步求得。首先，对小批量$\mathbf{\beta}$求均值和方差
<center>
    $ \mathbf{u}_{\beta}\leftarrow\frac{1}{m}\sum_{i=1}^m\mathbf{x}^{(i)} $
</center>
<center>
    $ \mathbf{\sigma}_{\beta}^2\leftarrow\frac{1}{m}\sum_{i=1}^m(\mathbf{x}^{(i)}-\mathbf{u}_{\beta})^2 $
</center>

其中的平方计算是按元素求平方。接下来，使用按元素开放和按元素除法对$\mathbf{x}^{(i)}$标准化：
<center>
    $  $
</center>