In [1]:
# 对深层神经网络来说，即使输入数据已做标准化，训练中模型参数的更新依然很容易造成靠近输出层输出的剧烈变化。
# 这种计算数值的不稳定性通常令我们难以训练出有效的深度模型。
# 在模型训练时，批量归一化利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。
# 对全连接层和卷积层做批量归一化的方法稍有不同。

# 对全连接层做批量归一化：将批量归一化层置于全连接层中的仿射变换和激活函数之间
# 对卷积层做批量归一化：发生在卷积计算之后、应用激活函数之前

In [2]:
import d2lzh as d2l
from mxnet import autograd, gluon, init, nd
from mxnet.gluon import nn

In [3]:
def batch_norm(X, gamma, beta, moving_mean, moving_var, eps, momentum):
    # 通过autograd来判断当前模式是训练模式还是预测模式
    if not autograd.is_training:
        # 如果是在预测模式下，直接使用传入的移动平均所得的均值和方差
        X_hat = (X - moving_mean)/nd.sqrt(moving_var + eps)
    else:
        assert len(X.shape) in (2,4)
        if len(X.shape) == 2:
            # 使用全连接层的情况，计算特征维上的均值和方差
            mean = X.mean(axis=0)
            var = ((X - mean) ** 2).mean(axis=0)
        else:
            # 使用二维卷积的情况，计算通道维上(axis=1)的均值和方差
            # 这里需要保持X的形状以便后面可以做广播运算
            mean = X.mean(axis=(0,2,3), keepdims=True)
            var = ((X - mean) ** 2).mean(axis = (0, 2, 3), keepdims=True)
        # 训练模式下用当前的均值和方差做标准化
        X_hat = (X - mean)/nd.sqrt(var + eps)
        # 更新移动平均的均值和方差(预测模式下使用)
        moving_mean = momentum * moving_mean + (1.0 - momentum) * mean
        moving_var = momentum * moving_var + (1.0 - momentum) * var
    Y = gamma * X_hat + beta  # 拉伸和偏移
    return Y, moving_mean, moving_var

In [4]:
# 定义一个BatchNorm层。它保存参与求梯度和迭代的拉伸参数gamma和偏移参数beta，
# 同时也维护移动平均得到的均值和方差，以便能够在模型预测时被使用。
# BatchNorm实例所需指定的num_features参数对于全连接层来说应为输出个数，
# 对于卷积层来说则为输出通道数。
# 该实例所需指定的num_dims参数对于全连接层和卷积层来说分别为2和4。

class BatchNorm(nn.Block):
    def __init__(self, num_features, nums_dims, **kwargs):
        super(BatchNorm, self).__init__(**kwargs)
        if nums_dims == 2:
            shape = (1, num_features)
        else:
            shape = (1, num_features, 1, 1)
        # 参与求梯度和迭代的拉伸和偏移参数，分别初始化成0和1
        self.gamma = self.params.get('gamma', shape = shape, init = init.One())
        self.beta = self.params.get('beta', shape = shape, init = init.Zero())
        # 不参与求梯度和迭代的变量，全在内存上初始化成0
        self.moving_mean = nd.zeros(shape)
        self.moving_var = nd.zeros(shape)
        
    def forward(self, X):
        # 如果X不在内存上，将moving_mean和moving_var复制到X所在显存上
        if self.moving_mean.context != X.context:
            self.moving_mean = self.moving_mean.copyto(X.context)
            self.moving_var = self.moving_var.copyto(X.context)
        # 保存更新过的moving_mean和moving_var
        Y, self.moving_mean, self.moving_var = batch_norm(
            X, self.gamma.data(), self.beta.data(), self.moving_mean,
            self.moving_var, eps=1e-5, momentum=0.9)
        return Y

In [5]:
# 使用批量归一化层的LeNet
# 在所有的卷积层或全连接层之后、激活层之前加入批量归一化层

net = nn.Sequential()
net.add(nn.Conv2D(6, kernel_size=5),
        BatchNorm(6, nums_dims=4),
        nn.Activation('sigmoid'),
        nn.MaxPool2D(pool_size=2, strides=2),
        nn.Conv2D(16, kernel_size=5),
        BatchNorm(16, nums_dims=4),
        nn.Activation('sigmoid'),
        nn.MaxPool2D(pool_size=2, strides=2),
        nn.Dense(120),
        BatchNorm(120, nums_dims=2),
        nn.Activation('sigmoid'),
        nn.Dense(84),
        BatchNorm(84, nums_dims=2),
        nn.Activation('sigmoid'),
        nn.Dense(10))

AttributeError: 'BatchNorm' object has no attribute 'param'

In [None]:
lr, num_epochs, batch_size, ctx = 1.0, 5, 256, d2l.try_gpu()
net.initialize(ctx=ctx, init=init.Xavier())
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': lr})
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch5(net, train_iter, test_iter, batch_size, trainer, ctx,
              num_epochs)