In [1]:
import d2lzh as d2l
from mxnet import autograd,gluon,init,nd
from mxnet.gluon import nn

# 批量归一化Batch Normalization
---

In [2]:
def batch_norm(X,gamma,beta,moving_mean,moving_var,eps,momentum):
    # 通过autograd判断当前是训练模式还是预测模式
    if not autograd.is_training(): #  如果不是在训练，那就直接用成果。
        # 直接使用传入的移动平均所得的均值和方差.moving_var是方差！！
        X_hat = (X - moving_mean) / nd.sqrt(moving_var + eps)
    else:
        assert len(X.shape) in (2,4)
        # 根据形状来生成mean & var
        if len(X.shape) == 2: # 即输出的是一个矩阵。因为有batch！！！每一个batch一行
            # 使用全连层的情况，计算特征维上的均值 & 方差
            mean = X.mean(axis=0) # 统计每一行的平均值
            var = ((X - mean) ** 2).mean(axis=0) # 平均方差
        else: # 使用二维卷积的情况下，计算每个通道（axis=1)的均值&方差。
            # 这里我们需要保持X的形状以便后面可以做广播运算
            mean = X.mean(axis=(0,2,3),keepdims=True) # 注意是每个通道一组参数！！不是每个批次一组。参数公用是横着来！！
            var = ((X - mean) ** 2).mean(axis=(0,2,3),keepdims=True)
    
        # 训练模式下用当前的均值&方差做标准化
        X_hat = (X-mean) / nd.sqrt(var + eps)

        # 更新移动平均的均值&方差
        moving_mean = momentum * moving_mean + (1.0-momentum)*mean # 动量法！！！
        moving_var = momentum * moving_var + (1.0-momentum)*var
    
    Y = gamma * X_hat + beta # 拉伸和偏移
    return Y ,moving_mean,moving_var


# BatchNorm层
---
- 参与求梯度的参数
    1. 拉伸参数gamma
    2. 偏移参数beta
- 维护：移动平均得到的
    1. 均值moving_mean
    2. 方差moving_var

In [3]:
class BatchNorm(nn.Block):
    # 一般init都是初始化一些变量而已~
    def __init__(self,num_features,num_dims,**kwargs):
        super(BatchNorm,self).__init__(**kwargs)
        # 如果左边是个全连层
        if num_dims == 2:
            shape = (1,num_features)
        else:
            shape = (1,num_features,1,1)
            
        # 参与求梯度和迭代的 【拉伸】&【偏移】参数，分别初始化成1、0
        self.gamma = self.params.get('gamma',shape = shape,init=init.One())
        self.beta = self.params.get('beta',shape = shape,init=init.Zero())
        
        # 不参与求梯度和迭代的变量，全在内存上初始化为0
        self.moving_mean = nd.zeros(shape)
        self.moving_var = nd.zeros(shape)
        
    # forward一般都是在计算变量
    def forward(self,X):
        # 如果X不在内存上，将moving_mean & moving_var复制到显存上
        if self.moving_mean.context != X.context:
            self.moving_mean = self.moving_mean.copyto(X.context)
            self.moving_var = self.moving_var.copyto(X.context)
        
        # 保存更新过的moving_mean & moving_var
        Y,self.moving_mean,self.moving_varv = batch_norm(X,self.gamma.data(),self.beta.data(),
                                                         self.moving_mean,self.moving_var,
                                                         eps = 1e-5,momentum=0.9)
        return Y