# 批量归一化从零开始实现

## 实现批量归一化核心的部分

![image.png](attachment:image.png)

In [2]:

import torch
from torch import nn
from d2l import torch as d2l

#分为做预测（inference)的时候和做训练的时候；预测用的是全局的均值和反差9（可能每次进来是一张图片，没有batch,没有batch均值和反差）；训练用当前batch的均值和反差
#moving_mean,moving_var,eps,momentum分别是全局的均值、全局方差、防止分母除以0、动量
#eps不要动，动了之后结果就会不一样
#momentum一般就是0.9或者0.1
def batch_norm(X,gamma,bata,moving_mean,moving_var,eps,momentum):
    #没有梯度那就是在做inference
    if not torch.is_grad_enabled():
        X_hat=(X-moving_mean)/torch.sqrt(moving_var+eps)
    #做训练
    else:
        #2就是全连接层（2D张量），4就是2维卷积层（4D张量，NCHW)
        assert len(X.shape) in (2,4)
        #全连接层，在特征维度作用
        #第一维就是批量大小，第二维就是特征（列），要按行求平均，求出每一列的平均值和反差
        if len(X.shape)==2:
            #均值和方差都是一个行向量
            mean=X.mean(dim=0)
            var=((X-mean)**2).mean(dim=0)
        #2维卷积，作用在通道层BCHW
        else:
            #所有批量所有高和宽里面的像素都要求均值
            #求出来就是一个1*N*1*1的一个4Dtensor,因为keepdim=True
            mean=X.mean(dim=(0,2,3),keepdim=True)
            var=((X-mean)**2).mean(dim=(0,2,3),keepdim=True)
        X_hat=(X-mean)/torch.sqrt(moving_var+eps)
        #moving smooth 无限逼近真实的全局均值和方差
        #算全局的均值和方差当前并不知道有多少个
        #做inference的时候不会更新，只有训练时候更新
        moving_mean=momentum*moving_mean+(1-momentum)*mean
        moving_var=momentum*moving_var+(1-momentum)* moving_var
    
    Y=gamma*X_hat+beta
    #gard不重要，因为不需要算梯度
    #我们的层将保存均值和方差的移动平均值，以便在模型预测期间随后使用。
    return Y,moving_mean.data,moving_var.data

## 创建BN层

In [7]:
class BatchNorm(nn.Module):
    def __init__(self,num_features,num_dims):
        super().__init__()
        if num_dims==2:
            shape=(1,num_features)
        else:
            shape=(1,num_features,1,1)
        #gamma和beta是两个可学习的参数，应该放到parameter
        #mgamaa不能为0，为因子
        self.gamma=nn.Parameter(torch.ones(shape))
        self.beta=nn.Parameter(torch.zeros(shape))
        #  # 非模型参数的变量初始化为0和1，不需要训练，不需要放到parameter
        self.moving_mean=torch.zeros(shape)
        self.moving_var=torch.ones(shape)
    
    def forward(self,X):
        #moving_mean和moving_var没有放到parameter中，需要看下是不是放到了显存上
        if self.moving_mean.device != X.device:
            self.moving_mean = self.moving_mean.to(X.device)
            self.moving_var = self.moving_var.to(X.device)
        Y, self.moving_mean, self.moving_var = batch_norm(X, self.gamma, self.beta, self.moving_mean, self.moving_var,eps=1e-5, momentum=0.9)
        return Y

## 应用BN到模型上

In [8]:
net = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5), 
                    #features数就是输出通道数
                    BatchNorm(6, num_dims=4),
                    nn.Sigmoid(), 
                    nn.MaxPool2d(kernel_size=2, stride=2),
                    nn.Conv2d(6, 16,kernel_size=5), 
                    BatchNorm(16, num_dims=4),
                    nn.Sigmoid(), 
                    nn.MaxPool2d(kernel_size=2, stride=2),
                    nn.Flatten(), 
                    nn.Linear(16 * 4 * 4, 120),
                    BatchNorm(120, num_dims=2),
                    nn.Sigmoid(),
                    nn.Linear(120, 84), 
                    BatchNorm(84, num_dims=2),
                    nn.Sigmoid(), 
                    #输出层不加东西
                    nn.Linear(84, 10))

## 在Fashion-MNIST数据集上训练网络

In [None]:
lr, num_epochs, batch_size = 1.0, 10, 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

## 拉伸参数 gamma 和偏移参数 beta

In [12]:
#查看参数
#这里因为没有训练，所以是初始值
net[1].gamma.data

tensor([[[[1.]],

         [[1.]],

         [[1.]],

         [[1.]],

         [[1.]],

         [[1.]]]])

In [11]:
#行数自动计算，转化成列
net[1].gamma.data.reshape(-1)

tensor([1., 1., 1., 1., 1., 1.])

# 简洁实现

In [13]:
net = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5), 
                    #不需要指定num_dims,pytorch会自动计算
                    #只需要指定通道数就可以了
                    nn.BatchNorm2d(6),
                    nn.Sigmoid(),
                    nn.MaxPool2d(kernel_size=2, stride=2),
                    nn.Conv2d(6, 16, kernel_size=5), 
                    nn.BatchNorm2d(16),
                    nn.Sigmoid(), 
                    nn.MaxPool2d(kernel_size=2, stride=2),
                    nn.Flatten(), 
                    nn.Linear(256, 120), 
                    nn.BatchNorm1d(120),
                    nn.Sigmoid(), 
                    nn.Linear(120, 84), 
                    nn.BatchNorm1d(84),
                    nn.Sigmoid(), 
                    nn.Linear(84, 10))

跟从零实现的训练是一样的

# 答疑

- 模型比较稳定的时候，收敛的就会快。xavier是在初始的时候对参数进行归一化，BN是在整个训练过程中一直做这个。BN核心是数值比较稳定。
- BN不会对前面一层的权重作太多作用，核心是让输出和方差服从某一分布，数值稳定性，权重衰减是对权重操作
- BN可以用在MLP，用在深度网络里效果比较好。浅层MLP效果不是那么好。
- BN是做线性变化，和线性层没什么区别，但是如果只是BN而不做线性层，那么数值可能不会分布到一个区间，数值不是那么稳定，学习不到想要的东西。
- 