## batch norm与layer norm的异同
https://zhuanlan.zhihu.com/p/33173246  
![image.png](attachment:image.png)

![image.png](attachment:image.png)

BN与LN的区别在于：  
- LN对每个样本进行正则化，或对同层神经元输入拥有相同的均值和方差，不同的输入样本有不同的均值和方差，比较适合与样本是不定长的情况，如RNN、NLP方面；
- BN对每个特征进行正则化，需要保留各特征的均值和方差，或针对不同神经元输入计算均值和方差，同一个batch中的输入拥有相同的均值和方差。
- 所以，LN不依赖于batch的大小和输入sequence的深度，因此可以用于batchsize为1和RNN中对边长的输入sequence的normalize操作。
原文链接：

https://blog.csdn.net/liuxiao214/article/details/81037416

In [4]:
import numpy as np

def Batchnorm(x, gamma, beta, bn_param):

    # x_shape:[B, C, H, W]
    running_mean = bn_param['running_mean']
    running_var = bn_param['running_var']
    results = 0.
    eps = 1e-5

    x_mean = np.mean(x, axis=(0, 2, 3), keepdims=True)
    x_var = np.var(x, axis=(0, 2, 3), keepdims=True0)
    x_normalized = (x - x_mean) / np.sqrt(x_var + eps)
    results = gamma * x_normalized + beta

    # 因为在测试时是单个图片测试，这里保留训练时的均值和方差，用在后面测试时用
    running_mean = momentum * running_mean + (1 - momentum) * x_mean
    running_var = momentum * running_var + (1 - momentum) * x_var

    bn_param['running_mean'] = running_mean
    bn_param['running_var'] = running_var

    return results, bn_param

In [5]:
x=np.arange(12).reshape([1,1,3,4])

batch normalization存在以下缺点：  
对batchsize的大小比较敏感，由于每次计算均值和方差是在一个batch上，所以如果batchsize太小，则计算的均值、方差不足以代表整个数据分布；
BN实际使用时需要计算并且保存某一层神经网络batch的均值和方差等统计信息，对于对一个固定深度的前向神经网络（DNN，CNN）使用BN，很方便；但对于RNN来说，sequence的长度是不一致的，换句话说RNN的深度不是固定的，不同的time-step需要保存不同的statics特征，可能存在一个特殊sequence比其他sequence长很多，这样training时，计算很麻烦
原文链接：https://blog.csdn.net/liuxiao214/article/details/81037416

In [7]:
x.shape

(1, 1, 3, 4)

## LN

In [8]:
def Layernorm(x, gamma, beta):

    # x_shape:[B, C, H, W]
    results = 0.
    eps = 1e-5

    x_mean = np.mean(x, axis=(1, 2, 3), keepdims=True)
    x_var = np.var(x, axis=(1, 2, 3), keepdims=True0)
    x_normalized = (x - x_mean) / np.sqrt(x_var + eps)
    results = gamma * x_normalized + beta
    return results

## 使用numpy实现LayerNorm

In [6]:
a=np.array([[[-0.66676328, -0.95822262,  1.2951657 ,  0.67924618],
        [-0.46616455, -0.39398589,  1.95926177,  2.36355916],
        [-0.39897415,  0.80353481, -1.46488175,  0.55339737]],
 
       [[-0.66223895, -0.16435625, -1.96494932, -1.07376919],
        [ 1.30338369, -0.19603094, -1.43136723, -1.0207508 ],
        [ 0.8452505 , -0.08878595, -0.5211611 ,  0.10511936]]])
u=np.mean(a, axis=(2,))
s = np.std(a, axis=(2,))
 
y = a-u[...,None]
y = y/s[...,None]
print(y)
 


[[[-0.80954075 -1.12241971  1.29657224  0.63538822]
  [-1.0214588  -0.96610083  0.83874034  1.14881929]
  [-0.30472338  1.04125172 -1.49779981  0.76127147]]

 [[ 0.46047519  1.21440667 -1.51218696 -0.16269489]
  [ 1.56757537  0.13400543 -1.04708279 -0.65449801]
  [ 1.53885365 -0.35203004 -1.2273397   0.04051608]]]


In [11]:
a.shape

(2, 3, 4)

## Pytorch的LayerNorm：

In [7]:
import torch
import torch.nn.functional as F
 
input = torch.tensor(a)
y = F.layer_norm(input,(4,))
print(y)


tensor([[[-0.8095, -1.1224,  1.2966,  0.6354],
         [-1.0215, -0.9661,  0.8387,  1.1488],
         [-0.3047,  1.0412, -1.4978,  0.7613]],

        [[ 0.4605,  1.2144, -1.5122, -0.1627],
         [ 1.5676,  0.1340, -1.0471, -0.6545],
         [ 1.5388, -0.3520, -1.2273,  0.0405]]], dtype=torch.float64)


In [8]:
torch.nn.LayerNorm?

将输入的图像shape记为[N, C, H, W]，这几个方法主要的区别就是在，
- batchNorm是在batch上，对NHW做归一化，对小batchsize效果不好；
- layerNorm在通道方向上，对CHW归一化，主要对RNN作用明显；
- instanceNorm在图像像素上，对HW做归一化，用在风格化迁移；
- GroupNorm将channel分组，然后再做归一化；
- SwitchableNorm是将BN、LN、IN结合，赋予权重，让网络自己去学习归一化层应该使用什么方法。  
原文链接：https://blog.csdn.net/liuxiao214/article/details/81037416

![image.png](attachment:image.png)