# 一、为什么大模型需要归一化

## 1、协变量偏移问题：

协变量偏移指的是在训练过程中，每一层的输入分布发生变化的现象。在深度神经网络中，前面层的参数更新，会影响后面层的输入分布。

## 2、归一化的作用

它的核心作用是稳定训练过程：  
1、减少内部协变量偏移：通过固定每层输入的分布，让网络更容易学习。  
2、允许使用更大的学习率：归一化后的网络对超参数不那么敏感。  
3、减少对初始化的依赖：即使初始化不太好，归一化也可以帮助正常训练。  
4、有一定的正则化效果：可以减少过拟合。

# 二、批归一化BN（BatchNormalizaton):

BN的核心思想：通过规范化每一层的输入，使其分布保持稳定，从而缓解内部协变量偏移。  
他期望的输入是图像或者全连接，不用于transformer

### 工作原理：  
假设我们有一个神经网络层，其输入为一个 mini-batch 的数据$X={x_1,x_2,x_3,...x_m}$,其中m是batch_szie,  
BatchNorm 对每个特征维度（卷积里面是 channel 维度）独立进行归一化。我们以一个特征维度为例，说明其计算过程：  

步骤一：计算mini_batch的均值和方差：  
$$
\mu_B=\frac{1}{m}\sum_{i=1}^m x_i
$$
$$
\sigma_B^2=\frac{1}{m}\sum_{i=1}^m (x_i-\mu_B)^2$$

步骤二：归一化  
将每个输入减去均值、除以标准差，使其均值为 0、方差为 1，其中$\epsilon$>0是一个极小的常数，用于防止除以0.
$$
\hat{x}_i=\frac{x_i-\mu_B}{\sqrt{\sigma_B^2+\epsilon}}
$$

步骤三：缩放和平移（可学习参数）  
如果只是归一化到均值 0、方差 1，可能会限制网络的表达能力。因此，BatchNorm 引入了两个通过反向传播学习的参数：
γ（缩放参数）
β（平移参数）
$$y_i=\gamma\hat{x}_i+\beta$$

### BN训练和测试的区别：

训练时：  
使用当前批次的均值和方差  
同时更新移动平均的均值和方差  

测试时：  
使用移动平均的均值和方差  
不再计算批次统计量  
保证测试的确定性  

为什么需要这样设计？
1. 训练稳定性：批次统计量有噪声，有助于正则化
2. 测试确定性：测试时需要一致的结果
3. 小批次问题：测试时可能批次很小，统计量不准确

### BN中的缩放因子与偏移因子：

主要作用：
1. 恢复表达能力：纯归一化会损失一些表达能力
2. 允许恒等映射：网络可以学会不进行归一化
3. 适应不同分布：不同层可能需要不同的分布

这两个因子可以在归一化后：  
1.近似恢复原始分布。  
2.变成不同的分布。  
3.完全不变，恒等映射。  

如果没有这两个因子，BN会强制所有层的输入都是标准正态分布，这可能会：  
损失网络的表达能力   
让某些层难以学习  
阻止梯度流动（在某些情况下）  


### BN减少过拟合的作用：  


BN有一定的正则化的效果，能在一定程度上减少过拟合。  
1、噪声引入：每个批次的均值和方差都不同，这种噪声类似于Dropout的效果，让网络更加鲁棒。  
2、减少层间依赖：每层不再强烈依赖前一层的特定输出，让网络更加灵活。  
3、稳定的梯度：稳定的梯度让网络更容易找到好的局部最优，减少陷入过拟合的风险。

### BN在NLP任务中的局限性：

1、序列长度不一致：长短句不一，短句需要padding.  
2、批次大小问题：NLP中批次较小，小批次统计量不稳定，批次均值和方差不准确。  
3、时间序列特性：词序列有着明确的时间依赖关系，BN可能破坏这种关系。

# 三、LN层归一化（Layer Normalization）

核心思想：对每个样本的每一层输出，在特征维度上进行归一化。单个样本的所有特征进行归一化。

### 工作原理：

假设我们有一个batch的输入X维度是（batch_size, d_model),LN对每一个样本$i\in[1,N]$独立进行归一化

步骤一：计算该样本的所有均值和方差  
对于第i个样本，$X_i=[x_{i1},x_{i2},x_{i3},...x_{id\_model}]$

$$
\mu_i=\frac{1}{d\_model} \sum_{j=1}^{d\_model}x_{ij}
$$
$$
\sigma_i^2=\frac{1}{d\_model}\sum_{j=1}^{d\_model}(x_{ij}-\mu_i)^2
$$

步骤二：归一化
$$
\hat{x}_{ij}=\frac{x_{ij}-\mu_i}{\sqrt{\sigma_i^2+\epsilon}}
$$
其中$\epsilon>0$是一个小常数，防止除0

步骤三：可反向传播优化的平移和缩放  
$$
y_{ij}=\gamma_j \hat{x_{ij}}+\beta_j
$$
$\gamma_j$缩放参数（scale），每个特征有一个  
$\beta_j$平移参数（shift），每个特征有一个

**BN和LN的关键区别**：  
BN：跨样本，归⼀化每个特征  
LN：跨特征，归⼀化每个样本

### LN在transformer的具体作用：  
**稳定训练**：让每⼀层的输入分布保持稳定不受批次大小和序列长度的影响  
**处理变长序列**：每个样本独立归⼀化不受padding和其他样本影响  
**梯度流动**：帮助梯度更稳定地流动防止梯度消失或爆炸  

为什么Transformer选择LN而不是BN？
1. NLP的序列特性更适合样本内归⼀化
2. 批次大小通常较小，BN效果不佳
3. 变长序列问题得到自然解决
4. 训练更加稳定

### 为什么LN能缓解梯度消失和爆炸：

1、稳定的输入分布：每层输入的均值和方差保持稳定，让参数更新更加可预测。  
2、梯度缩放效应：LN的梯度有一定的自稳定特性  
如果输入很大 → 归⼀化后变小 → 梯度不会爆炸  
如果输入很小 → 归⼀化后变大 → 梯度不会消失  
3、参数尺度不变性：LN让网络对参数尺度不那么敏感

### LN与BN的系统图表对比：    
见教案

# 四、RMSNorm现代优化方案

RMSNorm是LN的一个简化变体。  
核心思想：去掉均值计算，只归一化RMS（均方根）。

### 计算步骤： 
d一般指d_model

步骤一：计算RMS
$$
RMS(x)=\sqrt{\frac{1}{d} \sum_{i=1}^d x_i^2}
$$

步骤二：归一化  
$$
\hat{x_i}=\frac{x_i}{RMS(x)+\epsilon}
$$
步骤三：缩放
$$
y_i=\gamma \hat{x_i}
$$

直观理解：RMSNorm假设数据的均值接近0，所以直接去掉了均值计算。这在很多情况下是合理的，特别是：  
经过激活函数后（如ReLU，输出≥0）  
某些特定的网络架构中大模型的隐藏层输出  

### RMSNorm比LN的优势

1、计算量更少：  
LN：需要计算均值和方差（2次遍历）  
RMSNorm：只需要计算RMS（1次遍历）  

2、数值稳定性：  
避免了均值计算中的数值问题  
在某些情况下更加稳定  

为什么能工作？  
中心极限定理：大模型的隐藏层输出通常接近正态分布  
激活函数：ReLU等激活函数的输出特性  
残差连接：帮助保持数据的统计特性  

# 五、pre-LN和post-LN的区别

### pre-LN：  
LN在子层（注意力或FFN）**之前**，残差连接连接的是归⼀化后的输出

### post-LN：  
LN在子层（注意力或FFN）之后  
残差连接连接的是子层的输出  
归一化在残差连接后

### 两种架构的详细对比：  

1、梯度流动：    
pre-LN:梯度流动更直接、更稳定   
post-LN:梯度在反向传播时必须经过 LayerNorm 层    
2、反向传播：  
pre-LN:梯度中有一个**恒等连接**（1），确保梯度可以无损回传    
post-LN:梯度必须经过norm层，没有直接的恒等连接    
3、训练稳定性：  
pre-LN:梯度更稳定,对初始化不那么敏感,可以使用更大的学习率  
post-LN:深层网络容易出现梯度问题，需要更仔细的初始化，学习率通常需要更小  
4、收敛速度：  
pre-LN:收敛更快（通常快20-30%）,训练曲线更平滑,更容易预测训练时间    
post-LN:收敛较慢,训练曲线可能有波动,需要更多的调参工作  

## 为什么现代大模型都采用pre-LN:

1、训练稳定性：    
100亿+参数的模型，训练成本极高  
训练失败是无法接受的  
Pre-LN提供了必要的稳定性   
2、可扩展性：  
Pre-LN可以很容易地扩展到更大模型，不需要重新调参，架构保持一致  
3、工程实现：  
实现更简单。调试更容易。监控指标更稳定  
4、实际性能：  
在大模型上，pre-LN的性能差距消失，有时甚至更好，训练效率更高