参考博客

[什么是BatchNorm/InstanceNorm/LayerNorm](https://zhuanlan.zhihu.com/p/657639251)

[漫谈深度学习中的 Batch Normalization，Layer Normalization，Instance Normalization 和 Group Normalization](https://zhuanlan.zhihu.com/p/697256736)

[RMSNorm的原理和代码](https://zhuanlan.zhihu.com/p/685181632)

## 1. 归一化（Normalization）和标准化（Standardization）
如果要将数据缩放到一个**特定范围**，采用**归一化**更合适；如果要将数据转换为**标准正态分布**，使用**标准化**更合适。

## 2. Norm
归一化通常指将数据缩放到一个特定的范围（例如 `[0, 1]` 或 `[-1, 1]`）。

这是常见于数据预处理中的一种技术，用于确保不同特征的数据在**同一个尺度**上进行比较。因此，归一化可以确保不同特征具有相同的量级，避免**某些特征由于数值范围较大**而对模型结果产生**不成比例**的影响。

### 2.1 深度学习中的Norm
在深度学习中，由于堆叠了多层网络，不同层的**数据分布可能会发生偏移**。不同的归一化方法主要是采样了不同的方法减轻了这种分布偏移问题，从而**稳定和加速训练过程**。同时解决参数过大或过小以及其引发的梯度爆炸等问题。具体来说，不同的归一化方法有不同的应用场景和设计初衷：

BN(Batch Norm)：主要用于**减轻批处理大小对训练的影响**，适用于卷积神经网络（CNN）等具有较大批处理大小的网络。

LN(Layer Norm)N：适用于**循环神经网络**（RNN）等具有较小批处理大小**或变化的序列数**(NLP)据的网络。


IN(Instance Norm)：主要用于生成对抗网络（GAN）中的图像生成任务，处理单个样本归一化

GN(Group Norm)：结合了 BN 和 LN 的优点，适用于批处理大小不恒定的情况，尤其是小批处理大小的情

**LLaMa中使用的RMSN是LN之上的改进，它通过舍弃中心不变性来降低计算量。**


### 2.2 LN->RMSNorm
（可以看李沐老师的b站视频，在精读Transformer论文中有讲）
![image.png](attachment:0d19721b-c764-44e5-a1ce-6854db47fda7.png)

#### Pytorch实现

In [None]:
class RMSNorm(torch.nn.Module):

    def __init__(
        self,
        dim: int,
        eps: float = 1e-6,
        add_unit_offset: bool = True,
    ):
        super().__init__()
        self.eps = eps
        self.add_unit_offset = add_unit_offset
        self.weight = nn.Parameter(torch.zeros(dim))

    def _norm(self, x):
        return x * torch.rsqrt(x.pow(2).mean(-1, keepdim=True) + self.eps)

    def forward(self, x):
        x = self._norm(x.float()).type_as(x)
        if self.add_unit_offset:
            output = x * (1 + self.weight)
        else:
            output = x * self.weight
        return output

#### Numpy实现
backward的数学原理
![image.png](attachment:b9d6b207-ca50-4d36-926f-eb0c493f20ca.png)

In [None]:
class RMSNormFunction(Function):
    def __init__(self, eps: float = 1e-6):
        self.epsilon = eps

    def forward(self, x: np.ndarray, w: np.ndarray) -> tuple[np.ndarray]:
        self.rms_inv = ((x ** 2).sum(axis=x.ndim - 1, keepdims=True) / x.shape[-1] + self.epsilon) ** (-1 / 2)
        self.rms_x = x * self.rms_inv
        y = self.rms_x * w
        return y

    def backward(self, gy: np.ndarray) -> Union[tuple[np.ndarray, ...], np.ndarray]:
        x, w = self.inputs
        gw = (gy * self.rms_x).sum(axis=tuple([i for i in range(x.ndim - 1)]))
        gx = gy * w * self.rms_inv - x * (self.rms_inv ** 3) * (
                (gy * w * x).sum(axis=x.ndim - 1, keepdims=True) / x.shape[-1])
        return gx, gw


def rms_norm(x, w, eps=1e-6):
    return RMSNormFunction(eps=eps)(x, w)


class RMSNorm(Layer):
    def __init__(self, hidden_size: int, eps: float = 1e-6):
        super(RMSNorm, self).__init__()
        self.weight = Parameter(np.ones(hidden_size), 'weight')
        self.epsilon = eps

    def forward(self, x):
        return rms_norm(x, self.weight, eps=self.epsilon)