# Layer Normalization

**原理**：逐样本计算均值和方差

![](./图片2.png)

**RNN 和 Transformer 使用 Layer Normalization，而不是 Batch Normalization**：因为 Layer Normalization 只需使用当前样本的数据，不需要使用其他样本的数据；而 Batch Normalization 需要使用该 Batch 所有样本的数据。

**`ln = torch.nn.LayerNorm(normalized_shape, eps=1e-05, elementwise_affine=True)`**
- normalized_shape：指定要归一化的维度，为列表形式；对于一个多维矩阵 `[B, C, H, W]`，normalized_shape 一般要和矩阵最后几个维度保持一致，这里就是 `[C, H, W]` 或 `[H, W]` 或 `[W]`，γ 和 β 的维度分别是 `[C, H, W]` 或 `[H, W]` 或 `[W]`。
- eps：在进行标准化操作时的分母修正项，默认值很小，是为了避免分母为 0
- elementwise_affine：是否需要逐个样本 affine transform

**注意**：ln 不再有属性 running_mean 和 running_var

在上图中， Layer Normalization 子图归一化的维度为 `[Feature]`，Batch Normalization 子图归一化的维度为 `[Batch Dimension, Sentence Lenth]`

**下面代码中，输入数据的形状是 (8, 4, 3, 2, 2)，batch_size 为 8，normalized_shape 为 `[4, 3, 2, 2]`，那么就会计算 8 个均值和方差，分别对应每个样本；此外可以观察一下 weight 和 bias 的 shape**：

In [1]:
import torch
import torch.nn as nn

# 假设输入数据的形状是 (batch_size, num_features, features_channels, features_length, features_width)，创建一个输入张量
batch_size = 8
num_features = 4
features_channels = 3
features_length = 2
features_width = 2
input_tensor = torch.randn(batch_size, num_features, features_channels, features_length, features_width)

# 创建一个 LayerNorm 模块
ln = nn.LayerNorm([num_features, features_channels, features_length, features_width])

# 应用 BatchNorm3d
normalized_tensor = ln(input_tensor)

print(ln.weight.shape)
print(ln.bias.shape)

torch.Size([4, 3, 2, 2])
torch.Size([4, 3, 2, 2])
