| 格式 | 位宽 | 符号/阶码/尾数 | 动态范围（≈最大~最小正规数） | 近 1 的步长 ε | 可精确表示的最大整数 |
|---|---|---|---|---|---|
| FP32 | 32 | 1 / 8 / 23 | ~3.40e38 ~~ 1.17e-38 | ≈ 1.19e-7 (2^-23) | 2^24 = 16,777,216 |
| FP16 | 16 | 1 / 5 / 10 | 6.55e4 ~~ 6.10e-5（次正规最小≈5.96e-8） | ≈ 9.77e-4 (2^-10) | 2^11 = 2048 |
| BF16 | 16 | 1 / 8 / 7 | ~3.40e38 ~~ 1.17e-38（次正规最小≈9.18e-41） | ≈ 7.81e-3 (2^-7) | 2^8 = 256 |

- BF16 和 FP32 有相同阶码位数（8）⇒ 范围一样大，但尾数更短 ⇒ 精度更粗；
- FP16 阶码更少 ⇒ 范围小很多，但在 1 附近比 BF16 精一些；

- FP32：范围大、精度高、最稳；缺点是显存/带宽×2（相对 16bit）；
- FP16：精度还可以，但范围小，梯度和激活易上溢 / 下溢；实务中常用混合精度 + Loss Scaling 来稳定；
- BF16：范围 = FP32，几乎不需要 loss scaling，训练更稳；但尾数少，数值更“粗糙”；现代 GPU / TPU 上已是训练默认首选；

**混合精度训练（见 amp-gradscale.ipynb）**
- FP16：torch.cuda.amp.autocast() + GradScaler（动态缩放）
- BF16：autocast(dtype=torch.bfloat16)，一般无需 Scaler
- 保高精度的地方：优化器状态 / 主权重、归一化统计、softmax / 对数 / 大规模归约、损失计算，常用 FP32；
- 推理 / 部署：激活和权重可进一步到 FP16 / BF16 / FP8 / INT8 / INT4；训练时仍多用 BF16 / FP16 混合；

**梯度裁剪（Gradient Clipping）**

动机就是防止“梯度爆炸”。当反传得到的梯度范数很大时，更新步长就会异常大，训练发散。

- 按范数裁剪（clip-by-norm）：设阈值 $\tau$，若 $\lVert g \rVert > \tau$，就把 $g \leftarrow g \cdot \frac{\tau}{\lVert g \rVert}$，方向不变、长度收缩；即 `torch.nn.utils.clip_grad_norm_(params, max_norm)`；
- 按数值裁剪（clip-by-value）：逐元素把梯度夹在 $[-\alpha, \alpha]$ 内；即 `torch.nn.utils.clip_grad_value_(params, clip_value)`；

Clip-Norm 会把整体范数压到阈值附近；Clip-Value 会限制逐元素幅度，但整体范数不一定接近阈值。

In [None]:
import torch, torch.nn as nn
from torch.nn.utils import clip_grad_norm_, clip_grad_value_

torch.manual_seed(0)

# create a deep linear network with large gradients
layers = [nn.Linear(128, 128, bias=False) for _ in range(20)]
model = nn.Sequential(*layers)
for m in model:  # create large gradients by large weights
    # nn.init.normal_(m.weight, mean=0.0, std=0.5)
    nn.init.kaiming_normal_(m.weight)

x = torch.randn(32, 128)
y = torch.randn(32, 128)
opt = torch.optim.SGD(model.parameters(), lr=1e-2)

opt.zero_grad(set_to_none=True)
loss = (model(x) - y).pow(2).mean()
loss.backward()

# statistics of original gradients
all_params = [p for p in model.parameters() if p.grad is not None]
grad_norm = torch.norm(torch.stack([p.grad.detach().norm() for p in all_params]))
grad_absmax = max(p.grad.detach().abs().max().item() for p in all_params)
print(f"[Before] grad_norm={grad_norm:.3f}, absmax={grad_absmax:.3f}")

# clip-by-norm
clip_grad_norm_(model.parameters(), max_norm=1.0)
grad_normA = torch.norm(torch.stack([p.grad.detach().norm() for p in all_params]))
grad_absmaxA = max(p.grad.detach().abs().max().item() for p in all_params)
print(f"[Clip-Norm] grad_norm={grad_normA:.3f}, absmax={grad_absmaxA:.3f}")

# recompute gradients for clip-by-value
opt.zero_grad(set_to_none=True)
(model(x) - y).pow(2).mean().backward()

# clip-by-value
clip_grad_value_(model.parameters(), clip_value=0.01)
grad_normB = torch.norm(torch.stack([p.grad.detach().norm() for p in all_params]))
grad_absmaxB = max(p.grad.detach().abs().max().item() for p in all_params)
print(f"[Clip-Value] grad_norm={grad_normB:.3f}, absmax={grad_absmaxB:.3f}")

# take a step update, observe no divergence
opt.step()

[Before] grad_norm=4869029.500, absmax=95971.703
[Clip-Norm] grad_norm=1.000, absmax=0.020
[Clip-Value] grad_norm=5.724, absmax=0.010


**AMP 里的损失缩放（Loss Scaling）**


为避免 FP16 梯度下溢，先把 loss 乘以一个较大系数 $\alpha$ 再反传，得到的梯度也会被放大。

在 optimizer.step() 前再用 scaler.unscale_ 还原，从而既避免下溢，又不改变真实更新幅度。GradScaler 会动态调整 $\alpha$。

In [7]:
import torch, torch.nn as nn
from torch.nn.utils import clip_grad_norm_

model = nn.Sequential(nn.Linear(4096, 4096), nn.ReLU(), nn.Linear(4096, 4096)).to('mps')
opt = torch.optim.AdamW(model.parameters(), lr=1e-3)
scaler = torch.amp.GradScaler()

for step in range(3):
    x = torch.randn(32, 4096, device="mps")
    y = torch.randn(32, 4096, device="mps")
    opt.zero_grad(set_to_none=True)

    with torch.amp.autocast(device_type='mps', dtype=torch.float16):
        loss = (model(x) - y).pow(2).mean()

    # 1) the gradients are "amplified"
    scaler.scale(loss).backward()

    # 2) unscale the gradients to the real scale
    scaler.unscale_(opt)

    # 3) clip-by-norm (e.g., threshold 1.0)
    total_norm = clip_grad_norm_(model.parameters(), max_norm=1.0)
    if torch.isfinite(total_norm):
        print(f"step={step}, total_grad_norm(after clip)={total_norm.item():.3f}")

    # 4) update the model
    scaler.step(opt)
    scaler.update()

step=0, total_grad_norm(after clip)=0.225
step=1, total_grad_norm(after clip)=0.377
step=2, total_grad_norm(after clip)=0.297
