**GradScaler 的作用:为了支持 混合精度训练（Mixed Precision Training）**

> 用 FP16 直接 .backward() 时，可能会得到 NaN 梯度

先把 loss 放大（scale），以避免梯度消失 `scaler.scale(loss).backward()`

执行优化器步骤时进行缩放处理：`scaler.step(optimizer)`

更新 scaler，根据训练是否稳定自动调整 scale 值：`scaler.update()`

**example**
```python
from torch.cuda.amp import GradScaler, autocast

scaler = GradScaler()

for inputs, targets in dataloader:
    optimizer.zero_grad()
    with autocast():  # 用半精度前向
        outputs = model(inputs)
        loss = loss_fn(outputs, targets)

    # 反向传播用 scaler
    scaler.scale(loss).backward()
    scaler.step(optimizer)
    scaler.update()
```
