### 🔍 公式解释

普通的梯度下降：

$$
\theta_{t+1} = \theta_t - \eta \cdot \nabla L(\theta_t)
$$

加入动量后的梯度下降：

$$
v_{t+1} = \gamma v_t + \eta \cdot \nabla L(\theta_t)
$$
$$
\theta_{t+1} = \theta_t - v_{t+1}
$$

其中：

- $ \theta $：模型参数  
- $ \eta $：学习率（learning rate）  
- $ \gamma $：动量系数（通常在 0.9 左右）  
- $ v_t $：之前的梯度累积（速度）

### 🎯 总结

| 方法 | 特点 |
|------|------|
| 普通梯度下降 | 更新方向由当前梯度决定，容易震荡 |
| Momentum | 利用过去梯度，加速收敛，抑制震荡 |


In [9]:
import torch
from torch import optim

w = torch.tensor(data=[1.0], requires_grad=True, dtype=torch.float32)
optimizer = optim.SGD(params=[w], lr=0.01, momentum=0.9)

for i in range(10):
    loss = (w**2)/2.0
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    print(w.grad, w, loss)

tensor([1.]) tensor([0.9900], requires_grad=True) tensor([0.5000], grad_fn=<DivBackward0>)
tensor([0.9900]) tensor([0.9711], requires_grad=True) tensor([0.4901], grad_fn=<DivBackward0>)
tensor([0.9711]) tensor([0.9444], requires_grad=True) tensor([0.4715], grad_fn=<DivBackward0>)
tensor([0.9444]) tensor([0.9109], requires_grad=True) tensor([0.4459], grad_fn=<DivBackward0>)
tensor([0.9109]) tensor([0.8716], requires_grad=True) tensor([0.4149], grad_fn=<DivBackward0>)
tensor([0.8716]) tensor([0.8276], requires_grad=True) tensor([0.3799], grad_fn=<DivBackward0>)
tensor([0.8276]) tensor([0.7797], requires_grad=True) tensor([0.3425], grad_fn=<DivBackward0>)
tensor([0.7797]) tensor([0.7288], requires_grad=True) tensor([0.3039], grad_fn=<DivBackward0>)
tensor([0.7288]) tensor([0.6756], requires_grad=True) tensor([0.2655], grad_fn=<DivBackward0>)
tensor([0.6756]) tensor([0.6211], requires_grad=True) tensor([0.2282], grad_fn=<DivBackward0>)
