> **前向传播（Forward Propagation）**  
> **反向传播（Backward Propagation / Backprop）**

简单理解就是：
- **前向传播**：让输入数据从头到尾跑一遍，得到预测结果；
- **反向传播**：计算误差如何影响每一层的参数，从而更新它们。

---

## 🧠 前向传播（Forward）

- 把输入 $ x $ 一层层传下去，经过每一层的权重、激活函数等，最终得到预测值 $ \hat{y} $。
- 这是一个**前进的过程**。

### 举例（简化版）：
输入一个样本 $ x $：

$$
z_1 = W_1 x + b_1 \\
a_1 = \text{ReLU}(z_1) \\
z_2 = W_2 a_1 + b_2 \\
\hat{y} = \text{Softmax}(z_2)
$$

你把每一层的输出都存起来，为后续反向传播用。

---

## 🔁 反向传播（Backward）

- 我们计算预测值 $ \hat{y} $ 与真实值 $ y $ 的**损失** $ L(\hat{y}, y) $，比如交叉熵或 MSE。
- 然后我们要计算这个损失对所有参数（权重）的**梯度**。
- 再通过**链式法则**，一层层向后推导每一层对损失的影响（也就是梯度）：
  
$$
\frac{\partial L}{\partial W_2}, \quad \frac{\partial L}{\partial W_1}, \ldots
$$

- 最后用这些梯度更新参数（通过 SGD、Adam 等优化器）。

---

### PyTorch 中的执行流程：

```python
# 前向传播
output = model(input)                # 得到预测值
loss = criterion(output, target)     # 计算损失函数

# 反向传播
loss.backward()                      # 自动计算所有梯度

# 参数更新
optimizer.step()                     # 用梯度更新权重
optimizer.zero_grad()                # 清空上次梯度
```

---

### ✅ 总结一句话：

> **前向传播** 是“预测”，**反向传播** 是“学习”。

- 前向传播计算预测结果；
- 反向传播找出模型哪里错了，以及怎么改（算梯度）；
- 最后一步是通过优化器去改模型的参数。

---

In [3]:
import torch

# 1. 初始化参数（使用 requires_grad 追踪梯度）
w = torch.tensor(1.0, requires_grad=True)
b = torch.tensor(0.0, requires_grad=True)

# 2. 输入和目标
x = torch.tensor(2.0)
y = torch.tensor(4.0)

# 3. 学习率
lr = 0.1

# 4. 优化器
optimizer = torch.optim.SGD([w, b], lr=lr)

# 5. 训练一次（1次前向 + 反向 + 更新）
for epoch in range(5):
    # 前向传播
    y_pred = w * x + b
    loss = 0.5 * (y_pred - y)**2  # MSE损失（除以2是为了后续导数简洁）

    # 清零梯度
    optimizer.zero_grad()

    # 反向传播
    loss.backward()
    print("w.grad: ", w.grad)
    print("b.grad: ", b.grad)

    # 参数更新
    optimizer.step()

    # 打印
    print(f"预测值: {y_pred.item():.2f}, 损失: {loss.item():.2f}")
    print(f"更新后参数: w={w.item():.2f}, b={b.item():.2f}")


w.grad:  tensor(-4.)
b.grad:  tensor(-2.)
预测值: 2.00, 损失: 2.00
更新后参数: w=1.40, b=0.20
w.grad:  tensor(-2.)
b.grad:  tensor(-1.)
预测值: 3.00, 损失: 0.50
更新后参数: w=1.60, b=0.30
w.grad:  tensor(-1.)
b.grad:  tensor(-0.5000)
预测值: 3.50, 损失: 0.12
更新后参数: w=1.70, b=0.35
w.grad:  tensor(-0.5000)
b.grad:  tensor(-0.2500)
预测值: 3.75, 损失: 0.03
更新后参数: w=1.75, b=0.38
w.grad:  tensor(-0.2500)
b.grad:  tensor(-0.1250)
预测值: 3.88, 损失: 0.01
更新后参数: w=1.77, b=0.39
