# 第零课：理解梯度下降

## 前言

在学习深度学习之前，你必须先理解**梯度下降 (Gradient Descent)**。

这是一种用来"找最小值"的方法。听起来很抽象？没关系，我们用最简单的例子来理解它。

---

## 问题引入：如何找到函数的最低点？

假设有一个函数：

$$f(x) = x^2$$

它的图像是一条抛物线，最低点在 $x = 0$ 处。

**问题**：如果我们不知道最低点在哪，能否通过某种"算法"自动找到它？

答案是：**可以，用梯度下降！**

In [None]:
import numpy as np
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['Arial Unicode MS', 'SimHei', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False

---
## 1. 先看一下我们要优化的函数

我们选择最简单的二次函数：$f(x) = x^2$

- 这个函数的最小值点在 $x = 0$
- 最小值是 $f(0) = 0$

让我们画出这个函数：

In [None]:
def f(x):
    """我们要优化的函数"""
    return x ** 2

x_plot = np.linspace(-5, 5, 100)
y_plot = f(x_plot)

plt.figure(figsize=(8, 5))
plt.plot(x_plot, y_plot, 'b-', linewidth=2)
plt.scatter([0], [0], color='red', s=100, zorder=5, label='最低点 (0, 0)')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.title('f(x) = x²')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

---
## 2. 什么是导数/梯度？

### 直观理解：导数就是"坡度"

想象你站在山坡上：
- 如果脚下的坡向右上倾斜，导数为**正**（往右走会上升）
- 如果脚下的坡向右下倾斜，导数为**负**（往右走会下降）
- 如果脚下是平的，导数为**零**（最低点或最高点）

### 数学定义

对于 $f(x) = x^2$，它的导数是：

$$f'(x) = 2x$$

让我们验证一下：
- 当 $x = 2$ 时，$f'(2) = 4 > 0$ → 在这点向右走会上升
- 当 $x = -2$ 时，$f'(-2) = -4 < 0$ → 在这点向右走会下降
- 当 $x = 0$ 时，$f'(0) = 0$ → 这就是最低点！

In [None]:
def gradient(x):
    """f(x) = x² 的导数"""
    return 2 * x

# 在几个点上验证
test_points = [-3, -1, 0, 1, 3]

print("x 值   |  f(x)  | 梯度 f'(x) | 含义")
print("-" * 55)
for x in test_points:
    grad = gradient(x)
    if grad > 0:
        meaning = "向右上升 → 应该往左走"
    elif grad < 0:
        meaning = "向右下降 → 应该往右走"
    else:
        meaning = "平坦 → 到达最低点！"
    print(f"{x:5.1f}  | {f(x):5.1f} | {grad:10.1f} | {meaning}")

---
## 3. 梯度下降的核心思想

### 关键洞察

- 梯度（导数）告诉我们"上升最快"的方向
- 要找最小值，就要朝**梯度的反方向**走

### 更新规则

$$x_{new} = x_{old} - \eta \cdot f'(x_{old})$$

其中：
- $x_{old}$：当前位置
- $f'(x_{old})$：当前位置的梯度
- $\eta$：学习率（控制每一步走多远）
- $x_{new}$：更新后的位置

### 为什么减去梯度？

| 情况 | 梯度值 | 更新后 | 效果 |
|------|--------|--------|------|
| 在最低点右边 | 梯度 > 0 | x 减小 | 向左移动，靠近最低点 |
| 在最低点左边 | 梯度 < 0 | x 增大 | 向右移动，靠近最低点 |
| 在最低点 | 梯度 = 0 | x 不变 | 已到达最低点 |

---
## 4. 手动走一遍梯度下降

假设我们从 $x = 4$ 开始，学习率 $\eta = 0.1$：

| 步骤 | 当前 x | f(x) | 梯度 f'(x) | 更新计算 | 新 x |
|------|--------|------|------------|----------|------|
| 0 | 4.00 | 16.00 | 8.00 | 4.00 - 0.1×8.00 | 3.20 |
| 1 | 3.20 | 10.24 | 6.40 | 3.20 - 0.1×6.40 | 2.56 |
| 2 | 2.56 | 6.55 | 5.12 | 2.56 - 0.1×5.12 | 2.05 |
| ... | ... | ... | ... | ... | ... |

可以看到：
1. x 在逐渐减小，向 0 靠近
2. f(x) 也在逐渐减小
3. 梯度越来越小（因为越接近最低点，坡度越平缓）

In [None]:
# 手动演示几步梯度下降
x = 4.0
lr = 0.1  # 学习率

print("步骤 |   x    |  f(x)  | 梯度 f'(x) | 更新计算")
print("-" * 60)

for step in range(10):
    fx = f(x)
    grad = gradient(x)
    x_new = x - lr * grad
    print(f" {step:2d}  | {x:6.3f} | {fx:6.3f} | {grad:10.3f} | {x:.3f} - {lr}×{grad:.3f} = {x_new:.3f}")
    x = x_new

print("-" * 60)
print(f"最终结果: x = {x:.6f}, f(x) = {f(x):.6f}")
print(f"真实最小值: x = 0, f(x) = 0")

---
## 5. 可视化：逐步逼近最低点

下图展示了梯度下降的过程。红色的点从右边开始，一步步向最低点移动。

In [None]:
# 记录完整的优化轨迹
x = 4.0
lr = 0.1
num_steps = 20

trajectory_x = [x]
trajectory_y = [f(x)]

for _ in range(num_steps):
    grad = gradient(x)
    x = x - lr * grad
    trajectory_x.append(x)
    trajectory_y.append(f(x))

trajectory_x = np.array(trajectory_x)
trajectory_y = np.array(trajectory_y)

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# 左图：在函数曲线上显示优化轨迹
ax1 = axes[0]
ax1.plot(x_plot, y_plot, 'b-', linewidth=2, label='f(x) = x²')
ax1.plot(trajectory_x, trajectory_y, 'ro-', markersize=8, linewidth=1.5, alpha=0.7, label='优化轨迹')
ax1.scatter([trajectory_x[0]], [trajectory_y[0]], color='green', s=150, zorder=5, marker='s', label='起点')
ax1.scatter([trajectory_x[-1]], [trajectory_y[-1]], color='red', s=150, zorder=5, marker='*', label='终点')
ax1.set_xlabel('x')
ax1.set_ylabel('f(x)')
ax1.set_title('函数曲线上的优化轨迹')
ax1.legend()
ax1.grid(True, alpha=0.3)

# 右图：f(x) 随步骤的变化
ax2 = axes[1]
ax2.plot(range(len(trajectory_y)), trajectory_y, 'g-o', linewidth=2, markersize=6)
ax2.set_xlabel('迭代步数')
ax2.set_ylabel('f(x)')
ax2.set_title('f(x) 随迭代的下降过程')
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

---
## 6. 动画演示

下面用动画更直观地展示每一步的移动过程：

In [None]:
from IPython.display import HTML
from matplotlib.animation import FuncAnimation

fig, ax = plt.subplots(figsize=(10, 6))

# 画函数曲线
ax.plot(x_plot, y_plot, 'b-', linewidth=2)
ax.set_xlim(-5, 5)
ax.set_ylim(-1, 20)
ax.set_xlabel('x')
ax.set_ylabel('f(x)')
ax.grid(True, alpha=0.3)

# 动态元素
point, = ax.plot([], [], 'ro', markersize=15)
trail, = ax.plot([], [], 'r--', linewidth=1, alpha=0.5)
title = ax.set_title('')

def init():
    point.set_data([], [])
    trail.set_data([], [])
    return point, trail, title

def animate(i):
    point.set_data([trajectory_x[i]], [trajectory_y[i]])
    trail.set_data(trajectory_x[:i+1], trajectory_y[:i+1])
    title.set_text(f'步骤 {i}: x = {trajectory_x[i]:.3f}, f(x) = {trajectory_y[i]:.3f}')
    return point, trail, title

anim = FuncAnimation(fig, animate, init_func=init, frames=len(trajectory_x), interval=300, blit=False)
plt.close()
HTML(anim.to_jshtml())

---
## 7. 学习率的影响

学习率 $\eta$ 决定了每一步走多远：

| 学习率 | 效果 |
|--------|------|
| 太小 | 收敛很慢，需要很多步 |
| 适中 | 快速且稳定地收敛 |
| 太大 | 可能来回震荡，甚至发散 |

让我们对比不同学习率的效果：

In [None]:
def run_gradient_descent(x_init, lr, num_steps):
    """运行梯度下降，返回轨迹"""
    x = x_init
    traj_x = [x]
    traj_y = [f(x)]
    for _ in range(num_steps):
        x = x - lr * gradient(x)
        traj_x.append(x)
        traj_y.append(f(x))
    return np.array(traj_x), np.array(traj_y)

learning_rates = [0.01, 0.1, 0.5, 0.95]
colors = ['blue', 'green', 'orange', 'red']

fig, axes = plt.subplots(2, 2, figsize=(12, 10))
axes = axes.flatten()

for idx, (lr, color) in enumerate(zip(learning_rates, colors)):
    traj_x, traj_y = run_gradient_descent(4.0, lr, 30)
    
    ax = axes[idx]
    ax.plot(x_plot, y_plot, 'gray', linewidth=1, alpha=0.5)
    ax.plot(traj_x, traj_y, 'o-', color=color, markersize=5, linewidth=1.5)
    ax.scatter([traj_x[0]], [traj_y[0]], color='green', s=100, zorder=5, marker='s')
    ax.scatter([traj_x[-1]], [traj_y[-1]], color='red', s=100, zorder=5, marker='*')
    ax.set_xlim(-6, 6)
    ax.set_ylim(-1, 20)
    ax.set_xlabel('x')
    ax.set_ylabel('f(x)')
    ax.set_title(f'学习率 η = {lr}')
    ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# 对比不同学习率的收敛速度
plt.figure(figsize=(10, 5))

for lr, color in zip(learning_rates, colors):
    _, traj_y = run_gradient_descent(4.0, lr, 30)
    plt.plot(traj_y, 'o-', color=color, linewidth=2, markersize=4, label=f'η = {lr}')

plt.xlabel('迭代步数')
plt.ylabel('f(x)')
plt.title('不同学习率的收敛速度对比')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

**观察结果**：

- $\eta = 0.01$：收敛非常慢，30步后还没到达最低点
- $\eta = 0.1$：收敛速度适中，平稳下降
- $\eta = 0.5$：收敛较快，但开始出现一些震荡
- $\eta = 0.95$：来回震荡剧烈，几乎无法收敛

---
## 8. 更复杂的例子：二维函数

现实中我们经常要优化多个参数。让我们看一个二维的例子：

$$f(x, y) = x^2 + y^2$$

这个函数的最小值在 $(0, 0)$ 处。

梯度变成了一个向量：

$$\nabla f = \left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right) = (2x, 2y)$$

In [None]:
def f_2d(x, y):
    return x**2 + y**2

def gradient_2d(x, y):
    return 2*x, 2*y

# 梯度下降
x, y = 4.0, 3.0
lr = 0.1
num_steps = 30

traj_x = [x]
traj_y = [y]
traj_f = [f_2d(x, y)]

for _ in range(num_steps):
    gx, gy = gradient_2d(x, y)
    x = x - lr * gx
    y = y - lr * gy
    traj_x.append(x)
    traj_y.append(y)
    traj_f.append(f_2d(x, y))

In [None]:
# 创建等高线图
xx = np.linspace(-5, 5, 100)
yy = np.linspace(-5, 5, 100)
XX, YY = np.meshgrid(xx, yy)
ZZ = f_2d(XX, YY)

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# 左图：二维等高线 + 优化轨迹
ax1 = axes[0]
contour = ax1.contour(XX, YY, ZZ, levels=20, cmap='viridis')
ax1.plot(traj_x, traj_y, 'ro-', markersize=5, linewidth=1.5, label='优化轨迹')
ax1.scatter([traj_x[0]], [traj_y[0]], color='green', s=150, zorder=5, marker='s', label='起点')
ax1.scatter([traj_x[-1]], [traj_y[-1]], color='red', s=150, zorder=5, marker='*', label='终点')
ax1.scatter([0], [0], color='blue', s=100, zorder=5, marker='X', label='最小值点')
ax1.set_xlabel('x')
ax1.set_ylabel('y')
ax1.set_title('二维参数空间中的优化轨迹')
ax1.legend()
ax1.set_aspect('equal')

# 右图：f 值的下降
ax2 = axes[1]
ax2.plot(traj_f, 'g-o', linewidth=2, markersize=5)
ax2.set_xlabel('迭代步数')
ax2.set_ylabel('f(x, y)')
ax2.set_title('函数值随迭代的下降')
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"起点: ({traj_x[0]:.3f}, {traj_y[0]:.3f}), f = {traj_f[0]:.3f}")
print(f"终点: ({traj_x[-1]:.6f}, {traj_y[-1]:.6f}), f = {traj_f[-1]:.6f}")

---
## 9. 链式法则：复合函数的求导

在深度学习中，我们经常遇到**复合函数**——即一个函数套着另一个函数。要对这样的函数求导，就需要用到**链式法则 (Chain Rule)**。

### 什么是链式法则？

假设我们有两个函数：
- 外层函数 $f(u)$
- 内层函数 $u = g(x)$

它们组合成复合函数：$y = f(g(x))$

链式法则告诉我们：

$$\frac{dy}{dx} = \frac{df}{du} \cdot \frac{du}{dx}$$

用文字表达就是：**先对外层函数求导，再乘以内层函数的导数**。

### 直观理解

可以这样理解链式法则：
- $\frac{du}{dx}$ 表示：$x$ 变化一点点时，$u$ 变化多少
- $\frac{df}{du}$ 表示：$u$ 变化一点点时，$f$ 变化多少
- 把它们乘起来，就得到：$x$ 变化一点点时，$f$ 变化多少

就像多米诺骨牌：$x$ 影响 $u$，$u$ 再影响 $f$，总的影响是两步影响的**乘积**。

### 具体例子

假设我们要对 $y = (3x + 2)^2$ 求导。

**第一步：识别内外层函数**
- 内层函数：$u = g(x) = 3x + 2$
- 外层函数：$f(u) = u^2$

所以 $y = f(g(x)) = (3x + 2)^2$

**第二步：分别求导**
- 内层的导数：$\frac{du}{dx} = \frac{d(3x+2)}{dx} = 3$
- 外层的导数：$\frac{df}{du} = \frac{d(u^2)}{du} = 2u$

**第三步：应用链式法则**

$$\frac{dy}{dx} = \frac{df}{du} \cdot \frac{du}{dx} = 2u \cdot 3 = 6u$$

**第四步：把 $u$ 换回 $x$**

因为 $u = 3x + 2$，所以：

$$\frac{dy}{dx} = 6(3x + 2) = 18x + 12$$

我们可以用展开法验证。把 $(3x+2)^2$ 展开：

$$y = (3x+2)^2 = 9x^2 + 12x + 4$$

直接求导：

$$\frac{dy}{dx} = 18x + 12$$

结果一致！✓

### 为什么链式法则在深度学习中很重要？

神经网络本质上就是**层层嵌套的复合函数**：

$$\text{输出} = f_n(f_{n-1}(...f_2(f_1(\text{输入}))...))$$

当我们计算梯度时，需要把误差从输出层**反向传播**到每一层的参数。这个过程正是反复应用链式法则：

$$\frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial f_n} \cdot \frac{\partial f_n}{\partial f_{n-1}} \cdot ... \cdot \frac{\partial f_2}{\partial f_1} \cdot \frac{\partial f_1}{\partial w_1}$$

这就是**反向传播算法 (Backpropagation)** 的数学基础。


---
## 10. 总结

### 核心要点

1. **目标**：找到函数的最小值点

2. **梯度的含义**：
   - 梯度指向函数值**增加最快**的方向
   - 梯度的大小表示**坡度**有多陡

3. **梯度下降的原理**：
   - 朝着梯度的**反方向**走，函数值就会下降
   - 反复迭代，最终逼近最小值点

4. **更新公式**：
   $$x_{new} = x_{old} - \eta \cdot \nabla f(x_{old})$$

5. **学习率**：
   - 太小：收敛慢
   - 太大：震荡或发散
   - 需要调整到合适的值

### 与深度学习的联系

在深度学习中：
- $x$ 变成了模型的**所有参数**（权重和偏置）
- $f(x)$ 变成了**损失函数**（衡量预测的误差）
- 梯度下降用来**最小化损失函数**，从而让模型学会正确预测

核心思想完全一样：**沿着梯度反方向更新参数，让损失越来越小**。

---

理解了这个基础，你就可以进入下一课 `01_linear_regression_from_scratch.ipynb`，学习如何用梯度下降来训练一个真正的模型！