In [None]:
# ============================================================
# 梯度下降算法 (Gradient Descent)
# ============================================================
# 
# 梯度下降是一种优化算法，用于找到函数的最小值
# 核心思想：沿着梯度（最陡峭方向）的反方向迭代更新参数
# 
# 更新规则：θ = θ - η × ∇J(θ)
# 其中：
#   - η (eta): 学习率，控制每步移动的大小
#   - ∇J(θ): 损失函数的梯度
# 
# 对于线性回归，损失函数（均方误差）的梯度：
# ∇J(θ) = (2/m) × Xᵀ(Xθ - y)
# ============================================================

import numpy as np

# 设置随机种子，确保结果可复现
np.random.seed(42)

# ============================================================
# 第一步：准备数据
# ============================================================
# 生成与之前相同的线性数据

n_samples = 100  # 样本数量

# 生成特征 X：在 [2, 3) 范围内
X = 2 + np.random.rand(n_samples, 1)

# 生成目标 y：y = 4 + 3x + 噪声
y = 4 + 3 * X + np.random.rand(n_samples, 1)

# 构建设计矩阵（添加偏置项）
X_b = np.c_[np.ones((n_samples, 1)), X]

print(f"数据形状: X_b = {X_b.shape}, y = {y.shape}")
print(f"真实参数: θ₀ ≈ 4.5, θ₁ = 3")

In [None]:
# ============================================================
# 第二步：批量梯度下降 (Batch Gradient Descent)
# ============================================================
# 
# 批量梯度下降在每次迭代中使用所有样本计算梯度
# 
# 超参数设置：
#   - 学习率 (learning rate): 太大会发散，太小收敛慢
#   - 迭代次数: 足够多才能收敛

# 超参数
eta = 0.1           # 学习率 (learning rate)
n_iterations = 1000 # 最大迭代次数
m = n_samples       # 样本数量

# 随机初始化参数
theta = np.random.randn(2, 1)
print(f"初始参数: θ₀ = {theta[0, 0]:.4f}, θ₁ = {theta[1, 0]:.4f}")

# 记录训练过程中的损失值
loss_history = []

# ============================================================
# 梯度下降迭代
# ============================================================
for iteration in range(n_iterations):
    # 1. 计算预测值: ŷ = Xθ
    y_pred = X_b.dot(theta)
    
    # 2. 计算误差: error = ŷ - y
    error = y_pred - y
    
    # 3. 计算梯度: ∇J(θ) = (2/m) × Xᵀ × error
    gradients = (2 / m) * X_b.T.dot(error)
    
    # 4. 更新参数: θ = θ - η × ∇J(θ)
    theta = theta - eta * gradients
    
    # 5. 计算并记录损失值 (MSE)
    loss = np.mean(error ** 2)
    loss_history.append(loss)
    
    # 每200次迭代输出一次
    if iteration % 200 == 0:
        print(f"迭代 {iteration:4d}: θ₀ = {theta[0,0]:.4f}, θ₁ = {theta[1,0]:.4f}, Loss = {loss:.6f}")

print(f"\n最终结果 (迭代 {n_iterations} 次):")
print(f"  θ₀ = {theta[0, 0]:.4f}")
print(f"  θ₁ = {theta[1, 0]:.4f}")

In [None]:
# ============================================================
# 第三步：可视化训练过程
# ============================================================

import matplotlib.pyplot as plt

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS', 'SimHei']
plt.rcParams['axes.unicode_minus'] = False

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# 图1：损失函数变化曲线
axes[0].plot(loss_history, 'b-', linewidth=1)
axes[0].set_xlabel('迭代次数', fontsize=12)
axes[0].set_ylabel('均方误差 (MSE)', fontsize=12)
axes[0].set_title('训练损失曲线', fontsize=14)
axes[0].set_yscale('log')  # 使用对数刻度更清晰
axes[0].grid(True, alpha=0.3)
axes[0].axhline(y=loss_history[-1], color='r', linestyle='--', alpha=0.5,
                label=f'最终损失: {loss_history[-1]:.6f}')
axes[0].legend()

# 图2：拟合结果
axes[1].scatter(X, y, alpha=0.6, label='训练数据', color='blue')
X_plot = np.array([[2], [3]])
X_plot_b = np.c_[np.ones((2, 1)), X_plot]
y_plot = X_plot_b.dot(theta)
axes[1].plot(X_plot, y_plot, 'r-', linewidth=2, 
             label=f'拟合直线: y = {theta[0,0]:.2f} + {theta[1,0]:.2f}x')
axes[1].set_xlabel('X', fontsize=12)
axes[1].set_ylabel('y', fontsize=12)
axes[1].set_title('梯度下降拟合结果', fontsize=14)
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"\n最终参数:")
print(f"  θ₀ (截距): {theta[0, 0]:.4f}")
print(f"  θ₁ (斜率): {theta[1, 0]:.4f}")

In [None]:
# ============================================================
# 第四步：学习率对收敛的影响
# ============================================================
# 
# 学习率是梯度下降中最重要的超参数：
#   - 太小：收敛速度慢，需要更多迭代
#   - 太大：可能震荡甚至发散
#   - 合适：快速稳定收敛

def gradient_descent(X_b, y, eta, n_iterations):
    """梯度下降算法"""
    m = len(y)
    theta = np.random.randn(2, 1)
    np.random.seed(42)  # 确保初始值一致
    theta = np.random.randn(2, 1)
    loss_history = []
    
    for _ in range(n_iterations):
        gradients = (2/m) * X_b.T.dot(X_b.dot(theta) - y)
        theta = theta - eta * gradients
        loss = np.mean((X_b.dot(theta) - y) ** 2)
        loss_history.append(loss)
    
    return theta, loss_history

# 测试不同的学习率
learning_rates = [0.001, 0.01, 0.1, 0.5]

plt.figure(figsize=(12, 4))
for i, eta in enumerate(learning_rates):
    theta_result, history = gradient_descent(X_b, y, eta, 100)
    plt.subplot(1, 4, i+1)
    plt.plot(history, linewidth=2)
    plt.xlabel('迭代次数')
    plt.ylabel('MSE')
    plt.title(f'η = {eta}')
    plt.grid(True, alpha=0.3)
    if eta >= 0.5:
        plt.ylim(0, 20)  # 限制y轴范围

plt.suptitle('不同学习率的收敛行为', fontsize=14)
plt.tight_layout()
plt.show()

# ============================================================
# 知识总结
# ============================================================
print("\n" + "=" * 60)
print("梯度下降算法总结")
print("=" * 60)
print("""
1. 核心公式:
   θ = θ - η × ∇J(θ)

2. 三种变体:
   - 批量梯度下降 (BGD): 使用全部样本，稳定但慢
   - 随机梯度下降 (SGD): 每次一个样本，快但震荡
   - 小批量梯度下降 (Mini-batch): 折中方案，最常用

3. 学习率选择:
   - 常见范围: 0.001 ~ 0.1
   - 可使用学习率衰减策略
   - 或自适应学习率 (Adam, RMSprop等)

4. 收敛判断:
   - 损失变化小于阈值
   - 达到最大迭代次数
   - 梯度范数足够小
""")