In [None]:
# ============================================================
# 线性回归 - 标准方程法 (Normal Equation)
# ============================================================
# 
# 线性回归是最基础的机器学习算法之一
# 目标：找到最佳参数 θ，使预测值与真实值的误差最小
# 
# 数学模型: y = θ₀ + θ₁x₁ + θ₂x₂ + ... + θₙxₙ
# 矩阵形式: ŷ = Xθ
# 
# 标准方程（闭式解）: θ = (XᵀX)⁻¹Xᵀy
# ============================================================

import numpy as np

# 设置随机种子，确保结果可复现
np.random.seed(42)

# ============================================================
# 第一步：生成模拟数据
# ============================================================
# 真实关系：y = 4 + 3x + 噪声
# θ₀ (截距) = 4, θ₁ (斜率) = 3

n_samples = 100  # 样本数量

# 生成特征 X：在 [2, 3) 范围内的均匀分布
X = 2 + np.random.rand(n_samples, 1)

# 生成目标 y：线性关系 + 随机噪声
y = 4 + 3 * X + np.random.rand(n_samples, 1)

print(f"样本数量: {n_samples}")
print(f"X 形状: {X.shape}")
print(f"y 形状: {y.shape}")

# ============================================================
# 第二步：使用标准方程求解最佳参数
# ============================================================
# 公式: θ = (XᵀX)⁻¹Xᵀy
# 
# 需要在 X 前面添加一列 1（偏置项），构成设计矩阵 X_b

X_b = np.c_[np.ones((n_samples, 1)), X]  # 添加 x₀ = 1 列
print(f"\n设计矩阵 X_b 形状: {X_b.shape}")

# 计算最佳参数
# np.linalg.inv: 计算矩阵的逆
# .dot(): 矩阵乘法
theta_best = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)

print(f"\n最佳参数 θ:")
print(f"  θ₀ (截距): {theta_best[0, 0]:.4f}  (真实值约为 4.5)")
print(f"  θ₁ (斜率): {theta_best[1, 0]:.4f}  (真实值为 3)")

In [None]:
# ============================================================
# 第三步：可视化数据和拟合结果
# ============================================================

import matplotlib.pyplot as plt

# 设置中文字体（如果需要）
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS', 'SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 创建图形
plt.figure(figsize=(10, 6))

# 绘制原始数据点
plt.scatter(X, y, alpha=0.6, label='训练数据', color='blue')

# 绘制拟合直线
X_plot = np.array([[2], [3]])  # 用于绘图的 x 范围
X_plot_b = np.c_[np.ones((2, 1)), X_plot]
y_plot = X_plot_b.dot(theta_best)
plt.plot(X_plot, y_plot, 'r-', linewidth=2, label=f'拟合直线: y = {theta_best[0,0]:.2f} + {theta_best[1,0]:.2f}x')

plt.xlabel('X (特征)', fontsize=12)
plt.ylabel('y (目标)', fontsize=12)
plt.title('线性回归 - 标准方程法', fontsize=14)
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

In [None]:
# ============================================================
# 第四步：使用训练好的模型进行预测
# ============================================================
# 
# 预测公式: ŷ = Xθ
# 给定新的 x 值，计算对应的 y 预测值

# 定义新的测试点
X_new = np.array([[0], [2]])  # 两个测试点: x=0 和 x=2

# 构建设计矩阵（添加偏置项）
X_new_b = np.c_[np.ones((2, 1)), X_new]

# 进行预测
y_predict = X_new_b.dot(theta_best)

print("预测结果:")
print("-" * 40)
for i in range(len(X_new)):
    print(f"  x = {X_new[i, 0]:.1f}  -->  ŷ = {y_predict[i, 0]:.4f}")
print("-" * 40)
print(f"\n验证：当 x=0 时，ŷ ≈ θ₀ = {theta_best[0, 0]:.4f}")

In [None]:
# ============================================================
# 可视化预测结果
# ============================================================

plt.figure(figsize=(10, 6))

# 绘制原始数据点
plt.plot(X, y, "b.", alpha=0.6, markersize=8, label='训练数据')

# 绘制预测直线（连接两个预测点）
plt.plot(X_new, y_predict, "r-", linewidth=2, label='预测直线')

# 标记预测点
plt.scatter(X_new, y_predict, color='red', s=100, zorder=5, 
            edgecolors='black', linewidths=1.5, label='预测点')

# 添加预测点标注
for i in range(len(X_new)):
    plt.annotate(f'({X_new[i,0]:.0f}, {y_predict[i,0]:.2f})', 
                 xy=(X_new[i,0], y_predict[i,0]),
                 xytext=(10, 10), textcoords='offset points',
                 fontsize=10, color='red')

plt.xlabel('X', fontsize=12)
plt.ylabel('y', fontsize=12)
plt.axis([0, 3, 0, 15])
plt.title('线性回归预测可视化', fontsize=14)
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

In [None]:
# ============================================================
# 第五步：使用 Scikit-learn 的线性回归
# ============================================================
# 
# Scikit-learn 提供了更简洁的 API 来实现线性回归
# 内部使用的是更稳定的数值方法（SVD分解）

from sklearn.linear_model import LinearRegression

# 创建线性回归模型实例
lin_reg = LinearRegression()

# 训练模型（拟合数据）
# 注意：sklearn 会自动处理偏置项，不需要手动添加
lin_reg.fit(X, y)

# 查看学习到的参数
print("Scikit-learn 线性回归结果:")
print("-" * 40)
print(f"  截距 (intercept_): {lin_reg.intercept_[0]:.4f}")
print(f"  系数 (coef_):      {lin_reg.coef_[0, 0]:.4f}")
print("-" * 40)

# 与手动计算结果对比
print("\n与标准方程法结果对比:")
print(f"  标准方程 θ₀: {theta_best[0, 0]:.4f}")
print(f"  sklearn θ₀:  {lin_reg.intercept_[0]:.4f}")
print(f"  差异: {abs(theta_best[0, 0] - lin_reg.intercept_[0]):.10f}")

# 使用模型预测
y_pred_sklearn = lin_reg.predict(X_new)
print(f"\nsklearn 预测结果:")
for i in range(len(X_new)):
    print(f"  x = {X_new[i, 0]:.1f}  -->  ŷ = {y_pred_sklearn[i, 0]:.4f}")

In [None]:
# ============================================================
# 第六步：理解底层实现 - SVD 分解
# ============================================================
# 
# sklearn 的 LinearRegression 使用 np.linalg.lstsq 函数
# 该函数基于奇异值分解(SVD)，比标准方程更稳定
# 
# 优点：
# - 当 XᵀX 接近奇异矩阵时不会出错
# - 数值稳定性更好
# - 计算效率更高

# 使用 lstsq 直接求解
theta_svd, residuals, rank, singular_values = np.linalg.lstsq(X_b, y, rcond=None)

print("SVD 方法求解结果:")
print("-" * 40)
print(f"  θ₀ (截距): {theta_svd[0, 0]:.4f}")
print(f"  θ₁ (斜率): {theta_svd[1, 0]:.4f}")
print("-" * 40)
print(f"\n矩阵秩 (rank): {rank}")
print(f"奇异值: {singular_values}")

In [None]:
# ============================================================
# 第七步：使用伪逆矩阵计算
# ============================================================
# 
# Moore-Penrose 伪逆矩阵: X⁺ = (XᵀX)⁻¹Xᵀ
# 当 XᵀX 不可逆时，伪逆仍然存在
# 
# 标准方程可以改写为: θ = X⁺y

# 计算伪逆
X_b_pinv = np.linalg.pinv(X_b)

# 使用伪逆计算参数
theta_pinv = X_b_pinv.dot(y)

print("伪逆矩阵方法求解结果:")
print("-" * 40)
print(f"  θ₀ (截距): {theta_pinv[0, 0]:.4f}")
print(f"  θ₁ (斜率): {theta_pinv[1, 0]:.4f}")
print("-" * 40)

# ============================================================
# 总结：三种方法得到相同的结果
# ============================================================
print("\n三种方法对比:")
print("-" * 50)
print(f"{'方法':<20} {'θ₀':>12} {'θ₁':>12}")
print("-" * 50)
print(f"{'标准方程法':<20} {theta_best[0,0]:>12.4f} {theta_best[1,0]:>12.4f}")
print(f"{'SVD分解':<20} {theta_svd[0,0]:>12.4f} {theta_svd[1,0]:>12.4f}")
print(f"{'伪逆矩阵':<20} {theta_pinv[0,0]:>12.4f} {theta_pinv[1,0]:>12.4f}")
print("-" * 50)

In [None]:
# ============================================================
# 知识总结
# ============================================================
# 
# 1. 线性回归的数学模型：ŷ = Xθ
# 
# 2. 求解方法：
#    - 标准方程法: θ = (XᵀX)⁻¹Xᵀy （直接闭式解）
#    - SVD分解: 更稳定的数值方法
#    - 伪逆矩阵: 适用于奇异矩阵情况
# 
# 3. Scikit-learn 使用方法：
#    model = LinearRegression()
#    model.fit(X, y)
#    predictions = model.predict(X_new)
# 
# 4. 标准方程法的时间复杂度: O(n³)
#    当特征数量很大时，应考虑使用梯度下降法
# 
# ============================================================

print("线性回归学习完成！")
print("\n下一步学习建议：")
print("  - 梯度下降算法（适用于大规模数据）")
print("  - 多项式回归（处理非线性关系）")
print("  - 正则化方法（Ridge、Lasso、Elastic Net）")