# 线性回归模型

本笔记本实现了单变量线性回归模型，包括数据生成、模型训练和可视化。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## 1. 生成模拟数据

In [None]:
def generate_data(n_samples=100, noise=10):
    """
    生成线性回归的模拟数据
    
    参数:
    n_samples: 样本数量
    noise: 噪声水平
    
    返回:
    X: 特征数据 (n_samples, 1)
    y: 目标值 (n_samples, 1)
    """
    # 生成0-2之间的随机特征值
    X = 2 * np.random.rand(n_samples, 1)
    # 生成线性关系的目标值，添加高斯噪声
    y = 4 + 3 * X + np.random.randn(n_samples, 1) * noise
    return X, y

# 生成数据
X, y = generate_data()
print(f"数据形状: X={X.shape}, y={y.shape}")

## 2. 可视化原始数据

In [None]:
plt.figure(figsize=(10, 6))
plt.scatter(X, y, alpha=0.6)
plt.xlabel('特征 X')
plt.ylabel('目标值 y')
plt.title('原始数据可视化')
plt.grid(True)
plt.show()

## 3. 实现代价函数

In [None]:
def compute_cost(X, y, theta):
    """
    计算线性回归的代价函数
    
    参数:
    X: 特征矩阵 (m, n+1)，包含偏置项
    y: 目标值向量 (m, 1)
    theta: 参数向量 (n+1, 1)
    
    返回:
    cost: 代价函数值
    """
    m = len(y)  # 样本数量
    predictions = X.dot(theta)  # 预测值
    errors = predictions - y  # 预测误差
    cost = (1/(2*m)) * np.sum(np.square(errors))  # 均方误差的平均值
    return cost

## 4. 实现梯度下降算法

In [None]:
def gradient_descent(X, y, theta, learning_rate, n_iterations):
    """
    使用梯度下降算法训练线性回归模型
    
    参数:
    X: 特征矩阵 (m, n+1)，包含偏置项
    y: 目标值向量 (m, 1)
    theta: 初始参数向量 (n+1, 1)
    learning_rate: 学习率
    n_iterations: 迭代次数
    
    返回:
    theta: 学习后的参数向量
    cost_history: 每次迭代的代价函数值
    """
    m = len(y)  # 样本数量
    cost_history = np.zeros(n_iterations)  # 记录代价函数历史
    
    for i in range(n_iterations):
        # 计算预测值
        predictions = X.dot(theta)
        # 计算误差
        errors = predictions - y
        # 计算梯度
        gradients = (1/m) * X.T.dot(errors)
        # 更新参数
        theta = theta - learning_rate * gradients
        # 记录当前代价函数值
        cost_history[i] = compute_cost(X, y, theta)
    
    return theta, cost_history

## 5. 训练模型

In [None]:
# 添加偏置项 (x0=1)
X_b = np.c_[np.ones((len(X), 1)), X]

# 初始化参数
theta_initial = np.random.randn(2, 1)

# 设置超参数
learning_rate = 0.01
n_iterations = 1000

# 训练模型
theta, cost_history = gradient_descent(X_b, y, theta_initial, learning_rate, n_iterations)

# 打印学习结果
print(f"学习到的参数: theta0 = {theta[0][0]:.4f}, theta1 = {theta[1][0]:.4f}")

## 6. 可视化训练过程

In [None]:
plt.figure(figsize=(10, 6))
plt.plot(range(n_iterations), cost_history)
plt.xlabel('迭代次数')
plt.ylabel('代价函数值')
plt.title('梯度下降训练过程')
plt.grid(True)
plt.show()

## 7. 可视化模型拟合效果

In [None]:
plt.figure(figsize=(10, 6))
# 绘制原始数据
plt.scatter(X, y, alpha=0.6, label='原始数据')

# 绘制回归线
X_new = np.array([[0], [2]])  # 生成用于预测的新数据点
X_new_b = np.c_[np.ones((2, 1)), X_new]  # 添加偏置项
y_predict = X_new_b.dot(theta)  # 预测
plt.plot(X_new, y_predict, 'r-', linewidth=2, label='回归直线')

plt.xlabel('特征 X')
plt.ylabel('目标值 y')
plt.title('线性回归模型拟合效果')
plt.legend()
plt.grid(True)
plt.show()

## 8. 模型评估

In [None]:
# 计算训练集上的均方误差
y_train_pred = X_b.dot(theta)
mse = np.mean(np.square(y_train_pred - y))
rmse = np.sqrt(mse)

print(f"训练集均方误差 (MSE): {mse:.4f}")
print(f"训练集均方根误差 (RMSE): {rmse:.4f}")

# 计算R²分数
y_mean = np.mean(y)
ss_res = np.sum(np.square(y - y_train_pred))
ss_tot = np.sum(np.square(y - y_mean))
r2 = 1 - (ss_res / ss_tot)

print(f"训练集R²分数: {r2:.4f}")