# 多特征线性回归

本笔记本实现了多特征（多重）线性回归模型，包括数据生成、模型训练和评估。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## 1. 生成多特征模拟数据

In [None]:
def generate_multivariate_data(n_samples=100, n_features=3, noise=10):
    """
    生成多特征线性回归的模拟数据
    
    参数:
    n_samples: 样本数量
    n_features: 特征数量
    noise: 噪声水平
    
    返回:
    X: 特征数据 (n_samples, n_features)
    y: 目标值 (n_samples, 1)
    true_theta: 真实参数值 (n_features, 1)
    """
    # 生成0-2之间的随机特征值
    X = 2 * np.random.rand(n_samples, n_features)
    # 定义真实参数
    true_theta = np.array([[10], [20], [30]])
    # 生成线性关系的目标值，添加高斯噪声
    y = X.dot(true_theta) + np.random.randn(n_samples, 1) * noise
    return X, y, true_theta

# 生成数据
n_features = 3
X, y, true_theta = generate_multivariate_data(n_features=n_features)
print(f"数据形状: X={X.shape}, y={y.shape}")
print(f"真实参数: {true_theta.ravel()}")

## 2. 实现代价函数

In [None]:
def compute_cost(X, y, theta):
    """
    计算线性回归的代价函数
    
    参数:
    X: 特征矩阵 (m, n+1)，包含偏置项
    y: 目标值向量 (m, 1)
    theta: 参数向量 (n+1, 1)
    
    返回:
    cost: 代价函数值
    """
    m = len(y)  # 样本数量
    predictions = X.dot(theta)  # 预测值
    errors = predictions - y  # 预测误差
    cost = (1/(2*m)) * np.sum(np.square(errors))  # 均方误差的平均值
    return cost

## 3. 实现梯度下降算法

In [None]:
def gradient_descent(X, y, theta, learning_rate, n_iterations):
    """
    使用梯度下降算法训练线性回归模型
    
    参数:
    X: 特征矩阵 (m, n+1)，包含偏置项
    y: 目标值向量 (m, 1)
    theta: 初始参数向量 (n+1, 1)
    learning_rate: 学习率
    n_iterations: 迭代次数
    
    返回:
    theta: 学习后的参数向量
    cost_history: 每次迭代的代价函数值
    """
    m = len(y)  # 样本数量
    cost_history = np.zeros(n_iterations)  # 记录代价函数历史
    
    for i in range(n_iterations):
        # 计算预测值
        predictions = X.dot(theta)
        # 计算误差
        errors = predictions - y
        # 计算梯度
        gradients = (1/m) * X.T.dot(errors)
        # 更新参数
        theta = theta - learning_rate * gradients
        # 记录当前代价函数值
        cost_history[i] = compute_cost(X, y, theta)
    
    return theta, cost_history

## 4. 训练模型

In [None]:
# 添加偏置项 (x0=1)
X_b = np.c_[np.ones((len(X), 1)), X]

# 初始化参数
theta_initial = np.random.randn(n_features + 1, 1)

# 设置超参数
learning_rate = 0.01
n_iterations = 1000

# 训练模型
theta, cost_history = gradient_descent(X_b, y, theta_initial, learning_rate, n_iterations)

# 打印学习结果
print("真实参数:")
print(f"theta1 = {true_theta[0][0]:.4f}, theta2 = {true_theta[1][0]:.4f}, theta3 = {true_theta[2][0]:.4f}")

print("\n学习到的参数:")
print(f"theta0 = {theta[0][0]:.4f}, theta1 = {theta[1][0]:.4f}, theta2 = {theta[2][0]:.4f}, theta3 = {theta[3][0]:.4f}")

## 5. 可视化训练过程

In [None]:
plt.figure(figsize=(10, 6))
plt.plot(range(n_iterations), cost_history)
plt.xlabel('迭代次数')
plt.ylabel('代价函数值')
plt.title('多特征线性回归的梯度下降训练过程')
plt.grid(True)
plt.show()

## 6. 模型评估

In [None]:
# 计算训练集上的均方误差
y_train_pred = X_b.dot(theta)
mse = np.mean(np.square(y_train_pred - y))
rmse = np.sqrt(mse)

print(f"训练集均方误差 (MSE): {mse:.4f}")
print(f"训练集均方根误差 (RMSE): {rmse:.4f}")

# 计算R²分数
y_mean = np.mean(y)
ss_res = np.sum(np.square(y - y_train_pred))
ss_tot = np.sum(np.square(y - y_mean))
r2 = 1 - (ss_res / ss_tot)

print(f"训练集R²分数: {r2:.4f}")

## 7. 特征重要性分析

In [None]:
# 计算特征重要性（基于参数绝对值）
feature_importance = np.abs(theta[1:]).ravel()
feature_importance = feature_importance / np.sum(feature_importance)  # 归一化

plt.figure(figsize=(10, 6))
plt.bar(range(n_features), feature_importance)
plt.xlabel('特征索引')
plt.ylabel('相对重要性')
plt.title('多特征线性回归的特征重要性')
plt.grid(True)
plt.show()