# 基础练习2：使用scikit-learn实现线性回归

## 练习目标

使用scikit-learn库实现线性回归，包括：
1. 基本线性回归
2. Ridge和Lasso回归
3. 模型评估和对比

## 练习要求

### 1. 数据准备
使用`make_regression`生成数据

### 2. 实现基本线性回归
使用`LinearRegression`训练模型，并计算MSE和R²分数

### 3. 实现Ridge回归
使用`Ridge`训练模型，尝试不同的alpha值

### 4. 实现Lasso回归
使用`Lasso`训练模型，观察特征选择

### 5. 模型对比
对比三种模型的性能


In [None]:
# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.datasets import make_regression

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False

# 设置随机种子
np.random.seed(42)

# 设置matplotlib在notebook中内联显示
%matplotlib inline

print("环境准备完成！")


## 第一步：数据准备

**你的任务**：使用`make_regression`生成数据，并划分训练集和测试集。


In [None]:
# TODO: 生成数据
# 提示：
# 1. 使用 make_regression(n_samples=100, n_features=1, noise=10, random_state=42)
# 2. 使用 train_test_split 划分数据（test_size=0.2）
# 3. 使用 StandardScaler 标准化特征（对正则化很重要）

# 你的代码：
# X, y = ...
# X_train, X_test, y_train, y_test = ...
# scaler = ...
# X_train_scaled = ...
# X_test_scaled = ...

# print(f"训练集大小: {X_train.shape[0]}")
# print(f"测试集大小: {X_test.shape[0]}")


## 第二步：实现基本线性回归

**你的任务**：使用`LinearRegression`训练模型，并评估性能。


In [None]:
# TODO: 实现基本线性回归
# 提示：
# 1. 创建模型：model = LinearRegression()
# 2. 训练模型：model.fit(X_train_scaled, y_train)
# 3. 预测：y_pred = model.predict(X_test_scaled)
# 4. 评估：计算MSE和R²
# 5. 可视化：绘制数据点和拟合直线

# 你的代码：
# model_lr = ...
# model_lr.fit(...)
# y_pred_lr = ...
# mse_lr = ...
# r2_lr = ...

# print(f"线性回归:")
# print(f"  MSE: {mse_lr:.4f}")
# print(f"  R²: {r2_lr:.4f}")
# print(f"  系数: {model_lr.coef_}")
# print(f"  截距: {model_lr.intercept_:.4f}")

# 可视化
# plt.scatter(X_test_scaled, y_test, alpha=0.5, label='测试数据')
# X_line = np.linspace(X_test_scaled.min(), X_test_scaled.max(), 100).reshape(-1, 1)
# y_line = model_lr.predict(X_line)
# plt.plot(X_line, y_line, 'r-', linewidth=2, label='拟合直线')
# plt.xlabel('X')
# plt.ylabel('y')
# plt.title('线性回归结果')
# plt.legend()
# plt.grid(True, alpha=0.3)
# plt.show()


## 第三步：实现Ridge回归

**你的任务**：使用`Ridge`训练模型，尝试不同的alpha值（0.1, 1.0, 10.0），并对比效果。


In [None]:
# TODO: 实现Ridge回归
# 提示：
# 1. 尝试不同的alpha值：[0.1, 1.0, 10.0]
# 2. 对每个alpha值训练模型
# 3. 对比不同alpha值的效果
# 4. 观察参数的变化

# 你的代码：
# alphas = [0.1, 1.0, 10.0]
# for alpha in alphas:
#     model_ridge = Ridge(alpha=alpha)
#     model_ridge.fit(...)
#     y_pred_ridge = ...
#     mse_ridge = ...
#     r2_ridge = ...
#     print(f"Ridge (alpha={alpha}): MSE={mse_ridge:.4f}, R²={r2_ridge:.4f}")


## 第四步：实现Lasso回归

**你的任务**：使用`Lasso`训练模型，观察哪些特征的系数变为0（特征选择）。


In [None]:
# TODO: 实现Lasso回归
# 提示：
# 1. 使用 Lasso(alpha=0.1) 创建模型
# 2. 训练模型
# 3. 观察哪些特征的系数变为0
# 4. 理解Lasso的特征选择能力

# 你的代码：
# model_lasso = Lasso(alpha=0.1)
# model_lasso.fit(...)
# y_pred_lasso = ...
# mse_lasso = ...
# r2_lasso = ...

# print(f"Lasso回归:")
# print(f"  MSE: {mse_lasso:.4f}")
# print(f"  R²: {r2_lasso:.4f}")
# print(f"  系数: {model_lasso.coef_}")
# print(f"  非零系数数量: {np.sum(np.abs(model_lasso.coef_) > 1e-5)}")


## 第五步：模型对比

**你的任务**：对比三种模型（线性回归、Ridge、Lasso）的性能。


In [None]:
# TODO: 对比三种模型
# 提示：
# 1. 对比训练集和测试集的MSE
# 2. 对比R²分数
# 3. 对比参数值
# 4. 可视化对比结果

# 你的代码：
# print("模型对比:")
# print(f"{'模型':<20} {'训练MSE':<15} {'测试MSE':<15} {'R²':<15}")
# print("-" * 65)
# print(f"{'线性回归':<20} {train_mse_lr:<15.4f} {test_mse_lr:<15.4f} {r2_lr:<15.4f}")
# print(f"{'Ridge':<20} {train_mse_ridge:<15.4f} {test_mse_ridge:<15.4f} {r2_ridge:<15.4f}")
# print(f"{'Lasso':<20} {train_mse_lasso:<15.4f} {test_mse_lasso:<15.4f} {r2_lasso:<15.4f}")

# 可视化对比
# fig, axes = plt.subplots(1, 3, figsize=(18, 5))
# ... 绘制三个模型的预测结果对比
# plt.show()


## 总结

### 完成情况检查

- [ ] 成功生成数据并标准化
- [ ] 实现基本线性回归
- [ ] 实现Ridge回归并对比不同alpha值
- [ ] 实现Lasso回归并观察特征选择
- [ ] 对比三种模型的性能

### 思考问题

1. **Ridge和Lasso有什么区别？**
   - 系数如何变化？
   - 什么时候用Ridge？什么时候用Lasso？

2. **正则化参数alpha的作用是什么？**
   - alpha太大或太小会有什么影响？

---

**完成后，请查看答案文件进行对比！**
