# 基础练习3：正则化对比

## 练习目标

深入理解Ridge和Lasso正则化的区别和效果。

## 练习要求

### 1. 生成数据
生成一个多特征回归数据集，其中只有部分特征真正有用

### 2. 对比无正则化、Ridge、Lasso
训练三种模型并对比参数值、性能、特征选择

### 3. 正则化路径分析
绘制正则化路径（系数随alpha的变化）

### 4. 超参数调优
使用交叉验证选择最佳alpha值


In [None]:
# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.datasets import make_regression

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False

# 设置随机种子
np.random.seed(42)

# 设置matplotlib在notebook中内联显示
%matplotlib inline

print("环境准备完成！")


## 第一步：生成数据

**你的任务**：生成一个多特征回归数据集，其中只有部分特征真正有用。


In [None]:
# TODO: 生成数据
# 提示：
# 1. 使用 make_regression(n_samples=200, n_features=10, n_informative=5, noise=10, random_state=42)
# 2. 划分训练集和测试集
# 3. 标准化特征

# 你的代码：
# X, y = ...
# X_train, X_test, y_train, y_test = ...
# scaler = ...
# X_train_scaled = ...
# X_test_scaled = ...

# print(f"数据信息:")
# print(f"  训练集大小: {X_train.shape[0]}")
# print(f"  特征数量: {X_train.shape[1]}")
# print(f"  真正有用的特征: 5个")


## 第二步：对比无正则化、Ridge、Lasso

**你的任务**：训练三种模型并对比参数值、性能、特征选择。


In [None]:
# TODO: 对比三种模型
# 提示：
# 1. 训练线性回归（无正则化）
# 2. 训练Ridge回归（alpha=1.0）
# 3. 训练Lasso回归（alpha=0.1）
# 4. 对比参数值、训练集和测试集性能、哪些特征被选择

# 你的代码：
# model_lr = LinearRegression()
# model_ridge = Ridge(alpha=1.0)
# model_lasso = Lasso(alpha=0.1)
# ... 训练和评估
# ... 对比结果


## 第三步：正则化路径分析

**你的任务**：绘制正则化路径（系数随alpha的变化）。


In [None]:
# TODO: 绘制正则化路径
# 提示：
# 1. 使用 np.logspace 生成alpha值范围（如：0.001到100）
# 2. 对每个alpha值训练Ridge和Lasso
# 3. 记录系数值
# 4. 绘制系数路径图
# 5. 观察Ridge：系数如何缩小
# 6. 观察Lasso：系数如何变为0

# 你的代码：
# alphas = np.logspace(-3, 2, 50)
# ... 训练并记录系数
# ... 绘制路径图


## 第四步：超参数调优

**你的任务**：使用交叉验证选择最佳alpha值。


In [None]:
# TODO: 使用GridSearchCV选择最佳alpha
# 提示：
# 1. 定义alpha值范围
# 2. 使用 GridSearchCV 进行网格搜索
# 3. 使用交叉验证评估
# 4. 找出最佳alpha值
# 5. 使用最佳alpha训练最终模型

# 你的代码：
# param_grid = {'alpha': np.logspace(-3, 2, 20)}
# grid_search_ridge = GridSearchCV(Ridge(), param_grid, cv=5, scoring='r2')
# grid_search_ridge.fit(...)
# print(f"最佳Ridge alpha: {grid_search_ridge.best_params_}")
# print(f"最佳R²: {grid_search_ridge.best_score_:.4f}")


## 总结

### 完成情况检查

- [ ] 成功生成多特征数据
- [ ] 对比三种模型（无正则化、Ridge、Lasso）
- [ ] 绘制正则化路径
- [ ] 使用交叉验证选择最佳alpha

### 思考问题

1. **Ridge和Lasso的区别是什么？**
   - 系数如何变化？
   - 特征选择能力如何？

2. **如何选择合适的alpha值？**
   - 交叉验证的作用是什么？

---

**完成后，请查看答案文件进行对比！**
