# 基础练习3：正则化与特征选择

## 练习目标

学习如何使用正则化进行特征选择，理解L1和L2正则化的区别。

## 练习要求

### 1. 数据准备
- 使用高维数据集（如`load_breast_cancer`，30个特征）
- 划分训练集和测试集
- 标准化数据

### 2. L1正则化特征选择
- 使用L1正则化，测试不同的C值
- 观察特征选择效果（稀疏性）
- 使用交叉验证选择最优C值

### 3. L2正则化对比
- 使用L2正则化，测试相同的C值
- 对比L1和L2的效果

### 4. 特征重要性可视化
- 可视化选择的特征
- 分析特征选择对模型的影响


In [None]:
# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import pandas as pd

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False
np.random.seed(42)
%matplotlib inline

print("环境准备完成！")


## 第一部分：数据准备

**你的任务**：加载数据，划分训练集和测试集，标准化特征。


In [None]:
# TODO: 数据准备
# 提示：
# 1. 使用 load_breast_cancer() 加载数据
# 2. 划分训练集和测试集（test_size=0.2）
# 3. 使用 StandardScaler 标准化数据

# 你的代码：
# cancer = load_breast_cancer()
# X, y = ...
# X_train, X_test, y_train, y_test = ...
# scaler = ...
# X_train_scaled = ...
# X_test_scaled = ...


## 第二部分：L1正则化特征选择

**你的任务**：使用L1正则化进行特征选择，观察不同C值的效果。


In [None]:
# TODO: L1正则化特征选择
# 提示：
# 1. 测试不同的C值（0.001, 0.01, 0.1, 1, 10）
# 2. 使用 penalty='l1', solver='liblinear'
# 3. 统计每个C值选择的特征数量（非零参数数量）
# 4. 使用交叉验证评估性能

# 你的代码：
# C_values = [0.001, 0.01, 0.1, 1, 10]
# results_l1 = []
# for C in C_values:
#     model = LogisticRegression(penalty='l1', C=C, solver='liblinear', ...)
#     ...
#     n_nonzero = np.sum(model.coef_[0] != 0)
#     ...


## 第三部分：L2正则化对比

**你的任务**：使用L2正则化，对比L1和L2的效果。


In [None]:
# TODO: L2正则化对比
# 提示：
# 1. 使用相同的C值
# 2. 使用 penalty='l2'
# 3. 对比L1和L2的准确率和特征数量

# 你的代码：


## 第四部分：可视化对比

**你的任务**：可视化L1和L2正则化的对比结果。


In [None]:
# TODO: 可视化对比
# 提示：
# 1. 绘制C值与特征数量的关系图
# 2. 绘制C值与准确率的关系图
# 3. 对比L1和L2的效果

# 你的代码：


## 总结

完成本练习后，你应该：
- ✅ 理解L1正则化的特征选择作用
- ✅ 理解L2正则化的参数收缩作用
- ✅ 掌握如何使用正则化进行特征选择

### 思考问题
1. L1和L2正则化有什么区别？
2. 什么时候使用L1正则化？什么时候使用L2？
3. C值对特征选择有什么影响？
