# 练习2：使用scikit-learn进行模型评估

## 练习目标

掌握使用scikit-learn进行完整的模型评估流程，包括分类和回归任务的评估。

## 任务说明

本练习将完成以下任务：

1. **分类模型评估**：使用多个分类模型，计算各种评估指标，并可视化结果
2. **回归模型评估**：使用多个回归模型，计算各种评估指标，并可视化结果
3. **模型选择**：根据评估结果选择最佳模型


In [None]:
# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
from sklearn.datasets import load_breast_cancer, load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression, LinearRegression, Ridge, Lasso
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.svm import SVC
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    confusion_matrix, roc_curve, auc, classification_report,
    mean_squared_error, mean_absolute_error, r2_score
)

# 设置中文字体和样式
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
sns.set_style("whitegrid")
np.random.seed(42)

print("环境准备完成！")


## 任务1：分类模型评估

### 1.1 加载数据集并划分


In [None]:
# TODO: 加载分类数据集
# 提示：使用load_breast_cancer()加载乳腺癌数据集

# TODO: 划分训练集和测试集
# 提示：使用train_test_split，测试集占20%，使用stratify保持类别分布

print("数据准备完成！")


### 1.2 训练多个分类模型


In [None]:
# TODO: 创建多个分类模型
# 提示：包括逻辑回归、决策树、随机森林、SVM

# TODO: 训练所有模型

# TODO: 保存训练好的模型

print("模型训练完成！")


### 1.3 评估每个模型


In [None]:
# TODO: 对每个模型进行预测

# TODO: 计算评估指标
# 提示：准确率、精确率、召回率、F1分数

# TODO: 计算混淆矩阵

# TODO: 计算ROC曲线和AUC（如果是二分类）
# 提示：需要预测概率，使用predict_proba()

# TODO: 保存所有评估结果

print("模型评估完成！")


### 1.4 可视化结果


In [None]:
# TODO: 绘制混淆矩阵热力图
# 提示：使用seaborn的heatmap函数

# TODO: 绘制ROC曲线（如果是二分类）
# 提示：使用matplotlib绘制，包含所有模型的ROC曲线

# TODO: 创建模型性能对比表
# 提示：使用pandas DataFrame创建对比表

# TODO: 绘制模型性能对比柱状图

print("可视化完成！")


## 任务2：回归模型评估

### 2.1 加载数据集并划分


In [None]:
# TODO: 加载回归数据集
# 提示：使用load_diabetes()加载糖尿病数据集

# TODO: 划分训练集和测试集

print("数据准备完成！")


### 2.2 训练多个回归模型


In [None]:
# TODO: 创建多个回归模型
# 提示：包括线性回归、岭回归、Lasso回归、随机森林回归

# TODO: 训练所有模型

print("模型训练完成！")


### 2.3 评估每个模型


In [None]:
# TODO: 对每个模型进行预测

# TODO: 计算评估指标
# 提示：MSE、RMSE、MAE、R²

# TODO: 保存所有评估结果

print("模型评估完成！")


### 2.4 可视化结果


In [None]:
# TODO: 绘制预测值vs真实值散点图
# 提示：为每个模型创建一个子图

# TODO: 绘制残差图
# 提示：残差 = 真实值 - 预测值

# TODO: 创建模型性能对比表

# TODO: 绘制模型性能对比柱状图

print("可视化完成！")


## 任务3：模型选择

根据评估结果选择最佳模型并分析原因


In [None]:
# TODO: 选择分类任务中表现最好的模型
# 提示：可以根据F1分数或AUC值选择

# TODO: 选择回归任务中表现最好的模型
# 提示：可以根据R²分数或RMSE选择

# TODO: 分析为什么这些模型表现最好
# 提示：考虑模型复杂度、数据特点、过拟合风险等

print("=" * 60)
print("练习完成！")
print("=" * 60)
