# 完整学习流程：模型评估与优化

## 学习目标

通过一个完整的项目流程，综合运用模型评估与优化的所有知识点：

1. 数据准备和预处理
2. 模型训练
3. 模型评估（多种指标）
4. 交叉验证
5. 超参数调优
6. 模型优化
7. 结果分析和报告

## 项目场景

你是一个数据科学家，需要为一个二分类问题构建和优化模型。数据集包含1000个样本和20个特征。


In [None]:
# 导入必要的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import (accuracy_score, precision_score, recall_score, f1_score,
                            confusion_matrix, roc_curve, auc, classification_report)
from sklearn.datasets import make_classification
from sklearn.preprocessing import StandardScaler

# 设置中文字体和样式
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
sns.set_style("whitegrid")
np.random.seed(42)

print("环境准备完成！")


## 步骤1：数据准备

**任务**：生成数据并进行预处理


In [None]:
# TODO: 生成分类数据集
# 提示：使用make_classification生成1000个样本，20个特征，2个类别

# TODO: 划分训练集和测试集
# 提示：使用train_test_split，测试集占20%，使用stratify保持类别分布

# TODO: 数据标准化（可选，某些模型需要）
# 提示：使用StandardScaler

print("数据准备完成！")


## 步骤2：模型训练

**任务**：训练多个分类模型


In [None]:
# TODO: 创建多个模型
# 提示：至少包括逻辑回归、随机森林、SVM

# TODO: 训练所有模型

# TODO: 保存训练好的模型

print("模型训练完成！")


## 步骤3：模型评估

**任务**：使用多种指标评估模型性能


In [None]:
# TODO: 对每个模型进行预测

# TODO: 计算评估指标
# 提示：准确率、精确率、召回率、F1分数

# TODO: 计算混淆矩阵

# TODO: 计算ROC曲线和AUC（如果有预测概率）

# TODO: 可视化评估结果
# 提示：混淆矩阵热力图、ROC曲线、指标对比图

print("模型评估完成！")


## 步骤4：交叉验证

**任务**：使用交叉验证更准确地评估模型


In [None]:
# TODO: 使用5折交叉验证评估每个模型
# 提示：使用cross_val_score和StratifiedKFold

# TODO: 可视化交叉验证结果
# 提示：显示平均得分和标准差

print("交叉验证完成！")


## 步骤5：超参数调优

**任务**：使用网格搜索优化最佳模型


In [None]:
# TODO: 选择表现最好的模型进行超参数调优

# TODO: 定义参数网格

# TODO: 使用GridSearchCV进行网格搜索

# TODO: 获取最佳参数和最佳模型

# TODO: 在测试集上评估优化后的模型

print("超参数调优完成！")


## 步骤6：结果分析和总结

**任务**：分析结果并生成报告


In [None]:
# TODO: 比较优化前后的模型性能

# TODO: 分析哪些特征最重要（如果使用随机森林）

# TODO: 生成最终评估报告

# TODO: 总结优化效果

print("=" * 60)
print("项目完成！")
print("=" * 60)
print("""
总结：
1. 通过多种评估指标全面评估模型
2. 使用交叉验证获得更可靠的性能估计
3. 通过超参数调优提升模型性能
4. 根据业务需求选择最佳模型
""")
