# 模型优化综合实践

## 学习目标

通过一个完整的模型优化项目，综合运用以下知识点：

1. 模型评估（多种指标）
2. 交叉验证
3. 超参数调优（网格搜索、随机搜索）
4. 特征选择
5. 模型集成
6. 结果分析和报告

## 项目场景

你是一个数据科学家，需要为一个二分类问题构建和优化模型。数据集包含2000个样本和30个特征，存在类别不平衡问题（正类占20%）。


In [None]:
# 导入必要的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import (
    train_test_split, cross_val_score, StratifiedKFold,
    GridSearchCV, RandomizedSearchCV
)
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, VotingClassifier
from sklearn.svm import SVC
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    confusion_matrix, roc_curve, auc, classification_report
)
from sklearn.datasets import make_classification
from sklearn.preprocessing import StandardScaler
from scipy.stats import randint

# 设置中文字体和样式
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
sns.set_style("whitegrid")
np.random.seed(42)

print("环境准备完成！")


## 步骤1：数据准备和探索

**任务**：生成数据、分析数据特征、处理类别不平衡


In [None]:
# TODO: 生成类别不平衡的分类数据集
# 提示：使用make_classification，设置weights参数使正类占20%

# TODO: 分析数据特征
# 提示：查看类别分布、特征统计信息

# TODO: 划分训练集和测试集
# 提示：使用stratify保持类别分布

# TODO: 数据标准化（如果需要）
# 提示：某些模型（如SVM）需要标准化

print("数据准备完成！")


## 步骤2：基准模型评估

**任务**：训练多个基准模型，使用交叉验证评估性能


In [None]:
# TODO: 创建多个基准模型
# 提示：逻辑回归、随机森林、SVM

# TODO: 使用5折分层交叉验证评估每个模型
# 提示：使用StratifiedKFold和cross_val_score

# TODO: 可视化交叉验证结果
# 提示：显示平均得分和标准差

# TODO: 选择表现最好的模型作为基准

print("基准模型评估完成！")


## 步骤3：特征选择

**任务**：使用特征选择优化模型


In [None]:
# TODO: 使用SelectKBest进行特征选择
# 提示：尝试不同的k值（10, 15, 20, 25）

# TODO: 评估不同特征数量对模型性能的影响
# 提示：使用交叉验证评估

# TODO: 选择最佳特征数量

# TODO: 可视化特征重要性（如果使用随机森林）

print("特征选择完成！")


## 步骤4：超参数调优

**任务**：使用网格搜索和随机搜索优化最佳模型


In [None]:
# TODO: 选择表现最好的模型进行超参数调优

# TODO: 定义参数网格

# TODO: 使用GridSearchCV进行网格搜索
# 提示：使用5折分层交叉验证

# TODO: 使用RandomizedSearchCV进行随机搜索
# 提示：比较两种方法的效果和效率

# TODO: 获取最佳参数和最佳模型

print("超参数调优完成！")


## 步骤5：模型集成（可选）

**任务**：尝试模型集成提升性能


In [None]:
# TODO: 使用VotingClassifier进行模型集成
# 提示：结合多个优化后的模型

# TODO: 评估集成模型的性能
# 提示：使用交叉验证

# TODO: 比较集成模型与单个模型的性能

print("模型集成完成！")


## 步骤6：最终评估和报告

**任务**：在测试集上评估优化后的模型，生成完整报告


In [None]:
# TODO: 在测试集上评估最终模型
# 提示：计算所有评估指标

# TODO: 可视化最终结果
# 提示：混淆矩阵、ROC曲线、评估指标对比

# TODO: 比较优化前后的模型性能
# 提示：创建对比表

# TODO: 生成优化报告
# 提示：包括优化步骤、性能提升、最佳参数等

print("=" * 60)
print("项目完成！")
print("=" * 60)
print("""
总结：
1. 通过交叉验证获得可靠的性能估计
2. 通过特征选择减少过拟合风险
3. 通过超参数调优提升模型性能
4. 通过模型集成进一步提升性能（可选）
5. 根据业务需求选择最佳模型和评估指标
""")
