# 第10天：分类算法进阶与实战

## 今日目标
- 回顾第九天练习题
- 掌握多分类、特征工程、模型调优
- 学会交叉验证与模型对比
- 完成进阶练习题


# 1. 练习题回顾与讲解

请先独立完成第九天的练习题，然后对照以下讲解：

（此处可粘贴你的答案或与同伴讨论）

# 2. 进阶实战：鸢尾花多分类、特征工程、模型调优

## 2.1 鸢尾花多分类实战
- 用LogisticRegression和DecisionTreeClassifier分别对鸢尾花数据集做多分类
- 输出准确率、混淆矩阵、分类报告
- 可视化决策边界和特征重要性


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.datasets import load_iris

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

iris = load_iris()
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Logistic回归多分类
logreg = LogisticRegression(max_iter=1000, random_state=42)
logreg.fit(X_train, y_train)
y_pred_log = logreg.predict(X_test)
print('Logistic回归准确率:', accuracy_score(y_test, y_pred_log))
print('混淆矩阵:\n', confusion_matrix(y_test, y_pred_log))
print('分类报告:\n', classification_report(y_test, y_pred_log))

# 决策树多分类
dtree = DecisionTreeClassifier(max_depth=3, random_state=42)
dtree.fit(X_train, y_train)
y_pred_tree = dtree.predict(X_test)
print('决策树准确率:', accuracy_score(y_test, y_pred_tree))
print('混淆矩阵:\n', confusion_matrix(y_test, y_pred_tree))
print('分类报告:\n', classification_report(y_test, y_pred_tree))


## 2.2 特征工程与可视化
- 观察不同特征对分类的影响
- 可视化特征分布和重要性


In [None]:
# 特征分布可视化
df = pd.DataFrame(X, columns=iris.feature_names)
df['target'] = y
sns.pairplot(df, hue='target', diag_kind='kde')
plt.suptitle('鸢尾花特征分布', y=1.02)
plt.show()

# 决策树特征重要性
importances = dtree.feature_importances_
plt.bar(iris.feature_names, importances)
plt.title('决策树特征重要性')
plt.ylabel('重要性')
plt.show()


## 2.3 模型调优与交叉验证
- 用GridSearchCV或cross_val_score调参
- 比较不同参数下模型表现


In [None]:
from sklearn.model_selection import GridSearchCV
# Logistic回归调参
param_grid = {'C': [0.01, 0.1, 1, 10]}
grid = GridSearchCV(LogisticRegression(max_iter=1000), param_grid, cv=5)
grid.fit(X, y)
print('最优参数:', grid.best_params_)
print('最优分数:', grid.best_score_)


# 3. 交叉验证与模型对比

- 用cross_val_score对比Logistic回归和决策树的泛化能力


In [None]:
scores_log = cross_val_score(LogisticRegression(max_iter=1000), X, y, cv=5)
scores_tree = cross_val_score(DecisionTreeClassifier(max_depth=3), X, y, cv=5)
print('Logistic回归交叉验证均值:', scores_log.mean())
print('决策树交叉验证均值:', scores_tree.mean())


# 4. 进阶练习与思考题

1. 尝试不同的特征组合，观察模型表现变化。
2. 用GridSearchCV对决策树的max_depth、min_samples_split等参数调优。
3. 用鸢尾花以外的数据集（如乳腺癌数据集）做分类实战。
4. 总结Logistic回归和决策树在多分类问题上的优缺点。
