# 进阶练习2：多分类与类别不平衡处理

## 练习目标

通过本练习，你将学会：
- 处理多分类问题（使用multinomial和ovr策略）
- 处理类别不平衡问题（SMOTE、欠采样、类别权重、阈值调整）
- 评估多分类模型性能
- 对比不同不平衡处理方法的效果

## 练习要求

### 任务1：多分类问题
1. 使用Iris数据集进行多分类
2. 对比multinomial和ovr两种策略
3. 评估每个类别的性能
4. 可视化混淆矩阵和决策边界

### 任务2：类别不平衡问题
1. 创建不平衡数据集
2. 实现4种处理方法：SMOTE、欠采样、类别权重、阈值调整
3. 对比不同方法的效果
4. 绘制ROC和PR曲线


## 第一步：环境准备


In [None]:
# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris, make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import (accuracy_score, classification_report, confusion_matrix,
                            roc_curve, auc, precision_recall_curve, average_precision_score)
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler
import seaborn as sns

plt.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False
np.random.seed(42)
%matplotlib inline

print("环境准备完成！")


## 第二步：任务1 - 多分类问题

### 2.1 数据准备


In [None]:
# TODO: 加载Iris数据集
# 提示：使用load_iris()加载数据

# 你的代码：

# TODO: 划分训练集和测试集
# 提示：使用train_test_split，test_size=0.2

# 你的代码：

# TODO: 标准化特征
# 提示：使用StandardScaler

# 你的代码：

print("数据准备完成！")


### 2.2 对比multinomial和ovr策略


In [None]:
# TODO: 创建两个模型：multinomial和ovr
# 提示：
# model_multinomial = LogisticRegression(multi_class='multinomial', solver='lbfgs', ...)
# model_ovr = LogisticRegression(multi_class='ovr', ...)

# 你的代码：

# TODO: 训练两个模型并评估
# 提示：计算准确率、分类报告、混淆矩阵

# 你的代码：

print("模型对比完成！")


### 2.3 可视化混淆矩阵


In [None]:
# TODO: 绘制混淆矩阵热力图
# 提示：使用seaborn.heatmap

# 你的代码：


## 第三步：任务2 - 类别不平衡问题

### 3.1 创建不平衡数据集


In [None]:
# 生成不平衡数据集
X_imb, y_imb = make_classification(
    n_samples=10000, n_features=20, n_informative=10,
    n_redundant=10, n_clusters_per_class=1,
    weights=[0.95, 0.05],  # 类别不平衡：95% vs 5%
    random_state=42
)

X_train_imb, X_test_imb, y_train_imb, y_test_imb = train_test_split(
    X_imb, y_imb, test_size=0.2, random_state=42, stratify=y_imb
)

scaler_imb = StandardScaler()
X_train_imb_scaled = scaler_imb.fit_transform(X_train_imb)
X_test_imb_scaled = scaler_imb.transform(X_test_imb)

print(f"类别分布:")
print(f"  类别0: {np.sum(y_train_imb == 0)} 个样本 ({np.sum(y_train_imb == 0)/len(y_train_imb)*100:.1f}%)")
print(f"  类别1: {np.sum(y_train_imb == 1)} 个样本 ({np.sum(y_train_imb == 1)/len(y_train_imb)*100:.1f}%)")
print(f"\n不平衡比例: {np.sum(y_train_imb == 0) / np.sum(y_train_imb == 1):.1f}:1")


### 3.2 方法1：SMOTE过采样
