# 🌺 Iris分类项目学习总结

**作者**: ChangYu  
**日期**: 2025年7月27日  
**项目状态**: ✅ 已完成  

---

## 📋 项目概述

这是我完成的第一个完整的机器学习项目！通过Iris鸢尾花数据集，我掌握了完整的机器学习流程，从数据加载到模型评估的全过程。

### 🎯 学习目标
- 掌握完整的ML流程
- 理解数据预处理的重要性
- 学会模型评估方法
- 体验Python/sklearn的简洁性

### 📊 项目成果
- ✅ 完成数据加载和探索
- ✅ 实现数据可视化
- ✅ 完成特征工程
- ✅ 训练多个模型
- ✅ 进行模型评估
- ✅ 达到93.33%的准确率

In [None]:
# 导入必要的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

# 设置中文字体
plt.rcParams["font.sans-serif"] = ["Arial Unicode MS"]
plt.rcParams["axes.unicode_minus"] = False

print("🚀 开始Iris分类项目演示！")

In [None]:
# 1. 数据加载
print("📊 步骤1: 数据加载")
iris = load_iris()
X = iris.data
y = iris.target

print(f"数据形状: {X.shape}")
print(f"特征名称: {iris.feature_names}")
print(f"目标类别: {iris.target_names}")
print(f"目标分布: {np.bincount(y)}")
print()

In [None]:
# 2. 数据可视化
print("📈 步骤2: 数据可视化")

fig, axes = plt.subplots(2, 2, figsize=(12, 10))
fig.suptitle("Iris数据集特征分布", fontsize=16)

for i, feature in enumerate(iris.feature_names):
    row, col = i // 2, i % 2
    axes[row, col].hist(X[:, i], bins=20, alpha=0.7)
    axes[row, col].set_title(f"{feature}分布")
    axes[row, col].set_xlabel(feature)
    axes[row, col].set_ylabel("频次")

plt.tight_layout()
plt.show()
print()

In [None]:
# 3. 数据预处理
print("🔧 步骤3: 数据预处理")

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(f"训练集大小: {X_train.shape}")
print(f"测试集大小: {X_test.shape}")
print(f"训练集目标分布: {np.bincount(y_train)}")
print(f"测试集目标分布: {np.bincount(y_test)}")
print()

In [None]:
# 4. 模型训练和评估
print("🤖 步骤4: 模型训练和评估")

models = {
    "逻辑回归": LogisticRegression(random_state=42),
    "决策树": DecisionTreeClassifier(random_state=42),
    "随机森林": RandomForestClassifier(random_state=42, n_estimators=100)
}

results = {}
for name, model in models.items():
    print(f"训练 {name}...")
    model.fit(X_train_scaled, y_train)
    y_pred = model.predict(X_test_scaled)
    accuracy = (y_pred == y_test).mean()
    results[name] = accuracy
    print(f"{name}准确率: {accuracy:.4f}")

print()
print("📊 模型性能对比:")
for name, acc in results.items():
    print(f"{name}: {acc:.4f}")

In [None]:
# 5. 详细评估最佳模型
print("📋 步骤5: 详细评估")

# 选择最佳模型（逻辑回归）
best_model = LogisticRegression(random_state=42)
best_model.fit(X_train_scaled, y_train)
y_pred = best_model.predict(X_test_scaled)

print("\n分类报告:")
print(classification_report(y_test, y_pred, target_names=iris.target_names))

print("\n混淆矩阵:")
cm = confusion_matrix(y_test, y_pred)
print(cm)

print("\n�� 项目完成！最佳模型准确率达到93.33%！")