# 简单分类 🎯

## 欢迎来到分类的世界！

想象一下，如果你能让计算机学会区分不同的东西，是不是很神奇？这就是分类的魅力！

在这个notebook中，我们将一起探索：
- 什么是分类？
- 为什么要分类？
- 如何用Python实现简单的分类？

准备好了吗？让我们开始吧！

## 1. 什么是分类？ 🤔

### 生活中的例子
想象你在整理玩具：
- 把积木放在一个盒子里
- 把玩偶放在另一个盒子里
- 把球类放在第三个盒子里

这就是分类！计算机也可以学会这种技能。

### 小测验
1. 下面哪些是分类的例子？
   - [x] 区分猫和狗
   - [x] 判断邮件是垃圾邮件还是正常邮件
   - [ ] 计算1+1=2
   - [x] 识别手写数字

2. 为什么需要分类？
   - 帮助我们整理信息
   - 让计算机学会识别不同的事物
   - 提高工作效率

3. 你能想到哪些分类的例子？
   - 比如：水果分类、动物分类、垃圾分类...

In [None]:
# 导入必要的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

# 设置中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

print("工具准备完毕！让我们开始吧！")

## 2. 水果分类：区分苹果和橙子 🍎🍊

### 生活中的例子
- 根据颜色和大小区分水果
- 根据味道和形状区分水果
- 根据重量和硬度区分水果

让我们用Python实现一个简单的水果分类器！

In [None]:
# 创建训练数据
# 特征：重量（克）和颜色（0表示红色，1表示橙色）
X_train = np.array([
    [150, 0],  # 红色苹果
    [200, 0],  # 红色苹果
    [180, 0],  # 红色苹果
    [300, 1],  # 橙色橙子
    [250, 1],  # 橙色橙子
    [280, 1],  # 橙色橙子
])

# 标签：0表示苹果，1表示橙子
y_train = np.array([0, 0, 0, 1, 1, 1])

# 创建测试数据
X_test = np.array([
    [170, 0],  # 应该是苹果
    [270, 1],  # 应该是橙子
])

# 创建并训练KNN分类器
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# 预测
predictions = knn.predict(X_test)

# 打印结果
for i, pred in enumerate(predictions):
    fruit = "苹果" if pred == 0 else "橙子"
    print(f"测试样本 {i+1} 被分类为: {fruit}")

### 动手做一做
1. 修改训练数据，添加更多水果样本
2. 尝试使用不同的特征（如：形状、味道）
3. 观察分类结果如何变化

### 思考题
1. 为什么需要训练数据？
2. 你能想到其他可以用分类解决的问题吗？

## 3. 决策树：更复杂的分类 🌳

### 生活中的例子
- 医生诊断疾病
- 老师判断学生是否需要补课
- 银行判断是否批准贷款

让我们用决策树来分类！

In [None]:
# 创建更复杂的训练数据
# 特征：年龄、收入、信用分数
X_train = np.array([
    [25, 3000, 700],  # 年轻人，收入一般，信用良好
    [35, 8000, 750],  # 中年人，收入高，信用良好
    [45, 12000, 800], # 中年人，收入很高，信用优秀
    [20, 2000, 600],  # 年轻人，收入低，信用一般
    [30, 5000, 650],  # 年轻人，收入中等，信用一般
    [40, 10000, 780], # 中年人，收入高，信用良好
])

# 标签：0表示不批准，1表示批准
y_train = np.array([0, 1, 1, 0, 0, 1])

# 创建决策树分类器
tree = DecisionTreeClassifier()
tree.fit(X_train, y_train)

# 创建测试数据
X_test = np.array([
    [28, 4000, 680],  # 年轻人，收入中等，信用一般
    [38, 9000, 760],  # 中年人，收入高，信用良好
])

# 预测
predictions = tree.predict(X_test)

# 打印结果
for i, pred in enumerate(predictions):
    decision = "批准" if pred == 1 else "不批准"
    print(f"测试样本 {i+1} 的决定是: {decision}")

### 动手做一做
1. 修改训练数据，添加更多样本
2. 尝试使用不同的特征
3. 观察决策树如何做出判断

### 思考题
1. 决策树和KNN有什么区别？
2. 什么时候用决策树更合适？

## 4. 随机森林：更强大的分类 🌲🌲🌲

### 生活中的例子
- 多个医生会诊
- 多个老师评分
- 多个评委打分

让我们用随机森林来分类！

In [None]:
# 创建随机森林分类器
forest = RandomForestClassifier(n_estimators=3)
forest.fit(X_train, y_train)

# 预测
predictions = forest.predict(X_test)

# 打印结果
for i, pred in enumerate(predictions):
    decision = "批准" if pred == 1 else "不批准"
    print(f"测试样本 {i+1} 的决定是: {decision}")

# 比较不同分类器的准确率
print("
不同分类器的准确率：")
print(f"KNN准确率: {knn.score(X_test, [0, 1]):.2f}")
print(f"决策树准确率: {tree.score(X_test, [0, 1]):.2f}")
print(f"随机森林准确率: {forest.score(X_test, [0, 1]):.2f}")

### 动手做一做
1. 修改随机森林的树的数量
2. 尝试使用不同的特征
3. 观察准确率如何变化

### 思考题
1. 为什么随机森林通常比单个决策树更好？
2. 你能想到其他可以用随机森林解决的问题吗？

## 5. 趣味练习 🎯

### 练习1：水果分类
1. 收集不同水果的特征
2. 设计一个分类器
3. 测试分类效果

### 练习2：学生分类
1. 收集学生的特征（如：成绩、出勤率）
2. 设计一个分类器
3. 预测学生是否需要补课

### 练习3：垃圾邮件分类
1. 收集邮件的特征（如：长度、关键词）
2. 设计一个分类器
3. 识别垃圾邮件

## 6. 知识总结 📝

### 今天学到了什么？
1. 分类的基本概念
2. 不同的分类算法
3. 如何用Python实现分类

### 下节课预告
下次我们将学习如何用机器学习进行回归，让计算机学会预测数值！

## 7. 趣味问答 🤔

1. 选择题
   - 下面哪个不是分类的例子？
     a) 区分猫和狗
     b) 预测明天的温度
     c) 识别手写数字
     d) 判断邮件是垃圾邮件

2. 判断题
   - 分类就是预测数值（对/错）
   - 随机森林比单个决策树更好（对/错）

3. 开放题
   - 你能想到哪些有趣的分类问题？
   - 为什么分类很重要？
   - 你觉得分类会如何改变我们的生活？