# 机器学习项目实践 🚀

## 欢迎来到项目实践的世界！

想象一下，如果你能把前面学到的所有知识应用到实际项目中，是不是很神奇？这就是项目实践的魅力！

在这个notebook中，我们将一起探索：
- 如何规划机器学习项目？
- 如何实现机器学习项目？
- 如何评估和改进项目？

准备好了吗？让我们开始吧！

## 1. 项目规划：如何开始一个机器学习项目？ 📋

### 生活中的例子
想象你在：
- 规划一次旅行
- 准备一次考试
- 组织一次活动

这就是项目规划！机器学习项目也需要这样的规划。

### 小测验
1. 下面哪些是项目规划的重要步骤？
   - [x] 确定项目目标
   - [x] 收集数据
   - [ ] 直接开始编程
   - [x] 设计解决方案

2. 为什么需要项目规划？
   - 帮助我们明确目标
   - 让项目更有条理
   - 提高工作效率

3. 你能想到哪些项目规划的例子？
   - 比如：数据分析项目、预测项目、分类项目...

In [None]:
# 导入必要的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report

# 设置中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

print("工具准备完毕！让我们开始吧！")

## 2. 数据收集和预处理：让数据变得有用 📊

### 生活中的例子
- 收集调查问卷
- 整理学习笔记
- 整理照片

让我们学习如何收集和预处理数据！

In [None]:
# 创建示例数据
np.random.seed(42)
n_samples = 1000

# 生成特征
age = np.random.normal(25, 5, n_samples)
income = np.random.normal(50000, 10000, n_samples)
education = np.random.randint(1, 5, n_samples)

# 生成目标变量（是否购买产品）
purchase = (age > 25) & (income > 45000) & (education > 2)
purchase = purchase.astype(int)

# 创建数据框
data = pd.DataFrame({
    '年龄': age,
    '收入': income,
    '教育程度': education,
    '是否购买': purchase
})

# 显示数据基本信息
print("数据基本信息：")
print(data.info())
print("
数据统计描述：")
print(data.describe())

# 数据可视化
plt.figure(figsize=(15, 5))

# 年龄分布
plt.subplot(1, 3, 1)
sns.histplot(data=data, x='年龄', hue='是否购买', multiple="stack")
plt.title('年龄分布')

# 收入分布
plt.subplot(1, 3, 2)
sns.histplot(data=data, x='收入', hue='是否购买', multiple="stack")
plt.title('收入分布')

# 教育程度分布
plt.subplot(1, 3, 3)
sns.countplot(data=data, x='教育程度', hue='是否购买')
plt.title('教育程度分布')

plt.tight_layout()
plt.show()

### 动手做一做
1. 修改数据生成参数，观察数据分布如何变化
2. 尝试添加新的特征
3. 观察不同特征之间的关系

### 思考题
1. 为什么需要数据预处理？
2. 你能想到其他数据预处理的方法吗？

## 3. 模型训练和评估：让模型变得更好 📈

### 生活中的例子
- 练习考试题目
- 测试新产品的效果
- 评估学习成果

让我们学习如何训练和评估模型！

In [None]:
# 准备数据
X = data[['年龄', '收入', '教育程度']]
y = data['是否购买']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 标准化特征
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 训练多个模型
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

models = {
    '逻辑回归': LogisticRegression(),
    '决策树': DecisionTreeClassifier(),
    '随机森林': RandomForestClassifier()
}

# 训练和评估模型
results = {}
for name, model in models.items():
    # 训练模型
    model.fit(X_train_scaled, y_train)
    
    # 预测
    y_pred = model.predict(X_test_scaled)
    
    # 计算准确率
    accuracy = accuracy_score(y_test, y_pred)
    results[name] = accuracy
    
    # 打印分类报告
    print(f"
{name}分类报告：")
    print(classification_report(y_test, y_pred))

# 可视化模型比较
plt.figure(figsize=(10, 4))
plt.bar(results.keys(), results.values())
plt.title('模型准确率比较')
plt.xlabel('模型')
plt.ylabel('准确率')
plt.show()

### 动手做一做
1. 修改模型参数，观察性能如何变化
2. 尝试使用不同的评估指标
3. 比较不同模型的性能

### 思考题
1. 为什么需要模型评估？
2. 你能想到其他评估模型的方法吗？

## 4. 模型优化：让模型变得更好 🎯

### 生活中的例子
- 改进学习方法
- 优化工作流程
- 提高产品质量

让我们学习如何优化模型！

In [None]:
# 使用网格搜索优化随机森林
from sklearn.model_selection import GridSearchCV

# 定义参数网格
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}

# 创建网格搜索
grid_search = GridSearchCV(
    RandomForestClassifier(),
    param_grid,
    cv=5,
    scoring='accuracy'
)

# 执行网格搜索
grid_search.fit(X_train_scaled, y_train)

# 打印最佳参数
print("最佳参数：")
print(grid_search.best_params_)

# 使用最佳模型进行预测
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test_scaled)

# 打印分类报告
print("
优化后的模型分类报告：")
print(classification_report(y_test, y_pred))

# 可视化特征重要性
feature_importance = pd.DataFrame({
    '特征': X.columns,
    '重要性': best_model.feature_importances_
})
feature_importance = feature_importance.sort_values('重要性', ascending=False)

plt.figure(figsize=(10, 4))
sns.barplot(data=feature_importance, x='特征', y='重要性')
plt.title('特征重要性')
plt.show()

### 动手做一做
1. 修改参数网格，观察优化效果如何变化
2. 尝试使用不同的优化方法
3. 观察特征重要性的变化

### 思考题
1. 为什么需要模型优化？
2. 你能想到其他优化模型的方法吗？

## 5. 趣味练习 🎯

### 练习1：预测项目
1. 选择一个预测问题
2. 收集和预处理数据
3. 训练和评估模型

### 练习2：分类项目
1. 选择一个分类问题
2. 收集和预处理数据
3. 训练和评估模型

### 练习3：优化项目
1. 选择一个现有项目
2. 分析项目问题
3. 优化项目性能

## 6. 知识总结 📝

### 今天学到了什么？
1. 项目规划的基本步骤
2. 数据收集和预处理方法
3. 模型训练和评估技巧
4. 模型优化策略

### 下节课预告
下次我们将学习机器学习的伦理问题和未来发展方向！

## 7. 趣味问答 🤔

1. 选择题
   - 下面哪个不是项目规划的重要步骤？
     a) 确定项目目标
     b) 直接开始编程
     c) 收集数据
     d) 设计解决方案

2. 判断题
   - 数据预处理对项目成功很重要（对/错）
   - 模型优化是可有可无的（对/错）

3. 开放题
   - 你能想到哪些有趣的机器学习项目？
   - 为什么项目实践很重要？
   - 你觉得机器学习项目会如何改变我们的生活？