# 🎯 DL4CV 项目概述 - 深度学习计算机视觉入门



## 📖 项目简介

欢迎来到 DL4CV 项目！🎉 这是一个专门为 Python 初学者设计的机器学习项目，教你如何使用经典的机器学习算法进行数字识别。通过这个项目，你将：

- 🧠 **理解** 7 种不同的机器学习算法
- 🔧 **实践** 超参数调优和模型评估
- 📊 **可视化** 模型性能和结果
- 🏆 **比较** 不同算法的优劣



## 🎯 项目目标

1. ✅ **实现多种经典机器学习模型** - 从简单到复杂
2. 📈 **掌握模型评估方法** - 准确率、F1分数等
3. ⚙️ **学习超参数调优** - 找到最佳模型配置
4. 📊 **可视化分析结果** - 混淆矩阵、性能曲线
5. 🔍 **比较模型性能** - 找出最适合的算法



## 🗂️ 数据集介绍

本项目使用 **MNIST 手写数字数据集** 📝：

- 🔢 **10 个类别**：数字 0-9
- 🖼️ **图像尺寸**：28×28 像素（784 个特征）
- 📚 **数据规模**：约 70,000 张手写数字图像
- 🎯 **任务类型**：多分类问题



## 🤖 模型概览

### 1. 📊 逻辑回归 (Logistic Regression)
- 🎯 **用途**：概率分类
- ⚡ **特点**：简单快速，适合线性可分数据
- 🔧 **调优参数**：正则化强度 C

### 2. ⚔️ 线性 SVM (Linear SVM)
- 🎯 **用途**：寻找最优分类边界
- ⚡ **特点**：对异常值不敏感
- 🔧 **调优参数**：惩罚参数 C

### 3. 👥 K近邻 (K-Nearest Neighbors)
- 🎯 **用途**：基于相似度的分类
- ⚡ **特点**：无需训练，计算密集
- 🔧 **调优参数**：邻居数 k、权重方式

### 4. 🌳 决策树 (Decision Tree)
- 🎯 **用途**：树状决策规则
- ⚡ **特点**：可解释性强，容易过拟合
- 🔧 **调优参数**：最大深度、最小分割样本

### 5. 🌲 随机森林 (Random Forest)
- 🎯 **用途**：集成多个决策树
- ⚡ **特点**：抗过拟合，性能稳定
- 🔧 **调优参数**：树数量、最大深度

### 6. ⚡ SGD分类器 (SGD Classifier)
- 🎯 **用途**：大规模数据分类
- ⚡ **特点**：内存效率高，适合大数据
- 🔧 **调优参数**：损失函数、学习率

### 7. 🧠 感知机 (Perceptron)
- 🎯 **用途**：最简单的神经网络
- ⚡ **特点**：快速训练，线性分类
- 🔧 **调优参数**：学习率



## 📊 评估指标

我们将使用以下指标来评估模型性能：

- ✅ **准确率 (Accuracy)** - 整体分类正确率
- 🎯 **宏平均 F1 分数** - 各类别平均 F1
- ⚖️ **加权 F1 分数** - 考虑类别不平衡
- ⏱️ **训练时间** - 模型训练效率
- 📈 **ROC-AUC** - 分类器整体性能


## 💡 学习建议

- 🎓 **适合人群**：Python 初学者、机器学习入门者
- ⏰ **学习时间**：每个模型约 1-2 小时
- 📝 **实践建议**：边学边做，修改参数观察效果
- 🔍 **进阶思考**：为什么某些模型在某些情况下表现更好？


## 🛠️ 详细工作流程

对于每个模型，你将按照以下步骤进行学习和实践：

### 📋 1. 环境设置和导入库
- 🔧 **导入必要的库**：numpy、matplotlib、scikit-learn 等
- 🛠️ **设置项目路径**：确保能正确导入项目模块
- 📁 **创建输出目录**：为结果和图表创建保存位置

### 📊 2. 数据加载和探索
- 📥 **加载 MNIST 数据集**：使用 `load_mnist_dataset()` 函数
- 🔍 **数据探索**：查看数据集形状、类别数量
- 👀 **可视化样本**：显示随机手写数字图像

### 🤖 3. 模型定义和训练
- 🎯 **定义默认模型**：使用 scikit-learn 的默认参数
- ⏱️ **训练模型**：记录训练时间，了解模型效率
- 📈 **评估默认性能**：查看基础模型的准确率

### 🔧 4. 超参数调优
- ⚙️ **定义参数网格**：为每个模型设置不同的超参数组合
- 🔍 **网格搜索**：使用 GridSearchCV 寻找最佳参数
- 📊 **交叉验证**：5折交叉验证确保结果可靠性

### 📈 5. 模型评估
- ✅ **准确率评估**：测试集上的整体分类正确率
- 🎯 **F1分数分析**：宏平均和加权 F1 分数
- 📊 **ROC-AUC 分析**：多分类问题的 ROC 曲线下面积
- 📋 **分类报告**：详细的精确率、召回率、F1分数

### 🎨 6. 结果可视化
- 🎯 **混淆矩阵**：显示模型在各个类别上的表现
- 📈 **性能曲线**：超参数对模型性能的影响
- 🔍 **验证曲线**：参数调优过程中的性能变化

### 💾 7. 结果保存
- 📁 **保存指标**：将评估结果保存为 JSON 文件
- 🖼️ **保存图表**：混淆矩阵和性能曲线保存为 PNG
- 📝 **记录笔记**：记录最佳参数和性能总结

### 🔄 8. 模型比较（part8_comparison.ipynb）
- 📊 **加载所有模型指标**：从保存的 JSON 文件读取
- 📈 **性能对比**：准确率、F1分数、训练时间比较
- 🏆 **找出最佳模型**：基于不同指标的最佳模型
- 📋 **总结表格**：所有模型的综合性能对比



## 🎯 每个模型的具体任务

### 📊 逻辑回归 (part1_logistic_regression.ipynb)
- 🔧 **调优参数**：正则化强度 C
- 📊 **观察重点**：C 参数对模型性能的影响
- 💡 **学习要点**：理解正则化如何防止过拟合

### ⚔️ 线性 SVM (part2_linear_svm.ipynb)
- 🔧 **调优参数**：惩罚参数 C
- 📊 **观察重点**：不同 C 值下的分类边界
- 💡 **学习要点**：支持向量机的工作原理

### 👥 K近邻 (part3_knn.ipynb)
- 🔧 **调优参数**：邻居数 k、权重方式
- 📊 **观察重点**：k 值对分类精度的影响
- 💡 **学习要点**：基于距离的分类算法

### 🌳 决策树 (part4_decision_tree.ipynb)
- 🔧 **调优参数**：最大深度、最小分割样本
- 📊 **观察重点**：树深度与过拟合的关系
- 💡 **学习要点**：决策树的构建过程

### 🌲 随机森林 (part5_random_forest.ipynb)
- 🔧 **调优参数**：树数量、最大深度
- 📊 **观察重点**：集成学习的效果提升
- 💡 **学习要点**：Bagging 集成方法

### ⚡ SGD分类器 (part6_sgd.ipynb)
- 🔧 **调优参数**：损失函数、学习率
- 📊 **观察重点**：不同损失函数的性能差异
- 💡 **学习要点**：随机梯度下降优化

### 🧠 感知机 (part7_perceptron.ipynb)
- 🔧 **调优参数**：学习率 eta0
- 📊 **观察重点**：学习率对收敛速度的影响
- 💡 **学习要点**：神经网络的基础单元


## 🚀 开始你的机器学习之旅！

每个笔记本都提供了完整的代码和详细的注释，你只需要：

1. 📖 **阅读代码**：理解每一行代码的作用
2. 🎯 **运行代码**：按顺序执行每个单元格
3. 🔍 **观察结果**：分析模型性能和可视化
4. 💡 **思考问题**：为什么某些参数效果更好？
5. 🔧 **尝试修改**：调整参数观察效果变化

**记住：实践是最好的学习方式！** 🎯✨


## 目录结构

- `src/`: 包含数据加载、评估和可视化的实用函数
- `notebooks/`: 包含每个模型的实现笔记本
- `results/figures/`: 包含生成的图表
- `results/metrics/`: 包含JSON格式的指标