物联网工程专业从大一开始的AI学习全历程开源仓库 | 零基础入门 | 三环境隔离 | RTX 50系显卡完美适配 | 结构化学习笔记 | 可复现实战代码
本仓库全程记录从零基础入门,到机器学习基础、机器视觉YOLO实战、MediaPipe姿态估计、项目落地的完整学习路径。配套保姆级环境配置教程、结构化学习笔记、可直接运行的实战代码、完整项目源码,为零基础入门AI视觉/机器学习的同学提供可参考、可复现的学习范本。
- 🌟 仓库核心亮点
- 🎯 适合人群
- 📁 仓库文件夹结构
- 🛠️ 环境配置说明
- 前置依赖
- 环境1:ml-full 机器学习专属环境
- 环境2:cv-yolo 机器视觉YOLO专属环境
- 环境3:mp MediaPipe姿态估计专属环境
- 环境验证
- 📅 学习路线规划
- 第一阶段:机器学习全栈入门(8周)
- 第二阶段:机器视觉&YOLO实战(16周)
- 第三阶段:MediaPipe姿态估计(8周)
- 📌 使用与提交规范
- 文件使用规范
- Git提交规范
- 📄 免责声明
- 🤝 交流与反馈
- 新手友好:全程以大一零基础视角记录,无跳步、无黑箱,每一步学习都有对应的笔记与可运行代码
- 三环境隔离:机器学习、机器视觉、MediaPipe姿态估计三套独立虚拟环境,彻底解决Python包版本冲突问题
- 新硬件适配:针对RTX 50系显卡(RTX 5060 Laptop sm_120算力)提供踩坑后的完美适配方案,解决新显卡CUDA兼容报错难题
- 结构化管理:严格的文件管理逻辑,笔记、代码、数据集、模型完全分离,长期学习也不会出现文件混乱
- 全流程闭环:从环境搭建→基础语法→核心算法→实战项目,完整覆盖大学AI相关课程、学科竞赛、毕业设计的核心需求
- 多技术栈覆盖:涵盖机器学习、YOLO目标检测、MediaPipe姿态估计等主流AI视觉技术,满足不同场景需求
- 零基础入门机器学习/机器视觉的在校大学生
- 物联网、计算机、自动化相关专业的AI学习新手
- 持有RTX 50系新显卡,被CUDA/PyTorch兼容问题困扰的同学
- 想要系统学习YOLO目标检测,完成课程设计/毕设/竞赛的同学
- 对人体姿态估计、手部/面部识别感兴趣的开发者
严格遵循「学习阶段隔离、笔记代码分离、数据模型统一管理」的原则,结构如下:
Sum/
├── 01_ml-full_learning/ # 第一阶段:机器学习全栈学习(规划中)
│ ├── 00_jupyter_notes/ # 唯一笔记存放区,按学习模块分子文件夹
│ │ ├── 01_机器学习基础/
│ │ ├── 02_数据可视化/
│ │ ├── 03_机器学习算法/
│ │ ├── 04_竞赛实战/
│ │ └── 09_临时测试/
│ ├── 01_基础库/ # NumPy/Pandas 纯代码练习、工具函数
│ ├── 02_数据可视化/ # 绘图代码、导出的可视化结果
│ ├── 03_机器学习算法/ # 算法实现、模型训练代码、训练好的模型文件
│ ├── 04_项目实战/ # 完整机器学习项目源码、配置文件、项目文档
│ └── data/ # 统一数据区:csv数据集、pkl模型文件
│
├── 02_cv-yolo_learning/ # 第二阶段:机器视觉&YOLO实战(已更新)
│ ├── 00_jupyter_notes/ # 唯一笔记存放区,按学习模块分子文件夹
│ │ ├── 01_OpenCV基础/
│ │ ├── 02_YOLO目标检测/
│ │ ├── 03_视频处理/
│ │ ├── 04_视觉项目/
│ │ └── 09_临时测试/
│ ├── 01_OpenCV基础/ # OpenCV 纯代码练习、图像处理脚本
│ ├── 02_YOLO目标检测/ # YOLO 推理/训练代码、配置文件
│ ├── 03_视觉项目实战/ # 完整视觉项目源码、配置文件、项目文档
│ └── data/ # 统一数据区:图片/视频数据集、YOLO模型文件、标注文件
│ └── models/ # YOLO预训练模型、自定义训练模型存放区
│
├── 03_MediaPipe_learning/ # 第三阶段:MediaPipe姿态估计(已更新)
│ ├── models/ # 共享模型目录:MediaPipe预训练模型
│ │ ├── hand_landmarker.task
│ │ ├── face_landmarker.task
│ │ ├── pose_landmarker.task
│ │ └── download_model.py # 模型下载脚本
│ ├── 手部姿态学习/ # 手部检测与手势识别
│ │ ├── 手部检测/手部检测测试.py
│ │ ├── 手势识别/手势识别测试.py
│ │ ├── 双手协同/双手协同测试.py
│ │ └── 置信度估计/置信度估计测试.py
│ ├── 面部特征学习/ # 面部检测与表情识别
│ │ ├── 面部检测/面部检测测试.py
│ │ ├── 表情识别/表情识别测试.py
│ │ └── 面部特征分析/面部特征分析测试.py
│ └── 身体姿态学习/ # 身体姿态与全身检测
│ ├── 姿态检测/姿态检测测试.py
│ └── 全身检测/全身检测测试.py
│
├── 配置检查/ # 环境检查脚本、一键安装指令
│
├── learn/ # 学习笔记草稿、未整理资料等内容
│ ├── 基础线性回归模型/ # 基础机器学习模型笔记
│ ├── 机器学习入道篇/ # 机器学习入门笔记
│ └── MediaPipe错误与解决方案.md # MediaPipe学习错误与解决方案
├── test_model_paths.py # 模型路径测试脚本
├── .gitignore # 已完善:屏蔽IDE配置、大模型文件、数据集、临时文件等冗余内容
└── README.md # 仓库说明文档(本文档)
本仓库分为三套完全独立的虚拟环境,基于Miniconda搭建,避免版本冲突,以下为一键安装指令。
- 安装 Miniconda3(推荐Python 3.11+版本)
- Windows用户需提前更新NVIDIA显卡驱动至最新版(RTX 50系显卡需驱动版本≥572.97)
用于第一阶段机器学习全流程学习,适配所有经典机器学习算法、数据处理、可视化需求。
# 1. 创建并激活环境
conda create -n ml-full python=3.11 -y && conda activate ml-full
# 2. 一键安装全量依赖
pip install numpy pandas matplotlib scikit-learn scipy jupyterlab jupyterlab-language-pack-zh-CN seaborn openpyxl tqdm pyyaml重点适配RTX 50系显卡(sm_120算力),解决新显卡CUDA兼容报错问题,实现GPU满血加速。
# 1. 创建并激活环境
conda create -n cv-yolo python=3.11 -y && conda activate cv-yolo
# 2. 安装核心:RTX50系专属PyTorch GPU版(CUDA128 预览版,原生支持sm_120)
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128
# 3. 一键安装视觉全量依赖
pip install ultralytics==8.4.33 opencv-python opencv-python-headless numpy==2.4.3 pillow scipy scikit-image matplotlib jupyterlab jupyterlab-language-pack-zh-CN moviepy tqdm pyyaml用于第三阶段MediaPipe姿态估计学习,专注于人体姿态、手部、面部特征检测。
# 1. 创建并激活环境
conda create -n mp python=3.11 -y && conda activate mp
# 2. 一键安装MediaPipe全量依赖
pip install mediapipe opencv-python numpy matplotlib requests tqdm安装完成后,运行对应环境的检查脚本,即可验证环境是否完美配置:
# 验证cv-yolo环境
conda activate cv-yolo
python 配置检查/计算机视觉cv-yolo-pro第三方库检查.py
# 验证mp环境
conda activate mp
python 03_MediaPipe_learning/手部姿态学习/手部检测/手部检测测试.py本仓库按照「先基础后实战、先机器学习后机器视觉再到姿态估计」的循序渐进路线规划,适配大学课余学习节奏,总周期约8个月。
打牢数据科学与机器学习核心基础,为后续机器视觉学习做底层铺垫,对应01_ml-full_learning/文件夹。
| 学习模块 | 学习周期 | 核心学习内容 | 验收标准 |
|---|---|---|---|
| Python数据科学基础 | 2周 | NumPy数组运算、Pandas数据清洗、Matplotlib/Seaborn数据可视化 | 独立完成表格数据的读取、清洗、特征处理与可视化 |
| 机器学习数学基础 | 1周 | 线性代数基础、概率统计核心、梯度下降与优化原理 | 能看懂算法数学公式,手动实现梯度下降 |
| 机器学习核心算法 | 4周 | 线性回归、逻辑回归、KNN、决策树、随机森林、SVM、K-Means聚类、模型评估 | 独立完成分类/回归/聚类任务,完成模型训练与调优 |
| 机器学习项目实战 | 1周 | 完整走完机器学习项目全流程:需求分析→数据清洗→特征工程→模型训练→可视化输出 | 完成2个完整实战项目,输出可复用代码与可视化报告 |
掌握计算机视觉核心能力,精通YOLO目标检测全流程,发挥RTX 5060 GPU的硬件加速优势,对应02_cv-yolo_learning/文件夹。
| 学习模块 | 学习周期 | 核心学习内容 | 验收标准 |
|---|---|---|---|
| OpenCV视觉基础 | 3周 | 图像读写与像素操作、图像增强、特征提取、摄像头/视频流处理 | 独立完成图像/视频的基础处理,熟练使用OpenCV核心API |
| YOLOv8目标检测入门 | 3周 | YOLO核心原理、模型加载与推理、参数调优、摄像头实时检测、视频批量处理 | 独立完成图片/视频/摄像头的目标检测,按需调优参数 |
| YOLOv8进阶与自定义训练 | 4周 | 自定义数据集制作、模型微调训练、GPU训练优化、模型评估、实例分割/姿态估计/多目标跟踪 | 独立完成自定义数据集制作→模型训练→实时检测全流程 |
| 视频处理与高级视觉应用 | 2周 | 多路视频流处理、目标计数、越界检测、轨迹追踪、人流量统计 | 实现业务化视觉功能,不止于基础目标检测 |
| 视觉项目全栈实战 | 4周 | 完整视觉项目全流程开发,对应课程设计/竞赛/毕设需求 | 完成2个完整落地项目,输出可运行的完整程序与项目文档 |
掌握MediaPipe人体姿态估计、手部检测、面部识别等核心技术,对应03_MediaPipe_learning/文件夹。
| 学习模块 | 学习周期 | 核心学习内容 | 验收标准 |
|---|---|---|---|
| MediaPipe基础 | 1周 | MediaPipe框架介绍、模型下载与配置、基础API使用 | 成功搭建MediaPipe环境,运行基础检测示例 |
| 手部姿态学习 | 2周 | 手部关键点检测、手势识别、双手协同、置信度估计 | 实现实时手部检测与手势识别,准确率达到85%以上 |
| 面部特征学习 | 2周 | 面部关键点检测、表情识别、面部特征分析 | 实现实时面部检测与表情识别,支持多种表情分类 |
| 身体姿态学习 | 2周 | 身体关键点检测、全身检测、姿态分析 | 实现实时全身姿态检测,绘制完整骨架 |
| MediaPipe项目实战 | 1周 | 结合OpenCV与MediaPipe,开发综合应用 | 完成1-2个完整的姿态估计应用项目 |
- 学习笔记仅存放于对应阶段的
00_jupyter_notes/文件夹,按学习模块分子文件夹管理 - 数据集、模型文件仅存放于对应阶段的
data/或models/文件夹,绝不和代码、笔记混放 - 纯代码练习、工具脚本存放于对应模块的代码文件夹,不与笔记混杂
- 切换学习内容前,必须先激活对应的虚拟环境,避免版本冲突
提交信息严格遵循[类型]: 提交内容的格式,便于回溯学习历程:
feat: 新增XX学习笔记/代码/项目fix: 修复XX代码bug/环境问题docs: 更新README/学习文档refactor: 重构XX代码/优化笔记结构chore: 配置更新/工具脚本优化
- 本仓库仅用于个人学习记录,所有代码与笔记均为学习过程产出,请勿用于商业用途
- 所有预训练模型均来自Ultralytics和Google MediaPipe官方开源项目,模型版权归原作者所有
- 本仓库提供的环境配置方案仅为个人踩坑经验,仅供参考,因硬件/软件版本差异导致的问题,需自行排查解决
如果你也是AI学习新手,或者遇到了RTX 50系显卡的环境适配问题,欢迎通过 Issue 交流学习,一起踩坑一起进步!