机器学习实战技能
bettermorn edited this page Aug 20, 2022
·
14 revisions
- 了解Python的基本语法
- 熟悉基本的DOS命令
- 熟悉Anaconda使用方法,包括创建程序运行环境,安装依赖包
- 熟练使用和python文件,参考Jupyter Project Documentation https://docs.jupyter.org/en/latest/ 快速学习 Try Jupyter https://docs.jupyter.org/en/latest/start/index.html
- 熟悉运行Python 文件,参考Python For Beginners https://www.python.org/about/gettingstarted/
- 熟悉常用平台工具,例如Pytorch
- 熟悉机器学习项目的流程
- 熟悉常用模型
- 掌握选择模型的方法
- 掌握训练模型的方法
- 掌握评估模型的方法
- 运行环境的依赖包
- 代码常用模块:数据处理,数据装载
- 掌握调整超参数的方法
- 处理非常大的数据集的方法, 参考 https://github.com/timeseriesAI/tsai/blob/main/tutorial_nbs/00_How_to_efficiently_work_with_very_large_numpy_arrays.ipynb
- 选择合适的评估指标 对于不平衡样本选择合适的指标
- 常用模块:训练和测试误差曲线,可参考 https://wandb.ai/george0828zhang/hw5.seq2seq.new
- 部署环境
- 持续优化方法
编程语言为Python,运行环境Anaconda,深度学习框架Pytorch,参考依赖库 torch,numpy,csv,matplotlib等。
- 使用Anaconda建立Python运行环境,并安装必要的依赖库;
- 使用Jupyter Notebook 编写代码,包括数据集处理、装载数据、构建深度神经网络、训练、验证和测试,设置超参数等部分,可参考开源代码;
- 完成训练过程,保存模型文件,绘制训练过程曲线;
- 使用验证集数据预测或者分类结果,绘制预测值和验证集值比较图;
- 使用测试集数据预测或者分类,生成预测文件pred.csv。
编号 | 名称 | 类型 | 理论和技术 |
---|---|---|---|
1 | Covid-19案例预测 | 预测 | 深度学习基础知识 |
2 | 识别手写数字 | 多分类 | 深度学习基础知识 |
3 | 识别不同食物 | 多分类 | 卷积神经网络CNN、数据增强、半监督学习 |
4 | 对象检测 | 多分类 | FasterRCNN |
5 | 区分基本运动走和跑 | 时间序列分类 | Transformer |
6 | 预测家电能耗 | 时间序列预测 | InceptionTime |
7 | OneMax问题 | 优化 | 遗传算法 |
8 | 机器翻译 | 序列转换 | RNN,LSTM,Transformer |
9 | 基于已有生成图片 | 生成模型 | GAN |
10 | 回答问题 | 序列转换 | Bert模型(seq2seq的encoder) |
11 | 识别异常 | 无监督学习 | auto-encoder原理 |
12 | 互动游戏 | 强化学习 | 强化学习 |
13 | 知识图谱 | 知识图谱 | 知识图谱 |
案例名称与代码链接