3月~6月20日(16周)[~9月(26周)]
初定2周一次讨论会,只用下学期一学期有78次讨论会;到研究生开学为止的话有1013次讨论会
视每周任务难度酌情可调整3周一次
基础知识/原理学习 + 现有方法/代码实现 + 至少一种手动实现方法 + 1-2个数据集运行
提升机器学习编程能力,顺便学习、熟练机器学习算法原理
-
每个人每次选一个模型,完成理论研究、调用现有算法包实现+自己代码实现,并在一个数据集上运行
-
写一个文档,包括理论介绍、代码使用教程、遇到的困难问题、参考文档链接等
-
每次开会(腾讯会议)时大家互相分享,简要讲一下理论,再演示一下代码,分享一下遇到的困难等
-
使用GitHub统一管理代码、文档等内容
-
用latex写文档,顺便熟悉一下latex
-
模型跑不动时可以找老师、师兄开服务器(熟悉linux命令行环境)
- logistic regression
- 决策树
- 朴素贝叶斯
- 最近邻方法
- 聚类(K-means, DBSCAN, GMM,t-sne)
-
SVM (liblinear、libsvm论文及开源代码阅读、使用)
-
XGboost、Lightgbm (论文及开源代码阅读、使用)
-
降维(PCA,LDA)
-
概率图模型 (LDA主题模型, HMM)
选之前别人做的两个算法,换用Matlab重新实现
从以下模型中选取,用pytorch实现:
-
不熟悉DNN的话:多层感知机MLP的原理,以及BP的原理
-
卷积网络:LeNet-5、AlexNet、VGG、ResNet、DenseNet、MobileNet
-
序列网络:RNN、LSTM、GRU、transformer及其组成深度模型(如Bert)
-
生成式模型:GAN、VAE
选取之前别人实现的模型,用TensorFlow实现
尝试与之前不同类型但仍可以适用的数据集,如视频数据、声音数据