学习路线图

入门只看: 步骤 1 => 2 => 3，你可以当大牛！

补充

头条视频汇总: https://www.ixigua.com/home/85684906755
算法刷题: https://www.ixigua.com/pseries/6822642486343631363/
面试求职: https://www.ixigua.com/pseries/6822563009391493636/
机器学习实战: https://www.ixigua.com/pseries/6822816341615968772/
NLP教学视频: https://www.ixigua.com/pseries/6828241431295951373/

1.机器学习 - 基础

基本介绍

资料来源: Machine Learning in Action(机器学习实战-个人笔记)
视频网站: 优酷／bilibili / Acfun / 网易云课堂，可直接在线播放。（最下方有相应链接）
-- 推荐红色石头: 台湾大学林轩田机器学习笔记
-- 推荐机器学习笔记: https://feisky.xyz/machine-learning

学习文档

模块	章节	类型	负责人(GitHub)	QQ
机器学习实战	第 1 章: 机器学习基础	介绍	@毛红动	1306014226
机器学习实战	第 2 章: KNN 近邻算法	分类	@尤永江	279393323
机器学习实战	第 3 章: 决策树	分类	@景涛	844300439
机器学习实战	第 4 章: 朴素贝叶斯	分类	@wnma3mz @分析	1003324213 244970749
机器学习实战	第 5 章: Logistic回归	分类	@微光同尘	529925688
机器学习实战	第 6 章: SVM 支持向量机	分类	@王德红	934969547
网上组合内容	第 7 章: 集成方法（随机森林和 AdaBoost）	分类	@片刻	529815144
机器学习实战	第 8 章: 回归	回归	@微光同尘	529925688
机器学习实战	第 9 章: 树回归	回归	@微光同尘	529925688
机器学习实战	第 10 章: K-Means 聚类	聚类	@徐昭清	827106588
机器学习实战	第 11 章: 利用 Apriori 算法进行关联分析	频繁项集	@刘海飞	1049498972
机器学习实战	第 12 章: FP-growth 高效发现频繁项集	频繁项集	@程威	842725815
机器学习实战	第 13 章: 利用 PCA 来简化数据	工具	@廖立娟	835670618
机器学习实战	第 14 章: 利用 SVD 来简化数据	工具	@张俊皓	714974242
机器学习实战	第 15 章: 大数据与 MapReduce	工具	@wnma3mz	1003324213
Ml项目实战	第 16 章: 推荐系统（已迁移）	项目	推荐系统（迁移后地址）
第一期的总结	2019-04-08: 第一期的总结	总结	总结	529815144

网站视频

机器学习	深度学习
吴恩达机器学习	神经网络和深度学习

2.深度学习

入门基础

目录结构:

词干提取（stemming）与词形还原（lemmatization）

https://www.biaodianfu.com/nltk.html/amp

TensorFlow 2.0学习网址

https://github.com/lyhue1991/eat_tensorflow2_in_30_days

3.自然语言处理

【入门须知】必须了解: https://github.com/wangjianbing1998/ML/tree/master/docs/nlp
【入门教程】强烈推荐: PyTorch 自然语言处理: https://github.com/apachecn/NLP-with-PyTorch
Python 自然语言处理第二版: https://usyiyi.github.io/nlp-py-2e-zh
推荐一个liuhuanyong大佬整理的nlp全面知识体系: https://liuhuanyong.github.io
开源 - 词向量库集合:

1.使用场景（百度公开课）

第一部分入门介绍

1.) 自然语言处理入门介绍

第二部分机器翻译

2.) 机器翻译

第三部分篇章分析

第四部分 UNIT-语言理解与交互技术

4.) UNIT-语言理解与交互技术

应用领域

中文分词:

构建DAG图
动态规划查找，综合正反向（正向加权反向输出）求得DAG最大概率路径
使用了SBME语料训练了一套 HMM + Viterbi 模型，解决未登录词问题

1.文本分类（Text Classification）

文本分类是指标记句子或文档，例如电子邮件垃圾邮件分类和情感分析。

下面是一些很好的初学者文本分类数据集。

路透社Newswire主题分类（路透社-21578）。1987年路透社出现的一系列新闻文件，按类别编制索引。另见RCV1，RCV2和TRC2。
IMDB电影评论情感分类（斯坦福）。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
新闻组电影评论情感分类（康奈尔）。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。

有关更多信息，请参阅帖子: 单标签文本分类的数据集。

情感分析

比赛地址: https://www.kaggle.com/c/word2vec-nlp-tutorial

方案一(0.86): WordCount + 朴素 Bayes
方案二(0.94): LDA + 分类模型（knn/决策树/逻辑回归/svm/xgboost/随机森林）
- a) 决策树效果不是很好，这种连续特征不太适合的
- b) 通过参数调整 200 个topic，信息量保存效果较优（计算主题）
方案三(0.72): word2vec + CNN

通过AUC 来评估模型的效果

2.语言模型（Language Modeling）

语言建模涉及开发一种统计模型，用于预测句子中的下一个单词或一个单词中的下一个单词。它是语音识别和机器翻译等任务中的前置任务。

它是语音识别和机器翻译等任务中的前置任务。

下面是一些很好的初学者语言建模数据集。

古腾堡项目，一系列免费书籍，可以用纯文本检索各种语言。
还有更多正式的语料库得到了很好的研究; 例如: 布朗大学现代美国英语标准语料库。大量英语单词样本。谷歌10亿字语料库。

新词发现

中文分词新词发现
python3利用互信息和左右信息熵的中文分词新词发现
https://github.com/zhanzecheng/Chinese_segment_augment

句子相似度识别

项目地址: https://www.kaggle.com/c/quora-question-pairs
解决方案: word2vec + Bi-GRU

文本纠错

bi-gram + levenshtein

3.图像字幕（Image Captioning）

mage字幕是为给定图像生成文本描述的任务。

下面是一些很好的初学者图像字幕数据集。

上下文中的公共对象（COCO）。包含超过12万张带描述的图像的集合
Flickr 8K。从flickr.com获取的8千个描述图像的集合。
Flickr 30K。从flickr.com获取的3万个描述图像的集合。欲了解更多，请看帖子: 探索图像字幕数据集，2016年

4.机器翻译（Machine Translation）

机器翻译是将文本从一种语言翻译成另一种语言的任务。

下面是一些很好的初学者机器翻译数据集。

加拿大第36届议会的协调国会议员。成对的英语和法语句子。
欧洲议会诉讼平行语料库1996-2011。句子对一套欧洲语言。有大量标准数据集用于年度机器翻译挑战; 看到: 统计机器翻译

机器翻译

Encoder + Decoder(Attention)
参考案例: http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html

5.问答系统（Question Answering）

问答是一项任务，其中提供了一个句子或文本样本，从中提出问题并且必须回答问题。

下面是一些很好的初学者问题回答数据集。

斯坦福问题回答数据集（SQuAD）。回答有关维基百科文章的问题。
Deepmind问题回答语料库。从每日邮报回答有关新闻文章的问题。
亚马逊问答数据。回答有关亚马逊产品的问题。有关更多信息，请参阅帖子: 数据集: 我如何获得问答网站的语料库，如Quora或Yahoo Answers或Stack Overflow来分析答案质量？

6.语音识别（Speech Recognition）

语音识别是将口语的音频转换为人类可读文本的任务。

下面是一些很好的初学者语音识别数据集。

TIMIT声学 - 语音连续语音语料库。不是免费的，但因其广泛使用而上市。口语美国英语和相关的转录。
VoxForge。用于构建用于语音识别的开源数据库的项目。
LibriSpeech ASR语料库。从LibriVox收集的大量英语有声读物。

7.自动文摘（Document Summarization）

文档摘要是创建较大文档的简短有意义描述的任务。下面是一些很好的初学者文档摘要数据集。

法律案例报告数据集。收集了4000份法律案件及其摘要。
TIPSTER文本摘要评估会议语料库。收集了近200份文件及其摘要。
英语新闻文本的AQUAINT语料库。不是免费的，而是广泛使用的。新闻文章的语料库。欲了解更多信息:

文档理解会议（DUC）任务。在哪里可以找到用于文本摘要的良好数据集？

命名实体识别

Bi-LSTM CRF
参考案例: http://pytorch.apachecn.org/cn/tutorials/beginner/nlp/advanced_tutorial.html
CRF推荐文档: https://www.jianshu.com/p/55755fc649b1

文本摘要

抽取式
word2vec + textrank
word2vec推荐文档: https://www.zhihu.com/question/44832436/answer/266068967
textrank推荐文档: https://blog.csdn.net/BaiHuaXiu123/article/details/77847232

Graph图计算【慢慢更新】

数据集: data/nlp/graph
学习资料: spark graphX实战.pdf 【文件太大不方便提供，自己百度】

知识图谱

知识图谱，我只认 SimmerChan: 【知识图谱-给AI装个大脑】
说实话，我是看这博主老哥写的博客长大的，写的真的是深入浅出。我很喜欢，所以就分享给大家，希望你们也喜欢。

进一步阅读

如果您希望更深入，本节提供了其他数据集列表。

资料来源:

感谢信

最近无意收到群友推送的链接，发现得到大佬高度的认可，并在热心的推广

在此感谢:

量子位: https://www.zhihu.com/question/20472776/answer/691646493
人工智能前沿讲习: https://mp.weixin.qq.com/s/f2dqulxOPkt7k5hqPsydyQ
ApacheCN学习爱好者: https://github.com/ApacheCN/AiLearning-master

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
.idea		.idea
docs		docs
src		src
tool		tool
README.md		README.md
SUMMARY.md		SUMMARY.md
book.json		book.json
run_website.sh		run_website.sh
update.sh		update.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

学习路线图

1.机器学习 - 基础

基本介绍

学习文档

网站视频

2.深度学习

入门基础

3.自然语言处理

1.使用场景（百度公开课）

应用领域

中文分词:

1.文本分类（Text Classification）

2.语言模型（Language Modeling）

3.图像字幕（Image Captioning）

4.机器翻译（Machine Translation）

5.问答系统（Question Answering）

6.语音识别（Speech Recognition）

7.自动文摘（Document Summarization）

Graph图计算【慢慢更新】

知识图谱

进一步阅读

资料来源:

感谢信

About

Releases

Packages

Languages

wangjianbing1998/ML-master

Folders and files

Latest commit

History

Repository files navigation

学习路线图

1.机器学习 - 基础

基本介绍

学习文档

网站视频

2.深度学习

入门基础

3.自然语言处理

1.使用场景 （百度公开课）

应用领域

中文分词:

1.文本分类（Text Classification）

2.语言模型（Language Modeling）

3.图像字幕（Image Captioning）

4.机器翻译（Machine Translation）

5.问答系统（Question Answering）

6.语音识别（Speech Recognition）

7.自动文摘（Document Summarization）

Graph图计算【慢慢更新】

知识图谱

进一步阅读

资料来源:

感谢信

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

1.使用场景（百度公开课）

Packages