- 入门只看: 步骤 1 => 2 => 3,你可以当大牛!
补充
- 头条视频汇总: https://www.ixigua.com/home/85684906755
- 算法刷题: https://www.ixigua.com/pseries/6822642486343631363/
- 面试求职: https://www.ixigua.com/pseries/6822563009391493636/
- 机器学习实战: https://www.ixigua.com/pseries/6822816341615968772/
- NLP教学视频: https://www.ixigua.com/pseries/6828241431295951373/
- 资料来源: Machine Learning in Action(机器学习实战-个人笔记)
- 视频网站: 优酷 /bilibili / Acfun / 网易云课堂,可直接在线播放。(最下方有相应链接)
- -- 推荐 红色石头: 台湾大学林轩田机器学习笔记
- -- 推荐 机器学习笔记: https://feisky.xyz/machine-learning
模块 | 章节 | 类型 | 负责人(GitHub) | |
---|---|---|---|---|
机器学习实战 | 第 1 章: 机器学习基础 | 介绍 | @毛红动 | 1306014226 |
机器学习实战 | 第 2 章: KNN 近邻算法 | 分类 | @尤永江 | 279393323 |
机器学习实战 | 第 3 章: 决策树 | 分类 | @景涛 | 844300439 |
机器学习实战 | 第 4 章: 朴素贝叶斯 | 分类 | @wnma3mz @分析 |
1003324213 244970749 |
机器学习实战 | 第 5 章: Logistic回归 | 分类 | @微光同尘 | 529925688 |
机器学习实战 | 第 6 章: SVM 支持向量机 | 分类 | @王德红 | 934969547 |
网上组合内容 | 第 7 章: 集成方法(随机森林和 AdaBoost) | 分类 | @片刻 | 529815144 |
机器学习实战 | 第 8 章: 回归 | 回归 | @微光同尘 | 529925688 |
机器学习实战 | 第 9 章: 树回归 | 回归 | @微光同尘 | 529925688 |
机器学习实战 | 第 10 章: K-Means 聚类 | 聚类 | @徐昭清 | 827106588 |
机器学习实战 | 第 11 章: 利用 Apriori 算法进行关联分析 | 频繁项集 | @刘海飞 | 1049498972 |
机器学习实战 | 第 12 章: FP-growth 高效发现频繁项集 | 频繁项集 | @程威 | 842725815 |
机器学习实战 | 第 13 章: 利用 PCA 来简化数据 | 工具 | @廖立娟 | 835670618 |
机器学习实战 | 第 14 章: 利用 SVD 来简化数据 | 工具 | @张俊皓 | 714974242 |
机器学习实战 | 第 15 章: 大数据与 MapReduce | 工具 | @wnma3mz | 1003324213 |
Ml项目实战 | 第 16 章: 推荐系统(已迁移) | 项目 | 推荐系统(迁移后地址) | |
第一期的总结 | 2019-04-08: 第一期的总结 | 总结 | 总结 | 529815144 |
机器学习 | 深度学习 |
---|---|
吴恩达机器学习 | 神经网络和深度学习 |
- 反向传递: https://www.cnblogs.com/charlotte77/p/5629865.html
- CNN原理: http://www.cnblogs.com/charlotte77/p/7759802.html
- RNN原理: https://blog.csdn.net/qq_39422642/article/details/78676567
- LSTM原理: https://blog.csdn.net/weixin_42111770/article/details/80900575
目录结构:
词干提取(stemming)与词形还原(lemmatization)
TensorFlow 2.0学习网址
- 【入门须知】必须了解: https://github.com/wangjianbing1998/ML/tree/master/docs/nlp
- 【入门教程】强烈推荐: PyTorch 自然语言处理: https://github.com/apachecn/NLP-with-PyTorch
- Python 自然语言处理 第二版: https://usyiyi.github.io/nlp-py-2e-zh
- 推荐一个liuhuanyong大佬整理的nlp全面知识体系: https://liuhuanyong.github.io
- 开源 - 词向量库集合:
- https://www.cnblogs.com/Darwin2000/p/5786984.html
- https://ai.tencent.com/ailab/nlp/embedding.html
- https://blog.csdn.net/xiezj007/article/details/85073890
- https://github.com/Embedding/Chinese-Word-Vectors
- https://github.com/brightmart/nlp_chinese_corpus
- https://github.com/codemayq/chinese_chatbot_corpus
- https://github.com/candlewill/Dialog_Corpus
第一部分 入门介绍
- 1.) 自然语言处理入门介绍
第二部分 机器翻译
- 2.) 机器翻译
第三部分 篇章分析
第四部分 UNIT-语言理解与交互技术
- 4.) UNIT-语言理解与交互技术
- 构建DAG图
- 动态规划查找,综合正反向(正向加权反向输出)求得DAG最大概率路径
- 使用了SBME语料训练了一套 HMM + Viterbi 模型,解决未登录词问题
文本分类是指标记句子或文档,例如电子邮件垃圾邮件分类和情感分析。
下面是一些很好的初学者文本分类数据集。
- 路透社Newswire主题分类(路透社-21578)。1987年路透社出现的一系列新闻文件,按类别编制索引。另见RCV1,RCV2和TRC2。
- IMDB电影评论情感分类(斯坦福)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
- 新闻组电影评论情感分类(康奈尔)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
有关更多信息,请参阅帖子: 单标签文本分类的数据集。
情感分析
比赛地址: https://www.kaggle.com/c/word2vec-nlp-tutorial
- 方案一(0.86): WordCount + 朴素 Bayes
- 方案二(0.94): LDA + 分类模型(knn/决策树/逻辑回归/svm/xgboost/随机森林)
- a) 决策树效果不是很好,这种连续特征不太适合的
- b) 通过参数调整 200 个topic,信息量保存效果较优(计算主题)
- 方案三(0.72): word2vec + CNN
通过AUC 来评估模型的效果
语言建模涉及开发一种统计模型,用于预测句子中的下一个单词或一个单词中的下一个单词。它是语音识别和机器翻译等任务中的前置任务。
它是语音识别和机器翻译等任务中的前置任务。
下面是一些很好的初学者语言建模数据集。
- 古腾堡项目,一系列免费书籍,可以用纯文本检索各种语言。
- 还有更多正式的语料库得到了很好的研究; 例如: 布朗大学现代美国英语标准语料库。大量英语单词样本。 谷歌10亿字语料库。
新词发现
- 中文分词新词发现
- python3利用互信息和左右信息熵的中文分词新词发现
- https://github.com/zhanzecheng/Chinese_segment_augment
句子相似度识别
- 项目地址: https://www.kaggle.com/c/quora-question-pairs
- 解决方案: word2vec + Bi-GRU
文本纠错
- bi-gram + levenshtein
mage字幕是为给定图像生成文本描述的任务。
下面是一些很好的初学者图像字幕数据集。
- 上下文中的公共对象(COCO)。包含超过12万张带描述的图像的集合
- Flickr 8K。从flickr.com获取的8千个描述图像的集合。
- Flickr 30K。从flickr.com获取的3万个描述图像的集合。 欲了解更多,请看帖子: 探索图像字幕数据集,2016年
机器翻译是将文本从一种语言翻译成另一种语言的任务。
下面是一些很好的初学者机器翻译数据集。
- 加拿大第36届议会的协调国会议员。成对的英语和法语句子。
- 欧洲议会诉讼平行语料库1996-2011。句子对一套欧洲语言。 有大量标准数据集用于年度机器翻译挑战; 看到: 统计机器翻译
机器翻译
- Encoder + Decoder(Attention)
- 参考案例: http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html
问答是一项任务,其中提供了一个句子或文本样本,从中提出问题并且必须回答问题。
下面是一些很好的初学者问题回答数据集。
- 斯坦福问题回答数据集(SQuAD)。回答有关维基百科文章的问题。
- Deepmind问题回答语料库。从每日邮报回答有关新闻文章的问题。
- 亚马逊问答数据。回答有关亚马逊产品的问题。 有关更多信息,请参阅帖子: 数据集: 我如何获得问答网站的语料库,如Quora或Yahoo Answers或Stack Overflow来分析答案质量?
语音识别是将口语的音频转换为人类可读文本的任务。
下面是一些很好的初学者语音识别数据集。
- TIMIT声学 - 语音连续语音语料库。不是免费的,但因其广泛使用而上市。口语美国英语和相关的转录。
- VoxForge。用于构建用于语音识别的开源数据库的项目。
- LibriSpeech ASR语料库。从LibriVox收集的大量英语有声读物。
文档摘要是创建较大文档的简短有意义描述的任务。 下面是一些很好的初学者文档摘要数据集。
- 法律案例报告数据集。收集了4000份法律案件及其摘要。
- TIPSTER文本摘要评估会议语料库。收集了近200份文件及其摘要。
- 英语新闻文本的AQUAINT语料库。不是免费的,而是广泛使用的。新闻文章的语料库。 欲了解更多信息:
文档理解会议(DUC)任务。 在哪里可以找到用于文本摘要的良好数据集?
命名实体识别
- Bi-LSTM CRF
- 参考案例: http://pytorch.apachecn.org/cn/tutorials/beginner/nlp/advanced_tutorial.html
- CRF推荐文档: https://www.jianshu.com/p/55755fc649b1
文本摘要
- 抽取式
- word2vec + textrank
- word2vec推荐文档: https://www.zhihu.com/question/44832436/answer/266068967
- textrank推荐文档: https://blog.csdn.net/BaiHuaXiu123/article/details/77847232
- 数据集: data/nlp/graph
- 学习资料: spark graphX实战.pdf 【文件太大不方便提供,自己百度】
- 知识图谱,我只认 SimmerChan: 【知识图谱-给AI装个大脑】
- 说实话,我是看这博主老哥写的博客长大的,写的真的是深入浅出。我很喜欢,所以就分享给大家,希望你们也喜欢。
如果您希望更深入,本节提供了其他数据集列表。
- 维基百科研究中使用的文本数据集
- 数据集: 计算语言学家和自然语言处理研究人员使用的主要文本语料库是什么?
- 斯坦福统计自然语言处理语料库
- 按字母顺序排列的NLP数据集列表
- 该机构NLTK
- 在DL4J上打开深度学习数据
- NLP数据集
- 国内开放数据集: https://bosonnlp.com/dev/resource
- 【比赛收集平台】: https://github.com/iphysresearch/DataSciComp
- https://github.com/pbharrin/machinelearninginaction
- https://machinelearningmastery.com/datasets-natural-language-processing
- https://github.com/wangjianbing1998/ML-master
最近无意收到群友推送的链接,发现得到大佬高度的认可,并在热心的推广
在此感谢: