NLP Resources

A useful list of NLP(Natural Language Processing) resources

自然语言处理的相关资源列表，持续更新

NLP-Toolkits 自然语言工具包

Toolkits
- CoreNLP： a set of natural language analysis tools written in Java，by Stanford
- NLTK：a Python Natural Language Toolkit includes corpora, lexical resources and text processing libraries
- gensim：Github，a Python library for topic modelling, document indexing and similarity retrieval with large corpora
- LTP：语言技术平台，中文NLP工具，支持Java & Python，by 哈工大
- jieba：结巴中文分词，做最好的 Python 中文分词组件，现已覆盖几乎所有的语言和系统
- fast jieba：使用cpython重写了jieba分词库中计算DAG和HMM中的vitrebi函数，速度得到大幅提升。
- NLPIR：Java 分词组件，by 中科院/北理工， PyNLPIR for Python
- HanLP：中文NLP模型与算法工具包，支持Java & Python，by 上海林原信息科技有限公司
- THULAC：高效的中文词法分析工具包，支持C++ & Java & Python，by 清华
- pkuseg：多领域中文分词工具包，支持细分领域分词，支持Python，by 北大
- FudanNLP：中文NLP工具包、机器学习算法和数据集，支持Java，by 复旦
- Apache OpenNLP：支持常见的NLP任务，比如分词、断句、词性标注、命名实体抽取、组块分析、解析和指代消解，支持Java，官网
- SnowNLP 中文分词、词性标注、情感分析、文本分类（NB）、拼音转换（Trie树）、简繁转换（Trie树）、关键词提取（TextRank）、摘要提取（TextRank算法）、tf、idf、Tokenization、文本相似（BM25）
- Ansj Seg Ansj中文分词，支持Java

Small Tools
- Chinese Cixing 针对中文词语的笔画拆解，偏旁查询，拼音转换接口
- Chai Zi 含开发词典可用以提供字旁和部件查询的拆字字典数据库
- Python Pinyin 将汉字转为拼音。可以用于汉字注音、排序、检索(Russian translation)
- Nstools 中文繁简体互转
- Query Correction 基于用户词表，采用拼音相似度与编辑距离进行查询纠错
- Matplotlib 可视化最有价值的 50 个图表

NLP Corpus 自然语言处理语料库

Corpus Collection
- 中文 Wikipedia Dump
- NLP语料集合自然语言处理，知识图谱相关语料。按照Task细分
- 人民日报199801标注语料
- Sogou Labs 互联网词库、中文词语搭配库、全网新闻数据（2012）、搜狐新闻数据（2012）、互联网语料库、链接关系库等
- 中文聊天语料 chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料
- 领域中文词库 IT、财经、成语、地名、历史名人、诗词、医学、饮食、法律、汽车、动物
- 汉语词库各种类型词库如人名库、金融专业相关词、政府机关团体机构大全等
- 中文依存语料库第二届自然语言处理与中文计算会议（NLP&CC 2013）的技术评测中文树库语料
- 微信公众号语料库网络抓取的微信公众号的文章，包括微信公众号名字、微信公众号ID、题目和正文
- 中文谣言微博数据从新浪微博不实信息举报平台抓取的中文谣言数据
- Tencent AI Lab Embedding Corpus A corpus on continuous distributed representations of Chinese words and phrases
- Word2vec Slim word2vec Google News model slimmed down to 300k English words
- Chinese Word2vec Model
- Chinese Word Vectors
- NLP Chinese Corpus 维基百科中文词条、新闻语料、百科问答、社区问答、翻译语料
- 中文诗歌古典文集数据库
- Chinese RC Dataset A Chinese Reading Comprehension Dataset
- Chinese Word Ordering Errors Detection and Correction Corpus
- 中文文本分类数据集THUCNews 根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档
- 公司名语料库公司名语料库、机构名语料库、公司简称、品牌词等
- 中文人名语料库中文常见人名、中文古代人名、日文人名、翻译人名、中文姓氏、中文称呼、成语词典
- 中文简称词库
- Chinese Xinhua 中华新华字典数据库，包括歇后语，成语，词语，汉字
- 对联数据集
- 无忧无虑中学语文网常见中文词语工具，包括近义词、反义词、汉字拼音转换、简繁转换等
- EmotionLexicon 细粒度情感词典、网络词汇、否定词典、停用词典
- Chinese_Dictionary 同义词表、反义词表、否定词表
- Synonyms 中文近义词工具包
- Chinese NLP Corpus 中文自然语言处理的语料集合，包括语义词、领域共识、历时语料库、评测语料库等
- Chinese-Xinhua 中华新华字典数据库。包括歇后语，成语，词语，汉字。
- CEC-Corpus 中文突发事件语料库（Chinese Emergency Corpus）
- NLP太难了系列

Corpus Construction
- Opencc Python Python简繁转换
- Pinyin Python 汉字拼音转换工具（Python 版）
- Python模拟登陆 Python模拟登陆一些大型网站
- Baidu Baike Spider 基于Python的百度百科词条爬取
- Sina Weibo Spider 基于Java的新浪微博采集
- Sougou Words Collector 搜狗输入法词库抓取与格式转换
- Baike Knowledge Schema 面向百度百科与互动百科的概念分类体系抓取脚本
- Baike Info Extraction 基于互动百科、百度百科、搜狗百科的词条infobox结构化信息抽取，百科知识的融合
- Baidu Index Spyder 基于关键词的历时百度搜索指数自动采集
- Ali Index Spyder 阿里商品指数抓取，包括淘宝采购指数、淘宝供应指数、1688供应指数
- 新闻搜索引擎新闻爬取基于Scrapy框架的新闻搜索引擎爬虫，支持百度新闻、搜狗新闻、新浪新闻、360新闻和新华社搜索新闻。
- 通用新闻类网站分布式爬虫可提取新闻标题、时间、作者、正文等信息

Learning Materials 学习资料

深度学习框架
- Keras 官方文档，中文文档，例子
- Tensorflow 官方文档，中文文档，中文教程，例子， Tensorflow Cookbook
- Pytorch 官方文档，中文文档，例子，资源，PyTorch实战指南，Awesome Pytorch List，pytorch-tutorial
- 如何用flask部署pytorch模型可延伸到其他深度学习模型的REST API部署

ML Resources 机器学习书籍与资料
- 《统计学习方法》 ML经典书籍，值得反复读，从公式推导到定理证明逻辑严谨，by 李航
- 《机器学习》俗称西瓜书，机器学习入门必备，by 周志华
- 《深度学习（中文版）》是一本皆在帮助学生和从业人员进入机器学习领域的教科书，以开源的形式免费在网络上提供Github，由学界领军人物 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 合力打造
- Machine Learning 一些常见的机器学习算法的实现代码
- Deep Learning 500 Questions 以问答形式对常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题进行阐述
- 神经网络与深度学习介绍神经网络与深度学习中的基础知识、主要模型（卷积神经网络、递归神经网络等）以及在计算机视觉、自然语言处理等领域的应用，by 邱锡鹏
- 吴恩达老师课程学习笔记：机器学习笔记、深度学习笔记
- Machine Learning Yearning 吴恩达老师根据自己多年实践经验整理出来的一本机器学习、深度学习实践经验宝典，重点不在于机器学习算法理论基础，而在于实践中使机器学习算法的实战经验

NLP Resources NLP书籍与资料
- 《数学之美》生动形象，没有太多公式，属于科普性质，可以说是NLP入门必备，by 吴军
- 《统计自然语言处理》全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展，by 宗成庆
- 《Neural Network Methods for Natural Language Proces》利用神经网络的方法来进行自然语言处理任务，by Yoav Goldberg
- 中文信息发展报告中国中文信息学会2016年12月发布的中文NLP总览报告，涵盖了中文和英文NLP主要的技术方向
- Speech and Language Processing by Dan Jurafsky and James H. Martin
- Deep Learning for Natural Language Processing 深度学习在自然语言处理中的应用，by 邱锡鹏
- NLP入门推荐书目（2019版）刘知远老师推荐NLP入门推荐参考书目
- nlp 一本开源的NLP入门书籍

Blogs and Courses 博客和课程
- NLP 中文博客：52NLP、码农场、剑指汉语自然语言处理
- NLP 英文博客：Natural Language Processing Blog、Language Log、Jay Alammar
- AI 博客：Google AI Blog
- Stanford NLP Courses：Stanford CS224n Home、Stanford CS224d 2015年NLP课程、Stanford CS224d 2016年NLP课程、Natural Language Processing with Deep Learning (Winter 2017)
- Oxford NLP Courses：Oxford CS Deep NLP 2017
- Stanford ML/DL Courses：CS 229 Machine Learning、CS 230 Deep Learning
- Gt NLP Class CS 4650 and 7650
- NLP Course YSDA course in Natural Language Processing

NLP Technology 自然语言处理相关技术

NLP Progress Repository to track the progress in NLP, including the datasets and the current state-of-the-art for the most common NLP tasks.
- 关于NLP和机器学习之文本处理的你需要知道的一切自然语言处理和机器学习中常见的文本预处理方法

Bert Model
- 从Word Embedding到Bert模型--自然语言处理预训练技术发展史 by 张俊林
- BERT TensorFlow code and pre-trained models for BERT
- Awesome Bert bert nlp papers、applications and github resources
- Awesome Bert NLP A curated list of NLP resources focused on BERT, attention mechanism, Transformer networks, and transfer learning.
- The Illustrated BERT, ELMo, and co The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning)
- Bert as Service Using BERT model as a sentence encoding service, i.e. mapping a variable-length sentence to a fixed-length vector
- pytorch-pretrained-BERT A PyTorch implementation of Google AI's BERT model provided with Google's pre-trained models, examples and utilities.
- BERT Classification Tutorial
- BERT Utils BERT生成句向量，BERT做文本分类、文本相似度计算
- BERT BiLSTM CRF NER Tensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tuning
- BERT Chinese NER 使用预训练语言模型BERT做中文NER
- Bert时代的创新：Bert在NLP各领域的应用进展 by 张俊林

Text Modeling and Analysis
- Self Attention Mechanism Simple Tensorflow Implementation of "A Structured Self-attentive Sentence Embedding" (ICLR 2017)
- Encoder Decoder Four styles of encoder decoder model by Python, Theano, Keras and Seq2Seq
- Seq2seq Sequence to Sequence Learning with Keras
- Keras Language Modeling Some code for doing language modeling with Keras, in particular for question-answering tasks
- CNN for Sentence Classification in Keras Simple Keras Implementation of "Convolutional Neural Networks for Sentence Classification" (EMNLP 2014)
- CNN for Classification Simple Pytorch Implementation of "Convolutional Neural Networks for Sentence Classification" (EMNLP 2014)
- Awesome NLP Sentiment Analysis 情感分析领域相关的数据集、论文、开源实现

Text Similarity
- Cilin and Hownet 综合了同义词词林扩展版与知网（Hownet）的词语相似度计算方法
- Similarity Compute 基于同义词词林，知网，指纹，字词向量，向量空间模型的句子相似度计算
- Siamese Sentence Similarity 基于Siamese bilstm模型的相似句子判定模型，提供训练数据集和测试数据集
- SentenceSim，中文短文句相似度计算方法，包括基于知网、Onehot、word2vec、哈工大SDP及多个算法的融合以及LSTM算法

Text Disambiguation
- Word MultiSense Disambiguation 基于百科知识库的中文词语多义项获取与特定句子词语语义消歧

Information Extraction
- Open IE Papers This list containts OpenIE and ORE papers and resources
- 关系抽取(分类)总结对近几年(到2017)一些关系抽取/分类(Relation Extraction)的部分文献的一个简单总结
- LM-LSTM-CRF PyTorch Implementation of "Empower Sequence Labeling with Task-Aware Neural Language Model" (AAAI 2018)
- Named Entity Realtion Extraction 基于句法分析的命名实体关系抽取程序
- Pytorch Relation Extraction Pytorch 复现 PCNN + MIL (Zeng 2015) 与 PCNN + ATT (Lin 2016)
- Zh NER TF A very simple BiLSTM-CRF model for Chinese Named Entity Recognition 中文命名实体识别 (TensorFlow)
- BERT BiLSTM CRF NER Tensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tuning
- Event Triples Extraction 基于依存句法与语义角色标注的事件三元组抽取
- Important Event Extractor 针对某一事件话题下的新闻报道集合，通过使用docrank算法，对新闻报道进行重要性识别，并通过新闻报道时间挑选出时间线上重要新闻
- Text Grapher 对文档进行关键信息提取，进行结构化，并组织成图谱组织形式，形成对文章语义信息的图谱化展示
- 从零开始构建知识图谱知识图谱构建的知乎专栏
- Text Info Exp TF-IDF、文本分类、聚类、词向量、情感识别、关系抽取等

Text Generation
- Texar Toolkit for Text Generation and Beyond
- Awesome Text Generation A curated list of recent models of text generation and application
- Ehud Reiter's Blog 博客对NLG技术、评价与应用进行了深入的探讨
- Talk Latent slides of "Controlling Text Generation" by Alexander Rush

Sequence Labeling
- Kashgari Simple and powerful NLP framework, build your state-of-art model in 5 minutes for named entity recognition (NER), part-of-speech tagging (PoS) and text classification tasks

Reading Comprehension
- CMRC 2017 The First Evaluation Workshop on Chinese Machine Reading Comprehension (CMRC 2017)
- CMRC 2018 The Second Evaluation Workshop on Chinese Machine Reading Comprehension (CMRC2018)
- Neural Reading Comprehension and Beyond Danqi Chen（陈丹琦）博士毕业论文
- 教机器学习阅读机器阅读理解的综述文章，系统地总结和对比了相关paper

QA System
- AnyQ FAQ-based Question Answering System by Baidu
- 基于知识库的问答：seq2seq模型实践基于知识库的问答具体实现，Github地址

Knowledge Graph
- 知识图谱技术与应用指南这是一份通俗易懂的知识图谱技术与应用指南
- Slides About Knowledge Graph 收集整理的知识图谱相关的Slides，百度网盘链接百度网盘提取码：z5yb
- Agriculture Knowledge Graph 农业领域的信息检索，命名实体识别，关系抽取，分类树构建，数据挖掘
- Person Relation Knowledge Graph 中文人物关系知识图谱项目，包括中文人物关系图谱构建、基于知识库的数据回标、基于远程监督与bootstrapping方法的人物关系抽取、基于知识图谱的知识问答等应用
- Awesome Knowledge Graph 整理知识图谱相关学习资料，提供系统化的知识图谱学习路径。
- 知识库构建前沿：自动和半自动知识提取 by 微软亚洲研究院主管研究员史树明
- 详解自下而上构建知识图谱全过程自底向上构建知识图谱的全过程
- 中文知识图谱API与工具、科研机构与算法框架中国国内中文知识图谱API、工具、科研机构与算法框架的总结
- 知识图谱的价值和应用从产品经理的角度分析知识图谱的价值和应用
- 军事知识图谱及问答基于mongodb存储的军事领域知识图谱问答项目，包括飞行器、太空装备等8大类，100余小类，共计5800项的军事武器知识库，

Relation Extraction
- 关系抽取(分类)总结关系抽取的解释、数据集介绍及2013-2017经典工作的总结

NLP Organizations 学术组织

排名不分先后，收集不全，欢迎完善

中国大陆地区高校/研究所

中国大陆地区企业

中国香港/澳门/台湾地区
- CUHK Text Mining Group（香港中文大学文本挖掘组）
- PolyU Social Media Mining Group（香港理工大学社交媒体挖掘组）
- HKUST Human Language Technology Center（香港科技大学人类语言技术中心）
- NLP²CT @ University of Macau（澳门大学自然语言处理与中葡机器翻译实验室）
- National Taiwan University NLP Lab（台湾大学自然语言处理实验室）

新加坡/日本/以色列/澳大利亚
- NUS Natural Language Processing Group（新加坡国立大学自然语言处理组）
- NLP and Big Data Research Group in the ISTD pillar at the Singapore University of Technology and Design （新加坡科技设计大学自然语言处理和大数据研究组）
- NLP Research Group at the Nanyang Technological University（南洋理工大学自然语言处理组）
- Advanced Translation Technology Laboratory at National Institute of Information and Communications Technology（日本情报通讯研究所高级翻译技术实验室）
- Nakayama Laboratory at University of Tokyo （东京大学中山实验室）
- Natural Language Processing Lab at Bar-Ilan University （以色列巴伊兰大学自然语言处理实验室）
- The University of Melbourne NLP Group（澳大利亚墨尔本大学自然语言处理组）

北美地区
- Natural Language Processing - Research at Google （Google自然语言处理组）
- The Redmond-based Natural Language Processing group （微软自然语言处理组）
- Facebook AI Research (FAIR) （Facebook AI 研究部）
- IBM Thomas J. Watson Research Center（IBM Thomas J. Watson研究中心）
- The Stanford Natural Language Processing Group （斯坦福大学自然语言处理组）
- The Berkeley Natural Language Processing Group（伯克利加州大学自然语言处理组）
- Natural Language Processing research at Columbia University（哥伦比亚大学自然语言处理组）
- Graham Neubig's lab at the Language Technologies Instititute of Carnegie Mellon University （卡内基梅隆大学语言技术研究所Graham Neubig实验室）
- RPI Blender Lab（伦斯勒理工学院Blender Lab）
- UC Santa Barbara Natural Language Processing Group（加州大学圣巴巴拉分校自然语言处理组）
- The Natural Language Group at the USC Information Sciences Institute （南加利福尼亚大学信息科学研究所自然语言处理组）
- Natural Language Processing @USC （南加利福尼亚大学自然语言处理组）
- Natural Language Processing Group at University of Notre Dame （圣母大学自然语言处理组）
- Artificial Intelligence Research Group at Harvard （哈佛大学人工智能研究组）
- The Harvard natural-language processing group （哈佛大学自然语言处理组）
- Computational Linguistics and Information Processing at Maryland （马里兰大学计算语言学和信息处理实验室）
- Language and Speech Processing at Johns Hopkins University（约翰斯·霍普金斯大学语言语音处理实验室）
- Human Language Technology Center of Excellence at Johns Hopkins University（约翰斯·霍普金斯大学人类语言技术卓越中心）
- Machine Translation Group at The Johns Hopkins University（约翰斯·霍普金斯大学机器翻译组）
- Machine Translation Research at Rochester（罗切斯特大学机器翻译组）
- NLP @ University of Illinois at Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校自然语言处理组）
- UIC Natural Language Processing Laboratory（伊利诺伊大学芝加哥分校自然语言处理组）
- Human Language Technology Research Institute at The University of Texas at Dallas（德克萨斯大学达拉斯分校人类语言技术研究所
- Natural Language Processing Group at MIT CSAIL（麻省理工学院自然语言处理组）
- Natural Language Processing Group at Texas A&M University（德克萨斯A&M大学自然语言处理组）
- The Natural Language Processing Group at Northeastern University（东北大学自然语言处理组）
- Cornell NLP group（康奈尔大学自然语言处理组）
- Natural Language Processing group at University Of Washington（华盛顿大学自然语言处理组）
- Natural Language Processing Research Group at University of Utah（犹他大学自然语言处理组）
- Natural Language Processing and Information Retrieval group at University of Pittsburgh（匹兹堡大学自然语言处理和信息检索小组）
- Brown Laboratory for Linguistic Information Processing (BLLIP)（布朗大学布朗语言信息处理实验室）
- Natural Language Processing (NLP) group at University of British Columbia（不列颠哥伦比亚大学自然语言处理组）

欧洲地区
- Natural Language and Information Processing Research Group at University of Cambridge（英国剑桥大学自然语言和信息处理组）
- The Computational Linguistics Group at Oxford University（英国牛津大学计算语言学组）
- Human Language Technology and Pattern Recognition Group at the RWTH Aachen（德国亚琛工业大学人类语言技术与模式识别组）
- The Natural Language Processing Group at the University of Edinburgh (EdinburghNLP)（英国爱丁堡大学自然语言处理研究组）
- Statistical Machine Translation Group at the University of Edinburgh（英国爱丁堡大学统计机器翻译组）
- Natural Language Processing Research Group at The University of Sheffield（英国谢菲尔德大学自然语言处理研究组）
- Speech Research Group at University of Cambridge（英国剑桥大学语音研究组）
- Statistical Machine Translation Group at the University of Cambridge（英国剑桥大学统计机器翻译组）
- Computational Linguistics group at Uppsala University（瑞典乌普萨拉大学计算语言学组）
- The Center for Information and Language Processing at University of Munich（德国慕尼黑大学信息与语言处理中心）
- National Centre for Language Technology at Dublin City University（爱尔兰都柏林城市大学国家语言技术中心）
- The National Centre for Text Mining (NaCTeM) at University of Manchester（英国曼彻斯特大学国家文本挖掘中心）
- The Information and Language Processing Systems group at the University of Amsterdam（荷兰阿姆斯特丹大学信息与语言处理系统组）
- Institute of Formal and Applied Linguistics at Charles University（捷克查理大学语言学应用与规范研究所）
- DFKI Language Technology Lab（德国人工智能研究中心自然语言处理组）
- IXA in University of the Basque Country（西班牙巴斯克大学自然语言处理组）
- Statistical Natural Language Processing Group at the Institute for Computational Linguistics at Heidelberg University（德国海德堡大学计算语言学研究所统计自然语言处理组）
- NLP Research at the University of Helsinki（芬兰赫尔辛基大学自然语言处理组）

Reference

有部分资源来自于以下工作，在此表示感谢：

同时，对相关工作的作者一并表示感谢！

另外，相关资料的使用范围、授权请参考原始发布源（如果有的话），如有侵权，请联系我删除。

Name		Name	Last commit message	Last commit date
Latest commit History 69 Commits
books		books
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

NLP Resources

Contents

NLP-Toolkits 自然语言工具包

NLP Corpus 自然语言处理语料库

Learning Materials 学习资料

NLP Technology 自然语言处理相关技术

NLP Organizations 学术组织

Reference

About

Releases

Packages

License

Skywalker-Harrison/NLP-Resources

Folders and files

Latest commit

History

Repository files navigation

NLP Resources

Contents

NLP-Toolkits 自然语言工具包

NLP Corpus 自然语言处理语料库

Learning Materials 学习资料

NLP Technology 自然语言处理相关技术

NLP Organizations 学术组织

Reference

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Packages