A useful list of NLP(Natural Language Processing) resources
自然语言处理的相关资源列表,持续更新
- NLP Toolkits 自然语言工具包
- NLP Corpus 自然语言处理语料库
- Learning Materials 学习资料
- NLP Technology 自然语言处理相关技术
- NLP Organizations 学术组织
- Reference
-
Toolkits
-
CoreNLP: a set of natural language analysis tools written in Java,by Stanford
-
NLTK:a Python Natural Language Toolkit includes corpora, lexical resources and text processing libraries
-
gensim:Github,a Python library for topic modelling, document indexing and similarity retrieval with large corpora
-
jieba:结巴中文分词,做最好的 Python 中文分词组件,现已覆盖几乎所有的语言和系统
-
fast jieba:使用cpython重写了jieba分词库中计算DAG和HMM中的vitrebi函数,速度得到大幅提升。
-
HanLP:中文NLP模型与算法工具包,支持Java & Python,by 上海林原信息科技有限公司
-
THULAC:高效的中文词法分析工具包,支持C++ & Java & Python,by 清华
-
pkuseg:多领域中文分词工具包,支持细分领域分词,支持Python,by 北大
-
FudanNLP:中文NLP工具包、机器学习算法和数据集,支持Java,by 复旦
-
Apache OpenNLP:支持常见的NLP任务,比如分词、断句、词性标注、命名实体抽取、组块分析、解析和指代消解,支持Java,官网
-
SnowNLP 中文分词、词性标注、情感分析、文本分类(NB)、拼音转换(Trie树)、简繁转换(Trie树)、关键词提取(TextRank)、摘要提取(TextRank算法)、tf、idf、Tokenization、文本相似(BM25)
-
Ansj Seg Ansj中文分词,支持Java
-
-
Small Tools
-
Chinese Cixing 针对中文词语的笔画拆解,偏旁查询,拼音转换接口
-
Chai Zi 含开发词典可用以提供字旁和部件查询的拆字字典数据库
-
Python Pinyin 将汉字转为拼音。可以用于汉字注音、排序、检索(Russian translation)
-
Nstools 中文繁简体互转
-
Query Correction 基于用户词表,采用拼音相似度与编辑距离进行查询纠错
-
-
Corpus Collection
-
NLP语料集合 自然语言处理,知识图谱相关语料。按照Task细分
-
Sogou Labs 互联网词库、中文词语搭配库、全网新闻数据(2012)、搜狐新闻数据(2012)、互联网语料库、链接关系库等
-
中文聊天语料 chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料
-
领域中文词库 IT、财经、成语、地名、历史名人、诗词、医学、饮食、法律、汽车、动物
-
汉语词库 各种类型词库如人名库、金融专业相关词、政府机关团体机构大全等
-
中文依存语料库 第二届自然语言处理与中文计算会议(NLP&CC 2013)的技术评测中文树库语料
-
微信公众号语料库 网络抓取的微信公众号的文章,包括微信公众号名字、微信公众号ID、题目和正文
-
中文谣言微博数据 从新浪微博不实信息举报平台抓取的中文谣言数据
-
Tencent AI Lab Embedding Corpus A corpus on continuous distributed representations of Chinese words and phrases
-
Word2vec Slim word2vec Google News model slimmed down to 300k English words
-
NLP Chinese Corpus 维基百科中文词条、新闻语料、百科问答、社区问答、翻译语料
-
Chinese RC Dataset A Chinese Reading Comprehension Dataset
-
Chinese Word Ordering Errors Detection and Correction Corpus
-
中文文本分类数据集THUCNews 根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档
-
公司名语料库 公司名语料库、机构名语料库、公司简称、品牌词等
-
中文人名语料库 中文常见人名、中文古代人名、日文人名、翻译人名、中文姓氏、中文称呼、成语词典
-
Chinese Xinhua 中华新华字典数据库,包括歇后语,成语,词语,汉字
-
无忧无虑中学语文网 常见中文词语工具,包括近义词、反义词、汉字拼音转换、简繁转换等
-
EmotionLexicon 细粒度情感词典、网络词汇、否定词典、停用词典
-
Chinese_Dictionary 同义词表、反义词表、否定词表
-
Synonyms 中文近义词工具包
-
Chinese NLP Corpus 中文自然语言处理的语料集合,包括语义词、领域共识、历时语料库、评测语料库等
-
Chinese-Xinhua 中华新华字典数据库。包括歇后语,成语,词语,汉字。
-
CEC-Corpus 中文突发事件语料库(Chinese Emergency Corpus)
-
Corpus Construction
-
Opencc Python Python简繁转换
-
Pinyin Python 汉字拼音转换工具(Python 版)
-
Python模拟登陆 Python模拟登陆一些大型网站
-
Baidu Baike Spider 基于Python的百度百科词条爬取
-
Sina Weibo Spider 基于Java的新浪微博采集
-
Sougou Words Collector 搜狗输入法词库抓取与格式转换
-
Baike Knowledge Schema 面向百度百科与互动百科的概念分类体系抓取脚本
-
Baike Info Extraction 基于互动百科、百度百科、搜狗百科的词条infobox结构化信息抽取,百科知识的融合
-
Baidu Index Spyder 基于关键词的历时百度搜索指数自动采集
-
Ali Index Spyder 阿里商品指数抓取,包括淘宝采购指数、淘宝供应指数、1688供应指数
-
新闻搜索引擎新闻爬取 基于Scrapy框架的新闻搜索引擎爬虫,支持百度新闻、搜狗新闻、新浪新闻、360新闻和新华社搜索新闻。
-
通用新闻类网站分布式爬虫 可提取新闻标题、时间、作者、正文等信息
-
-
深度学习框架
-
Tensorflow 官方文档,中文文档,中文教程,例子, Tensorflow Cookbook
-
Pytorch 官方文档,中文文档,例子,资源,PyTorch实战指南,Awesome Pytorch List,pytorch-tutorial
-
如何用flask部署pytorch模型 可延伸到其他深度学习模型的REST API部署
-
ML Resources 机器学习书籍与资料
-
《统计学习方法》 ML经典书籍,值得反复读,从公式推导到定理证明逻辑严谨,by 李航
-
《机器学习》 俗称西瓜书,机器学习入门必备,by 周志华
-
《深度学习(中文版)》 是一本皆在帮助学生和从业人员进入机器学习领域的教科书,以开源的形式免费在网络上提供Github,由学界领军人物 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 合力打造
-
Machine Learning 一些常见的机器学习算法的实现代码
-
Deep Learning 500 Questions 以问答形式对常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题进行阐述
-
神经网络与深度学习 介绍神经网络与深度学习中的基础知识、主要模型(卷积神经网络、递归神经网络等)以及在计算机视觉、自然语言处理等领域的应用,by 邱锡鹏
-
Machine Learning Yearning 吴恩达老师根据自己多年实践经验整理出来的一本机器学习、深度学习实践经验宝典,重点不在于机器学习算法理论基础,而在于实践中使机器学习算法的实战经验
-
-
NLP Resources NLP书籍与资料
-
《数学之美》 生动形象,没有太多公式,属于科普性质,可以说是NLP入门必备,by 吴军
-
《统计自然语言处理》 全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,by 宗成庆
-
《Neural Network Methods for Natural Language Proces》 利用神经网络的方法来进行自然语言处理任务,by Yoav Goldberg
-
中文信息发展报告 中国中文信息学会2016年12月 发布的中文NLP总览报告,涵盖了中文和英文NLP主要的技术方向
-
Speech and Language Processing by Dan Jurafsky and James H. Martin
-
Deep Learning for Natural Language Processing 深度学习在自然语言处理中的应用,by 邱锡鹏
-
NLP入门推荐书目(2019版) 刘知远老师推荐NLP入门推荐参考书目
-
nlp 一本开源的NLP入门书籍
-
-
Blogs and Courses 博客和课程
-
NLP 中文博客:52NLP、码农场、剑指汉语自然语言处理
-
NLP 英文博客:Natural Language Processing Blog、Language Log、Jay Alammar
-
AI 博客:Google AI Blog
-
Stanford NLP Courses:Stanford CS224n Home、Stanford CS224d 2015年NLP课程、Stanford CS224d 2016年NLP课程、Natural Language Processing with Deep Learning (Winter 2017)
-
Oxford NLP Courses:Oxford CS Deep NLP 2017
-
Stanford ML/DL Courses:CS 229 Machine Learning、CS 230 Deep Learning
-
NLP Course YSDA course in Natural Language Processing
-
-
NLP Progress Repository to track the progress in NLP, including the datasets and the current state-of-the-art for the most common NLP tasks.
- 关于NLP和机器学习之文本处理的你需要知道的一切 自然语言处理和机器学习中常见的文本预处理方法
-
Bert Model
-
Awesome Bert bert nlp papers、applications and github resources
-
Awesome Bert NLP A curated list of NLP resources focused on BERT, attention mechanism, Transformer networks, and transfer learning.
-
The Illustrated BERT, ELMo, and co The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning)
-
Bert as Service Using BERT model as a sentence encoding service, i.e. mapping a variable-length sentence to a fixed-length vector
-
pytorch-pretrained-BERT A PyTorch implementation of Google AI's BERT model provided with Google's pre-trained models, examples and utilities.
-
BERT Utils BERT生成句向量,BERT做文本分类、文本相似度计算
-
BERT BiLSTM CRF NER Tensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tuning
-
BERT Chinese NER 使用预训练语言模型BERT做中文NER
-
Bert时代的创新:Bert在NLP各领域的应用进展 by 张俊林
-
Text Modeling and Analysis
-
Self Attention Mechanism Simple Tensorflow Implementation of "A Structured Self-attentive Sentence Embedding" (ICLR 2017)
-
Encoder Decoder Four styles of encoder decoder model by Python, Theano, Keras and Seq2Seq
-
Seq2seq Sequence to Sequence Learning with Keras
-
Keras Language Modeling Some code for doing language modeling with Keras, in particular for question-answering tasks
-
CNN for Sentence Classification in Keras Simple Keras Implementation of "Convolutional Neural Networks for Sentence Classification" (EMNLP 2014)
-
CNN for Classification Simple Pytorch Implementation of "Convolutional Neural Networks for Sentence Classification" (EMNLP 2014)
-
Awesome NLP Sentiment Analysis 情感分析领域相关的数据集、论文、开源实现
-
-
Text Similarity
-
Cilin and Hownet 综合了同义词词林扩展版与知网(Hownet)的词语相似度计算方法
-
Similarity Compute 基于同义词词林,知网,指纹,字词向量,向量空间模型的句子相似度计算
-
Siamese Sentence Similarity 基于Siamese bilstm模型的相似句子判定模型,提供训练数据集和测试数据集
-
SentenceSim,中文短文句相似度计算方法,包括基于知网、Onehot、word2vec、哈工大SDP及多个算法的融合以及LSTM算法
-
-
Text Disambiguation
- Word MultiSense Disambiguation 基于百科知识库的中文词语多义项获取与特定句子词语语义消歧
-
Information Extraction
-
Open IE Papers This list containts OpenIE and ORE papers and resources
-
关系抽取(分类)总结 对近几年(到2017)一些关系抽取/分类(Relation Extraction)的部分文献的一个简单总结
-
LM-LSTM-CRF PyTorch Implementation of "Empower Sequence Labeling with Task-Aware Neural Language Model" (AAAI 2018)
-
Named Entity Realtion Extraction 基于句法分析的命名实体关系抽取程序
-
Pytorch Relation Extraction Pytorch 复现 PCNN + MIL (Zeng 2015) 与 PCNN + ATT (Lin 2016)
-
Zh NER TF A very simple BiLSTM-CRF model for Chinese Named Entity Recognition 中文命名实体识别 (TensorFlow)
-
BERT BiLSTM CRF NER Tensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tuning
-
Event Triples Extraction 基于依存句法与语义角色标注的事件三元组抽取
-
Important Event Extractor 针对某一事件话题下的新闻报道集合,通过使用docrank算法,对新闻报道进行重要性识别,并通过新闻报道时间挑选出时间线上重要新闻
-
Text Grapher 对文档进行关键信息提取,进行结构化,并组织成图谱组织形式,形成对文章语义信息的图谱化展示
-
从零开始构建知识图谱 知识图谱构建的知乎专栏
-
Text Info Exp TF-IDF、文本分类、聚类、词向量、情感识别、关系抽取等
-
-
Text Generation
-
Texar Toolkit for Text Generation and Beyond
-
Awesome Text Generation A curated list of recent models of text generation and application
-
Ehud Reiter's Blog 博客对NLG技术、评价与应用进行了深入的探讨
-
Talk Latent slides of "Controlling Text Generation" by Alexander Rush
-
-
Sequence Labeling
- Kashgari Simple and powerful NLP framework, build your state-of-art model in 5 minutes for named entity recognition (NER), part-of-speech tagging (PoS) and text classification tasks
-
Reading Comprehension
-
CMRC 2017 The First Evaluation Workshop on Chinese Machine Reading Comprehension (CMRC 2017)
-
CMRC 2018 The Second Evaluation Workshop on Chinese Machine Reading Comprehension (CMRC2018)
-
Neural Reading Comprehension and Beyond Danqi Chen(陈丹琦)博士毕业论文
-
教机器学习阅读 机器阅读理解的综述文章,系统地总结和对比了相关paper
-
-
QA System
-
AnyQ FAQ-based Question Answering System by Baidu
-
基于知识库的问答:seq2seq模型实践 基于知识库的问答具体实现,Github地址
-
-
Knowledge Graph
-
知识图谱技术与应用指南 这是一份通俗易懂的知识图谱技术与应用指南
-
Slides About Knowledge Graph 收集整理的知识图谱相关的Slides,百度网盘链接 百度网盘提取码:z5yb
-
Agriculture Knowledge Graph 农业领域的信息检索,命名实体识别,关系抽取,分类树构建,数据挖掘
-
Person Relation Knowledge Graph 中文人物关系知识图谱项目,包括中文人物关系图谱构建、基于知识库的数据回标、基于远程监督与bootstrapping方法的人物关系抽取、基于知识图谱的知识问答等应用
-
Awesome Knowledge Graph 整理知识图谱相关学习资料,提供系统化的知识图谱学习路径。
-
知识库构建前沿:自动和半自动知识提取 by 微软亚洲研究院主管研究员 史树明
-
详解自下而上构建知识图谱全过程 自底向上构建知识图谱的全过程
-
中文知识图谱API与工具、科研机构与算法框架 中国国内中文知识图谱API、工具、科研机构与算法框架的总结
-
知识图谱的价值和应用 从产品经理的角度分析知识图谱的价值和应用
-
军事知识图谱及问答 基于mongodb存储的军事领域知识图谱问答项目,包括飞行器、太空装备等8大类,100余小类,共计5800项的军事武器知识库,
-
-
Relation Extraction
- 关系抽取(分类)总结 关系抽取的解释、数据集介绍及2013-2017经典工作的总结
排名不分先后,收集不全,欢迎完善
-
中国大陆地区高校/研究所
-
中国香港/澳门/台湾地区
-
CUHK Text Mining Group(香港中文大学文本挖掘组)
-
PolyU Social Media Mining Group(香港理工大学社交媒体挖掘组)
-
HKUST Human Language Technology Center(香港科技大学人类语言技术中心)
-
NLP2CT @ University of Macau(澳门大学自然语言处理与中葡机器翻译实验室)
-
National Taiwan University NLP Lab(台湾大学自然语言处理实验室)
-
-
新加坡/日本/以色列/澳大利亚
-
NUS Natural Language Processing Group(新加坡国立大学自然语言处理组)
-
NLP and Big Data Research Group in the ISTD pillar at the Singapore University of Technology and Design (新加坡科技设计大学自然语言处理和大数据研究组)
-
NLP Research Group at the Nanyang Technological University(南洋理工大学自然语言处理组)
-
Advanced Translation Technology Laboratory at National Institute of Information and Communications Technology(日本情报通讯研究所高级翻译技术实验室)
-
Nakayama Laboratory at University of Tokyo (东京大学中山实验室)
-
Natural Language Processing Lab at Bar-Ilan University (以色列巴伊兰大学自然语言处理实验室)
-
The University of Melbourne NLP Group(澳大利亚墨尔本大学自然语言处理组)
-
-
北美地区
-
Natural Language Processing - Research at Google (Google自然语言处理组)
-
The Redmond-based Natural Language Processing group (微软自然语言处理组)
-
Facebook AI Research (FAIR) (Facebook AI 研究部)
-
IBM Thomas J. Watson Research Center(IBM Thomas J. Watson研究中心)
-
The Stanford Natural Language Processing Group (斯坦福大学自然语言处理组)
-
The Berkeley Natural Language Processing Group(伯克利加州大学自然语言处理组)
-
Natural Language Processing research at Columbia University(哥伦比亚大学自然语言处理组)
-
Graham Neubig's lab at the Language Technologies Instititute of Carnegie Mellon University (卡内基梅隆大学语言技术研究所Graham Neubig实验室)
-
RPI Blender Lab(伦斯勒理工学院Blender Lab)
-
UC Santa Barbara Natural Language Processing Group(加州大学圣巴巴拉分校自然语言处理组)
-
The Natural Language Group at the USC Information Sciences Institute (南加利福尼亚大学信息科学研究所自然语言处理组)
-
Natural Language Processing @USC (南加利福尼亚大学自然语言处理组)
-
Natural Language Processing Group at University of Notre Dame (圣母大学自然语言处理组)
-
Artificial Intelligence Research Group at Harvard (哈佛大学人工智能研究组)
-
The Harvard natural-language processing group (哈佛大学自然语言处理组)
-
Computational Linguistics and Information Processing at Maryland (马里兰大学计算语言学和信息处理实验室)
-
Language and Speech Processing at Johns Hopkins University(约翰斯·霍普金斯大学语言语音处理实验室)
-
Human Language Technology Center of Excellence at Johns Hopkins University(约翰斯·霍普金斯大学人类语言技术卓越中心)
-
Machine Translation Group at The Johns Hopkins University(约翰斯·霍普金斯大学机器翻译组)
-
Machine Translation Research at Rochester(罗切斯特大学机器翻译组)
-
NLP @ University of Illinois at Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校自然语言处理组)
-
UIC Natural Language Processing Laboratory(伊利诺伊大学芝加哥分校自然语言处理组)
-
Human Language Technology Research Institute at The University of Texas at Dallas(德克萨斯大学达拉斯分校人类语言技术研究所
-
Natural Language Processing Group at MIT CSAIL(麻省理工学院自然语言处理组)
-
Natural Language Processing Group at Texas A&M University(德克萨斯A&M大学自然语言处理组)
-
The Natural Language Processing Group at Northeastern University(东北大学自然语言处理组)
-
Cornell NLP group(康奈尔大学自然语言处理组)
-
Natural Language Processing group at University Of Washington(华盛顿大学自然语言处理组)
-
Natural Language Processing Research Group at University of Utah(犹他大学自然语言处理组)
-
Natural Language Processing and Information Retrieval group at University of Pittsburgh(匹兹堡大学自然语言处理和信息检索小组)
-
Brown Laboratory for Linguistic Information Processing (BLLIP)(布朗大学布朗语言信息处理实验室)
-
Natural Language Processing (NLP) group at University of British Columbia(不列颠哥伦比亚大学自然语言处理组)
-
-
欧洲地区
-
Natural Language and Information Processing Research Group at University of Cambridge(英国剑桥大学自然语言和信息处理组)
-
The Computational Linguistics Group at Oxford University(英国牛津大学计算语言学组)
-
Human Language Technology and Pattern Recognition Group at the RWTH Aachen(德国亚琛工业大学人类语言技术与模式识别组)
-
The Natural Language Processing Group at the University of Edinburgh (EdinburghNLP)(英国爱丁堡大学自然语言处理研究组)
-
Statistical Machine Translation Group at the University of Edinburgh(英国爱丁堡大学统计机器翻译组)
-
Natural Language Processing Research Group at The University of Sheffield(英国谢菲尔德大学自然语言处理研究组)
-
Speech Research Group at University of Cambridge(英国剑桥大学语音研究组)
-
Statistical Machine Translation Group at the University of Cambridge(英国剑桥大学统计机器翻译组)
-
Computational Linguistics group at Uppsala University(瑞典乌普萨拉大学计算语言学组)
-
The Center for Information and Language Processing at University of Munich(德国慕尼黑大学信息与语言处理中心)
-
National Centre for Language Technology at Dublin City University(爱尔兰都柏林城市大学国家语言技术中心)
-
The National Centre for Text Mining (NaCTeM) at University of Manchester(英国曼彻斯特大学国家文本挖掘中心)
-
The Information and Language Processing Systems group at the University of Amsterdam(荷兰阿姆斯特丹大学信息与语言处理系统组)
-
Institute of Formal and Applied Linguistics at Charles University(捷克查理大学语言学应用与规范研究所)
-
DFKI Language Technology Lab(德国人工智能研究中心自然语言处理组)
-
IXA in University of the Basque Country(西班牙巴斯克大学自然语言处理组)
-
Statistical Natural Language Processing Group at the Institute for Computational Linguistics at Heidelberg University(德国海德堡大学计算语言学研究所统计自然语言处理组)
-
NLP Research at the University of Helsinki(芬兰赫尔辛基大学自然语言处理组)
-
有部分资源来自于以下工作,在此表示感谢:
同时,对相关工作的作者一并表示感谢!
另外,相关资料的使用范围、授权请参考原始发布源(如果有的话),如有侵权,请联系我删除。