NLP-zoo

对中文的NLP资源做个汇总，以备不时之需

中文NLP语料资源

https://mp.weixin.qq.com/s/CODsntmNYwHga9jHxDdbgw

闲聊

语料名称	语料Size	语料来源	语料描述
中文对白语料 chinese conversation corpus			可以用作聊天机器人的训练语料
chatterbot	560	开源项目	按类型分类，质量较高
qingyun（青云语料）	10W	某聊天机器人交流群	相对不错，生活化
xiaohuangji（小黄鸡语料）	45W	原人人网项目语料	有一些不雅对话，少量噪音
douban（豆瓣多轮）	352W	来自北航和微软的paper, 开源项目	噪音相对较少，原本是多轮（平均7.6轮）
weibo（微博语料）	443W	来自华为的paper	有一些噪音
中文闲聊语料库LCCC	??W	清华大学2020	大规模的中文闲聊语料库LCCC，从开源的文件上来看，这可能是目前开源的数量最大、质量最好的闲聊语料库了

使用方法
下载语料 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码：f2ex

执行命令即可
python main.py

生成结果
每个来源的语料分别生成一个独立的*.tsv文件，都放在新生成的clean_chat_corpus文件夹下。
生成结果格式为 tsv格式，每行是一个样本，先是query，再是answer

领域特定语料

语料名称	语料大小	语料来源	语料描述
保险行业QA语料库	未知	通过翻译 insuranceQA产生的数据集	train_data含有问题12,889条，数据 141779条，正例：负例 = 1:10； test_data含有问题2,000条，数据 22000条，正例：负例 = 1:10；valid_data含有问题2,000条，数据 22000条，正例：负例 = 1:10
翻译语料(translation2019zh)	520万个中英文平行语料( 原始数据1.1G，压缩文件596M)	单元格	中英文平行语料520万对

NER

语料名称	语料大小	语料来源	语料描述
weibo NER corpus	未知	未知	包含了1,890条，设计的实体有：人名、地点、组织、地理政治相关实体
boson数据(不维护了)	2000条	未知	包含人名、地名、时间、组织名、公司名、产品名这6种实体类型
1998人民日报	新闻一共有137万多条	未知	包含地名、人名和机构名三类
MSRA	未知	未知	5 万多条中文命名实体识别标注数据（IOB2 格式，符合 CoNLL 2002 和 CRF++ 标准）包含地名、人名和机构名三类
Resume NER data		ACL 2018 paper 《Chinese NER Using Lattice LSTM》	爬虫新浪财经的的简历数据, CoNLL format (BIOES tag scheme)，包括城市、学校、地点、人名、组织等
影视、音乐、书籍	未知	未知	类似于人名/地名/组织机构名的命名体识别数据集，大约10000条影视/音乐/书籍数据
1300W字的新闻	未知	未知	该语料可用于分词、NER、POS等任务。标记和格式请参考此文章(https://cloud.tencent.com/developer/article/1091906)
CCKS2017中文电子病例命名实体识别		北京极目云健康科技有限公司	数据来源于其云医院平台的真实电子病历数据，共计800条（单个病人单次就诊记录），经脱敏处理
CCKS2018中文电子病例命名实体识别		医渡云（北京）技术有限公司	CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本，共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体
CLUE Fine-Grain NER		CLUE	CLUENER2020数据集，是在清华大学开源的文本分类数据集THUCTC基础上，选出部分数据进行细粒度命名实体标注，原数据来源于Sina News RSS。数据包含10个标签类别，训练集共有10748条语料，验证集共有1343条语料

文本分类

语料名称	语料大小	语料来源	语料描述
2018中国‘法研杯’法律智能挑战赛数据	未知	未知	268万刑法法律文书，共涉及183条罪名，202条法条，刑期长短包括0-25年、无期、死刑
今日头条中文新闻（短文本）	共382688条	未知	15个分类中，包含民生、文化、娱乐、体育、财经、房产、骑车、教育、科技、军事、旅游、国际、证券、农业、电竞
SMP2017中文人机对话评测数据	-	未知	包含了两个任务的数据集，用户意图领域分类和特定域任务型人机对话在线评测。第一个数据集用得比较多。用户意图领域分类包含闲聊类、任务垂直类共三十一个类别，属于短文本分类的一个范畴

情感/观点/评论倾向性分析

数据集	数据概览	下载地址
ChnSentiCorp_htl_all	7000 多条酒店评论数据，5000 多条正向评论，2000 多条负向评论	点击查看
waimai_10k	某外卖平台收集的用户评价，正向 4000 条，负向约 8000 条	点击查看
online_shopping_10_cats	10 个类别，共 6 万多条评论数据，正、负向评论各约 3 万条，包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店	点击查看
weibo_senti_100k	10 万多条，带情感标注新浪微博，正负向评论约各 5 万条	点击查看
simplifyweibo_4_moods	36 万多条，带情感标注新浪微博，包含 4 种情感，其中喜悦约 20 万条，愤怒、厌恶、低落各约 5 万条	点击查看
dmsc_v2	28 部电影，超 70 万用户，超 200 万条评分/评论数据	点击查看
yf_dianping	24 万家餐馆，54 万用户，440 万条评论/评分数据	点击查看
yf_amazon	52 万件商品，1100 多个类目，142 万用户，720 万条评论/评分数据	点击查看

FAQ 问答

数据集	数据概览	下载地址
保险知道	8000 多条保险行业问答数据，包括用户提问、网友回答、最佳回答	点击查看
安徽电信知道	15.6 万条电信问答数据，包括用户提问、网友回答、最佳回答	点击查看
金融知道	77 万条金融行业问答数据，包括用户提问、网友回答、最佳回答	点击查看
法律知道	3.6 万条法律问答数据，包括用户提问、网友回答、最佳回答	点击查看
联通知道	20.3 万条联通问答数据，包括用户提问、网友回答、最佳回答	点击查看
农行知道	4 万条农业银行问答数据，包括用户提问、网友回答、最佳回答	点击查看
保险知道	58.8 万条保险行业问答数据，包括用户提问、网友回答、最佳回答	点击查看
580万百度知道社群问答	包括超过580万的问题，每个问题带有问题标签。问答对983万个，每个问题的答案个数1.7个，问题标签个数5824个。	点击查看
DuReader	百度开源的一个QA和MRC数据集，共140万篇文档，30万个问题，及66万个答案。	点击查看
社区问答数据	含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个话题，总共有2.8万个各式话题，话题包罗万象。从1400万个原始问答中，筛选出至少获得3个点赞以上的的答案，代表了回复的内容比较不错或有趣，从而获得高质量的数据集。除了对每个问题对应一个话题、问题的描述、一个或多个回复外，每个回复还带有点赞数、回复ID、回复者的标签	点击查看

超大型通用语料

语料名称	语料大小	语料来源	语料描述
维基百科json版(wiki2019zh)	104万个词条, 1.6G	wiki	做预训练的语料或构建词向量，也可以用于构建知识问答
新闻语料json版(news2016zh)	250万篇新闻,原始数据9G	涵盖了6.3万个媒体，含标题、关键词、描述、正文	密码: film 包含了250万篇新闻。数据集划分：数据去重并分成三个部分。训练集：243万；验证集：7.7万；测试集，数万
百科类问答json版(baike2018qa)	150万个问答,原始数据1G多	密码:fu45	含有150万个预先过滤过的、高质量问题和答案，每个问题属于一个类别。总共有492个类别
社区问答json版(webtext2019zh)	410万个问答,过滤后数据3.7G	1400万个原始问答	含有410万个预先过滤过的、高质量问题和回复。

其他资源

中文同义词表，反义词表，否定词表
1.4亿三元组中文知识图谱（https://github.com/ownthink/KnowledgeGraphData）
Dbpedia（https://wiki.dbpedia.org/develop/datasets/dbpedia-version-2016-10）：多语知识图谱数据，共有130亿个三元组，但大部分都是英语。有760个类，1105个关系，1622个属性。
开放的中文知识图谱社区（http://www.openkg.cn/）：这里有很多垂直领域图谱数据，我就不一一放上来了。
腾讯词向量
- 腾讯AI实验室公开的中文词向量数据集包含800多万中文词汇，其中每个词对应一个200维的向量。
- 下载地址：https://ai.tencent.com/ailab/nlp/embedding.html

NLP工具包

THULAC 中文词法分析工具包 by 清华 (C++/Java/Python)
LTP 语言技术平台 by 哈工大 (C++) pylyp LTP的python封装
BaiduLac by 百度 Baidu's open-source lexical analysis tool for Chinese, including word segmentation, part-of-speech tagging & named entity recognition.
HanLP (Java)
SnowNLP (Python) Python library for processing Chinese text
小明NLP (Python) 轻量级中文自然语言处理工具
chinese_nlp (C++ & Python) Chinese Natural Language Processing tools and examples
CoreNLP by Stanford (Java) A Java suite of core NLP tools.
Stanza by Stanford (Python) A Python NLP Library for Many Human Languages
spaCy (Python) Industrial-Strength Natural Language Processing with a online course
gensim (Python) Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora.
Kashgari - Simple and powerful NLP framework, build your state-of-art model in 5 minutes for named entity recognition (NER), part-of-speech tagging (PoS) and text classification tasks. Includes BERT and word2vec embedding.

中文分词

Jieba 结巴中文分词 (Python及大量其它编程语言衍生) 做最好的 Python 中文分词组件
北大中文分词工具 (Python) 高准确度中文分词工具，简单易用，跟现有开源工具相比大幅提高了分词的准确率。
A neural network model for Chinese named entity recognition
bert-chinese-ner 使用预训练语言模型BERT做中文NER
Information-Extraction-Chinese Chinese Named Entity Recognition with IDCNN/biLSTM+CRF, and Relation Extraction with biGRU+2ATT 中文实体识别与关系提取

Chatbot问答和聊天机器人

Rasa NLU (Python) turn natural language into structured data, a Chinese fork at Rasa NLU Chi
Rasa Core (Python) machine learning based dialogue engine for conversational software
Chatstack A Full Pipeline UI for building Chinese NLU System
Snips NLU (Python) Snips NLU is a Python library that allows to parse sentences written in natural language and extracts structured information.
DeepPavlov (Python) An open source library for building end-to-end dialog systems and training chatbots.
ChatScript Natural Language tool/dialog manager, a rule-based chatbot engine.
Chatterbot (Python) ChatterBot is a machine learning, conversational dialog engine for creating chat bots.
Chatbot (Python) 基於向量匹配的情境式聊天機器人
QA-Snake (Python) 基于多搜索引擎和深度学习技术的自动问答
使用TensorFlow实现的Sequence to Sequence的聊天机器人模型 (Python)
使用深度学习算法实现的中文阅读理解问答系统 (Python)
AnyQ by Baidu 主要包含面向FAQ集合的问答系统框架、文本语义匹配工具SimNet。
QASystemOnMedicalKG (Python) 以疾病为中心的一定规模医药领域知识图谱，并以该知识图谱完成自动问答与分析服务。
GPT2-chitchat (Python) 用于中文闲聊的GPT2模型

NLP相关论文

Attention

词向量表示学习

对抗GAN

多任务学习

关系抽取任务

迁移学习

情感分类

WANG, Bailin; LU, Wei. Learning Latent Opinions for Aspect-level Sentiment Classification. 2018.

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
NER_corpus_chinese		NER_corpus_chinese
Python-Tutorial		Python-Tutorial
matplotlib-Ipython		matplotlib-Ipython
pandas		pandas
scikit-learn		scikit-learn
README.md		README.md

数据集	数据概览	下载地址
ez_douban	5 万多部电影（3 万多有电影名称，2 万多没有电影名称），2.8 万用户，280 万条评分数据	点击查看
dmsc_v2	28 部电影，超 70 万用户，超 200 万条评分/评论数据	点击查看
yf_dianping	24 万家餐馆，54 万用户，440 万条评论/评分数据	点击查看
yf_amazon	52 万件商品，1100 多个类目，142 万用户，720 万条评论/评分数据	点击查看

ningshixian/NLP-zoo

Folders and files

Latest commit

History

Repository files navigation

NLP-zoo

目录

中文NLP语料资源

闲聊

领域特定语料

NER

文本分类

情感/观点/评论 倾向性分析

推荐系统

FAQ 问答

最新任务型对话数据集大全

超大型通用语料

其他资源

NLP工具包

中文分词

Chatbot问答和聊天机器人

NLP相关论文

Attention

词向量表示学习

对抗GAN

多任务学习

关系抽取任务

迁移学习

情感分类

About

Resources

Stars

Watchers

Forks

Languages

情感/观点/评论倾向性分析