对中文的NLP资源做个汇总,以备不时之需
语料名称 | 语料Size | 语料来源 | 语料描述 |
---|---|---|---|
中文对白语料 chinese conversation corpus | 可以用作聊天机器人的训练语料 | ||
chatterbot | 560 | 开源项目 | 按类型分类,质量较高 |
qingyun(青云语料) | 10W | 某聊天机器人交流群 | 相对不错,生活化 |
xiaohuangji(小黄鸡语料) | 45W | 原人人网项目语料 | 有一些不雅对话,少量噪音 |
douban(豆瓣多轮) | 352W | 来自北航和微软的paper, 开源项目 | 噪音相对较少,原本是多轮(平均7.6轮) |
weibo(微博语料) | 443W | 来自华为的paper | 有一些噪音 |
中文闲聊语料库LCCC | ??W | 清华大学2020 | 大规模的中文闲聊语料库LCCC,从开源的文件上来看,这可能是目前开源的数量最大、质量最好的闲聊语料库了 |
使用方法
下载语料 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex
执行命令即可
python main.py
生成结果
每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。
生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer
语料名称 | 语料大小 | 语料来源 | 语料描述 |
---|---|---|---|
保险行业QA语料库 | 未知 | 通过翻译 insuranceQA产生的数据集 | train_data含有问题12,889条,数据 141779条,正例:负例 = 1:10; test_data含有问题2,000条,数据 22000条,正例:负例 = 1:10;valid_data含有问题2,000条,数据 22000条,正例:负例 = 1:10 |
翻译语料(translation2019zh) | 520万个中英文平行语料( 原始数据1.1G,压缩文件596M) | 单元格 | 中英文平行语料520万对 |
语料名称 | 语料大小 | 语料来源 | 语料描述 |
---|---|---|---|
weibo NER corpus | 未知 | 未知 | 包含了1,890条,设计的实体有:人名、地点、组织、地理政治相关实体 |
boson数据(不维护了) | 2000条 | 未知 | 包含人名、地名、时间、组织名、公司名、产品名这6种实体类型 |
1998人民日报 | 新闻一共有137万多条 | 未知 | 包含地名、人名和机构名三类 |
MSRA | 未知 | 未知 | 5 万多条中文命名实体识别标注数据(IOB2 格式,符合 CoNLL 2002 和 CRF++ 标准)包含地名、人名和机构名三类 |
Resume NER data | ACL 2018 paper 《Chinese NER Using Lattice LSTM》 | 爬虫新浪财经的的简历数据, CoNLL format (BIOES tag scheme),包括城市、学校、地点、人名、组织等 | |
影视、音乐、书籍 | 未知 | 未知 | 类似于人名/地名/组织机构名的命名体识别数据集,大约10000条影视/音乐/书籍数据 |
1300W字的新闻 | 未知 | 未知 | 该语料可用于分词、NER、POS等任务。标记和格式请参考此文章(https://cloud.tencent.com/developer/article/1091906) |
CCKS2017中文电子病例命名实体识别 | 北京极目云健康科技有限公司 | 数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理 | |
CCKS2018中文电子病例命名实体识别 | 医渡云(北京)技术有限公司 | CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体 | |
CLUE Fine-Grain NER | CLUE | CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料 | |
语料名称 | 语料大小 | 语料来源 | 语料描述 |
---|---|---|---|
2018中国‘法研杯’法律智能挑战赛数据 | 未知 | 未知 | 268万刑法法律文书,共涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑 |
今日头条中文新闻(短文本) | 共382688条 | 未知 | 15个分类中,包含民生、文化、娱乐、体育、财经、房产、骑车、教育、科技、军事、旅游、国际、证券、农业、电竞 |
SMP2017中文人机对话评测数据 | - | 未知 | 包含了两个任务的数据集,用户意图领域分类和特定域任务型人机对话在线评测。第一个数据集用得比较多。用户意图领域分类包含闲聊类、任务垂直类共三十一个类别,属于短文本分类的一个范畴 |
数据集 | 数据概览 | 下载地址 |
---|---|---|
ChnSentiCorp_htl_all | 7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论 | 点击查看 |
waimai_10k | 某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条 | 点击查看 |
online_shopping_10_cats | 10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条, 包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店 |
点击查看 |
weibo_senti_100k | 10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条 | 点击查看 |
simplifyweibo_4_moods | 36 万多条,带情感标注 新浪微博,包含 4 种情感, 其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条 |
点击查看 |
dmsc_v2 | 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 | 点击查看 |
yf_dianping | 24 万家餐馆,54 万用户,440 万条评论/评分数据 | 点击查看 |
yf_amazon | 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 | 点击查看 |
数据集 | 数据概览 | 下载地址 |
---|---|---|
ez_douban | 5 万多部电影(3 万多有电影名称,2 万多没有电影名称),2.8 万 用户,280 万条评分数据 | 点击查看 |
dmsc_v2 | 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 | 点击查看 |
yf_dianping | 24 万家餐馆,54 万用户,440 万条评论/评分数据 | 点击查看 |
yf_amazon | 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 | 点击查看 |
数据集 | 数据概览 | 下载地址 |
---|---|---|
保险知道 | 8000 多条保险行业问答数据,包括用户提问、网友回答、最佳回答 | 点击查看 |
安徽电信知道 | 15.6 万条电信问答数据,包括用户提问、网友回答、最佳回答 | 点击查看 |
金融知道 | 77 万条金融行业问答数据,包括用户提问、网友回答、最佳回答 | 点击查看 |
法律知道 | 3.6 万条法律问答数据,包括用户提问、网友回答、最佳回答 | 点击查看 |
联通知道 | 20.3 万条联通问答数据,包括用户提问、网友回答、最佳回答 | 点击查看 |
农行知道 | 4 万条农业银行问答数据,包括用户提问、网友回答、最佳回答 | 点击查看 |
保险知道 | 58.8 万条保险行业问答数据,包括用户提问、网友回答、最佳回答 | 点击查看 |
580万百度知道社群问答 | 包括超过580万的问题,每个问题带有问题标签。问答对983万个,每个问题的答案个数1.7个,问题标签个数5824个。 | 点击查看 |
DuReader | 百度开源的一个QA和MRC数据集,共140万篇文档,30万个问题,及66万个答案。 | 点击查看 |
社区问答数据 | 含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个话题,总共有2.8万个各式话题,话题包罗万象。从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签 | 点击查看 |
由哈工大SCIR博士生侯宇泰收集整理的一个任务型对话数据集大全
这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。 此外,为了帮助研究者更好的把握领域进展的脉络,以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。
数据集的地址如下:
https://github.com/AtmaHou/Task-Oriented-Dialogue-Dataset-Survey
语料名称 | 语料大小 | 语料来源 | 语料描述 |
---|---|---|---|
维基百科json版(wiki2019zh) | 104万个词条, 1.6G | wiki | 做预训练的语料或构建词向量,也可以用于构建知识问答 |
新闻语料json版(news2016zh) | 250万篇新闻,原始数据9G | 涵盖了6.3万个媒体,含标题、关键词、描述、正文 | 密码: film 包含了250万篇新闻。数据集划分:数据去重并分成三个部分。训练集:243万;验证集:7.7万;测试集,数万 |
百科类问答json版(baike2018qa) | 150万个问答,原始数据1G多 | 密码:fu45 | 含有150万个预先过滤过的、高质量问题和答案,每个问题属于一个类别。总共有492个类别 |
社区问答json版(webtext2019zh) | 410万个问答,过滤后数据3.7G | 1400万个原始问答 | 含有410万个预先过滤过的、高质量问题和回复。 |
-
1.4亿三元组中文知识图谱(https://github.com/ownthink/KnowledgeGraphData)
-
开放的中文知识图谱社区(http://www.openkg.cn/):这里有很多垂直领域图谱数据,我就不一一放上来了。
-
腾讯词向量
-
腾讯AI实验室公开的中文词向量数据集包含800多万中文词汇,其中每个词对应一个200维的向量。
-
-
THULAC 中文词法分析工具包 by 清华 (C++/Java/Python)
-
LTP 语言技术平台 by 哈工大 (C++) pylyp LTP的python封装
-
BaiduLac by 百度 Baidu's open-source lexical analysis tool for Chinese, including word segmentation, part-of-speech tagging & named entity recognition.
-
HanLP (Java)
-
SnowNLP (Python) Python library for processing Chinese text
-
小明NLP (Python) 轻量级中文自然语言处理工具
-
chinese_nlp (C++ & Python) Chinese Natural Language Processing tools and examples
-
CoreNLP by Stanford (Java) A Java suite of core NLP tools.
-
Stanza by Stanford (Python) A Python NLP Library for Many Human Languages
-
spaCy (Python) Industrial-Strength Natural Language Processing with a online course
-
gensim (Python) Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora.
-
Kashgari - Simple and powerful NLP framework, build your state-of-art model in 5 minutes for named entity recognition (NER), part-of-speech tagging (PoS) and text classification tasks. Includes BERT and word2vec embedding.
-
Jieba 结巴中文分词 (Python及大量其它编程语言衍生) 做最好的 Python 中文分词组件
-
北大中文分词工具 (Python) 高准确度中文分词工具,简单易用,跟现有开源工具相比大幅提高了分词的准确率。
-
bert-chinese-ner 使用预训练语言模型BERT做中文NER
-
Information-Extraction-Chinese Chinese Named Entity Recognition with IDCNN/biLSTM+CRF, and Relation Extraction with biGRU+2ATT 中文实体识别与关系提取
-
Rasa NLU (Python) turn natural language into structured data, a Chinese fork at Rasa NLU Chi
-
Rasa Core (Python) machine learning based dialogue engine for conversational software
-
Chatstack A Full Pipeline UI for building Chinese NLU System
-
Snips NLU (Python) Snips NLU is a Python library that allows to parse sentences written in natural language and extracts structured information.
-
DeepPavlov (Python) An open source library for building end-to-end dialog systems and training chatbots.
-
ChatScript Natural Language tool/dialog manager, a rule-based chatbot engine.
-
Chatterbot (Python) ChatterBot is a machine learning, conversational dialog engine for creating chat bots.
-
Chatbot (Python) 基於向量匹配的情境式聊天機器人
-
QA-Snake (Python) 基于多搜索引擎和深度学习技术的自动问答
-
使用深度学习算法实现的中文阅读理解问答系统 (Python)
-
AnyQ by Baidu 主要包含面向FAQ集合的问答系统框架、文本语义匹配工具SimNet。
-
QASystemOnMedicalKG (Python) 以疾病为中心的一定规模医药领域知识图谱,并以该知识图谱完成自动问答与分析服务。
-
GPT2-chitchat (Python) 用于中文闲聊的GPT2模型
-
WU, Ledell, et al. StarSpace: Embed All The Things!. arXiv preprint arXiv:1709.03856, 2017.
-
CHEN, Liang-Wei; LEE, Wei-Chun; HWANG, Hsiang-Wei. When Word Embedding Meets Lexical Networks.