Skip to content

Latest commit

 

History

History
106 lines (85 loc) · 7.96 KB

NLP.md

File metadata and controls

106 lines (85 loc) · 7.96 KB

NLP常用的数据集

整理了NLP方向数据集,实际使用时请根据需要:

阅读理解

数据集名称 简介
SQuAD 斯坦福问答数据集,包括SQuAD1.1和SQuAD2.0
DuReader-yesno 千言数据集:阅读理解,判断答案极性
DuReader-robust 千言数据集:阅读理解,答案原文抽取
CMRC2018 第二届“讯飞杯”中文机器阅读理解评测数据集
DRCD 台達閱讀理解資料集
TriviaQA Washington大学问答数据集
C3 阅读理解单选题

文本分类

数据集名称 简介
CoLA 单句分类任务,二分类,判断句子是否合法
SST-2 单句分类任务,二分类,判断句子情感极性
MRPC 句对匹配任务,二分类,判断句子对是否是相同意思
STSB 计算句子对相似性,分数为1~5
QQP 判定句子对是否等效,等效、不等效两种情况,二分类任务
MNLI 句子对,一个前提,一个是假设。前提和假设的关系有三种情况:蕴含(entailment),矛盾(contradiction),中立(neutral)。句子对三分类问题
QNLI 判断问题(question)和句子(sentence)是否蕴含,蕴含和不蕴含,二分类
RTE 判断句对是否蕴含,句子1和句子2是否互为蕴含,二分类任务
WNLI 判断句子对是否相关,相关或不相关,二分类任务
LCQMC A Large-scale Chinese Question Matching Corpus 语义匹配数据集
ChnSentiCorp 中文评论情感分析语料
COTE-DP 中文观点抽取语料
SE-ABSA16_PHNS 中文评价对象级情感分析语料
AFQMC 蚂蚁金融语义相似度数据集,1表示句子1和句子2的含义类似,0表示含义不同
TNEWS 今日头条中文新闻(短文本)分类,共15类
IFLYTEK 长文本分类,共119个类别
OCNLI 原生中文自然语言推理数据集,句子对三分类问题
CMNLI 中文语言推理任务,判断sentence1和sentence2的关系:蕴含(entailment),矛盾(contradiction),中立(neutral)。句子对三分类问题
CLUEWSC2020 WSC Winograd模式挑战中文版,代词消歧任务,二分类任务
CSL 论文关键词识别,判断关键词是否全部为真实关键词,二分类任务
EPRSTMT FewCLUE 评测中的电商产品评论情感分析数据集,Positive、Negative 情感 2 分类任务
CSLDCP FewCLUE 评测中的中文科学文献学科分类数据集,根据文献的中文摘要判断文献类别,共 67 类别。
TNEWSF FewCLUE 评测中的今日头条中文新闻(短文本)分类,共15类
IFLYTEK FewCLUE 评测中的长文本分类任务,共 119 个类别
OCNLIF FewCLUE 评测中的中文自然语言推理数据集,句子对三分类问题
BUSTM FewCLUE 评测中对话短文本语义匹配数据集, 2 分类任务
CHIDF FewCLUE 评测中的成语阅读理解填空, 根据文本内容从候选 7 个成语中预测正确的成语
CSLF FewCLUE 评测中的论文关键词识别,判断关键词是否全部为真实关键词,二分类任务
CLUEWSCF FewCLUE 评测中的 WSC Winograd 模式挑战中文版,代词消歧任务,二分类任务
THUCNews THUCNews中文新闻类别分类
HYP 英文政治新闻情感分类语料
XNLI 15种语言自然语言推理数据集,三分类任务.
XNLI_CN 中文自然语言推理数据集(XNLI的子集),三分类任务.

文本匹配

数据集名称 简介
CAIL2019-SCM 相似法律案例匹配

序列标注

数据集名称 简介
MSRA_NER MSRA 命名实体识别数据集
People's Daily 人民日报命名实体识别数据集
CoNLL-2002 西班牙语和荷兰语实体识别数据集

机器翻译

数据集名称 简介
IWSLT15 IWSLT'15 English-Vietnamese data 英语-越南语翻译数据集
WMT14ENDE WMT14 EN-DE 经过BPE分词的英语-德语翻译数据集

机器同传

数据集名称 简介
BSTC 千言数据集:机器同传,包括transcription_translation和asr

对话系统

数据集名称 简介
DuConv 千言数据集:开放域对话,中文知识型对话数据集

文本生成

数据集名称 简介
Poetry 中文诗歌古典文集数据
Couplet 中文对联数据集
DuReaderQG 基于DuReader的问题生成数据集
AdvertiseGen 中文文案生成数据集
LCSTS_new 中文摘要生成数据集
CNN/Dailymail 英文摘要生成数据集

语料库

数据集名称 简介
PTB Penn Treebank Dataset
Yahoo Answer 100k 从Yahoo Answer采样100K