整理了NLP方向数据集,实际使用时请根据需要:
数据集名称 | 简介 |
---|---|
SQuAD | 斯坦福问答数据集,包括SQuAD1.1和SQuAD2.0 |
DuReader-yesno | 千言数据集:阅读理解,判断答案极性 |
DuReader-robust | 千言数据集:阅读理解,答案原文抽取 |
CMRC2018 | 第二届“讯飞杯”中文机器阅读理解评测数据集 |
DRCD | 台達閱讀理解資料集 |
TriviaQA | Washington大学问答数据集 |
C3 | 阅读理解单选题 |
数据集名称 | 简介 |
---|---|
CoLA | 单句分类任务,二分类,判断句子是否合法 |
SST-2 | 单句分类任务,二分类,判断句子情感极性 |
MRPC | 句对匹配任务,二分类,判断句子对是否是相同意思 |
STSB | 计算句子对相似性,分数为1~5 |
QQP | 判定句子对是否等效,等效、不等效两种情况,二分类任务 |
MNLI | 句子对,一个前提,一个是假设。前提和假设的关系有三种情况:蕴含(entailment),矛盾(contradiction),中立(neutral)。句子对三分类问题 |
QNLI | 判断问题(question)和句子(sentence)是否蕴含,蕴含和不蕴含,二分类 |
RTE | 判断句对是否蕴含,句子1和句子2是否互为蕴含,二分类任务 |
WNLI | 判断句子对是否相关,相关或不相关,二分类任务 |
LCQMC | A Large-scale Chinese Question Matching Corpus 语义匹配数据集 |
ChnSentiCorp | 中文评论情感分析语料 |
COTE-DP | 中文观点抽取语料 |
SE-ABSA16_PHNS | 中文评价对象级情感分析语料 |
AFQMC | 蚂蚁金融语义相似度数据集,1表示句子1和句子2的含义类似,0表示含义不同 |
TNEWS | 今日头条中文新闻(短文本)分类,共15类 |
IFLYTEK | 长文本分类,共119个类别 |
OCNLI | 原生中文自然语言推理数据集,句子对三分类问题 |
CMNLI | 中文语言推理任务,判断sentence1和sentence2的关系:蕴含(entailment),矛盾(contradiction),中立(neutral)。句子对三分类问题 |
CLUEWSC2020 | WSC Winograd模式挑战中文版,代词消歧任务,二分类任务 |
CSL | 论文关键词识别,判断关键词是否全部为真实关键词,二分类任务 |
EPRSTMT | FewCLUE 评测中的电商产品评论情感分析数据集,Positive、Negative 情感 2 分类任务 |
CSLDCP | FewCLUE 评测中的中文科学文献学科分类数据集,根据文献的中文摘要判断文献类别,共 67 类别。 |
TNEWSF | FewCLUE 评测中的今日头条中文新闻(短文本)分类,共15类 |
IFLYTEK | FewCLUE 评测中的长文本分类任务,共 119 个类别 |
OCNLIF | FewCLUE 评测中的中文自然语言推理数据集,句子对三分类问题 |
BUSTM | FewCLUE 评测中对话短文本语义匹配数据集, 2 分类任务 |
CHIDF | FewCLUE 评测中的成语阅读理解填空, 根据文本内容从候选 7 个成语中预测正确的成语 |
CSLF | FewCLUE 评测中的论文关键词识别,判断关键词是否全部为真实关键词,二分类任务 |
CLUEWSCF | FewCLUE 评测中的 WSC Winograd 模式挑战中文版,代词消歧任务,二分类任务 |
THUCNews | THUCNews中文新闻类别分类 |
HYP | 英文政治新闻情感分类语料 |
XNLI | 15种语言自然语言推理数据集,三分类任务. |
XNLI_CN | 中文自然语言推理数据集(XNLI的子集),三分类任务. |
数据集名称 | 简介 |
---|---|
CAIL2019-SCM | 相似法律案例匹配 |
数据集名称 | 简介 |
---|---|
MSRA_NER | MSRA 命名实体识别数据集 |
People's Daily | 人民日报命名实体识别数据集 |
CoNLL-2002 | 西班牙语和荷兰语实体识别数据集 |
数据集名称 | 简介 |
---|---|
IWSLT15 | IWSLT'15 English-Vietnamese data 英语-越南语翻译数据集 |
WMT14ENDE | WMT14 EN-DE 经过BPE分词的英语-德语翻译数据集 |
数据集名称 | 简介 |
---|---|
BSTC | 千言数据集:机器同传,包括transcription_translation和asr |
数据集名称 | 简介 |
---|---|
DuConv | 千言数据集:开放域对话,中文知识型对话数据集 |
数据集名称 | 简介 |
---|---|
Poetry | 中文诗歌古典文集数据 |
Couplet | 中文对联数据集 |
DuReaderQG | 基于DuReader的问题生成数据集 |
AdvertiseGen | 中文文案生成数据集 |
LCSTS_new | 中文摘要生成数据集 |
CNN/Dailymail | 英文摘要生成数据集 |
数据集名称 | 简介 |
---|---|
PTB | Penn Treebank Dataset |
Yahoo Answer 100k | 从Yahoo Answer采样100K |