CoLA |
单句分类任务,二分类,判断句子是否合法 |
paddlenlp.datasets.load_dataset('glue','cola') |
SST-2 |
单句分类任务,二分类,判断句子情感极性 |
paddlenlp.datasets.load_dataset('glue','sst-2') |
MRPC |
句对匹配任务,二分类,判断句子对是否是相同意思 |
paddlenlp.datasets.load_dataset('glue','mrpc') |
STSB |
计算句子对相似性,分数为1~5 |
paddlenlp.datasets.load_dataset('glue','sts-b') |
QQP |
判定句子对是否等效,等效、不等效两种情况,二分类任务 |
paddlenlp.datasets.load_dataset('glue','qqp') |
MNLI |
句子对,一个前提,一个是假设。前提和假设的关系有三种情况:蕴含(entailment),矛盾(contradiction),中立(neutral)。句子对三分类问题 |
paddlenlp.datasets.load_dataset('glue','mnli') |
QNLI |
判断问题(question)和句子(sentence)是否蕴含,蕴含和不蕴含,二分类 |
paddlenlp.datasets.load_dataset('glue','qnli') |
RTE |
判断句对是否蕴含,句子1和句子2是否互为蕴含,二分类任务 |
paddlenlp.datasets.load_dataset('glue','rte') |
WNLI |
判断句子对是否相关,相关或不相关,二分类任务 |
paddlenlp.datasets.load_dataset('glue','wnli') |
LCQMC |
A Large-scale Chinese Question Matching Corpus 语义匹配数据集 |
paddlenlp.datasets.load_dataset('lcqmc') |
ChnSentiCorp |
中文评论情感分析语料 |
paddlenlp.datasets.load_dataset('chnsenticorp') |
COTE-DP |
中文观点抽取语料 |
paddlenlp.datasets.load_dataset('cote', 'dp') |
SE-ABSA16_PHNS |
中文评价对象级情感分析语料 |
paddlenlp.datasets.load_dataset('seabsa16', 'phns') |
AFQMC |
蚂蚁金融语义相似度数据集,1表示句子1和句子2的含义类似,0表示含义不同 |
paddlenlp.datasets.load_dataset('clue', 'afqmc') |
TNEWS |
今日头条中文新闻(短文本)分类,共15类 |
paddlenlp.datasets.load_dataset('clue', 'tnews') |
IFLYTEK |
长文本分类,共119个类别 |
paddlenlp.datasets.load_dataset('clue', 'iflytek') |
OCNLI |
原生中文自然语言推理数据集,句子对三分类问题 |
paddlenlp.datasets.load_dataset('clue', 'ocnli') |
CMNLI |
中文语言推理任务,判断sentence1和sentence2的关系:蕴含(entailment),矛盾(contradiction),中立(neutral)。句子对三分类问题 |
paddlenlp.datasets.load_dataset('clue', 'cmnli') |
CLUEWSC2020 |
WSC Winograd模式挑战中文版,代词消歧任务,二分类任务 |
paddlenlp.datasets.load_dataset('clue', 'cluewsc2020') |
CSL |
论文关键词识别,判断关键词是否全部为真实关键词,二分类任务 |
paddlenlp.datasets.load_dataset('clue', 'csl') |
EPRSTMT |
FewCLUE 评测中的电商产品评论情感分析数据集,Positive、Negative 情感 2 分类任务 |
paddlenlp.datasets.load_dataset('fewclue', 'eprstmt') |
CSLDCP |
FewCLUE 评测中的中文科学文献学科分类数据集,根据文献的中文摘要判断文献类别,共 67 类别。 |
paddlenlp.datasets.load_dataset('fewclue', 'csldcp') |
TNEWSF |
FewCLUE 评测中的今日头条中文新闻(短文本)分类,共15类 |
paddlenlp.datasets.load_dataset('fewclue', 'tnews') |
IFLYTEK |
FewCLUE 评测中的长文本分类任务,共 119 个类别 |
paddlenlp.datasets.load_dataset('fewclue', 'iflytek') |
OCNLIF |
FewCLUE 评测中的中文自然语言推理数据集,句子对三分类问题 |
paddlenlp.datasets.load_dataset('fewclue', 'ocnli') |
BUSTM |
FewCLUE 评测中对话短文本语义匹配数据集, 2 分类任务 |
paddlenlp.datasets.load_dataset('fewclue', ‘bustm') |
CHIDF |
FewCLUE 评测中的成语阅读理解填空, 根据文本内容从候选 7 个成语中预测正确的成语 |
paddlenlp.datasets.load_dataset('fewclue', 'chid') |
CSLF |
FewCLUE 评测中的论文关键词识别,判断关键词是否全部为真实关键词,二分类任务 |
paddlenlp.datasets.load_dataset('fewclue', 'csl') |
CLUEWSCF |
FewCLUE 评测中的 WSC Winograd 模式挑战中文版,代词消歧任务,二分类任务 |
paddlenlp.datasets.load_dataset('fewclue', 'cluewsc') |
THUCNews |
THUCNews中文新闻类别分类 |
paddlenlp.datasets.load_dataset('thucnews') |
HYP |
英文政治新闻情感分类语料 |
paddlenlp.datasets.load_dataset('hyp') |
XNLI |
15种语言自然语言推理数据集,三分类任务. |
paddlenlp.datasets.load_dataset('xnli', 'ar') |
XNLI_CN |
中文自然语言推理数据集(XNLI的子集),三分类任务. |
paddlenlp.datasets.load_dataset('xnli_cn') |