paddle.text 目录是飞桨在文本领域的高层 API。有 Paddle 内置以及 PaddleNLP 中提供的两种。具体如下:
API 名称 | API 功能 |
---|---|
:ref:`Conll05st <cn_api_text_datasets_Conll05st>` |
Conll05st 数据集 |
:ref:`Imdb <cn_api_text_datasets_Imdb>` |
Imdb 数据集 |
:ref:`Imikolov <cn_api_text_datasets_Imikolov>` |
Imikolov 数据集 |
:ref:`Movielens <cn_api_text_datasets_Movielens>` |
Movielens 数据集 |
:ref:`UCIHousing <cn_api_text_datasets_UCIHousing>` |
UCIHousing 数据集 |
:ref:`WMT14 <cn_api_text_datasets_WMT14>` |
WMT14 数据集 |
:ref:`WMT16 <cn_api_text_datasets_WMT16>` |
WMT16 数据集 |
PaddleNLP 提供了在文本任务上简洁易用的全流程 API,旨在为飞桨开发者提升文本领域建模效率。深度适配飞桨框架,提供基于最新版 Paddle 的 NLP 领域最佳实践。
安装命令:
pip install --upgrade paddlenlp -i https://pypi.org/simple
API 模块 | 功能简介 | API 用法简单示例 |
---|---|---|
paddlenlp.datasets |
数据集相关 API,包含自定义数据集,数据集贡献与数据集快速加载等功能 |
|
paddlenlp.data |
文本数据处理 Pipeline 的相关 API | 见链接文档 |
paddlenlp.transformers |
基于 Transformer 结构相关的预训练模型 API,包含 ERNIE, BERT, RoBERTa, Electra 等主流经典结构和下游任务 |
|
paddlenlp.metrics |
提供了文本任务上的一些模型评价指标,例如 Perplexity、GlLUE 中用到的评估器、BLEU、Rouge 等,与飞桨高层 API 兼容 |
|
paddlenlp.embeddings |
词向量相关 API,支持一键快速加载包预训练的中文词向量,VisualDL 高维可视化等功能 |
|