Skip to content

Latest commit

 

History

History
52 lines (35 loc) · 2.98 KB

Overview_cn.rst

File metadata and controls

52 lines (35 loc) · 2.98 KB

paddle.text

paddle.text 目录是飞桨在文本领域的高层 API。有 Paddle 内置以及 PaddleNLP 中提供的两种。具体如下:

  • 内置数据集相关 API <about_datasets>
  • PaddleNLP 提供的 API <about_paddlenlp>

内置数据集相关 API

API 名称 API 功能
Conll05st <cn_api_paddle_text_Conll05st> Conll05st 数据集
Imdb <cn_api_paddle_text_Imdb> Imdb 数据集
Imikolov <cn_api_paddle_text_Imikolov> Imikolov 数据集
Movielens <cn_api_paddle_text_Movielens> Movielens 数据集
UCIHousing <cn_api_paddle_text_UCIHousing> UCIHousing 数据集
WMT14 <cn_api_paddle_text_WMT14> WMT14 数据集
WMT16 <cn_api_paddle_text_WMT16> WMT16 数据集

PaddleNLP 提供的 API

PaddleNLP 提供了在文本任务上简洁易用的全流程 API,旨在为飞桨开发者提升文本领域建模效率。深度适配飞桨框架,提供基于最新版 Paddle 的 NLP 领域最佳实践。

安装命令:

pip install --upgrade paddlenlp -i https://pypi.org/simple

可参考 PaddleNLP GitHub 以及 文档

API 模块 功能简介 API 用法简单示例
paddlenlp.datasets 数据集相关 API,包含自定义数据集,数据集贡献与数据集快速加载等功能 train_ds = paddlenlp.datasets.load_dataset('ptb', splits='train')
paddlenlp.data 文本数据处理 Pipeline 的相关 API 见链接文档
paddlenlp.transformers 基于 Transformer 结构相关的预训练模型 API,包含 ERNIE, BERT, RoBERTa, Electra 等主流经典结构和下游任务 model = paddlenlp.transformers.BertForSequenceClassification.from_pretrained('bert-wwm-chinese', num_classes=2)
paddlenlp.metrics 提供了文本任务上的一些模型评价指标,例如 Perplexity、GlLUE 中用到的评估器、BLEU、Rouge 等,与飞桨高层 API 兼容 metric = paddlenlp.metrics.AccuracyAndF1()
paddlenlp.embeddings 词向量相关 API,支持一键快速加载包预训练的中文词向量,VisualDL 高维可视化等功能 token_embedding = paddlenlp.embeddings.TokenEmbedding(embedding_name='fasttext.wiki-news.target.word-word.dim300.en')