Skip to content

Latest commit

 

History

History
52 lines (35 loc) · 2.95 KB

Overview_cn.rst

File metadata and controls

52 lines (35 loc) · 2.95 KB

paddle.text

paddle.text 目录是飞桨在文本领域的高层API。有Paddle内置以及PaddleNLP中提供的两种。具体如下:

内置数据集相关API

API名称 API功能
:ref:`Conll05st <cn_api_text_datasets_Conll05st>`
Conll05st数据集
:ref:`Imdb <cn_api_text_datasets_Imdb>`
Imdb数据集
:ref:`Imikolov <cn_api_text_datasets_Imikolov>`
Imikolov数据集
:ref:`Movielens <cn_api_text_datasets_Movielens>`
Movielens数据集
:ref:`UCIHousing <cn_api_text_datasets_UCIHousing>`
UCIHousing数据集
:ref:`WMT14 <cn_api_text_datasets_WMT14>`
WMT14数据集
:ref:`WMT16 <cn_api_text_datasets_WMT16>`
WMT16数据集

PaddleNLP提供的API

PaddleNLP 提供了在文本任务上简洁易用的全流程API,旨在为飞桨开发者提升文本领域建模效率。深度适配飞桨框架,提供基于最新版Paddle的NLP领域最佳实践。

安装命令:

pip install --upgrade paddlenlp -i https://pypi.org/simple

可参考PaddleNLP GitHub 以及 文档

API模块 功能简介 API用法简单示例
paddlenlp.datasets
数据集相关API,包含自定义数据集,数据集贡献与数据集快速加载等功能
train_ds = paddlenlp.datasets.load_dataset('ptb', splits='train')
paddlenlp.data
文本数据处理Pipeline的相关API 见链接文档
paddlenlp.transformers
基于Transformer结构相关的预训练模型API,包含ERNIE, BERT, RoBERTa, Electra等主流经典结构和下游任务
model = paddlenlp.transformers.BertForSequenceClassification.from_pretrained('bert-wwm-chinese', num_classes=2)
paddlenlp.metrics
提供了文本任务上的一些模型评价指标,例如Perplexity、GlLUE中用到的评估器、BLEU、Rouge等,与飞桨高层API兼容
metric = paddlenlp.metrics.AccuracyAndF1()
paddlenlp.embeddings
词向量相关API,支持一键快速加载包预训练的中文词向量,VisualDL高维可视化等功能
token_embedding = paddlenlp.embeddings.TokenEmbedding(embedding_name='fasttext.wiki-news.target.word-word.dim300.en')