Skip to content

Releases: PaddlePaddle/PaddleNLP

PaddleNLP v2.0.3

17 Jun 15:21
995ebc1
Compare
Choose a tag to compare

API功能优化

  • 升级了load_dataset()方法,现在同时传入splitsdata_files参数时将由splits参数来指定读取本地数据集的格式。行为更加符合直觉。
  • 生成式APIgenerate()现在支持GPT预训练模型了!

更多的数据集

  • 新增BQCorpus中文文本相似度数据集,感谢 @frozenfish123 的高质量贡献! 🎉 🎉 🎉
  • 新增PAWS-X中文文本相似度数据集,感谢 @jiaqianjing 的高质量贡献! 🎉 🎉 🎉
  • 新增NLPCC14-SC中文情感分类数据集,感谢 @fiyen 的高质量贡献! 🎉 🎉 🎉

PaddleNLP v2.0.2

04 Jun 07:24
Compare
Choose a tag to compare

丰富预训练模型

  • 新增多粒度语言知识预训练模型ERNIE-Gram,该模型在多项中文NLP任务取得SOTA成绩。
  • 新增NeZha中文预训练模型,感谢 @jm12138 的高质量贡献! 🎉 🎉 🎉
  • 新增GPT CPM-Distill中文小型化模型,感谢 @jm12138 的高质量贡献!🎉 🎉 🎉

Bug Fix

  • 修复了softmax_with_crossentropy API导致的deprecated warning
  • 更新了ChnSentiCorp等数据集的官方下载链接。

PaddleNLP v2.0.0

20 May 08:42
7ac9971
Compare
Choose a tag to compare

PaddleNLP 2.0是飞桨生态的文本领域核心库,具备易用的文本领域API,多场景的应用示例、和高性能分布式训练三大特点,旨在提升飞桨开发者文本领域建模效率,并提供基于飞桨框架2.0的NLP领域最佳实践。

特性

易用的文本领域API

提供从数据集加载、文本预处理、组网建模、评估、到推的领域API:如一键加载丰富中文数据集的Dataset API, 可灵活高效的进行数据与处理的Data API,预置60+预训练词向量的Embedding API, 内置50+预训练模型,提供预训练模型生态基础设施的Transformer API等,可大幅提升NLP任务建模和迭代的效率。更多API详细说明请查看PaddleNLP官方文档

多场景的应用示例

PaddleNLP 2.0提供多粒度多场景的应用示例,涵盖从NLP基础技术、NLP核心技术、NLP系统应用以及文本相关的拓展应用等。全面基于飞桨2.0全新API体系开发,为开发提供飞桨2.0框架在文本领域的最佳实践。

高性能分布式训练

基于飞桨核心框架『动静统一』的特性与领先的自动混合精度优化策略,通过分布式Fleet API,支持超大规模参数的4D混合并行策略,并且可根据硬件情况灵活可配,高效地完成超大规模参数的模型训练。