Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

PaddleNLP 2.5.0 Release Note Candidate #4439

Closed
linjieccc opened this issue Jan 11, 2023 · 0 comments
Closed

PaddleNLP 2.5.0 Release Note Candidate #4439

linjieccc opened this issue Jan 11, 2023 · 0 comments

Comments

@linjieccc
Copy link
Contributor

linjieccc commented Jan 11, 2023

New Features

PPDiffusers 扩散模型工具库发布

PPDiffusers是基于PaddlePaddle的扩散模型工具库,提供多模态的扩散模型,帮助开发者快速使用文生图、文生视频、文生文相关扩散模型

SOTA扩散模型Pipelines集合

  • PPDiffusers已经集成了33+Pipelines,不仅支持 Stable Diffusion 文生图Pipeline,还支持基于FastDeploy的高性能文生图Pipeline

提供丰富的Noise Scheduler

  • 提供丰富的噪声调度器(Noise Scheduler),可以权衡速度与质量 PPDiffusers集成了14+Scheduler,不仅支持 DDPM、DDIM 和 PNDM,还支持最新的 DPMSolver

支持多种Diffusion模型组件

  • 集成多种 Diffusion 模型组件,如UNet1d、UNet2d、UNet2d Conditional

提供丰富的训练和推理教程

  • 提供了丰富的训练教程,支持使用 Laion400M 数据集 从零训练 Latent Diffusion Model 模型,可以轻易进行扩散模型的二次开发;同时支持高性能FastDeploy推理教程

端上语义理解压缩方案

发布基于ERNIE-Tiny模型的端上语义理解压缩方案,帮助开发者快速在边缘端设备部署预训练模型

ERNIE-Tiny V2 轻量级模型 发布

  • ERNIE-Tiny V2在V1的模型的基础上使用了下游知识注入、多任务学习等策略,在out-domain、low-resourced 数据上的效果显著提升

基于 PaddleSlim 全量化压缩方案发布

  • 首次发布基于PaddleSlim的全量化加速方案,同时支持词表量化来降低部署内存占用,在精度基本无损的情况下模型预测速度大幅提升

FastDeplopy 边缘部署加速

  • FastDeploy 是一款全场景、易用灵活、极致高效的 AI 推理部署工具,大大降低在边缘端部署难度

产业范例库升级

文档智能信息抽取UIE-X 应用

  • 场景全面: 覆盖文档信息抽取各类主流任务,支持多语言,满足开发者多样信息抽取落地需求
  • 效果领先: 以在多模态信息抽取上有突出效果的模型UIE-X作为训练基座,具有广泛成熟的实践应用性
  • 简单易用: 通过Taskflow实现三行代码可实现无标注数据的情况下进行快速调用,一行命令即可开启信息抽取训练,轻松完成
    部署上线,降低信息抽取技术落地门槛
  • 高效调优: 开发者无需机器学习背景知识,即可轻松上手数据标注及模型训练流程

统一文本分类UTC应用

  • SOTA效果:UTC是基于统一语义匹配框架建模的SOTA模型,模型效果刷新FewCLUE和ZeroCLUE两大榜单
  • 统一建模:单模型可支持多种任务建模,同时支持多分类、多标签、层次分类多个任务
  • 快速迁移:零样本分类和小样本迁移能力强,同时提供Label Studio标注工具标注方法,支持快速调优开发

统一情感分析UIE-Seta应用

  • 应用全面:新增uie-senta系列模型,模型效果大幅提升,支持语句情感分类,属性抽取,观点抽取等常用情感分析能力
  • 高效调优:提供Label Studio标注工具标注方法,开发者通过简单数据标注,即可快速进行模型训练与调优
  • 场景验证:真实应用场景打磨的应用工具,解决隐性情感维度抽取、情感维度聚合等真实场景难题

无监督问答应用

  • 应用创新:无监督检索式问答系统(即问答对自动生成智能检索式问答),基于问题生成、UIE答案抽取、检索式问答等应用组合来支持以非结构化文本形式为上下文自动生成QA问答对,生成的问答对语料可以通过无监督的方式构建检索式问答系统。
  • 简单应用:通过PaddleNLP Pipelines 提供包括问答语料生成、索引库构建、模型服务部署、WebUI可视化一整套端到端智能问答系统能力

基础框架升级

PretrainedConfig

  • 模型配置正式化,配置模型参数更加易用,GPT/T5/Ernie/ErnieM/ErnieLayout/Bart/MBart/Unified_Transformer/Unimo/CodeGen 等模型升级至使用PretrainedConfig

Trainer API

模型压缩 API

数据增强api

Prompt API

  • Template API 新增支持 Prefix-Tuning 和 UniMC

FastGeneration

FastTokenizer

HuggingFace 生态联合

PaddleNLP首次和HuggingFace生态联合,支持所有Model和Tokenizer类支持直接从Huggingface Hub下载和上传,开发者可以直接从HuggingFace体验预训练模型效果

  • 所有Model和Tokenizer类支持直接从Huggingface Hub下载和上传
  • Text Summarization, Fill Mask, Dialogue Taskflow支持直接从Huggingface Hub加载, 并且连通HuggingFace Inference API
  • 新增ConversionMixin, bert和gpt模型的from_pretrained 支持直接从Huggingface Hub加载torch权重的模型

Others

Bugs

New Contributors

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests