Skip to content

Latest commit

 

History

History
31 lines (21 loc) · 2.09 KB

File metadata and controls

31 lines (21 loc) · 2.09 KB

Paddle Inference部署

本文档将介绍如何使用Paddle Inference工具进行自动文本摘要应用高性能推理推理部署。

目录

背景介绍

Paddle inference和主框架的Model.predict均可实现推理预测,Paddle Inference 是飞桨的原生推理库, 作用于服务器端和云端,提供高性能的推理能力,主框架的Model 对象是一个具备训练、测试、推理的神经网络。相比于Model.predict,inference可使用MKLDNN、CUDNN、TensorRT进行预测加速。Model.predict适用于训练好的模型直接进行预测,paddle inference适用于对推理性能、通用性有要求的用户,针对不同平台不同的应用场景进行了深度的适配优化,保证模型在服务器端即训即用,快速部署。由于 Paddle Inference 能力直接基于飞桨的训练算子,因此它支持飞桨训练出的所有模型的推理。

Paddle Inference Python端预测部署主要包含两个步骤:

  • 导出预测部署模型
  • 基于Python预测

导出预测部署模型

部署时需要使用预测格式的模型(即动态图转静态图操作)。预测格式模型相对训练格式模型而言,在拓扑上裁剪掉了预测不需要的算子,并且会做特定部署优化。具体操作详见FasterTransformer加速及模型静态图导出

基于Python预测

在终端输入以下命令可在GPU上进行预测:

python deploy/paddle_inference/inference_unimo_text.py --inference_model_dir ./inference_model

关键参数释义如下:

  • inference_model_dir:用于高性能推理的静态图模型参数路径;默认为"./inference_model"。