v2.3.0
v2.3.0
基础功能
-
model_optimize_tool
升级为opt
:模型转化方法 -
Paddle-Lite Naive Buffer 模型优化支持输出为单个文件:#2800
- 为了简化移动端模型部署,将原有 Naive Buffer 格式需要的两个文件合并为一个文件;
- 原有的两个文件的模型格式依旧支持,但会在未来 v3.0 废弃;
- 修改
model_optimize_tool
(现opt
) 转化出的模型格式为单个文件(由_model
变为单个文件modelname.nb
); - 对应 Naive Buffer 合并后的模型格式,新增加载新格式模型的接口
- C++接口:
- Python接口:
- Java接口:
- 原有加载接口依旧支持,但会在未来 v3.0 废弃
-
PaddleLite支持“无校准数据的训练后量化方法”产出的量化模型,模型大小减小2~4倍,详细数据见#2719,使用方法见文档。
-
Arm
-
X86新增 leaky_relu kernel。#2819
-
FPGA新增
onehot、yolobox op, 新增支持yolo、ocr模型支持 -
XPU新增
-
NPU新增
- dropout、fusion_elementwise_sub_activation、fusion_elementwise_mul_activation、fusion_elementwise_div_activation、matm、unsqueeze、unsqueeze2、instance_norm、layer_norm 的 op bridge。
- 新增Cycle-GAN模型的支持(需要华为内部Rom的支持)。
- 迁移op bridge单测。
(#2745、#2747、#2753、#276、#2764、#2767、#2773、#2784、#2790、#2798、#2847、#2849、#2857、#29)
-
新增OpenCL Image2D Kernel,包含30个Image2D Kernel,涵盖14个OP。
包括不限于 nearset_interp、reshape2、concat、sigmoid/relu6/relu、elementwise_add/mul、conv2d/depthwise_conv2d、pool2d。
(#2837、#2806、#2771、#2788、#2815、#2802、#2853、#2861、#2844、#2838、#2837、#2818) -
ArmLinux编译新增对飞腾CPU的支持 (FT2000PLUS测试通过) #2571
性能
-
提高Naive模型加载速度: 减少内存拷贝过程,提高模型加载速度 #2726,#2736
性能数据: 模型加载过程耗时缩短为v2.2.0
的1/4 。(transformer模型单次加载时间从1.2s降低为0.3s) -
提升由tensorflow模型转为paddle模型在arm cpu上的性能表现
-
提升含conv + relu6或conv + leakey relu op的模型在arm cpu上的性能表现
-
提升含5x5 stride = 2 depthwise conv op的量化模型在arm cpu上的性能表现
(rk3288上模型耗时由143ms->68ms,注:模型为内部使用模型)
文档
- 发布全新的文档官网 https://paddle-lite.readthedocs.io/zh/release-v2.3/。
- 迁移文档到新的官网 。(#2820、#2840、#2923 、#2932、#2934、#2936 )
- 新增“有校准数据的训练后量化方法”和“无校准数据的训练后量化方法”使用文档。#2960