Skip to content

v2.3.0

Compare
Choose a tag to compare
@Superjomn Superjomn released this 23 Feb 03:35
· 25 commits to release/v2.3 since this release
9359787

v2.3.0

基础功能

  • model_optimize_tool 升级为 opt模型转化方法

    • 支持输出模型算子、Lite所有算子、可以判断模型是否支持提示信息(#2624opt统计算子方法);
    • model_optimize_tool 工具更名为 opt#2850opt 取自 llvm/opt ),未来会将更多静态模型的分析、优化功能加入到这个工具中。
  • Paddle-Lite Naive Buffer 模型优化支持输出为单个文件:#2800

  • PaddleLite支持“无校准数据的训练后量化方法”产出的量化模型,模型大小减小2~4倍,详细数据见#2719,使用方法见文档

  • Arm

    1. 新增对multiclass_nms2 op的支持,支持return_index参数#2917
    2. 新增5x5 stride = 2 fp32 depthwise conv的kernel实现 #2770
    3. 新增5x5 stride = 2 int8 depthwise conv的kernel实现 #2813
    4. 重构5x5 stride = 1 fp32 depthwise conv的kernel实现,支持任意padding #2917
    5. fp32 conv支持 relu6, leakey relu 融合 #2797 #2781 #2674
    6. 新增fc + relu 融合 #2765
  • X86新增 leaky_relu kernel。#2819

  • FPGA新增
    onehot、yolobox op, 新增支持yolo、ocr模型支持

  • XPU新增

    1. tanh、stack、gather、lookup_table、slice、layer_norm、gelu、dropout、matmul、cast的bridge。
    2. 新增BERT模型的支持。
    3. 迁移op bridge单测。
      (#2640#2646#2650#2653#2665#2666#2668#2676#2686#2700#2706#2711#2714#2735#2738#2817#2857)
  • NPU新增

    1. dropout、fusion_elementwise_sub_activation、fusion_elementwise_mul_activation、fusion_elementwise_div_activation、matm、unsqueeze、unsqueeze2、instance_norm、layer_norm 的 op bridge。
    2. 新增Cycle-GAN模型的支持(需要华为内部Rom的支持)。
    3. 迁移op bridge单测。
      (#2745#2747#2753#276#2764#2767#2773#2784#2790#2798#2847#2849#2857#29)
  • 新增OpenCL Image2D Kernel,包含30个Image2D Kernel,涵盖14个OP。
    包括不限于 nearset_interp、reshape2、concat、sigmoid/relu6/relu、elementwise_add/mul、conv2d/depthwise_conv2d、pool2d。
    #2837#2806#2771#2788#2815#2802#2853#2861#2844#2838#2837#2818

  • ArmLinux编译新增对飞腾CPU的支持 (FT2000PLUS测试通过) #2571

性能

  • 提高Naive模型加载速度: 减少内存拷贝过程,提高模型加载速度 #2726#2736
    性能数据: 模型加载过程耗时缩短为v2.2.0的1/4 。(transformer模型单次加载时间从1.2s降低为0.3s)

  • 提升由tensorflow模型转为paddle模型在arm cpu上的性能表现

  • 提升含conv + relu6或conv + leakey relu op的模型在arm cpu上的性能表现

  • 提升含5x5 stride = 2 depthwise conv op的量化模型在arm cpu上的性能表现
    (rk3288上模型耗时由143ms->68ms,注:模型为内部使用模型)

文档

Demo

  • Cxx Demo新增口罩检测Demo #2682
  • Cxx Demo新增CV预处理库Demo #2691
  • Cxx Demo新增YOLOv3目标检测Demo #2713

bug fix

  1. conv_tranpose支持output_size参数,与paddle fluid对齐。#2749
  2. ch_norm 支持bool格式的参数ist 2846
  3. 修复Mac环境下的cxx_demo不可以编译的问题#2792
  4. 修复部分op set lod_tensor bug #2732 #2750