Autotune the workspace_size_limit in conv. #40338

JamesLim-sy · 2022-03-08T15:32:16Z

PR types

Performance optimization

PR changes

OPs

Describe

CudnnConvKernel 的修改主要涵盖以下内容：

通过调用platform::GpuAvailableMemToAlloc和memory::StatGetCurrentValue，或许当前空闲系统内存、显存池内存，并此作为workspace_size_limit，动态地调整可用workspace_size的上限。
- 开启条件：因CycleGAN等部分模型存在性能下降情况，固当前设置FLAGS_conv_workspace_size_limit < 0时开启，FLAGS_conv_workspace_size_limit >= 0时仍使用固定的workspace_size_limit，后续将提PR改进方案并默认开启。
- 特别说明：
  - 使用不固定的workspace_size_limit，在搜索时会创建很小大小不同的、一次性的workspace，导致bs较小时模型训练期间显存显著增加。解决方案：搜索期间，使用cudaMalloc和cudaFree来创建workspace，避免这些workspace被显存池cache住。
修改SearchAlgorithm::Find方法返回值：定义类型SearchResult，从单独的algorithm返回值，变成返回{algorithm, time_cost, workspace_size} 一组数据，同时能够在ConvKernel中获取cudnnFindXxx选择出的算法类型和时间开销，以便于提取后续的algo_profiler_result。
新增conv_base_helper.h文件：整合conv_cudnn_helper.h和conv_miopen_helper.h中的可以复用的组件，缩减无效代码规模。

修改后的效果展示：

OP性能方面：（A100-40G机器性能）
调整前：
调整后：
SearchAlgorithm::Find返回值方面：
经过测试采用SearchResult类型的返回值后，可以在ConvKernel内得到SearchAlgorithm::Find方法获得的最优算法时间开销time_cost.
模型层面
a. 在下图MLPerf ResNet50模型的第一个卷积计算中，无需设置FLAGS_conv_workspace_size_limit，即可在FLAGS_cudnn_exhaustive_search=1时获得最佳性能。

b. 通过了Benchmark平台全量模型可运行测试；
c. 通过以下常用Conv2d的PaddleClas模型中，显存打满设置的可运行测试。

模型	bs	fp32	A100-40G	V100-32G
HRNet_W48_C	128	fp32	✓	✓
MobileNetV1	768	fp32	✓	✓
MobileNetV2	560	fp32	✓	✓
ShuffleNetV2_x1_0	1536	fp32	✓	✓
MobileNetV3_large_x1_0	640	fp32	✓	✓
alt_gvt_base	152	fp32	✓	✓
SwinTransformer	104	fp32	✓	✓

该PR需要联合#41313 一起测试和验证性能，故先合进去再优化。

paddle-bot-old · 2022-03-08T15:32:21Z

Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

… add_kernel_metrics_tools

zhangting2020 · 2022-03-22T02:17:28Z

paddle/fluid/operators/conv_op.cc

@@ -583,7 +583,7 @@ void Conv3DOpMaker::Make() {
                "(bool, default false) cuDNN has many algorithm to calculation "
                "convolution, whether enable exhaustive search "
                "for cuDNN convolution or not, default is False.")
-      .SetDefault(false)
+      .SetDefault(true)


这个默认值不能改吧？设置为true，现在默认就开启穷举搜索了。

这里的修改是方便在Benchmark机器上跑全量模型测试，省去手动修改Benchmark中的各个脚本了。目前全量测试已经结束，会提交脚本修改回默认 false的状态。

… add_kernel_metrics_tools

…m-sy/Paddle into add_kernel_metrics_tools

Xreki · 2022-03-28T06:24:29Z