这个秘籍解释了如何使用 PyTorch 分析器并测量模型操作符的时间和内存消耗。

# 介绍

PyTorch 包含一个简单的分析器 API，当用户需要确定模型中最昂贵的运算符时，该 API 非常有用。

在这个秘籍中，我们将使用一个简单的 Resnet 模型来演示如何使用 Profiler 来分析模型性能。

步骤
1. 导入所有必要的库
2. 实例化一个简单的 Resnet 模型
3. 使用探查器分析执行时间
4. 使用探查器分析内存消耗
5. 使用跟踪功能
6. 检查堆栈跟踪
7. 将数据可视化为火焰图
8. 使用探查器分析长时间运行的作业  

1. 导入所有必要的库

在这个秘籍中，我们将使用 torch、torchvision.models 和 profiler 模块：

In [1]:
import torch
import torchvision.models as models
from torch.profiler import profile, record_function, ProfilerActivity

2. 实例化一个简单的 Resnet 模型

让我们创建一个 Resnet 模型的实例并为其准备输入：

In [2]:
model = models.resnet18()
inputs = torch.randn(5, 3, 224, 224)

3.使用profiler分析执行时间

PyTorch 分析器通过上下文管理器启用并接受许多参数，其中一些最有用的是：

* 活动 - 要分析的活动列表：
    * ProfilerActivity.CPU - PyTorch 操作符、TorchScript 函数和用户定义的代码标签（参见下面的 record_function）；
    * ProfilerActivity.CUDA - 设备上的 CUDA 内核；
* record_shapes - 是否记录操作员输入的形状；
* profile_memory - 是否报告模型张量消耗的内存量；
* use_cuda - 是否测量 CUDA 内核的执行时间。

注意：使用 CUDA 时，分析器还会显示主机上发生的运行时 CUDA 事件。

让我们看看我们如何使用分析器来分析执行时间：

In [3]:
with profile(activities=[ProfilerActivity.CPU], record_shapes=True) as prof:
    with record_function("model_inference"):
        model(inputs)

  return torch.max_pool2d(input, kernel_size, stride, padding, dilation, ceil_mode)


请注意，我们可以使用 record_function 上下文管理器用用户提供的名称标记任意代码范围（model_inference 在上面的示例中用作标签）。

Profiler 允许人们检查在使用 Profiler 上下文管理器包装的代码范围的执行期间调用了哪些运算符。 如果多个分析器范围同时处于活动状态（例如在并行 PyTorch 线程中），则每个分析上下文管理器仅跟踪其相应范围的运算符。 Profiler 还会自动分析使用 torch.jit._fork 启动的异步任务和（在向后传递的情况下）使用向后（）调用启动的向后传递运算符。

让我们打印出上面执行的统计信息：

In [4]:
print(prof.key_averages().table(sort_by="cpu_time_total", row_limit=10))

---------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  
                             Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg    # of Calls  
---------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  
                  model_inference         7.85%       8.701ms        99.04%     109.710ms     109.710ms             1  
                     aten::conv2d         0.21%     233.000us        66.13%      73.255ms       3.663ms            20  
                aten::convolution         0.26%     286.000us        65.92%      73.022ms       3.651ms            20  
               aten::_convolution         0.82%     905.000us        65.66%      72.736ms       3.637ms            20  
         aten::mkldnn_convolution        64.41%      71.350ms        64.84%      71.831ms       3.592ms            20  
                 aten::batch_norm       

在这里我们看到，正如预期的那样，大部分时间都花在了卷积上（特别是在使用 MKL-DNN 支持编译的 PyTorch 的 mkldnn_convolution 中）。 注意self cpu time和cpu time的区别——运营商可以调用其他运营商，self cpu time不包括子运营商调用花费的时间，而总cpu time包括它。 您可以通过将 sort_by="self_cpu_time_total" 传递到 table 调用中来选择按 self cpu 时间排序。

要获得更精细的结果粒度并包含操作员输入形状，请传递 group_by_input_shape=True（注意：这需要使用 record_shapes=True 运行分析器）：

In [6]:
print(prof.key_averages(group_by_input_shape=True).table(sort_by="cpu_time_total", row_limit=10))

---------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  --------------------------------------------------------------------------------  
                             Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg    # of Calls                                                                      Input Shapes  
---------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  --------------------------------------------------------------------------------  
                  model_inference         7.85%       8.701ms        99.04%     109.710ms     109.710ms             1                                                                                []  
                     aten::conv2d         0.05%      51.000us        14.90%      16.506ms       4.127ms             4                             [[5, 64, 56, 56], [64, 64, 3, 3], [], [], [], 

注意 aten::convolution 两次出现，输入形状不同。  
Profiler 还可用于分析在 GPU 上执行的模型的性能：

In [8]:
model = models.resnet18().cuda()
inputs = torch.randn(5, 3, 224, 224).cuda()

with profile(activities=[
        ProfilerActivity.CPU, ProfilerActivity.CUDA], record_shapes=True) as prof:
    with record_function("model_inference"):
        model(inputs)

print(prof.key_averages().table(sort_by="cuda_time_total", row_limit=10))

-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                        model_inference         4.88%       2.751ms        97.86%      55.127ms      55.127ms       0.000us         0.00%       1.665ms       1.665ms             1  
                                           aten::conv2d         0.25%     139.000us        75.47%      42.512ms       2.126ms       0.000us         0.00%       1.231ms      61.550us            20  
         

请注意输出中出现的设备上内核（例如 sgemm_32x32x32 NN）。

4. 使用profiler分析内存消耗

PyTorch 分析器还可以显示在模型运算符执行期间分配（或释放）的内存量（由模型的张量使用）。 在下面的输出中，“self”内存对应于操作符分配（释放）的内存，不包括对其他操作符的子调用。 要启用内存分析功能，请传递 profile_memory=True。

In [9]:
model = models.resnet18()
inputs = torch.randn(5, 3, 224, 224)

with profile(activities=[ProfilerActivity.CPU],
        profile_memory=True, record_shapes=True) as prof:
    model(inputs)

print(prof.key_averages().table(sort_by="self_cpu_memory_usage", row_limit=10))

---------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                             Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg       CPU Mem  Self CPU Mem    # of Calls  
---------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                      aten::empty         0.85%     773.000us         0.85%     773.000us       7.653us      94.79 Mb      94.79 Mb           101  
    aten::max_pool2d_with_indices         3.36%       3.049ms         3.36%       3.049ms       3.049ms      11.48 Mb      11.48 Mb             1  
                      aten::addmm         0.35%     317.000us         0.37%     333.000us     333.000us      19.53 Kb      19.53 Kb             1  
                        aten::add         0.31%     281.000us         0.31%     281.000us      14.050us         

In [10]:
print(prof.key_averages().table(sort_by="cpu_memory_usage", row_limit=10))

---------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                             Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg       CPU Mem  Self CPU Mem    # of Calls  
---------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                      aten::empty         0.85%     773.000us         0.85%     773.000us       7.653us      94.79 Mb      94.79 Mb           101  
                 aten::batch_norm         0.16%     145.000us        21.69%      19.701ms     985.050us      47.41 Mb           0 b            20  
     aten::_batch_norm_impl_index         0.25%     225.000us        21.53%      19.556ms     977.800us      47.41 Mb           0 b            20  
          aten::native_batch_norm        12.45%      11.312ms        21.22%      19.277ms     963.850us      47.

5. 使用追踪功能

分析结果可以作为 .json 跟踪文件输出：

In [11]:
model = models.resnet18().cuda()
inputs = torch.randn(5, 3, 224, 224).cuda()

with profile(activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA]) as prof:
    model(inputs)

prof.export_chrome_trace("trace.json")

6. 检查堆栈跟踪

Profiler 可用于分析 Python 和 TorchScript 堆栈跟踪：

In [12]:
with profile(
    activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA],
    with_stack=True,
) as prof:
    model(inputs)

# Print aggregated stats
print(prof.key_averages(group_by_stack_n=5).table(sort_by="self_cuda_time_total", row_limit=2))

-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ---------------------------------------------------------------------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  Source Location                                                              
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ---------------------------------------------------------------------------  
                                aten::cudnn_convolution         4.47%       2.209ms         9.21%       4.546ms     568.250us     596.000us        33.50%     596.000us      7

7. 将数据可视化为火焰图

执行时间（self_cpu_time_total 和 self_cuda_time_total 指标）和堆栈跟踪也可以可视化为火焰图。 为此，首先使用 export_stacks 导出原始数据（需要 with_stack=True）：

In [13]:
prof.export_stacks("/tmp/profiler_stacks.txt", "self_cuda_time_total")

我们建议使用例如 生成交互式 SVG 的 Flamegraph 工具：

In [None]:
# git clone https://github.com/brendangregg/FlameGraph
# cd FlameGraph
# ./flamegraph.pl --title "CUDA time" --countname "us." /tmp/profiler_stacks.txt > perf_viz.svg

8. 使用 profiler 分析长时间运行的作业

PyTorch 分析器提供了一个额外的 API 来处理长时间运行的作业（例如训练循环）。 跟踪所有执行可能会很慢并导致非常大的跟踪文件。 为避免这种情况，请使用可选参数：

* schedule - 指定一个将整数参数（步骤编号）作为输入并返回分析器操作的函数，使用此参数的最佳方法是使用可以为您生成时间表的 torch.profiler.schedule 辅助函数；
* on_trace_ready - 指定一个函数，它将对探查器的引用作为输入，并在每次新跟踪准备好时由探查器调用。
为了说明 API 的工作原理，让我们首先考虑以下带有 torch.profiler.schedule 辅助函数的示例：

In [14]:
from torch.profiler import schedule

my_schedule = schedule(
    skip_first=10,
    wait=5,
    warmup=1,
    active=3,
    repeat=2)

Profiler 假定长时间运行的作业由步骤组成，从零开始编号。 上面的示例为探查器定义了以下操作序列：

1. 参数skip_first 告诉profiler 它应该忽略前10 个步骤（skip_first 的默认值为零）；
1. 在第一个 skip_first 步骤之后，探查器开始执行探查器周期；
1. 每个周期由三个阶段组成：
    * 空闲（等待 = 5 步），在此阶段分析器未激活；
    * 预热（warmup=1 步），在此阶段分析器开始跟踪，但结果被丢弃； 此阶段用于丢弃在跟踪开始时分析器获得的样本，因为它们通常会因额外的开销而倾斜；
    * 主动跟踪（主动=3 步），在此阶段分析器跟踪和记录数据；
1. 可选的重复参数指定循环数的上限。 默认情况下（零值），只要作业运行，探查器就会执行循环。

因此，在上面的示例中，profiler 将跳过前 15 个步骤，将下一步花在热身上，主动记录接下来的 3 个步骤，再跳过 5 个步骤，将下一步花在热身上，再主动记录另外 3 个步骤 . 由于指定了 repeat=2 参数值，分析器将在前两个循环后停止记录。

在每个周期结束时，分析器调用指定的 on_trace_ready 函数并将其自身作为参数传递。 此函数用于处理新的跟踪 - 通过获取表输出或将输出保存在磁盘上作为跟踪文件。

要向分析器发送下一步已开始的信号，请调用 prof.step() 函数。 当前分析器步骤存储在 prof.step_num 中。

以下示例显示了如何使用上述所有概念：