torch.compile 是 PyTorch 2.0 版本中引入的一个新特性，它允许用户将 PyTorch 代码编译为优化的内核，从而提高模型的运行效率。这个特性利用了 PyTorch 的 JIT 编译器，可以在不牺牲灵活性的前提下，显著提升模型的推理和训练速度。

以下是一个使用 torch.compile 的测试例子，包括了一个简单的模型定义、编译和性能测试的步骤：

In [5]:
import torch
import torchvision.models as models
import time

# 确保使用的是支持 torch.compile 的 PyTorch 版本
assert torch.__version__ >= '2.0'

# 定义一个简单的模型，这里以 torchvision 中的 resnet18 为例
model = models.resnet18()

# 将模型转移到 GPU 上
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)

# 定义一个优化的编译模式，这里使用的是 'inductor' 后端
# 注意：需要安装对应的后端库，例如 'torchtriton'，才能使用特定的编译器
# compiler = torch.utils.benchmark.get_compiler()
# compiled_model = torch.compile(model, mode=compiler, backend='inductor')
compiled_model = torch.compile(model)

# 准备输入数据
input_data = torch.randn(1, 3, 224, 224).to(device)

# 测试原始模型的推理时间
start_time = time.time()
with torch.no_grad():
    output = model(input_data)
elapsed_time_eager = time.time() - start_time
print(f'Eager mode inference time: {elapsed_time_eager} seconds')

# 测试编译后的模型的推理时间
start_time = time.time()
with torch.no_grad():
    output = compiled_model(input_data)
elapsed_time_compiled = time.time() - start_time
print(f'Compiled mode inference time: {elapsed_time_compiled} seconds')

# 比较两种模式的性能
print(f'Speedup: {elapsed_time_eager / elapsed_time_compiled}')

Eager mode inference time: 0.1847376823425293 seconds




Compiled mode inference time: 9.169508695602417 seconds
Speedup: 0.020146955357720223
