<div align="center"><a href="https://www.nvidia.com/en-us/deep-learning-ai/education/"><img src="./assets/DLI_Header.png"></a></div>

# 为大规模推理部署模型

## 02 - 简单的 PyTorch 模型
-------

**目录**

* [简介](#introduction)
* [创建模型目录结构](#structure)
* [定义一个简单的 PyTorch 模型](#model)
* [使用 TorchScript 追踪模型](#torchscript)
* [创建配置文件](#configuration)
* [在 Triton 推理服务器中加载模型](#load)
* [将推理请求发送到服务器](#infer)
* [练习](#exercise)
* [小结](#conclusion)


<a id="introduction"></a>
### 简介

我们将在此 notebook 中创建 PyTorch ResNet50 模型，将其写为本地 PyTorch 模型并转换为 ONNX 表示形式，然后使用 Triton 推理服务器加以部署。我们将了解如何在 Triton 推理服务器中创建模型目录结构和配置文件、如何使用 TorchScript 和 ONNX，以及如何向 Triton 推理服务器中部署的模型发送推理请求。

<a id="structure"></a>
### 创建模型目录结构

Triton 推理服务器可为模型库中的模型提供服务。首次运行 Triton 推理服务器时，您需要指定模型所在的模型库位置：

```
tritonserver --model-repository=/models
```

每个模型都位于模型库内各自的模型子目录中，即 `/models` 下的每个目录均表示一个唯一的模型。例如，我们将在此 notebook 中部署两个模型：`simple-onnx-model` 和 `simple-pytorch-model`。

所有模型通常遵循相似的目录结构。在每个目录中，我们将创建配置文件 `config.pbtxt`，用它来详细描述模型的有关信息，例如批量大小、输入张量的形状、部署用的后端（比如 PyTorch、ONNX、TensorFlow、TensorRT）等等。稍后，我们将在此 notebook 中探索配置文件。

此外，我们还可以创建一个或多个模型版本。每个版本都位于具有相应版本号（始于 `1`）的子目录名称之下，而模型文件（例如 `model.onnx`、`model.pt`）就在这个子目录下。

```
root@server:/models$ tree
.
├──imple-onnx-model
│   ├── 1
│   │   └── model.onnx
│   └── config.pbtxt
├── simple-pytorch-model
│   ├── 1
│   │   └── model.pt
│   └── config.pbtxt

```

我们还可以添加一个文件以表示输出名称。为简洁起见，我们已在此 notebook 中省略了此步骤。如需详细了解如何在 Triton 推理服务器中使用模型库和模型目录结构，请参阅以下文档：https://github.com/triton-inference-server/server/blob/r20.12/docs/model_repository.md

接下来，我们将为每个 PyTorch 和 ONNX 模型创建模型目录结构。

In [None]:
!mkdir -p models/simple-pytorch-model
!mkdir -p models/simple-pytorch-model/1
!mkdir -p models/simple-onnx-model
!mkdir -p models/simple-onnx-model/1

<a id="model"></a>
### 定义一个简单的 PyTorch 模型

在下一节中，我们将定义一个简单的 PyTorch ResNet50 模型。 我们指定将使用的预训练后的 ResNet50 模型，该模型被从 ImageNet 训练中学到的权重所实例化。在定义了我们的 `Model` 类之后，我们将实例化这个模型，使用 `.eval()` 方法将模型设置为评估模式，并使用 `.cuda()` 方法将模型分配到 GPU 上。如需详细了解如何使用 CUDA 在 GPU 上训练 PyTorch 模型，请参阅[此篇文章](https://medium.com/ai%C2%B3-theory-practice-business/use-gpu-in-your-pytorch-code-676a67faed09)。

In [None]:
import torch
from torch import nn
from torchvision import models


class Model(nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        self.model = models.resnet50(pretrained=True)
        
    def forward(self, x):
        return self.model(x)

model = Model().eval().cuda()

接下来，加载 ImageNet 标签。

In [None]:
import json

with open('./imagenet-simple-labels.json') as file:
    labels = json.load(file)

print(labels[:5])

使用 Triton 推理服务器之前，我们需要确认在 ImageNet 上预训练的 ResNet50 模型适用于样本图像。我们将使用金鱼图像，您可以随意尝试使用自己的图像！

In [None]:
import numpy as np
from PIL import Image


image = Image.open('./assets/goldfish.jpg')
image

下面，我们将创建一个转换流程来获取图像，将图像大小调整为 `(256, 256)`，进行中心裁剪，生成一张大小为 `(224, 224)` 的图像， 并将其转换为 PyTorch 张量，然后使用 ImageNet 数据集的均值和标准差对图像进行归一化。

In [None]:
from torchvision import transforms


imagenet_mean = [0.485, 0.456, 0.406]
imagenet_std = [0.485, 0.456, 0.406]

resize = transforms.Resize((256, 256))
center_crop = transforms.CenterCrop(224)
to_tensor = transforms.ToTensor()
normalize = transforms.Normalize(mean=imagenet_mean,
                                 std=imagenet_std)

transform = transforms.Compose([resize, center_crop, to_tensor, normalize])

最后，我们将对图像应用转换流程，使用 `.unsqueeze(0)` 方法为批量大小添加维度，然后使用 `.cuda()` 方法把图像分配到 GPU 上。我们将让图像通过模型以获得 `logits`输出。

将 `logits` 迁移到 CPU 后，我们将使用 `torch.topk` 函数访问前 3 个最大的 `logits` 值和它们的索引。最终得到的结果确实是一条金鱼。太棒了！

In [None]:
image_tensor = transform(image).unsqueeze(0).cuda()
logits = model(image_tensor)

K = 3
values, indices = torch.topk(logits.cpu(), K)

values = values.detach().numpy().tolist()[0]
indices = indices.detach().numpy().tolist()[0]

for i in range(K):
    print(values[i], indices[i], labels[indices[i]])

<a id="torchscript"></a>
### 使用 TorchScript 追踪模型


我们已定义模型并确定该模型能如我们所期待地那样运行。在将模型写成 `model.pt` 文件之前，我们将使用 TorchScript 追踪模型。TorchScript 方法可使用 PyTorch 代码创建可序列化且可优化的模型。我们可以保存 Python 进程中的任何 TorchScript 程序，并将这些程序加载到没有 Python 依赖项的进程中。这是我们使用 `libtorch` 后端将 PyTorch 模型加载到 Triton 推理服务器时需要执行的工作。

使用 TorchScript 生成模型的方法有两种：使用 `torch.jit.script` 函数或 `torch.jit.trace` 函数。

在函数或 `nn.Module` 上使用 `torch.jit.script` 将检查源代码，使用 TorchScript 编译器将其编译为 TorchScript 代码，然后返回 `ScriptModule` 或 `ScriptFunction`。

在函数上使用 `torch.jit.trace` 将返回可执行文件或 `ScriptFunction`，这些内容支持使用即时编译加以优化。

使用 `torch.jit.script` 还是 `torch.jit.trace` 有待商榷。通常来说，`torch.jit.script` 在灵活方面更胜一筹，可支持您处理不同的批量大小，而 `torch.jit.trace` 要求您使用固定批量大小的示例虚拟输入数据传递给模型。通常，我建议您从 `torch.jit.script` 入手。

有关 TorchScript 的更多详情，请参阅：

* TorchScript 文档：https://pytorch.org/docs/stable/jit.html
* 这篇博文非常富有见地：https://paulbridger.com/posts/mastering-torchscript/

下面，我们将围绕模型定义封装器，将模型封装器设置为评估模式，并在 GPU 上分配模型。接下来，我们将使用 `torch.jit.script` 函数生成 TorchScript 代码，在 `simple-pytorch-model` 模型目录的版本 `1` 子目录下，将模型写为 `model.pt`。

In [None]:
class PyTorch_to_TorchScript(nn.Module):
    def __init__(self, my_model):
        super(PyTorch_to_TorchScript, self).__init__()
        self.model = my_model.model
    
    def forward(self, x):
        return self.model(x)

torchscript_model = PyTorch_to_TorchScript(model).eval().cuda()
traced_script_module = torch.jit.script(torchscript_model)
traced_script_module.save('models/simple-pytorch-model/1/model.pt')

我们还会将模型转换为 ONNX 的表示形式。开放的神经网络交换 (ONNX) 是一个开放的生态系统，可助力 AI 开发者在项目开发时选择合适的工具。ONNX 为深度学习和传统机器学习等 AI 模型提供了开源格式。它定义了可扩展的计算图模型，以及内置运算符和标准数据类型。目前，我们侧重于用于推理（评分）所需的能力。

下面，我们将基于输入图像的形状创建随机数据的 Torch Tensor，并将其分配至 GPU。我们还将指定模型的输入和输出名称。我们将在下一节中介绍这些值在配置模型中的用法。

最后，我们将以 ONNX 表示形式，在 `simple-onnx-model` 模型目录的 `1` 版本子目录下，将模型导出为 `model.onnx` 文件，并指定虚拟输入以及相应的输入和输出名称。我们还将传入一个字典，将输入和输出名称映射为批量大小的维度。我们可借此处理不同的批量大小，如果不使用 `dynamic_axes` 参数，系统将对 ONNX 模型采用硬编码，使其使用我们为虚拟输入选择的任何批量大小（本例中的批量大小为 1）。

In [None]:
dummy_input = torch.randn(1, 3, 224, 224).cuda()

input_names = ['actual_input_1'] + ['learned_%d' % i for i in range(16)]
output_names = ['output1']

torch.onnx.export(model, dummy_input, 
                  'models/simple-onnx-model/1/model.onnx', verbose=False, 
                  input_names=input_names, output_names=output_names, 
                  dynamic_axes={'actual_input_1': {0: 'batch_size'}, 'output1': {0: 'batch_size'}})

<a id="configuration"></a>
### 创建配置文件

以 TorchScript 和 ONNX 表示形式定义和写入模型后，我们现在将注意力转向为模型创建配置文件。

对于模型配置而言，至少须指定模型名称、平台或后端属性、max_batch_size 属性以及模型的输入和输出张量（名称、数据类型和形状）。


如需详细了解如何在 Triton 推理服务器中创建模型配置文件，请参阅相关文档：
https://github.com/triton-inference-server/server/blob/r20.12/docs/model_configuration.md

In [None]:
configuration = """
name: "simple-pytorch-model"
platform: "pytorch_libtorch"
max_batch_size: 32
input [
 {
    name: "input__0"
    data_type: TYPE_FP32
    format: FORMAT_NCHW
    dims: [ 3, 224, 224 ]
  }
]
output {
    name: "output__0"
    data_type: TYPE_FP32
    dims: [ 1000 ]
  }
"""

with open('models/simple-pytorch-model/config.pbtxt', 'w') as file:
    file.write(configuration)

我们还将为 ONNX 模型创建配置文件。请注意，因为我们在导出 ONNX 模型时指定了输入和输出名称，所以输入和输出张量的名称属性不同。请注意，`platform` 已更新为 `onnxruntime_onnx`。

In [None]:
configuration = """
name: "simple-onnx-model"
platform: "onnxruntime_onnx"
max_batch_size: 32
input [
 {
    name: "actual_input_1"
    data_type: TYPE_FP32
    format: FORMAT_NCHW
    dims: [ 3, 224, 224 ]
  }
]
output {
    name: "output1"
    data_type: TYPE_FP32
    dims: [ 1000]
  }
"""

with open('models/simple-onnx-model/config.pbtxt', 'w') as file:
    file.write(configuration)

<a id="load"></a>
### 在 Triton 推理服务器中加载模型


创建模型目录结构、定义和导出模型以及创建配置文件后，我们现在将等待 Triton 推理服务器来加载模型。我们已将此实验设置成**轮询**模式下使用 Triton 推理服务器。这意味着 Triton 推理服务器将以 30 秒为间隔，持续轮询模型的修改内容或新创建的模型。请运行以下单元，以预留一些时间，以便 Triton 推理服务器对新模型/修改内容进行轮询，然后再继续下一步操作。由于此步骤的异步性质，我们增加了 15 秒时间以确保顺利完成。

In [None]:
!sleep 45

此时，我们的模型应已部署就绪且随时可用！为确认 Triton 推理服务器已启动并运行，我们会看到对以下 URL 的 `curl` 请求。

In [None]:
!curl -v triton:8000/v2/health/ready

如果 Triton 已准备就绪，则 HTTP 请求会返回状态 200；如果 Triton 未准备就绪，则会返回 200 以外的状态。

我们还可以向模型端点发送 `curl` 请求，以确认我们的模型已部署就绪并可随时使用。如果模型已准备就绪，此 `curl` 请求会返回状态 200；如果模型未准备就绪，则会返回 200 以外的状态。

此外，我们还将看到模型的相关信息，例如：

* 模型的名称、
* 模型可用的版本、
* 后端平台（例如 pytorch_libtorch、onnxruntime_onnx）、
* 附带各自名称、数据类型和形状的输入与输出。


In [None]:
!curl -v triton:8000/v2/models/simple-pytorch-model

In [None]:
!curl -v triton:8000/v2/models/simple-onnx-model

<a id="infer"></a>
### 将推理请求发送到服务器

模型部署就绪后，即可向模型发送推理请求。

首先，我们将加载 `tritonclient.http` 模组和实用程序函数，用于处理 NumPy 数据。

In [None]:
import tritonclient.http as tritonhttpclient

接下来，我们将定义模型的输入和输出名称、模型名称、使用 Triton 推理服务器向其中部署模型的 URL（本例中为主机`triton:8000`）以及模型版本。

In [None]:
VERBOSE = False
input_name = 'input__0'
input_shape = (1, 3, 224, 224)
input_dtype = 'FP32'
output_name = 'output__0'
model_name = 'simple-pytorch-model'
url = 'triton:8000'
model_version = '1'

我们将使用 `tritonhttpclient.InferenceServerClient` 类通过 `.get_model_metadata()` 方法访问模型元数据，并使用 `get_model_config()` 方法获取模型配置，进而实例化客户端。

In [None]:
triton_client = tritonhttpclient.InferenceServerClient(url=url, verbose=VERBOSE)
model_metadata = triton_client.get_model_metadata(model_name=model_name, model_version=model_version)
model_config = triton_client.get_model_config(model_name=model_name, model_version=model_version)

接下来，我们将金鱼（当前为 Torch Tensor）的预定义图像转换为 CPU 上的 NumPy 数组。

In [None]:
image_numpy = image_tensor.cpu().numpy()
print(image_numpy.shape)

使用输入名称、形状和期望的数据类型来实例化输入数据的占位符（placeholder）。我们将金鱼图像的输入数据设置为 NumPy 数组表示形式，还需仅用名字来实例化输出数据的占位符。

最后，我们将使用 `triton_client.infer()` 方法将输入提交至 Triton 推理服务器，指定模型名称、模型版本、输入和输出，并将结果转换为 NumPy 数组。

In [None]:
input0 = tritonhttpclient.InferInput(input_name, input_shape, input_dtype)
input0.set_data_from_numpy(image_numpy, binary_data=False)

output = tritonhttpclient.InferRequestedOutput(output_name, binary_data=False)
response = triton_client.infer(model_name, model_version=model_version, 
                               inputs=[input0], outputs=[output])
logits = response.as_numpy(output_name)
logits = np.asarray(logits, dtype=np.float32)
print(logits.shape)

所需的全部操作如上所述！我们可以识别最大的 logit 值，并确认我们的模型正确推断出图像确实是一条金鱼。

In [None]:
print(labels[np.argmax(logits)])

<a id="exercise"></a>
### 练习 #1 - 向 ONNX 模型提交推理请求

我们为学员布置一个练习：向已部署就绪的 ONNX 模型提交推理请求。如果遇到问题（或想确认答案），请单击 `...` 以显示答案。

提示：仅复制上述推理代码不起作用，请注意我们为 ONNX 定义的配置文件中的模型名称和输入和输出名称。

#### 第 1 步：定义名称和形状

**提示**：尝试查看上面定义的 ONNX `configuration`。

In [None]:
VERBOSE = FIXME
input_name = FIXME
input_shape = FIXME
input_dtype = FIXME
output_name = FIXME
model_name = FIXME
url = FIXME
model_version = FIXME

In [None]:
VERBOSE = False
input_name = 'actual_input_1'
input_shape = (1, 3, 224, 224)
input_dtype = 'FP32'
output_name = 'output1'
model_name = 'simple-onnx-model'
url = 'triton:8000'
model_version = '1'

#### 第 2 步：从 Triton 获取模型信息

In [None]:
triton_client = tritonhttpclient.FIXME(url=url, verbose=VERBOSE)
model_metadata = triton_client.FIXME(model_name=model_name, model_version=model_version)
model_config = triton_client.FIXME(model_name=model_name, model_version=model_version)

In [None]:
triton_client = tritonhttpclient.InferenceServerClient(url=url, verbose=VERBOSE)
model_metadata = triton_client.get_model_metadata(model_name=model_name, model_version=model_version)
model_config = triton_client.get_model_config(model_name=model_name, model_version=model_version)

#### 第 3 步：测试图像

这里没有 `FIXME`，查看图像形状。

In [None]:
image_numpy = image_tensor.cpu().numpy()
print(image_numpy.shape)

#### 第 4 步：定义输入和输出以从 Triton 获取推理响应

In [None]:
input0 = FIXME

output = FIXME
response = FIXME

logits = response.as_numpy(output_name)
logits = np.asarray(logits, dtype=np.float32)

In [None]:
input0 = tritonhttpclient.InferInput(input_name, input_shape, input_dtype)
input0.set_data_from_numpy(image_numpy, binary_data=False)

output = tritonhttpclient.InferRequestedOutput(output_name, binary_data=False)
response = triton_client.infer(model_name, model_version=model_version, 
                               inputs=[input0], outputs=[output])
logits = response.as_numpy(output_name)
logits = np.asarray(logits, dtype=np.float32)

#### 第 5 步：验证响应

In [None]:
print(labels[np.argmax(logits)])

<a id="conclusion"></a>
### 小结

我们在此 notebook 中展示了如何创建 PyTorch ResNet50 模型，将其写为本地 PyTorch 模型并转换为 ONNX 表示形式，然后使用 Triton 推理服务器加以部署。我们了解了如何在 Triton 推理服务器中创建模型目录结构和配置文件、如何使用 TorchScript 和 ONNX，以及如何向 Triton 推理服务器中部署的模型发送推理请求。

我们建议您运行下面的单元进行清理工作，此操作将释放 GPU 显存，以供实验的其它部分使用。

In [None]:
import IPython
IPython.Application.instance().kernel.do_shutdown(True)

<div align="center"><a href="https://www.nvidia.com/en-us/deep-learning-ai/education/"><img src="./assets/DLI_Header.png"></a></div>