<div align="center"><a href="https://www.nvidia.com/en-us/deep-learning-ai/education/"><img src="./assets/DLI_Header.png"></a></div>

# 为大规模推理部署模型

## 03 - HuggingFace 模型
-------

**目录**

* [简介](#introduction)
* [定义 HuggingFace 预训练模型](#model)
* [使用 TorchScript 追踪模型](#torchscript)
* [创建模型目录结构](#structure)
* [创建配置文件](#configuration)
* [在 Triton 推理服务器中加载模型](#load)
* [将推理请求发送到服务器](#infer)
* [练习](#exercise)
* [小结](#conclusion)


<a id="introduction"></a>
### 简介

在此 notebook 中，我们将利用 HuggingFace 创建 PyTorch `XLMRobertaForSequenceClassification` 模型，使用 TorchScript 生成的代码将其写为本地 PyTorch 模型，然后使用 Triton 推理服务器加以部署。RoBERTa 是 BERT 模型架构的升级版。可以在[此处](https://huggingface.co/docs/transformers/model_doc/roberta)了解详情。我们的目标是了解 Triton 如何处理更复杂的模型。


<a id="structure"></a>
### 创建模型目录结构

接下来，我们将创建模型目录结构。如需详细了解如何在 PyTorch 中创建模型目录结构，请参阅上一个 notebook [02_Simple_PyTorch_Model.ipynb](02_Simple_PyTorch_Model.ipynb)。

```
root@server:/models$ tree
.
├── huggingface-model
│   ├── 1
│   │   └── model.pt
│   └── config.pbtxt
```

In [None]:
!mkdir -p models/huggingface-model
!mkdir -p models/huggingface-model/1

<a id="model"></a>
### 定义 HuggingFace 预训练模型

在本节中，我们将导入文本分词和标记化函数，以创建 `XLMRobertaForSequenceClassification` 模型的输入文本的标记（即文本的数字化表示）。我们将封装我们要用的模型，将其设置为评估模式，并分配到 GPU 上。最后，我们将使用 `torch.jit.trace` 函数生成 TorchScript 代码，将虚构的输入传递给该代码，并将结果另存为 `model.pt` 文件。

In [None]:
import torch
from transformers import XLMRobertaForSequenceClassification, XLMRobertaTokenizer


R_tokenizer = XLMRobertaTokenizer.from_pretrained('joeddav/xlm-roberta-large-xnli')
premise = "Jupiter's Biggest Moons Started as Tiny Grains of Hail"
hypothesis = 'This text is about space & cosmos'

input_ids = R_tokenizer.encode(premise, hypothesis, return_tensors='pt', 
                               max_length=256, padding='max_length')

mask = input_ids != 1
mask = mask.long()


class PyTorch_to_TorchScript(torch.nn.Module):
    def __init__(self):
        super(PyTorch_to_TorchScript, self).__init__()
        self.model = XLMRobertaForSequenceClassification.from_pretrained('joeddav/xlm-roberta-large-xnli', return_dict=False)
    def forward(self, data, attention_mask=None):
        return self.model(data.cuda(), attention_mask.cuda())

pt_model = PyTorch_to_TorchScript().eval().cuda()
# Jiyang: TorchScript, an intermediate representation of a PyTorch model (subclass of nn.Module) 
#         that can then be run in a high-performance environment such as C++.
# https://pytorch.org/tutorials/beginner/Intro_to_TorchScript_tutorial.html
traced_script_module = torch.jit.trace(pt_model, (input_ids, mask))
traced_script_module.save('models/huggingface-model/1/model.pt')

<a id="configuration"></a>
### 创建配置文件

接下来，我们将创建配置文件。如需详细了解如何在 PyTorch 中创建模型目录结构，请参阅上一个 notebook [02_Simple_PyTorch_Model.ipynb](02_Simple_PyTorch_Model.ipynb)。

In [None]:
configuration = """
name: "huggingface-model"
platform: "pytorch_libtorch"
max_batch_size: 1024
input [
 {
    name: "input__0"
    data_type: TYPE_INT32
    dims: [ 256 ]
  } ,
{
    name: "input__1"
    data_type: TYPE_INT32
    dims: [ 256 ]
  }
]
output {
    name: "output__0"
    data_type: TYPE_FP32
    dims: [ 3 ]
  }
"""

with open('models/huggingface-model/config.pbtxt', 'w') as file:
    file.write(configuration)

<a id="load"></a>
### 在 Triton 推理服务器中加载模型


创建模型目录结构、定义和导出模型以及创建配置文件后，我们现在将等待 Triton 推理服务器来加载模型。我们设置此实验以在**轮询**模式下使用 Triton 推理服务器。这意味着 Triton 推理服务器将以 30 秒为间隔，持续轮询模型的修改内容或新创建的模型。请运行以下单元，为 Triton 推理服务器预留时间，以便在继续下一步操作前，对新模型/修改进行轮询。

In [None]:
!sleep 45

此时，我们的模型应已部署就绪且随时可用！为确认 Triton 推理服务器已启动并运行，我们会看到对以下 URL 的 `curl` 请求。

In [None]:
!curl -v triton:8000/v2/health/ready

如果 Triton 已准备就绪，则 HTTP 请求将返回状态代码 200；如果尚未准备就绪，则返回 200 以外的状态代码。

我们还可以向模型端点发送 `curl` 请求，以确认我们的模型已部署就绪并可随时使用。如果模型已准备就绪，则 `curl` 请求将返回状态代码 200；如果尚未准备就绪，则返回 200 以外的状态代码。

此外，我们还将看到模型的相关信息，例如：

* 模型的名称、
* 模型可用的版本、
* 后端平台（例如 pytorch_libtorch）
* 附带各自名称、数据类型和形状的输入与输出。


In [None]:
!curl -v triton:8000/v2/models/huggingface-model

<a id="infer"></a>
### 将推理请求发送到服务器

HuggingFace 模型部署就绪后，即可向模型发送推理请求。

首先，我们将开展一些内部维护并重启 Jupyter notebook 内核。此操作会释放部分 GPU 显存。

In [None]:
import IPython
IPython.Application.instance().kernel.do_shutdown(True)

接下来，我们将加载用于处理 NumPy 数据的 `tritonclient.http` 模组和实用函数。

In [None]:
import tritonclient.http as tritonhttpclient

接下来，我们将定义模型的输入和输出名称、模型名称、使用 Triton 推理服务器向其中部署模型的 URL（本例中为 `triton:8000` 的本地主机）以及模型版本。

In [None]:
VERBOSE = False
input_name = ['input__0', 'input__1']
input_dtype = 'INT32'
output_name = 'output__0'
model_name = 'huggingface-model'
url = 'triton:8000'
model_version = '1'

我们将使用 `tritonhttpclient.InferenceServerClient` 类通过 `.get_model_metadata()` 方法访问模型元数据，并使用 `get_model_config()` 方法获取模型配置，进而实例化客户端。

In [None]:
triton_client = tritonhttpclient.InferenceServerClient(url=url, verbose=VERBOSE)
model_metadata = triton_client.get_model_metadata(model_name=model_name, model_version=model_version)
model_config = triton_client.get_model_config(model_name=model_name, model_version=model_version)

接下来，我们将创建分词器，将分词器应用于前提和主题，并处理要传递给 Triton 推理服务器的结果数据。

In [None]:
import numpy as np
from transformers import XLMRobertaTokenizer


# instantiate our tokenizer
R_tokenizer = XLMRobertaTokenizer.from_pretrained('joeddav/xlm-roberta-large-xnli')

# create our premise and topic to be passed into the model
premise = 'Jupiter’s Biggest Moons Started as Tiny Grains of Hail'
topic = 'This text is about space & cosmos'

# encode our inputs, convert to numpy arrays, create our mask, and do some reshaping
input_ids = R_tokenizer.encode(premise, topic, max_length=256, truncation=True, padding='max_length')
input_ids = np.array(input_ids, dtype=np.int32)
mask = input_ids != 1
mask = np.array(mask, dtype=np.int32)
mask = mask.reshape(1, 256) 
input_ids = input_ids.reshape(1, 256)

使用预期输入名称、形状和数据类型来实例化输入数据的占位符。然后将输入数据设置为文本的 NumPy 数组表示形式。还需仅使用输出名称实例化输出数据的占位符。

最后，我们将使用 `triton_client.infer()` 方法将输入提交至 Triton 推理服务器，指定模型名称、模型版本、输入和输出，并将结果转换为 NumPy 数组。

In [None]:
input0 = tritonhttpclient.InferInput(input_name[0], (1, 256), input_dtype)
input0.set_data_from_numpy(input_ids, binary_data=False)
input1 = tritonhttpclient.InferInput(input_name[1], (1, 256), input_dtype)
input1.set_data_from_numpy(mask, binary_data=False)
output = tritonhttpclient.InferRequestedOutput(output_name,  binary_data=False)
response = triton_client.infer(model_name, model_version=model_version, inputs=[input0, input1], outputs=[output])
logits = response.as_numpy(output_name)
logits = np.asarray(logits, dtype=np.float32)

最后，对数据进行后处理，忽略模型的 logits 向量中的 "中立"（第1维）分类结果，并取用"蕴含"（第2维） 的分类概率作为标签为真的概率。所需的全部操作如上所述！我们的模型识别出前提句实际上是关于空间和宇宙的！

In [None]:
from scipy.special import softmax


entail_contradiction_logits = logits[:,[0,2]]
probs = softmax(entail_contradiction_logits)
true_prob = probs[:,1].item() * 100
print(f'Probability that the label is true: {true_prob:0.2f}%')

<a id="conclusion"></a>
### 小结

在此 notebook 中，我们介绍了如何利用 HuggingFace 创建 PyTorch XLMRobertaForSequenceClassification 模型，使用 TorchScript 生成的代码将其写为本地 PyTorch 模型，然后使用 Triton 推理服务器加以部署。

我们建议您运行下面的单元进行清理。此操作将释放 GPU 显存，以供实验的其它部分使用。

In [None]:
!rm -rf models/huggingface-model

In [None]:
import IPython
IPython.Application.instance().kernel.do_shutdown(True)

<div align="center"><a href="https://www.nvidia.com/en-us/deep-learning-ai/education/"><img src="./assets/DLI_Header.png"></a></div>