## QAT - Quantization Aware Training 

В этом туториале мы ускорим работу уже обученной модели ResNet18 на СPU с помощью инструментов Pytorch.

- Сначало мы сделаем все необходимы импорты
- Напишем все необходимые, вспомогательные функции
- Импортируем датасеты
- Инициализируем и загрузим нашу модель

In [2]:
import numpy as np
from time import time

import torch
import torch.nn as nn
import torchvision
import torchvision.transforms as transforms
import torchvision.datasets as datasets
from torch.utils.data import DataLoader

import torch.quantization
from torch.quantization import QuantStub, DeQuantStub

  warn(


Функция для тестирования качества и калибровки модели

In [3]:
def test(model: nn.Module, dataloader: DataLoader, cuda=False) -> float:
    correct = 0
    total = 0
    model.eval()
    with torch.no_grad():
        for data in dataloader:
            inputs, labels = data

            if cuda:
              inputs = inputs.cuda()
              labels = labels.cuda()

            outputs = model(inputs)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    
    print(f'Accuracy of the network on the test images: {100 * correct / total}%')
    return 100 * correct / total

Функция для замера времени вычислений 

In [20]:
def test_time(model, n=100):

    time_total = np.zeros(shape=n)
    # run inference
    batch = torch.rand(1,3,32,32)
    for i in range(n):
        start = time()
        with torch.no_grad():
            output = model(batch)
        end = time()
        time_total[i] = end - start
        
    print(f'execution time for FP32 model is: {time_total.mean():.4f} +/- {time_total.std():.4f}')

Импорт датасетов

In [13]:
dataset = datasets.CIFAR10(
            root="./data",
            train=False,
            download=True,
            transform=transforms.Compose(
                [
                    transforms.ToTensor(),
                    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
                ]
            ),
        )
                               
testloader = torch.utils.data.DataLoader(dataset, batch_size=64,
                                         shuffle=False, num_workers=16, pin_memory=True)

Files already downloaded and verified


Создадим нашу модель с учетом квантования и загрузим веса

In [10]:
model_path = "./res18_acc_83.pth"
base = torchvision.models.resnet18()

base.fc = nn.Linear(base.fc.in_features, 10)

state_dict = torch.load(model_path, weights_only=True)
base.load_state_dict(state_dict)

class resnet(nn.Module):
    def __init__(self, base, q = False):
        # By turning on Q we can turn on/off the quantization
        super(resnet, self).__init__()
        self.q = q
        self.base = base
        if q:
          self.quant = QuantStub()
          self.dequant = DeQuantStub()

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        if self.q:
          x = self.quant(x)
          
        x = self.base(x)
        
        if self.q:
          x = self.dequant(x)
        return x


model = resnet(base, q=False)

In [14]:
score = test(model, testloader)

Accuracy of the network on the test images: 81.72%


In [23]:
model.eval()
model.to('cpu')
test_time(model)

execution time for FP32 model is: 0.0087 +/- 0.0014


## PTQ 

Теперь мы квантуем нашу уже обученную модель, мы будем использовать MovingAverageMinMaxObserver для сбора статистик

In [30]:
from torch.ao.quantization import QConfigMapping
from torch.ao.quantization.quantize_fx import prepare_fx, convert_fx
from torch.quantization.observer import MovingAverageMinMaxObserver

qmodel = resnet(base, q=True)
qmodel.eval()


# Инициализируем конфиг квантования 
qconfig = torch.quantization.QConfig(activation=MovingAverageMinMaxObserver.with_args(reduce_range=True), 
                                      weight=MovingAverageMinMaxObserver.with_args(dtype=torch.qint8, qscheme=torch.per_tensor_symmetric))
qconfig_mapping = QConfigMapping().set_global(qconfig)

# Создадим модель для квантования и прокалибоуем ее на нашем датасете
prepared_model = prepare_fx(qmodel, qconfig_mapping, torch.randn(1,3,32,32))
score = test(prepared_model, testloader, cuda=False)





Accuracy of the network on the test images: 81.72%


In [25]:
print(prepared_model)

GraphModule(
  (activation_post_process_0): MovingAverageMinMaxObserver(min_val=-2.429065704345703, max_val=2.7537312507629395)
  (base): Module(
    (conv1): ConvReLU2d(
      (0): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3))
      (1): ReLU(inplace=True)
    )
    (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
    (layer1): Module(
      (0): Module(
        (conv1): ConvReLU2d(
          (0): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
          (1): ReLU(inplace=True)
        )
        (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (relu): ReLU(inplace=True)
      )
      (1): Module(
        (conv1): ConvReLU2d(
          (0): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
          (1): ReLU(inplace=True)
        )
        (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (relu): ReLU(inplace=True)
      )
    )
 

#### Все что нам осталось сделать это конвертировать нашу модель, проверить качество ее работы и скорость.

После этого шага мы видим что у нас больше нет сверточных функций, вместо них квантованные свертки, а так же у нес больше нет вспомогательных "наблюдателей".

In [31]:
qmodel_int8 = convert_fx(prepared_model)
print(qmodel_int8)

GraphModule(
  (base): Module(
    (conv1): QuantizedConvReLU2d(3, 64, kernel_size=(7, 7), stride=(2, 2), scale=0.03223159909248352, zero_point=0, padding=(3, 3))
    (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
    (layer1): Module(
      (0): Module(
        (conv1): QuantizedConvReLU2d(64, 64, kernel_size=(3, 3), stride=(1, 1), scale=0.018650511279702187, zero_point=0, padding=(1, 1))
        (conv2): QuantizedConv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), scale=0.04987005516886711, zero_point=72, padding=(1, 1))
      )
      (1): Module(
        (conv1): QuantizedConvReLU2d(64, 64, kernel_size=(3, 3), stride=(1, 1), scale=0.017917748540639877, zero_point=0, padding=(1, 1))
        (conv2): QuantizedConv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), scale=0.06933116167783737, zero_point=78, padding=(1, 1))
      )
    )
    (layer2): Module(
      (0): Module(
        (conv1): QuantizedConvReLU2d(64, 128, kernel_size=(3, 3), stride=(2, 2),

In [32]:
test(qmodel_int8, testloader, cuda=False)

Accuracy of the network on the test images: 81.19%


81.19

### Квантованная модель

In [38]:
qmodel_int8.eval()
test_time(qmodel_int8)

execution time for FP32 model is: 0.0037 +/- 0.0003


### Оригинальная модель

In [39]:
model.eval()
test_time(model)

execution time for FP32 model is: 0.0086 +/- 0.0018


### Попробуем дальше улучшить скорость с помощью torch.compile 

In [40]:
model_compiled = torch.compile(model)

In [43]:
model_compiled.eval()
test_time(model_compiled)

execution time for FP32 model is: 0.1550 +/- 1.4360


In [47]:
test_time(model_compiled)

execution time for FP32 model is: 0.0129 +/- 0.0012


![image.png](attachment:image.png)

### Не будем сдаваться и попробуем сделать это с помощью torch.script

In [124]:
model_jit_int8 = torch.jit.script(qmodel_int8)
test_time(model_jit_int8)



execution time for FP32 model is: 0.0015 +/- 0.0004


In [125]:
batch = torch.rand(1,3,32,32)
model_jit_trace_int8 = torch.jit.trace(qmodel_int8, batch)
test_time(model_jit_trace_int8)

execution time for FP32 model is: 0.0014 +/- 0.0016


In [126]:
batch = torch.rand(1,3,32,32)
model_jit_trace= torch.jit.trace(model, batch)
test_time(model_jit_trace)


execution time for FP32 model is: 0.0080 +/- 0.0034


In [127]:
test_time(model)

execution time for FP32 model is: 0.0081 +/- 0.0019


### И так, мы увеличили скорость работы модели на CPU почти в 4 раза!

In [128]:
torch.jit.save(model_jit_int8, 'scriptmodule.pt')

loaded_model = torch.jit.load('scriptmodule.pt')

test_time(loaded_model)

execution time for FP32 model is: 0.0020 +/- 0.0049
