In [1]:
import sys
sys.path.append("../scr/utils")


from copy import deepcopy
import time
import platform
from tqdm import tqdm

import torch
import pandas as pd
import numpy as np
from torch.utils.data import DataLoader
import torch.nn.utils.prune as prune

from scr.utils.create_dataset import BirdDataset
from scr.utils.metrics import validation_epoch_end

In [2]:
# Информация о железе, на котором тестируется модель

processor_info = platform.processor()
print("Информация о процессоре:", processor_info)

if torch.cuda.is_available():
    num_gpus = torch.cuda.device_count()
    print("Доступно GPU:", num_gpus)
    for i in range(num_gpus):
        gpu = torch.cuda.get_device_name(i)
        print(f"GPU {i + 1}: {gpu}")   
else:
    print("GPU недоступны на данной системе.")

Информация о процессоре: i386
GPU недоступны на данной системе.


In [3]:
df = pd.read_csv("../data/data.csv")
df_test = df[df.fold == 3].sample(n=100, random_state=42).reset_index(drop=True)
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model_base = torch.load("../experiment/14_September_2023_16_29/model_tf_efficientnet_b0_last_version.pt", map_location=device).to(device)
dataset_test = BirdDataset(df=df_test, path_to_folder_with_audio="../data/data/")
valid_loader = DataLoader(dataset_test, batch_size=4)
model_base.eval()
device

device(type='cpu')

In [4]:
def get_model_size(model):
    param_size = 0
    for param in model.parameters():
        param_size += param.nelement() * param.element_size()
    buffer_size = 0
    for buffer in model.buffers():
        buffer_size += buffer.nelement() * buffer.element_size()

    size_all_mb = (param_size + buffer_size) / 1024**2
    print('model size: {:.3f}MB'.format(size_all_mb))

In [5]:
def get_metric_score(model):
    predicted_labels_list = None
    true_labels_list = None
    metric = validation_epoch_end
    start_time = time.time()


    with torch.no_grad():
        for batch in tqdm(valid_loader):
            X_batch = batch[0].to(device)
            y_batch = batch[1].to(device)
            res = model.forward(X_batch)

            res = res.detach().sigmoid().cpu().numpy()
            y_batch_onehot = y_batch
            y_batch_onehot = y_batch_onehot.unsqueeze(1).detach().cpu().numpy()
            y_batch_onehot = y_batch_onehot.squeeze()

            if predicted_labels_list is None:
                predicted_labels_list = res
                true_labels_list = y_batch_onehot
            else:
                predicted_labels_list = np.concatenate([predicted_labels_list, res], axis=0)
                true_labels_list = np.concatenate([true_labels_list, y_batch_onehot], axis=0)

            del batch, res
        torch.cuda.empty_cache()

    end_time = time.time()


    all_predicted_labels = np.vstack(predicted_labels_list)
    all_true_labels = np.vstack(true_labels_list)
    all_true_labels = np.squeeze(all_true_labels)
    mask = (all_true_labels > 0) & (all_true_labels < 1)
    all_true_labels[mask] = 0
    avg_metric = metric(all_true_labels, all_predicted_labels)
    t = end_time - start_time

    # Мы понимаем, что ко времени работы модели добавляем время обработки батчей и добавления аугментаций к стартовым данным

    print("Наши метрики на нашей базовой модели:")
    print(f"Время работы модели на всем батче {t:.<2g} сек.")
    print(f"Время работы модели на одном сэмпле (AVG) {round(t/ len(dataset_test), 3) } сек.")
    print("Метрики качества:")
    for m in avg_metric:
        print(f"metric {m} : {avg_metric[m]:.<5g}")

## Проверим работу базовой модели

In [6]:
model = deepcopy(model_base)

In [7]:
get_model_size(model=model)

model size: 16.738MB


In [8]:
get_metric_score(model=model)

100%|██████████| 25/25 [00:16<00:00,  1.48it/s]

Наши метрики на нашей базовой модели:
Время работы модели на всем батче 16.9049 сек.
Время работы модели на одном сэмпле (AVG) 0.169 сек.
Метрики качества:
metric val_RMAP : 0.686





## PTDQ  fp32 -> float16

In [22]:
# torch.backends.quantized.engine = "fbgemm"

In [30]:
# model = deepcopy(model_base)
# model.qconfig = torch.quantization.get_default_qconfig('fbgemm')
# model.eval();

In [29]:
# model_fp16 = torch.ao.quantization.quantize_dynamic(
#     model,  # the original model
#     {torch.nn.Linear},  # a set of layers to dynamically quantize
#     dtype=torch.float16  # the target dtype for quantized weights
# )

In [25]:
# get_model_size(model=model_fp16)

In [26]:
# get_metric_score(model=model_fp16)

## PTDQ  fp32 -> qint8

In [27]:
torch.backends.quantized.engine = 'qnnpack'

In [28]:
model = deepcopy(model_base)
model.eval();

In [29]:
model_int8 = torch.ao.quantization.quantize_dynamic(
    model,  # the original model
    {torch.nn.Linear},  # a set of layers to dynamically quantize
    dtype=torch.qint8  # the target dtype for quantized weights
)

In [30]:
get_model_size(model=model_int8)

model size: 15.448MB


In [31]:
get_metric_score(model=model_int8)

100%|██████████| 25/25 [00:13<00:00,  1.86it/s]

Наши метрики на нашей базовой модели:
Время работы модели на всем батче 13.4183 сек.
Время работы модели на одном сэмпле (AVG) 0.134 сек.
Метрики качества:
metric val_RMAP : 0.689346





#### Незначительное уменьшение веса модели и метрики, на 5 секунд уменьшилось время на батче

## PTSQ  fp32 -> qint8
## QAT  fp32 -> qint8

Нельзя провести qat и ptsq так как у timm моделей нет шага с fuse_model \
референс тут https://github.com/huggingface/pytorch-image-models/issues/204

## Pruning

In [21]:
model = deepcopy(model_base)
def get_prunable_parameters(model, pruning_method, amount):
    prunable_parameters = []
    for name, module in model.named_modules():
        if isinstance(module, (torch.nn.Conv2d, torch.nn.Linear)):
            prunable_parameters.append((module, 'weight'))

    pruned_parameters = [(module, param_name) for module, param_name in prunable_parameters]
    prune.global_unstructured(
        pruned_parameters,
        pruning_method=pruning_method,
        amount=amount,
    )

    return pruned_parameters, model



# Пример использования
pruned_parameters, model = get_prunable_parameters(model, prune.L1Unstructured, 0.2)
for module, param_name in pruned_parameters:
    prune.remove(module, "weight")

In [22]:
get_model_size(model=model)

model size: 16.738MB


In [23]:
get_metric_score(model=model);

100%|██████████| 25/25 [00:13<00:00,  1.87it/s]

Наши метрики на нашей базовой модели:
Время работы модели на всем батче 13.3535 сек.
Время работы модели на одном сэмпле (AVG) 0.134 сек.
Метрики качества:
metric val_RMAP : 0.656841





#### Незначительное уменьшение метрики, на 5 секунд уменьшилось время на батче