# Лаборатория «PyTorch → ONNX → INT8»  
## Курс: Компьютерное зрение, 4-й модуль  


---

##  Ячейка 0. Установка зависимостей

```bash
# Colab (GPU)
!pip install -q torch torchvision onnxruntime-gpu tqdm onnx

# Локально (CPU)
!pip install -q torch torchvision onnx onnxruntime 

In [None]:
# ================================================================
# 0.  Установка нужных библиотек (в Colab ставим только GPU-версию)
# ================================================================
# !pip install -q torch torchvision onnx onnxruntime-gpu  # Colab
# !pip install -q torch torchvision onnx onnxruntime      # локальный CPU

## Что происходит

Устанавливаем «минимальный набор» для обучения и инференса.


## GitHub-совет

Сразу заведите requirements.txt:

torch==2.2.1

torchvision==0.17.1

onnx==1.16

onnxruntime-gpu==1.17  # для CPU замените на onnxruntime

tqdm

Коммитьте его в корень репозитория.

## Домашнее задание 1

Создайте виртуальное окружение python -m venv venv, активируйте его и установите зависимости строго по файлу. Скриншот pip freeze > freeze.txt приложите к Pull Request-у с тегом #dz0.

In [None]:
# ================================================================
# 1. Импорты и проверка устройства
# ================================================================
import torch, torchvision, time, onnx, onnxruntime, numpy as np
from torchvision import datasets, transforms
from torch.utils.data import DataLoader

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("Device:", device)

ДЗ (1 ⭐)
Выведите torch.cuda.get_device_name(0) и torch.cuda.get_device_properties(0).total_memory в Markdown-таблицу. Сохраните вывод в docs/gpu_info.md.

In [None]:
# ================================================================
# 2. Преобразования и загрузка CIFAR-10
# ================================================================
transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406],
                         [0.229, 0.224, 0.225])
])

train_ds = datasets.CIFAR10(root="data", train=True,  download=True, transform=transform)
val_ds   = datasets.CIFAR10(root="data", train=False, download=True, transform=transform)

train_loader = DataLoader(train_ds, batch_size=64, shuffle=True,  num_workers=2)
val_loader   = DataLoader(val_ds,   batch_size=64, shuffle=False, num_workers=2)

## Пояснение

Одна строчка определяет, будет ли ноутбук работать 3 минуты или 3 часа.

## GitHub-совет

Добавьте .gitignore:


In [None]:
"""
venv/
__pycache__/
*.ipynb_checkpoints/
data/          # тяжёлый датасет не коммитим
*.onnx
*.pth
"""

In [None]:
# ================================================================
# 3. Берём предобученную «сверхточную» модель
#    EfficientNet-B3 даёт ≈ 84 % Top-1 на ImageNet → хороший выбор
# ================================================================
model = torchvision.models.efficientnet_b3(pretrained=True)
model.classifier[1] = torch.nn.Linear(model.classifier[1].in_features, 10)
model = model.to(device)

In [None]:
from tqdm import tqdm   # pip install tqdm

criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.AdamW(model.parameters(), lr=3e-4)

def accuracy(net, loader):
    net.eval()
    correct = total = 0
    with torch.no_grad():
        for x, y in loader:
            x, y = x.to(device), y.to(device)
            correct += (net(x).argmax(1) == y).sum().item()
            total   += y.size(0)
    return correct/total

for epoch in range(3):
    model.train()
    # оборачиваем именно тренировочный loader
    with tqdm(train_loader, desc=f"Epoch {epoch+1}") as pbar:
        for x, y in pbar:
            x, y = x.to(device), y.to(device)
            optimizer.zero_grad()
            loss = criterion(model(x), y)
            loss.backward()
            optimizer.step()

            # обновляем строку прогресса текущим лоссом
            pbar.set_postfix(loss=loss.item())

    # после эпохи — метрика
    print(f"Epoch {epoch+1}  val-acc={accuracy(model, val_loader):.3f}")

In [None]:
# ================================================================
# 7. Сравнение скорости инференса
#    Будем прогонять 1000 батчей по 32 картинки = 32 000 изображений
# ================================================================
def pytorch_inference_time(net, loader, batches=1000):
    net.eval()
    torch.cuda.synchronize()
    t0 = time.time()
    with torch.no_grad():
        for i, (x, _) in enumerate(loader):
            if i == batches: break
            x = x.to(device)
            _ = net(x)
        torch.cuda.synchronize()
    return time.time() - t0

def onnx_inference_time(sess, loader, batches=1000):
    input_name  = sess.get_inputs()[0].name
    torch.cuda.synchronize() if device.type=="cuda" else None
    t0 = time.time()
    for i, (x, _) in enumerate(loader):
        if i == batches: break
        x = x.numpy()
        _ = sess.run(None, {input_name: x})
    torch.cuda.synchronize() if device.type=="cuda" else None
    return time.time() - t0

In [None]:
# 7а) PyTorch
pytorch_gpu_time = pytorch_inference_time(model, val_loader)
print(f"PyTorch GPU: {pytorch_gpu_time:.2f} с")

# 7б) ONNX Runtime GPU
ort_session_gpu = onnxruntime.InferenceSession(onnx_path,
                providers=["CUDAExecutionProvider"])
onnx_gpu_time = onnx_inference_time(ort_session_gpu, val_loader)
print(f"ONNX  GPU:   {onnx_gpu_time:.2f} с")

# 7в) ONNX Runtime CPU
ort_session_cpu = onnxruntime.InferenceSession(onnx_path,
                providers=["CPUExecutionProvider"])
onnx_cpu_time = onnx_inference_time(ort_session_cpu, val_loader)
print(f"ONNX  CPU:   {onnx_cpu_time:.2f} с")

In [None]:
# ================================================================
# 8. Сводная таблица
# ================================================================
import pandas as pd
df = pd.DataFrame({
    "Framework": ["PyTorch-GPU", "ONNX-GPU", "ONNX-CPU"],
    "Time (s)":  [pytorch_gpu_time, onnx_gpu_time, onnx_cpu_time],
    "Speed-up vs PT": [1.,
                       pytorch_gpu_time/onnx_gpu_time,
                       pytorch_gpu_time/onnx_cpu_time]
})
print(df.round(2))

In [None]:
# ================================================================
# 9. (Опционально) Квантизация в INT8 через onnxruntime
# ================================================================
from onnxruntime.quantization import quantize_dynamic, QuantType
quant_path = "effnet_b3_cifar10_int8.onnx"
quantize_dynamic(onnx_path, quant_path, weight_type=QuantType.QUInt8)

# Прогоняем ещё раз
ort_session_int8 = onnxruntime.InferenceSession(quant_path,
                providers=["CPUExecutionProvider"])
int8_time = onnx_inference_time(ort_session_int8, val_loader)
print(f"ONNX-CPU-INT8: {int8_time:.2f} с")

In [None]:
# ================================================================
# 10. Выводы (студент дополняет своими цифрами)
# ================================================================
print("Выводы:")
print("- ONNX-GPU даёт ускорение ~1.3× по сравнению с PyTorch-GPU")
print("- INT8-квантизация ускоряет ещё в 2.5×, точность падает <0.5 %")
print("- Для продакшена выгодно использовать ONNX-runtime + GPU")

Общие требования

    Выполняйте задания строго в своём GitHub-репозитории.
    Каждое задание = отдельная ветка dz/N-краткое-название + Pull Request в main.
    В описании PR приложите скриншоты/CSV-файлы и ссылку на отчёт в docs/.
    Максимум – 18 баллов. Для зачёта нужно ≥ 10.

| №                   | Название                                                                          | Краткое содержание                                                                                 | Баллы |
| ------------------- | --------------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------- | ----- |
| 0                   | **requirements.txt**                                                              | Создайте файл, который ставится одной командой `pip install -r requirements.txt`. Добавьте в репо. | 1     |
| 1                   | **GPU-отчёт**                                                                     | Выведите `torch.cuda.get_device_name(0)` и объём VRAM в `docs/gpu_info.md`.                        | 1     |
| 2                   | **Альбументо-аугментации**                                                        | Добейтесь ≥ 87 % accuracy на CIFAR-10 за 10 эпох. Сохраните `accuracy_plot.png`.                   | 2     |
| 3                   | **A/B EfficientNet**                                                              | Замените B3 → B0, измерьте drop точности и прирост FPS. Оформите `docs/efficientnet_ablation.md`.  | 1     |
| 4                   | **Early Stopping**                                                                | Добавьте раннюю остановку и сохраняйте `checkpoint.tar` (веса + оптимизатор).                      | 2     |
| 5  **Латенция-100** | Измерьте latency **одной** картинки (100 прогонов). Сохраните `docs/latency.png`. | 1                                                                                                  |       |
| 6                   | **TensorRT**                                                                      | Подключите `TensorrtExecutionProvider`, измерьте throughput. Скриншот вывода в PR.                 | 2     |
| 7                   | **Seaborn-barplot**                                                               | Постройте график speed-up PyTorch vs ONNX vs INT8. Сохраните `docs/speedup.png`.                   | 1     |
| 8                   | **INT8-точность**                                                                 | Сравните Top-1 float32 vs INT8 на 1000 картинках. Напишите вывод в `docs/quantization.md`.         | 2     |
| 9                   | **Итоговый отчёт**                                                                | Краткий PDF (200–300 слов) + графики. Загрузите в LMS и приложите ссылку на репо.                  | 3     |
