# Домашнее задание 2.2

В этом задании нужно:
1. Написать свою сеть на Pytorch по варианту
2. Обучить ее и сравнить результаты с дообученной сетью из зоопарка моделей
3. Поставить ряд экспериментов, показывающих насколько гиперпараметры обучения влияют на результат

**Варианты архитектуры сверточной сети:**
Вариант на ваш выбор - напишите его в конфу. Не более двух человек на один вариант
1. Resnet v2
2. Inception Google LeNet
3. MobileNet v2
4. SE Net
5. DenseNet
6. Conv Mixer
7. EfficientNet v2 (Григорий Конюхов)
8. NFNet
9. Придуманная вами архитектура на ваш вкус.

**Варианты оптимизатора:**
Для дополнительных баллов, только один вариант на человека
1. Sharpness Aware Optimization (+1.5 балл)
2. Stachastic Average Gradients (+1.5 балл)
3. Nesterov Accelerated Gradients (+1 балл)
4. Large Batch Optimization, LAMB (+1 балл)
5. Adan (+1 балл) (Григорий Конюхов)

## Имплементация сети на Pytorch

Здесь вы должны написать модель, выданную вам по варианту.
Для этого нужно:
1. Не забывать про использоватие блоков nn.Module, nn.Sequential, nn.ModuleList
2. Использовать материалы из предыдущих семинаров

В качестве примера ниже реализован макет для модели, состоящей из RepVGG-блоков.

In [None]:
import torch
from torch import nn

In [None]:
class RepVGGBlock(nn.Module):
    def __init__(self, in_channels, out_channels):
        super().__init__()

        # подготовка RepVGG блоков
        self.identity = nn.BatchNorm2d(out_channels)
        self.layer_3x3 = nn.Conv2d(in_channels, out_channels, 3, padding=1)
        self.layer_1x1 = nn.Conv2d(in_channels, out_channels, 1)
        self.act = nn.ReLU()

    def forward(self, x):
        x = self.layer_3x3(x) + self.layer_1x1(x) + self.identity(x)
        x = self.act(x)
        return x

class RepVGG(nn.Module):
    def __init__(self, num_blocks=4, width_multiplier=[1, 2, 4, 4], num_classes=10):
        super().__init__()
        assert len(width_multiplier) == num_blocks

        self.first_conv = nn.Sequential(
            nn.Conv2d(in_channels=3, out_channels=8, kernel_size=3, padding=1),
            nn.BatchNorm2d(8),
            nn.ReLU(),
        )

        self.repvgg_blocks = nn.Sequential(
            # здесь происходит создание блоков
        )

        # в конце сверточных слоев ставим AdaptiveAvgPool2d
        # и linear слой
        self.gap = nn.AdaptiveAvgPool2d(output_size=1)
        self.linear = nn.Linear(int(512 * width_multiplier[-1]), num_classes)

    def forward(self, x):
        # forward основной модели
        x = self.first_conv(x)
        x = self.repvgg_blocks(x)
        x = self.gap(x)
        x = self.linear(x)
        return x

In [None]:
# если вы написали модель правильно
# эта ячейка должна выполниться
model = RepVGG()
sample_tensor = torch.randn(1, 3, 32, 32)
model(sample_tensor)

## Обучение и подбор гиперпараметров

Чтобы не писать собственный train loop, мы будем использовать Pytorch Lightning.   

Это не самый лучший фреймворк для обучения - в нем множество багов, которые особенно любят проявлять себя в сложных моделях, обучаемых в low-precision с параллелизмом.  

Но большая часть популярных фреймворков организована именно так - train loop скрыт от глаз пользователя. Поэтому полезно посмотреть это на таком простом примере, как Pytorch Lightning

In [None]:
! pip install pytorch_lightning >> None

In [None]:
import pytorch_lightning as pl

class ConvModelPL(pl.LightningModule):
  def __init__(self, model, lr, weight_decay):
    super().__init__()
    self.model = model
    self.lr = lr
    self.weight_decay = weight_decay

  def training_step(self, batch, batch_idx):
    # training_step определяет шаг в train loop
    # forward модели и подсчет лосса
    x, y = batch
    # <your code here>
    # по умолчанию логгируем в TensorBoard
    self.log("train_loss", loss)
    return loss

  def validation_step(self, batch, batch_idx):
    x, y = batch
    # соответсвенно, здесь выполняется шаг валидации
    # тоже нужно сделать forward модели и подсчитать лосс
    # но кроме этого - вычислить метрику
    # <your code here>
    self.log("val_loss", loss)
    return metric

  def validation_epoch_end(self, validation_step_outputs):
    # этот шаг выполняется в конце эпохи
    # здесь мы усредним накопленную метрику
    # и передадим ее в логгер
    total_metric = torch.stack(validation_step_outputs).mean()
    self.log("val_epoch_acc", acc_epoch)


  def configure_optimizers(self):
      # здесь мы настраиваем оптимизатор
      # вы можете сделать более сложную конфигурацию
      optimizer = torch.optim.AdamW(self.parameters(), lr=self.lr, weight_decay=self.weight_decay,)
      return optimizer

In [None]:
model = ConvNet()
model_pl = ConvModelPL(model, lr=1e-4, weight_decay=1e-6)

Дальше создадим датасеты и даталоадеры.
Опять же, вам нужно написать более точную конфигурацию: подобрать аугментации, batch_size, параметры даталоадера

In [None]:
import torchvision
from torchvision import transforms

batch_size = 32
workers = 1

# вспомните, что вы можете использовать не только аугментации из torchvision
# но и из albumentations и, если уж совсем хотите заморочиться, nvidia dali
transform = transforms.Compose(
    # <your code here>
    [transforms.ToTensor(),
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

train_set = torchvision.datasets.CIFAR10(root='./data', train=True,
                                        download=True, transform=transform)
test_set = torchvision.datasets.CIFAR10(root='./data', train=False,
                                       download=True, transform=transform)

# есть несколько способов ускорения даталоадера

# главный из них - ставить pin_memory, когда вы работаете с gpu
# дело в том, что программы на host'е работает с логической памятью, которая называется paged memory,
# она связана с физической с помощью таблицы - page table
# когда физической памяти не хватает, страницы из page memory выгружаются (page out) на другие носители (например, на ssd)
# получается, paged memory нестабильна и может быть разбросана по разным физическим устройствам
# чтобы скопировать данные на device, сначала данные из paged memory копируются в page-locked memory,
# и только затем на device
# можно избежать такого: сразу выделять память в page-locked memory
# именно это и делает аргумент pin_memory=True
# https://developer.nvidia.com/blog/how-optimize-data-transfers-cuda-cc/

# есть и другие способы - например, num_workers ~ числу ядер или половине от числа ядер

# также если у вашего трейнлупа нет точек синхронизации (напимер, print, logging, перемещение на cpu)
# то можно ставить data = data.to('cuda:0', non_blocking=True) при отправлении данных
# https://discuss.pytorch.org/t/should-we-set-non-blocking-to-true/38234/3

train_loader = torch.utils.data.DataLoader(train_set, batch_size=batch_size,
                                          shuffle=True, num_workers=workers)
test_loader = torch.utils.data.DataLoader(test_set, batch_size=batch_size,
                                         shuffle=False, num_workers=workers)

In [None]:
# а теперь можно запускать обучение и смотреть метрики и графики
# просмотр графиков вы должны вставить сами
device = 'cuda'

trainer = pl.Trainer(limit_train_batches=100, max_epochs=20)
trainer.fit(model_pl, train_loader, test_loader, accelerator=device)

После пробного обучения модели попробуем подобрать гиперпараметры и, если вы этого захотите, немного изменить архитектуру модели так, чтобы добиться более высокой метрики.

### Как проводить эксперименты

"Neural net training is a leaky abstraction" - Andrej Karpathy

Знания теории, архитектур, оптимизаторов порой недостаточно для получения хорошей модели - значит, пришла пора подбора гиперпараметров.  
В таких случаях может помочь не *model-centric*, а *data-centric* подход: переразметить данные, поменять аугментации, докинуть новые.

**Но во всех этих случаях правильно организовать эксперименты**



**Перед началом:**
Убедитесь, что у вас есть хороший и адекватный бейзлайн
1. Сначала вместо самописных моделей берите архитектуры из известных репозиториев (torchvision, timm, mmdetection, huggingface etc)
2. Эти архитектуры должны быть стандартными для вашей задачи. То есть, для задач компьютерного зрения (классификации, детекции, сегментации) - ResNet, для обработки языков - трансформер.
3. Не придумывайте сложные пайплайны обучения - Adam + LR без расписания, предобработка входа - такая же как у предобученной модели
4. Первые пробные запуски делайте на подвыборках, тестовых датасетах


**Снизьте число факторов влияния**:
1. Баги могут быть в разных частях: в модели, обучении, загрузке данных, проверке качества
2. Визуализируйте *все*: метрики, лоссы, градиенты, примеры работы модели, работу аугментаций
3. Пишите unit-тесты. Даже небольшие!
4. Сохраняйте чекпоинты. Не только best и last. Полезно брать чекпоинты каждые несколько итераций
5. При проведении экспериментов вносите **только одно изменение за раз**.


Более полные и точные рецепты можете прочитать [здесь](https://github.com/puhsu/dl-hse/blob/main/week01-intro/lecture-best-practices.pdf)

In [None]:
# теперь попробуйте поварьировать ваши гиперпараметры:
# learning rate и lr scheduler, weight_decay, поменять аугментации
# и, возможно, добавить какие-то изменения в модель

## Transfer Learning и Fine-Tune

Для многих прикладных задач не существует больших датасетов с хорошей разметкой. Поэтому распространенным приемом является тренировка на похожем, но большом датасете и доучивание сети на целевом.

Такой прием называют **Transfer Learning** или **Fine-tuning**.

В сверточных сетях для классификации выделяют две части:
1. Тело сети (backbone) - это набор сверток и пулингов (convolutions and poolings)
2. Голову (head) - это MLP (набор полносвязных слоев) после которых делается softmax и получаются вероятности разных классов.

Вычислительно простым вариантом finetuning является переучивание головы сети.

In [None]:
from torchvision import models

model = models.resnet18(pretrained=True)

# кроме torchvision очень известен репозиторий pytorch-image-models
# !pip install timm >> None
# import timm
# model = timm.create_model('resnet18', pretrained=True)

In [None]:
# 10 - число наших классов
model.fc = nn.Linear(in_features=512, out_features=10, bias=True)

In [None]:
# заморозим слои
for param in model.parameters():
  param.requires_grad = False

In [None]:
# осталось лишь заметить, что пайплайн обучения уже написан - он хранится в model_pl
# вам осталось его только запустить
# проведите несколько экспериментов:
# 1. Дообучите только голову
# 2. Дообучите всю модель
# 3. Поменяйте пайплайн аугментаций с вашего на тот, что вы нашли в репозитории модели