# Домашнее задание по теме «Нейронные сети»

Сегодня ты продолжишь решать задачу классификации чисел MNIST с помощью нейросети.

В этом домашнем задании тебе нужно:
- добавить вычисление метрики на этапе валидации;
- вспомнить про нормализацию данных и применить её;
- познакомиться с популярным блоком нейросети `BatchNorm`;
- применить шедулер.

## Задача 1. Метрика на валидации [3 балла]

На семинаре во время валидации нейросети мы считали `loss`. Это вполне корректное действие, и так можно и нужно валидироваться. Однако `loss` далеко не всегда понятен для бизнеса как мера качества решения задачи. Для этого существуют метрики.

Проблема в том, что не все метрики можно оптимизировать напрямую. Но если нужно получить оценку качества работы нашего алгоритма именно на метрике, то вычислить её можно на этапе валидации.

В этом и состоит первая задача. Для этого нужно:
1. Добавить вычисление метрики `Accuracy` из `sklearn` после этапа валидации на эпохе (подробности в коде). **[1 балл]**
2. Добавить в `print` лог, который выводит значение `Accuracy` на валидации. **[0,5 балла]**
3. Обучить модель с семинара с реализованным вычислением `Accuracy` **[0,5 балла по метрике]**. Не забудь скачать веса лучшей модели и прикрепить их к домашнему заданию.
4. Описать, что получилось. Обрати особое внимание, как соотносится `loss` и значение метрики на валидации. Всегда ли оптимальная модель по `loss` оптимальна и по метрике? **[1 балл]**

> **Важно.** Запомни, какой результат получился на валидации. Дальше ты будешь усложнять решение задачи. Это повлияет на качество её решения.

### Твоё решение задачи 1

> **Подсказка.** Следующие несколько ячеек — код с семинара. Просто запусти их. Когда тебе потребуется что-то написать, это будет выделено жирным.

In [30]:
# Импортируем нужные пакеты
import torch
import torch.nn as nn
import numpy as np

from torch.utils.data import Dataset, DataLoader
from torchvision.datasets import MNIST

from tqdm import tqdm

In [31]:
# Загружаем датасет
train_ = MNIST('../Datasets', # Папка для сохранения или загрузки
              download=True, # Если нет в папке, скачиваем из интернета
              train=True,
              ) # train-подвыборка
test = MNIST("../Datasets", download=True, train=False)

# Для начала достанем все данные из нашего датасета
X_train, y_train = train_.data, train_.targets
X_test, y_test = test.data, test.targets

In [32]:
# Определим класс датасета
class DatasetMNIST(Dataset):

  def __init__(self, X, y, device="cuda"):
    self.X = X.flatten(start_dim=1) / 255
    self.y = y
    self.device=device
  def __len__(self):
    return len(self.y)

  def __getitem__(self, idx):
    return self.X[idx].to(self.device), self.y[idx].to(self.device)

In [33]:
# Определим новые датасеты
train_ds = DatasetMNIST(X_train, y_train)
test_ds = DatasetMNIST(X_test, y_test)

In [34]:
# Определим DataLoader
train_dl = DataLoader(
    train_ds, # Наш датасет
    batch_size=64, # Размер батча. Меньше 32, согласно многим исследованиям, ставить не рекоммендуется из-за потерь в качестве
    shuffle=True, # Указываем, перемешивать ли данные перед каждой эпохой (проходом по данным). Для train-подвыборки всегда ставим True, кроме единичных исключений
    drop_last=True, # Если наш последний батч будет неполным, то не обучаемся на нём
    num_workers=4, # Указываем, сколько процессов будут собирать данные в батч. Обычно выбирают по числу ядер
    persistent_workers=True # Используем, чтобы не создавать каждый раз новый процесс при обращении к DataLoader. Полезно для небольшого ускорения исполнения
)

test_dl = DataLoader(
    test_ds, # Тестовый датасет
    batch_size=64*4, # Для скорости можно установить значение больше, чем на train. Если только получаем предсказания, а не обучаемся, то нужно меньше ресурсов, а значит, в GPU поместится батч большего размера
    shuffle=False, # Не будем перемешивать
    drop_last=False, # И исключать неполный батч тоже не будем, потому что нам нужны предсказания для него
    num_workers=4,
    persistent_workers=True
)

In [35]:
# Функция для одного шага обучения. Вставь код с семинара
def train_step(batch, model, loss, optimizer, device):

    # Обнуляем градиенты
    model.zero_grad()

    X, y = batch
    # Раздели батч на данные и метку = batch
    X = X.to(device)
    y = y.to(device)

    # Пропускаем данные через модель
    # Логиты — выход из последнего слоя нейросети, но основе которых решается задача
    logits = model(X)
    # Считаем loss
    l = loss(logits, y)

    # Обратное распространение ошибки
    l.backward()

    # Шаг оптимизатора
    optimizer.step()

    return l.item()

In [36]:
# Функция для одного шага обучения
def train_step(batch, model, loss, optimizer, device):

    X, y = batch
    X = X.to(device)
    y = y.to(device)

    model.zero_grad()

    logits = model(X)
    l = loss(logits, y)

    l.backward()
    optimizer.step()

    return l.item()

In [37]:
# Функция для обучения на эпохе
def train(model, loss, optimizer, device, train_dataloader):
    model.train()
    train_loss = 0

    for batch in tqdm(train_dataloader):
      loss_step = train_step(batch, model, loss, optimizer, device)
      train_loss += loss_step / len(train_dataloader)

    return train_loss

In [38]:
# Функция для одного шага валидации
def valid_step(batch, model, loss, device):

      X, y = batch
      X = X.to(device)
      y = y.to(device)

      with torch.no_grad():
        logits = model(X)
        l = loss(logits, y)

      return logits.argmax(dim=-1).detach().cpu().numpy(), l.item()

In [39]:
# Функция для всей валидации на эпохе, будем использовать её также для получения предсказаний
def validate(model, loss, device, val_dataloader):
  model.eval()
  val_loss = 0
  preds = []
  for batch in tqdm(val_dataloader):
    preds_step, loss_step = valid_step(batch, model, loss, device)

    val_loss += loss_step / len(val_dataloader)
    preds.append(preds_step)

  preds = np.concatenate(preds)

  return preds, val_loss

Добавь в функцию `train_and_validate`:
* вычисление `Accuracy` после валидации;
* печать соответствующего лога.

> **Добавь свой код в ячейки ниже.**

In [40]:
def train_and_validate(
    epochs,
    model,
    loss,
    optimizer,
    device,
    train_dataloader,
    val_dataloader,
    save_every=1,
    naming="",
):

    model.to(device)
    best_acc = -1
    for e in range(epochs):

        train_loss = train(model, loss, optimizer, device, train_dataloader)
        val_preds, val_loss = validate(model, loss, device, val_dataloader)

        val_targets = torch.cat([y.to(device) for _, y in val_dataloader])
        valid_acc = (val_preds == val_targets.cpu()).numpy().mean()

        print(
            f"Эпоха: {e} | Train Loss {train_loss} | Val Loss {val_loss} | Val_acc {valid_acc}"
        )  # Добавь в print полученное значение с соответствующей подписью

        if e % save_every == 0 and valid_acc > best_acc:
            torch.save(
                model.state_dict(), f"model_epoch_{e}{naming}_acc_{valid_acc:.4f}.pth"
            )
            best_acc = valid_acc

In [41]:
# Определяем модель с семинара, тут можешь ничего не трогать. Сеть с семинара подойдёт
class FCMNIST(nn.Module):

  def __init__(self):
    super().__init__() # Не забываем super init сделать, без этого ничего работать не будет

    # Линейный слой —> ReLU —> Линейный слой —> и так далее
    self.net = nn.Sequential(
        nn.Linear(784, 392),
        nn.ReLU(),
        nn.Linear(392, 191),
        nn.ReLU(),
        nn.Linear(191, 80),
        nn.ReLU(),
        nn.Linear(80, 40),
        nn.ReLU(),
        nn.Linear(40, 10)
    )

  def forward(self, X):
    return self.net(X)

In [42]:
model = FCMNIST()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-1)
loss = (
    nn.CrossEntropyLoss()
)  # Кросс-энтропия, самая популярная функция потерь для решения задачи классификации. Разбиралась на лекциях
epochs = 10
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [43]:
# Запусти
train_and_validate(epochs, model, loss, optimizer, device, train_dl, test_dl)

  0%|          | 0/937 [00:00<?, ?it/s]


RuntimeError: Caught RuntimeError in DataLoader worker process 0.
Original Traceback (most recent call last):
  File "/home/rlohaw/Homeworks/AI/.venv/lib/python3.10/site-packages/torch/utils/data/_utils/worker.py", line 349, in _worker_loop
    data = fetcher.fetch(index)  # type: ignore[possibly-undefined]
  File "/home/rlohaw/Homeworks/AI/.venv/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 52, in fetch
    data = [self.dataset[idx] for idx in possibly_batched_index]
  File "/home/rlohaw/Homeworks/AI/.venv/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 52, in <listcomp>
    data = [self.dataset[idx] for idx in possibly_batched_index]
  File "/tmp/ipykernel_150254/2139042691.py", line 12, in __getitem__
    return self.X[idx].to(self.device), self.y[idx].to(self.device)
  File "/home/rlohaw/Homeworks/AI/.venv/lib/python3.10/site-packages/torch/cuda/__init__.py", line 305, in _lazy_init
    raise RuntimeError(
RuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing, you must use the 'spawn' start method


> **Важно.** Не забудь скачать веса лучшей модели!

Какие результаты у тебя получились? Является ли лучшая модель по loss также лучшей и по метрике?

## Задача 2. Нормализация данных [4 балла]

Мы уже нормализовали данные, чтобы улучшить качество решения линейных моделей. Для нейросетей это также хорошая практика.

В этой задаче тебе предстоит сделать нормализацию выходных данных, а именно:
1. Модифицировать класс датасета так, чтобы он нормализовал данные для обучения и выводил статистики train-подвыборки. **[2 балла]**
2. Инициализировать класс с полученными статистиками для валидационной подвыборки. **[1 балл]**
3. Обучить нейросеть и вывести все логи. **[0,5 балла]**
4. Описать, что получилось. Стало ли лучше? **[0,5 балла]**

Нормализация — это стандартизация наших данных. То есть мы вычитаем из нашей выборки среднее переменных по всей выборке и делим результат на стандартное отклонение выборки для каждой переменной:

$$X_{norm} = \frac{X - E(X)}{\sqrt{V(X)}}.$$

Также важно учесть, что, хоть у нас и векторы, мы работаем с картинками. Их нормализуют по каналам. Всего их обычно 3 (RGB — Red, Green, Blue). Но в нашем простом датасете канал всего один.

То есть нужно получить всего одно число для среднего и стандартного отклонений, а не 784, если бы нормализовали данные как табличные.

### Твоё решение задания 2

In [None]:
class DatasetMNIST(Dataset):

    def __init__(
        self, X, y, mean=None, std=None, device="cuda"
    ):  # Теперь можно передавать статистики в датасет

        # Тут всё как было
        self.X = X.flatten(1) / 255
        self.y = y
        self.device = device # кажется кто-то забыл при создании задачи отправить датасетик на гпу)))))))

        # Если у нас нет среднего или стандартного отклонения
        if not mean or not std:
            mean = self.X.mean()  # Посчитай среднее
            std = self.X.std()  # Посчитай стандартное отклонение
            print(
                mean, std
            )  # print, потому что init в Dataset не должен ничего возвращать по правилам PyTorch

        self.X = (self.X - mean) / std

    def __len__(self):
        return len(self.y)

    def __getitem__(self, idx):
        return self.X[idx].to(device), self.y[idx].to(device)

In [None]:
# Надо пересоздать датасеты и даталоадеры
# Определим train-датасет
train_ds = DatasetMNIST(X_train, y_train)
train_mean = train_ds.X.mean()
train_std = train_ds.X.std()

tensor(0.1307) tensor(0.3081)


In [None]:
# Передай полученные статистики в наш валидационный датасет
test_ds = DatasetMNIST(X_test, y_test, train_mean, train_std)

In [None]:
# Определим даталоадеры
train_dl = DataLoader(
    train_ds, # Наш датасет
    batch_size=64, # Размер батча. Меньше 32, согласно многим исследованиям, ставить не рекомендуется из-за потерь в качетсве
    shuffle=True, # Указываем, перемешивать ли данные перед каждой эпохой (проходом по данным). Для train-подвыборки всегда ставим True, кроме единичных исключений
    drop_last=True, # Если наш последний батч будет неполным, то не обучаемся на нём
    num_workers=2, # Показывает, сколько процессов будет собирать данные в батч. Обычно выбирают по числу ядер
    persistent_workers=True # Указываем, чтобы не создавать каждый раз новый процесс при обращении к DataLoader. Полезно для небольшого ускорения исполнения
)

test_dl = DataLoader(
    test_ds, # Тестовый датасет
    batch_size=64*4, # Для скорости можно побольше поставить, чем на train. Так как только получаем предсказания, а не обучаемся, нужно меньше ресурсов, а значит, в GPU поместится батч большего размера
    shuffle=False, # Не будем перемешивать
    drop_last=False, # И исключать неполный батч не будем, потому что нам нужны предсказания для него
    num_workers=2,
    persistent_workers=True
)

In [None]:
# Инициализируем модель
model = FCMNIST()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-1)
loss = nn.CrossEntropyLoss() # Кросс-энтропия, самая популярная функция потерь для решения задачи классификации. Разбиралась на лекциях
epochs = 10
device = 'cuda' if torch.cuda.is_available() else 'cpu'

In [None]:
# Запусти обучение
train_and_validate(epochs, model, loss, optimizer, device, train_dl, test_dl, naming='_norm') # Здесь еще указали дополнительный нейминг модели, чтобы отличать веса

100%|██████████| 937/937 [00:09<00:00, 102.80it/s]
100%|██████████| 40/40 [00:00<00:00, 89.57it/s]


Эпоха: 0 | Train Loss 0.48496546616763764 | Val Loss 0.7366105735301971 | Val_acc 0.9354


100%|██████████| 937/937 [00:09<00:00, 103.39it/s]
100%|██████████| 40/40 [00:00<00:00, 77.41it/s]


Эпоха: 1 | Train Loss 0.11145784535118264 | Val Loss 0.5930806756019593 | Val_acc 0.9274


100%|██████████| 937/937 [00:10<00:00, 89.74it/s] 
100%|██████████| 40/40 [00:00<00:00, 94.07it/s]


Эпоха: 2 | Train Loss 0.07123376350311149 | Val Loss 0.4682185888290403 | Val_acc 0.9492


100%|██████████| 937/937 [00:08<00:00, 104.21it/s]
100%|██████████| 40/40 [00:00<00:00, 99.71it/s]


Эпоха: 3 | Train Loss 0.051096779218399745 | Val Loss 0.40422735363245005 | Val_acc 0.9496


100%|██████████| 937/937 [00:10<00:00, 90.38it/s] 
100%|██████████| 40/40 [00:00<00:00, 101.06it/s]


Эпоха: 4 | Train Loss 0.03770991066682449 | Val Loss 0.38737479858100426 | Val_acc 0.9372


100%|██████████| 937/937 [00:08<00:00, 110.33it/s]
100%|██████████| 40/40 [00:00<00:00, 108.69it/s]


Эпоха: 5 | Train Loss 0.027821664649936264 | Val Loss 0.30714962594211087 | Val_acc 0.9507


100%|██████████| 937/937 [00:08<00:00, 107.27it/s]
100%|██████████| 40/40 [00:00<00:00, 99.95it/s] 


Эпоха: 6 | Train Loss 0.02127636895495954 | Val Loss 0.25167201533913613 | Val_acc 0.9531


100%|██████████| 937/937 [00:09<00:00, 102.63it/s]
100%|██████████| 40/40 [00:00<00:00, 101.60it/s]


Эпоха: 7 | Train Loss 0.017989676953672953 | Val Loss 0.27109190318733445 | Val_acc 0.9439


100%|██████████| 937/937 [00:09<00:00, 102.30it/s]
100%|██████████| 40/40 [00:00<00:00, 106.97it/s]


Эпоха: 8 | Train Loss 0.012826820606942426 | Val Loss 0.21116707855835565 | Val_acc 0.9512


100%|██████████| 937/937 [00:09<00:00, 100.64it/s]
100%|██████████| 40/40 [00:00<00:00, 62.66it/s]


Эпоха: 9 | Train Loss 0.009580554261098646 | Val Loss 0.16368222180753947 | Val_acc 0.9661


> **Важно.** Не забудь сохранить веса лучшей модели на валидации!

Удалось ли улучшить качество? Должно получиться где-то +0,1–0,3 п. п. к решению без нормализации. Если не вышло, не значит, что ты сделал что-то неправильно. Датасет настолько простой, что задача хорошо решается и без нормализации данных.

## Задача 3. BatchNorm [3 балла]

Мы нормируем только входные данные. Но после каждого блока нейросети на выходе получаем новое представление наших данных. И нет никаких гарантий, что оно нормализовано, поэтому в нейросетях часто используют блок [BatchNorm](https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm1d.html).

Он нормализует наши данные, как мы это уже сделали вручную для входа. Зачем BatchNorm тогда нужен? Мы производим обучение по батчам. Удобно считать необходимые для нормализации среднее арифметическое и отклонение не по всей выборке, а у каждого батча, постепенно накапливая эти значения. Именно этим занимается BatchNorm!

Также у этого слоя есть параметры: коэффициент умножения и сдвиг. Это нужно для того, чтобы слой мог при необходимости «отменить» или модифицировать эффект нормализации, унмножив или добавив определённое число.

В этой задаче тебе предстоит поработать над архитектурой нейросети, добавив BatchNorm между слоями.

BatchNorm может быть разным, для этой задачи используй [BatchNorm1d](https://www.google.com/url?q=https%3A%2F%2Fpytorch.org%2Fdocs%2Fstable%2Fgenerated%2Ftorch.nn.BatchNorm1d.html).

Тебе нужно:
1. Модифицировать нейросеть, добавив BatchNorm. **[1 балл]**

Слой BatchNorm можно ставить как до, так и после функции активации. Можешь попробовать разные варианты и посмотреть, какой будет лучше!

Этот слой принимает на вход один аргумент — размер входных данных. Поэтому, если на вход BatchNorm подаётся вектор длиной 100, надо инициализировать её через `nn.BatchNorm1d(100)`.
2. Обучить все и сохранить лучшую модель. **[1 балла]**
3. Описать, что получилось. **[1 балла]**

### Твоё решение задания 3

In [None]:
class NormFCMNIST(nn.Module): # Norm добавлено в название, чтобы различать классы

  def __init__(self):
    super().__init__() # Не забываем super init сделать, без этого ничего работать не будет
    # Не надо вставлять BatchNorm до и после активации. Выбери одно расположение
    # Линейный слой —> (?Batchnorm) —> ReLU —> (?Batchnorm) —> Линейный слой —> и так далее
    self.net = nn.Sequential(
      
        nn.Linear(784, 392),
        nn.BatchNorm1d(392),
        nn.ReLU(),
        
        nn.Linear(392, 191),
        nn.BatchNorm1d(191),
        nn.ReLU(),

        nn.Linear(191, 80),
        nn.BatchNorm1d(80),
        nn.ReLU(),

        nn.Linear(80, 40),
        nn.BatchNorm1d(40),
        nn.ReLU(),

        nn.Linear(40, 10)
    )

  def forward(self, X):
    return self.net(X)

Объясни, куда ты добавил BatchNorm и почему?

In [None]:
# Инициализируем модель
model = NormFCMNIST()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-1)
loss = nn.CrossEntropyLoss() # Кросс-энтропия, самая популярная функция потерь для решения задачи классификации. Разбиралась на лекциях
epochs = 30
device = 'cuda' if torch.cuda.is_available() else 'cpu'

In [None]:
# Запусти обучение
train_and_validate(epochs, model, loss, optimizer, device, train_dl, test_dl, naming='_batchnorm') # Нейминг опять другой

100%|██████████| 937/937 [00:11<00:00, 82.65it/s]
100%|██████████| 40/40 [00:00<00:00, 94.61it/s]


Эпоха: 0 | Train Loss 0.2275548795428976 | Val Loss 1.9261489897966384 | Val_acc 0.3941


100%|██████████| 937/937 [00:11<00:00, 84.37it/s]
100%|██████████| 40/40 [00:00<00:00, 94.54it/s]


Эпоха: 1 | Train Loss 0.0885946120214007 | Val Loss 2.949818134307861 | Val_acc 0.2565


100%|██████████| 937/937 [00:10<00:00, 85.70it/s]
100%|██████████| 40/40 [00:00<00:00, 100.19it/s]


Эпоха: 2 | Train Loss 0.06013947330254235 | Val Loss 2.690827709436417 | Val_acc 0.3206


100%|██████████| 937/937 [00:10<00:00, 93.45it/s] 
100%|██████████| 40/40 [00:00<00:00, 95.39it/s]


Эпоха: 3 | Train Loss 0.04805464612314106 | Val Loss 2.351253497600556 | Val_acc 0.37


100%|██████████| 937/937 [00:10<00:00, 90.03it/s]
100%|██████████| 40/40 [00:00<00:00, 100.89it/s]


Эпоха: 4 | Train Loss 0.037752922454013 | Val Loss 3.8424354910850536 | Val_acc 0.2183


100%|██████████| 937/937 [00:09<00:00, 97.58it/s] 
100%|██████████| 40/40 [00:00<00:00, 110.17it/s]


Эпоха: 5 | Train Loss 0.02975545449659731 | Val Loss 3.642181420326233 | Val_acc 0.2275


100%|██████████| 937/937 [00:08<00:00, 105.17it/s]
100%|██████████| 40/40 [00:00<00:00, 107.12it/s]


Эпоха: 6 | Train Loss 0.02424230492544481 | Val Loss 3.627139896154404 | Val_acc 0.2099


100%|██████████| 937/937 [00:09<00:00, 100.66it/s]
100%|██████████| 40/40 [00:00<00:00, 116.19it/s]


Эпоха: 7 | Train Loss 0.018065686335506637 | Val Loss 3.971243661642075 | Val_acc 0.2253


100%|██████████| 937/937 [00:08<00:00, 109.15it/s]
100%|██████████| 40/40 [00:00<00:00, 109.76it/s]


Эпоха: 8 | Train Loss 0.018391288476814698 | Val Loss 4.001035660505294 | Val_acc 0.2293


100%|██████████| 937/937 [00:09<00:00, 102.10it/s]
100%|██████████| 40/40 [00:00<00:00, 90.43it/s]


Эпоха: 9 | Train Loss 0.017078095897797383 | Val Loss 4.221313297748566 | Val_acc 0.1996


100%|██████████| 937/937 [00:09<00:00, 103.95it/s]
100%|██████████| 40/40 [00:00<00:00, 112.16it/s]


Эпоха: 10 | Train Loss 0.012505011228271632 | Val Loss 3.844978004693985 | Val_acc 0.2535


100%|██████████| 937/937 [00:08<00:00, 108.92it/s]
100%|██████████| 40/40 [00:00<00:00, 108.39it/s]


Эпоха: 11 | Train Loss 0.012471395441834898 | Val Loss 3.4020413577556603 | Val_acc 0.2436


100%|██████████| 937/937 [00:10<00:00, 90.07it/s] 
100%|██████████| 40/40 [00:00<00:00, 69.63it/s]


Эпоха: 12 | Train Loss 0.00993978206041937 | Val Loss 4.554570996761322 | Val_acc 0.2026


100%|██████████| 937/937 [00:09<00:00, 103.12it/s]
100%|██████████| 40/40 [00:00<00:00, 112.52it/s]


Эпоха: 13 | Train Loss 0.009714104452488116 | Val Loss 4.131058943271638 | Val_acc 0.2068


100%|██████████| 937/937 [00:08<00:00, 114.79it/s]
100%|██████████| 40/40 [00:00<00:00, 124.29it/s]


Эпоха: 14 | Train Loss 0.007572636908761396 | Val Loss 3.619066220521926 | Val_acc 0.2694


100%|██████████| 937/937 [00:08<00:00, 113.82it/s]
100%|██████████| 40/40 [00:00<00:00, 120.06it/s]


Эпоха: 15 | Train Loss 0.006653801209141173 | Val Loss 3.475290668010712 | Val_acc 0.315


100%|██████████| 937/937 [00:08<00:00, 115.50it/s]
100%|██████████| 40/40 [00:00<00:00, 116.89it/s]


Эпоха: 16 | Train Loss 0.0061010978863051575 | Val Loss 3.216357725858688 | Val_acc 0.3263


100%|██████████| 937/937 [00:08<00:00, 116.23it/s]
100%|██████████| 40/40 [00:00<00:00, 112.12it/s]


Эпоха: 17 | Train Loss 0.0040972199694029885 | Val Loss 4.012658733129501 | Val_acc 0.263


100%|██████████| 937/937 [00:08<00:00, 114.59it/s]
100%|██████████| 40/40 [00:00<00:00, 111.58it/s]


Эпоха: 18 | Train Loss 0.006855602311238475 | Val Loss 4.531598114967346 | Val_acc 0.2569


100%|██████████| 937/937 [00:08<00:00, 115.68it/s]
100%|██████████| 40/40 [00:00<00:00, 114.00it/s]


Эпоха: 19 | Train Loss 0.00555629970558885 | Val Loss 3.532605224847794 | Val_acc 0.295


100%|██████████| 937/937 [00:08<00:00, 114.18it/s]
100%|██████████| 40/40 [00:00<00:00, 114.72it/s]


Эпоха: 20 | Train Loss 0.004749061237236477 | Val Loss 4.414438903331757 | Val_acc 0.2271


100%|██████████| 937/937 [00:08<00:00, 114.05it/s]
100%|██████████| 40/40 [00:00<00:00, 114.82it/s]


Эпоха: 21 | Train Loss 0.005263314917260715 | Val Loss 4.426158618927001 | Val_acc 0.233


100%|██████████| 937/937 [00:08<00:00, 115.70it/s]
100%|██████████| 40/40 [00:00<00:00, 90.28it/s] 


Эпоха: 22 | Train Loss 0.005302027041514972 | Val Loss 3.9272522091865536 | Val_acc 0.2707


100%|██████████| 937/937 [00:08<00:00, 114.76it/s]
100%|██████████| 40/40 [00:00<00:00, 118.18it/s]


Эпоха: 23 | Train Loss 0.005201163741483337 | Val Loss 4.209619331359864 | Val_acc 0.2569


100%|██████████| 937/937 [00:08<00:00, 114.51it/s]
100%|██████████| 40/40 [00:00<00:00, 110.63it/s]


Эпоха: 24 | Train Loss 0.003969863528833298 | Val Loss 4.1070887506008145 | Val_acc 0.2522


100%|██████████| 937/937 [00:08<00:00, 115.98it/s]
100%|██████████| 40/40 [00:00<00:00, 113.39it/s]


Эпоха: 25 | Train Loss 0.003432478985747696 | Val Loss 4.030072814226151 | Val_acc 0.2577


100%|██████████| 937/937 [00:08<00:00, 115.06it/s]
100%|██████████| 40/40 [00:00<00:00, 114.02it/s]


Эпоха: 26 | Train Loss 0.0029275875883655877 | Val Loss 3.611498814821243 | Val_acc 0.3027


100%|██████████| 937/937 [00:08<00:00, 116.37it/s]
100%|██████████| 40/40 [00:00<00:00, 111.47it/s]


Эпоха: 27 | Train Loss 0.003129715304236078 | Val Loss 3.8403994858264925 | Val_acc 0.2694


100%|██████████| 937/937 [00:08<00:00, 116.10it/s]
100%|██████████| 40/40 [00:00<00:00, 112.43it/s]


Эпоха: 28 | Train Loss 0.00340777502441982 | Val Loss 3.1732634782791136 | Val_acc 0.3346


100%|██████████| 937/937 [00:08<00:00, 116.70it/s]
100%|██████████| 40/40 [00:00<00:00, 126.99it/s]


Эпоха: 29 | Train Loss 0.0021530247024353663 | Val Loss 3.4205375730991356 | Val_acc 0.304


>**Важно.** Не забудь сохранить веса лучшей модели на валидации!

Получилось ли у тебя улучшить результат? Что можно сказать про стабильность `loss` на валидации в сравнении с прошлыми моделями?


нет, слишком сильно нормализует

## Задание 4. Добавление шедулера [2 бонусных балла]

Шедулеры разбирались на неделе, посвящённой оптимизации. Так как нейросети решают оптимизационные задачи, то для них также применяются шедулеры.

В этом задании нужно:
1. Добавить шедулер в код обучения. **[1 бонусный балл]**
2. Выбрать шедулер и обучить с ним модель. **[0,5 бонусного балла]**
3. Описать полученные результаты. **[0,5 бонусного балла]**

Когда можно менять lr шедулером?
* На каждом шаге оптимизатора (в этой задаче сделай так).
* На каждой эпохе.

> **Примечание.** При решении задачи в реальной жизни стоит попробовать оба варианта. Трудно заранее сказать, что лучше сработает для отдельно взятой задачи.

### Твоё решение задания 4

In [None]:
# Функция для одного шага обучения. Подумай, куда добавить шедулер
def train_step(batch, model, loss, optimizer, device, scheduler=None):

    X, y = batch
    X = X.to(device)
    y = y.to(device)

    logits = model(X)
    l = loss(logits, y)

    l.backward()

    optimizer.step()
    if scheduler:
        scheduler.step()
    model.zero_grad()

    return l.item()

In [None]:
# Функция для обучения на эпохе. Тут уже аргумент scheduler прокидывается в train_step. То есть ничего тут писать не надо
def train(model, loss, optimizer, device, train_dataloader, scheduler=None):
    model.train()
    train_loss = 0

    for batch in tqdm(train_dataloader):
      loss_step = train_step(batch, model, loss, optimizer, device, scheduler)
      train_loss += loss_step / len(train_dataloader)
    return train_loss

In [None]:
def train_and_validate(
    epochs,
    model,
    loss,
    optimizer,
    device,
    train_dataloader,
    val_dataloader,
    save_every=1,
    naming="",
    scheduler = None
):

    model.to(device)
    best_acc = -1
    for e in range(epochs):

        train_loss = train(model, loss, optimizer, device, train_dataloader, scheduler=scheduler)
        val_preds, val_loss = validate(model, loss, device, val_dataloader)

        val_targets = torch.cat([y.to(device) for _, y in val_dataloader])
        valid_acc = (val_preds == val_targets.cpu()).numpy().mean()

        print(
            f"Эпоха: {e} | Train Loss {train_loss} | Val Loss {val_loss} | Val_acc {valid_acc}"
        )  # Добавь в print полученное значение с соответствующей подписью 
        if e % save_every == 0 and valid_acc > best_acc:
            torch.save(
                model.state_dict(), f"../6/model_epoch_{e}{naming}{valid_acc}.pth"
            )
            best_acc = valid_acc

Теперь тебе предстоит выбрать шедулер и его параметры. Как с ними быть?

Обычно шедулер и его параметры выбирают такими, чтобы lr по мере обучения только снижался. Это помогает спуститься ещё глубже в минимум, что помогает качественно решить задачу.

В PyTorch уже реализованы самые популярные шедулеры, например: [CosineAnnealingLR](https://pytorch.org/docs/stable/generated/torch.optim.lr_scheduler.CosineAnnealingLR.html) (его идея объяснялась в ДЗ по оптимизации, но сейчас нужен только один цикл, чтобы lr снижался) или [LinearLR](https://pytorch.org/docs/stable/generated/torch.optim.lr_scheduler.LinearLR.html).

Можешь выбрать любой другой [шедулер](https://pytorch.org/docs/stable/optim.html#).

In [None]:
# Инициализируем модель
model = NormFCMNIST()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-1)
loss = nn.CrossEntropyLoss() # Кросс-энтропия, самая популярная функция потерь для решения задачи классификации. Разбиралась на лекциях
epochs = 30
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.01)
device = 'cuda' if torch.cuda.is_available() else 'cpu'

In [None]:
# Запусти обучение
train_and_validate(epochs, model, loss, optimizer, device, train_dl, test_dl, naming='_sched', scheduler=scheduler) # Нейминг опять другой

100%|██████████| 937/937 [00:08<00:00, 104.36it/s]
100%|██████████| 40/40 [00:00<00:00, 107.41it/s]


Эпоха: 0 | Train Loss 0.6685598221634346 | Val Loss 1.653244712948799 | Val_acc 0.5414


100%|██████████| 937/937 [00:09<00:00, 94.33it/s] 
100%|██████████| 40/40 [00:00<00:00, 104.77it/s]


Эпоха: 1 | Train Loss 0.6466911805350345 | Val Loss 1.6401594996452333 | Val_acc 0.5758


100%|██████████| 937/937 [00:10<00:00, 85.68it/s] 
100%|██████████| 40/40 [00:00<00:00, 95.94it/s]


Эпоха: 2 | Train Loss 0.6484708056378654 | Val Loss 1.6282865017652515 | Val_acc 0.5833


100%|██████████| 937/937 [00:08<00:00, 106.03it/s]
100%|██████████| 40/40 [00:00<00:00, 113.09it/s]


Эпоха: 3 | Train Loss 0.647071445287228 | Val Loss 1.6550597071647644 | Val_acc 0.5496


100%|██████████| 937/937 [00:09<00:00, 99.73it/s] 
100%|██████████| 40/40 [00:00<00:00, 105.17it/s]


Эпоха: 4 | Train Loss 0.6476926847799357 | Val Loss 1.6368867099285127 | Val_acc 0.5776


100%|██████████| 937/937 [00:09<00:00, 99.66it/s] 
100%|██████████| 40/40 [00:00<00:00, 103.55it/s]


Эпоха: 5 | Train Loss 0.6474484029040141 | Val Loss 1.6568368047475814 | Val_acc 0.5456


100%|██████████| 937/937 [00:09<00:00, 98.87it/s] 
100%|██████████| 40/40 [00:00<00:00, 106.72it/s]


Эпоха: 6 | Train Loss 0.6478068894103344 | Val Loss 1.6258805990219114 | Val_acc 0.5987


100%|██████████| 937/937 [00:09<00:00, 97.21it/s] 
100%|██████████| 40/40 [00:00<00:00, 106.60it/s]


Эпоха: 7 | Train Loss 0.6481205770783643 | Val Loss 1.647583219408989 | Val_acc 0.5535


100%|██████████| 937/937 [00:09<00:00, 99.30it/s] 
100%|██████████| 40/40 [00:00<00:00, 103.49it/s]


Эпоха: 8 | Train Loss 0.6488506027130587 | Val Loss 1.6520270168781277 | Val_acc 0.5509


100%|██████████| 937/937 [00:09<00:00, 97.97it/s] 
100%|██████████| 40/40 [00:00<00:00, 105.29it/s]


Эпоха: 9 | Train Loss 0.6488858824923808 | Val Loss 1.6874614983797074 | Val_acc 0.493


100%|██████████| 937/937 [00:09<00:00, 99.28it/s] 
100%|██████████| 40/40 [00:00<00:00, 103.89it/s]


Эпоха: 10 | Train Loss 0.6480077247482234 | Val Loss 1.6535715907812114 | Val_acc 0.5635


100%|██████████| 937/937 [00:08<00:00, 104.52it/s]
100%|██████████| 40/40 [00:00<00:00, 101.37it/s]


Эпоха: 11 | Train Loss 0.647950360239379 | Val Loss 1.6696547150611882 | Val_acc 0.5248


100%|██████████| 937/937 [00:09<00:00, 98.66it/s] 
100%|██████████| 40/40 [00:00<00:00, 69.51it/s]


Эпоха: 12 | Train Loss 0.6496194636999867 | Val Loss 1.629892921447754 | Val_acc 0.5753


100%|██████████| 937/937 [00:09<00:00, 93.76it/s] 
100%|██████████| 40/40 [00:00<00:00, 81.11it/s]


Эпоха: 13 | Train Loss 0.6469876635163668 | Val Loss 1.6437001675367355 | Val_acc 0.5487


100%|██████████| 937/937 [00:09<00:00, 99.31it/s] 
100%|██████████| 40/40 [00:00<00:00, 107.03it/s]


Эпоха: 14 | Train Loss 0.648769130542668 | Val Loss 1.650921174883842 | Val_acc 0.5459


100%|██████████| 937/937 [00:08<00:00, 114.21it/s]
100%|██████████| 40/40 [00:00<00:00, 113.99it/s]


Эпоха: 15 | Train Loss 0.6470129083734696 | Val Loss 1.6753425896167757 | Val_acc 0.5189


100%|██████████| 937/937 [00:08<00:00, 116.08it/s]
100%|██████████| 40/40 [00:00<00:00, 113.50it/s]


Эпоха: 16 | Train Loss 0.6480713637750457 | Val Loss 1.6538789898157118 | Val_acc 0.5608


100%|██████████| 937/937 [00:09<00:00, 98.14it/s] 
100%|██████████| 40/40 [00:00<00:00, 112.47it/s]


Эпоха: 17 | Train Loss 0.6471372890179794 | Val Loss 1.653349521756172 | Val_acc 0.5291


100%|██████████| 937/937 [00:08<00:00, 106.18it/s]
100%|██████████| 40/40 [00:00<00:00, 107.55it/s]


Эпоха: 18 | Train Loss 0.6482759924683026 | Val Loss 1.6607100814580915 | Val_acc 0.5331


100%|██████████| 937/937 [00:09<00:00, 100.97it/s]
100%|██████████| 40/40 [00:00<00:00, 96.80it/s]


Эпоха: 19 | Train Loss 0.6475284614837797 | Val Loss 1.654595673084259 | Val_acc 0.5462


100%|██████████| 937/937 [00:09<00:00, 99.76it/s] 
100%|██████████| 40/40 [00:00<00:00, 113.44it/s]


Эпоха: 20 | Train Loss 0.6470327652124103 | Val Loss 1.6592928081750864 | Val_acc 0.5353


100%|██████████| 937/937 [00:08<00:00, 110.03it/s]
100%|██████████| 40/40 [00:00<00:00, 111.34it/s]


Эпоха: 21 | Train Loss 0.6474395606471994 | Val Loss 1.6600440889596944 | Val_acc 0.5259


100%|██████████| 937/937 [00:08<00:00, 113.17it/s]
100%|██████████| 40/40 [00:00<00:00, 110.33it/s]


Эпоха: 22 | Train Loss 0.6473906476571439 | Val Loss 1.6486251711845397 | Val_acc 0.5433


100%|██████████| 937/937 [00:08<00:00, 109.36it/s]
100%|██████████| 40/40 [00:00<00:00, 114.82it/s]


Эпоха: 23 | Train Loss 0.6489648757583949 | Val Loss 1.6482252687215808 | Val_acc 0.5439


100%|██████████| 937/937 [00:08<00:00, 107.86it/s]
100%|██████████| 40/40 [00:00<00:00, 102.05it/s]


Эпоха: 24 | Train Loss 0.6482819164829805 | Val Loss 1.6571022540330884 | Val_acc 0.5246


100%|██████████| 937/937 [00:09<00:00, 103.56it/s]
100%|██████████| 40/40 [00:00<00:00, 110.16it/s]


Эпоха: 25 | Train Loss 0.6482913464530421 | Val Loss 1.6626035600900648 | Val_acc 0.5299


100%|██████████| 937/937 [00:08<00:00, 109.40it/s]
100%|██████████| 40/40 [00:00<00:00, 99.80it/s] 


Эпоха: 26 | Train Loss 0.6484445278138211 | Val Loss 1.6501975208520887 | Val_acc 0.5638


100%|██████████| 937/937 [00:10<00:00, 88.06it/s] 
100%|██████████| 40/40 [00:00<00:00, 81.30it/s]


Эпоха: 27 | Train Loss 0.6477318499614998 | Val Loss 1.6522908180952074 | Val_acc 0.5314


100%|██████████| 937/937 [00:08<00:00, 105.08it/s]
100%|██████████| 40/40 [00:00<00:00, 108.57it/s]


Эпоха: 28 | Train Loss 0.6494006668172756 | Val Loss 1.6605851680040358 | Val_acc 0.5327


100%|██████████| 937/937 [00:10<00:00, 90.51it/s] 
100%|██████████| 40/40 [00:00<00:00, 92.52it/s]


Эпоха: 29 | Train Loss 0.6492130986336332 | Val Loss 1.6563156634569172 | Val_acc 0.5451


> **Важно.** Не забудь сохранить веса лучшей модели!

Полчилось ли улучшить качество? Почему такой результат? Что можешь сказать про переобучение?

В целом на мой взгляд получается, что мы слишком сильно регуляризируем из за чего нормально мы ничего не оптимизируем. Шедулер особо погоды не делает т.к мы не доходим до глобального минимума.