# 03. Нейросети и PyTorch

## План
0. Переопределение `backward` (с прошлого семинара)
1. Готовим обучение
    1. Данные: `Dataset` & `DataLoader` 
    2. Модель: `nn.Module`
    3. Рутина: все остальное
2. Учим
    1. Baseline
    2. Stack more layers
3. I/O
4. Пример с картинками: MNIST

## 0. Переопределение `backward`

Что, если нам хочется релизовать кастомный градиент для произвольной функции.

Зачем?

 - Мы можем знать лучший способ посчитать градиент, чем делать бэкпроп для суперпозиции элементарных функций
 - Можем реализовать численно более устойчивый метод
 - Можем использовать функции из внешних библиотек
 - Использовать недифференцируемые функции?..

Рассмотрим сигмоиду:

$$ 
  \sigma(x) = \frac{1}{1+e^{-x}}
$$

Если честно распишем суперпозицию функций, то получим:

$$
  \sigma(x) = f_1 \odot f_2  \odot f_3 \odot f_4(x), where 
$$

$$
f_1 = \frac{1}{u}, f_2 = 1 + u, f_3 = \exp(u), f_4 = -u
$$

Тогда:

$$
\frac{\partial \sigma}{\partial x} = \frac{\partial \sigma}{\partial f_2}\frac{\partial f_2}{\partial f_3}
\frac{\partial f_3}{\partial f_4}
\frac{\partial f_4}{\partial x}
$$

Но зная как устроена производная можно упростить:

$$
\frac{\partial \sigma}{\partial x} = \sigma(x)(1 - \sigma(x))
$$

Вручную задать градиени функции в библиотеке PyTorch можно создав дочерний класс от [`torch.autograd.Function`](https://pytorch.org/docs/stable/notes/extending.html#extending-torch-autograd).

**Задание:**
Реализуйте `forward()` и `backward()` методы для вычисления сигмоиды.
* Аргумент `grad_output` - это градиент выхода графа по выходу данного слоя, вычисленный в результате backprop.
* Метод `backward()` должен возвращать градиент выхода графа по входу данного слоя.
* `ctx` - переменная контекста, позволяет сохранять значения переменных на `forward`-проходе для их вызова на `backward`-е
    * Для этого у переменной контекста `ctx` есть метод [`save_for_backward()`](https://pytorch.org/docs/stable/generated/torch.autograd.function.FunctionCtx.save_for_backward.html).

In [None]:
import torch

In [None]:
class MySigmoid(torch.autograd.Function):
    @staticmethod
    def forward(ctx, x):
        # YOUR CODE HERE
        
        # val = ...
        
        # END OF YOUR CODE
        return val
    
    @staticmethod
    def backward(ctx, grad_output):
        # YOUR CODE HERE
        
        # val, = ...
        # grad = ...
        
        # END OF YOUR CODE
        return grad

Pytorch позволяет выполнить сравнение реализованного градиента с градиентом, посчитанным численно:

In [None]:
from torch.autograd import gradcheck

In [None]:
sigmoid = MySigmoid.apply
x = torch.rand(2, requires_grad=True)
print(gradcheck(sigmoid, x, eps=1e-4, atol=1e-3))

In [None]:
# be sure to use double for better approximation
x = torch.rand(2, requires_grad=True).double()
print(gradcheck(sigmoid, x, eps=1e-6, atol=1e-4))

PyTorch умеет считать матрицу Якоби или матрицу Гессе для заданной функции.

In [None]:
from torch.autograd.functional import hessian, jacobian

In [None]:
jacobian(sigmoid, x)

In [None]:
def sum_sigmoid(x):
    return torch.sum(sigmoid(x))

In [None]:
hessian(sum_sigmoid, x)

А теперь - к обучению нейросетей.

## 1. Готовим обучение 

Общий подход к решению задачи на pytorch такой:
1. Подготовить данные, реализовать (или использовать готовый) класс `Dataset`, наследуясь от `torch.utils.data.Dataset`, обернуть его в `torch.utils.data.DataLoader`.
2. Реализовать (или взять ±готовую) модель, наследуясь от `torch.nn.Module`.
3. Приготовить оптимизатор для весов модели (из `torch.optim` или свой) и лосс
4. Написать код для рутины обучения, включающий обработку данных из `DataLoader`, прогон их через модель, вычисление лосса и обновление весов оптимизатором.

### 1.1. Данные: `Dataset` & `DataLoader`

* [Tutorial @ pytorch.org](https://pytorch.org/tutorials/beginner/basics/data_tutorial.html)

Класс датасета предоставит нам интерфейс к данным:
* Метод `__getitem__(self, i)` позволяет получить `i`-й элемент обучающей выборки, обычно пару (data, label).
    * Также обязательным является определение метода `__len__(self)`.
* Можно сделать так, чтобы экземпляр класса датасета просто возвращал исходные данные, а можно (нужно) добавить в него аугментирование данных.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

import torch
from torch.utils.data import Dataset, DataLoader

`Dataset` - абстрактный класс, его нельзя использовать напрямую, а только через наследование:

In [None]:
dataset = Dataset()
dataset[0]

Создадим датасет поверх игрушечных данных с прошлого семинара:

In [None]:
np.random.seed(1234)
_a = np.random.uniform(1, 5)
_b = np.random.uniform(-3, 3)
_c = np.random.uniform(-3, 3)

num_samples = 1000

xs = np.random.uniform(-3, 3, size=num_samples)
ys_clean = _a * xs ** 2 + _b * xs + _c
ys_noise = np.random.normal(0, 1, size=len(ys_clean))
ys = ys_clean + ys_noise

plt.figure(figsize=(12, 5))
plt.scatter(xs, ys, label="gt", s=5)
plt.xlabel("x")
plt.ylabel("y")
plt.legend()
plt.grid(True)

In [None]:
class CustomDataset(Dataset):
    
    def __init__(self, xs, ys):
        super().__init__()
        
        if len(xs) != len(ys):
            raise ValueError(f"lens mismatch: {len(xs)} != {len(ys)}")
            
        self.xs = xs
        self.ys = ys
        
    def __len__(self):
        return len(self.xs)
        
    def __getitem__(self, i):
        return (self.xs[i], self.ys[i])
    
    @staticmethod
    def collate_fn(items_list):
        xs = torch.zeros(len(items_list), 1)
        ys = torch.zeros(len(items_list), 1)

        for i, (x, y) in enumerate(items_list):
            xs[i] = x
            ys[i] = y

        return xs, ys

Метод `collate_fn` нужен не столько для самого датасета, сколько для оборачивания его в `DataLoader` - об этом чуть ниже.

In [None]:
dataset = CustomDataset(xs, ys)
dataset[0]

In [None]:
dataset[1]

In [None]:
len(dataset)

In [None]:
dataset[100]

По датасету можно итерироваться (но вам это вряд ли будет нужно часто):

In [None]:
for x in dataset:
    print(x)

Теоретически, для обучения достаточно уже объекта типа `Dataset`. Однако, для удобства и для автоматизации процессов перемешивания данных, формирования батчей и использования многопоточности есть удобный класс `DataLoader`:

In [None]:
dataloader = DataLoader(
    dataset=dataset,
    batch_size=32,
    shuffle=True,
    drop_last=True, 
    collate_fn=dataset.collate_fn
)

"Длина" даталоадера - это количество батчей:

In [None]:
len(dataloader)

К даталоадеру нельзя обращаться по индексу, но можно итерироваться по нему:

In [None]:
dataloader[0]

In [None]:
for batch in dataloader:
    xs, ys = batch
    print(xs.shape, ys.shape)

Как именно происходит сборка батчей, покажем, реализовав свой игрушечный даталоадер с аналогичным функционалом:

**Задание**:
Реализовать метод `__getitem__(self, i)`, который должен возвращать i-й батч. 
* Батч должен быть списком с числом элементов = равным числу элементов, возвращаемых датасетом при обращении по индексу (обычно 2 - данные и лейблы, но есть варианты).
    * Каждый из элементов содержит не отдельный объект, а склеенный из отдельных объектов тензов
    * Длина каждого = `batch_size`
* Для сборки батча из отдельных элементов датасета используйте метод `self.dataset.collate_fn`

In [None]:
class MyDataLoader:
    
    def __init__(self, dataset, batch_size, collate_fn):
        self.dataset = dataset
        self.batch_size = batch_size
        self.collate_fn = collate_fn
        
        self.indices = np.arange(len(dataset))
        
    def __len__(self):
        return len(dataset) // self.batch_size
    
    def __getitem__(self, i):
        # YOUR CODE HERE
        
        # indices = ...
        # items = ...
        # batch = ...
        
        # END OF YOUR CODE
        
        return batch

In [None]:
my_dataloader = MyDataloader(dataset, batch_size=32, collate_fn=dataset.collate_fn)

In [None]:
batch = my_dataloader[0]

assert len(batch) == 2
assert batch[0].shape == (32, 1)
assert batch[1].shape == (32, 1)

Про параметры `DataLoader`-а, которые мы сегодня не трогали (`pin_memory`, `num_workers`, ...), поговорим в другой раз.

### 1.2. Модель: `nn.Module`

Нейросетевые модели состоят из слоев, которые применяются ко входу (обычно) последовательно.
Каждый слой должен быть наследником `torch.nn.Module`, чтобы сам pytorch понимал: перед ним слой нейросети, у него есть параметры, его надо уметь дифференцировать, и т.д.

In [None]:
import torch.nn

**Задание:**
Реализовать недостающие куски кода в методах `__init__()` и `forward()`.
* В `__init__()` должны быть инициализированы матрица `self.weights` (`out_dim x in_dim`) и вектор `bias` (или `None`).
* В `forward()` они должны быть применены ко входу `x` (`batch x in_dim`).

**NB**: Помните, что обычно обработка данных моделью происходит по батчам, т.е. даже если на вход придет 1 объект, у него будет размерность (`batch x in_dim`).

In [None]:
class CustomLinear(torch.nn.Module):
    
    def __init__(self, in_features, out_features, bias=True):
        super().__init__()
        
        # YOUR CODE HERE
        
        # self.weights = ...
        # self.bias = ...
        
        # END OF YOUR CODE
        
    def forward(self, x):
        
        # YOUR CODE HERE
        
        # output = ...
        
        # END OF YOUR CODE
        
        return output
    
    def __repr__(self):
        return f"CustomLinear({self.weights.shape[1]}, {self.weights.shape[0]}, bias={self.bias is not None})"

In [None]:
linear = CustomLinear(8, 1)

assert isinstance(linear.weights, torch.nn.Parameter)
assert isinstance(linear.bias, torch.nn.Parameter)
assert linear.weights.shape == (1, 8)
assert linear.bias.shape == (1, 1)

Посмотрим, какие атрибуты и методы есть у нашего класса при наследовании от `nn.Module`.

Во-первых, доступ к обучаемым (и не только) параметрам:

In [None]:
for p in linear.parameters():
    print(p)
    print()

In [None]:
for p in linear.named_parameters():
    print(p)
    print()

In [None]:
linear.state_dict()

Для удобства чтения и отладки, часто полезно определить метод `__repr__()` для информативного вывода самого объекта:

In [None]:
print(linear)

Важными полями являются индикатор `.training`: он показывает, в каком режиме находится модель - обучения или инференса.

**Вопрос**: зачем?

In [None]:
linear.training

In [None]:
linear.eval()
linear.training

In [None]:
linear.train()
linear.training

**NB**: Выход из режима `training` не отключает вычисление градиентов!

Как мы уже говорили в прошлый раз, вычисления можно производить не только в одиночной точности; для этого необходимо (но не всегда достаточно) привести все веса к соответствующему типу. Наследование от класса `nn.Module` позволяет сделать это одной командой:

In [None]:
linear.weights.dtype

In [None]:
linear = linear.half()

In [None]:
linear.weights.dtype

In [None]:
linear = linear.float()

А вот что pytorch из коробки делать не позволяет, так это узнать, на каком устройстве лежит наша модель:

In [None]:
device = torch.device("cpu")
# device = torch.device("cuda:0")

In [None]:
linear = linear.to(device)

In [None]:
linear.device

In [None]:
linear.weights.device

Теперь попробуем собственно применить нашу модель:

In [None]:
x = torch.randn(32, 8)

In [None]:
y = linear(x)
y.shape

In [None]:
x = torch.randn(32, 9)
y = linear(x)
y.shape

### 1.3. Рутина: все остальное

#### 1.3.1. Оптимизатор

In [None]:
import torch.optim

In [None]:
optimizer = torch.optim.SGD(linear.parameters(), lr=1e-4)

In [None]:
print(optimizer)

In [None]:
optimizer.param_groups

#### 1.3.2. Лосс

Можно написать самому:

In [None]:
def mse_loss(y_true, y_pred):
    return ((y_true - y_pred) ** 2).mean()

In [None]:
xs, ys_true = next(iter(dataloader))

In [None]:
ys_pred = torch.randn_like(ys_true)

In [None]:
mse_loss(ys_true, ys_pred)

Можно использовать готовые:

In [None]:
from torch.nn.functional import mse_loss as torch_mse_loss

In [None]:
torch_mse_loss(ys_true, ys_pred)

#### 1.3.3. Рутина обучения

**Задание:** Дописать функцию для обучения.
* Получение предсказаний моделью для объектов из батча
* Подсчет лосса
* Обновление весов по вызова backprop

In [None]:
def train_epoch(model, dataloader, optimizer, loss_fn, epoch):
    model.train()
    
    losses = []
    for batch in dataloader:
        xs, ys_true = batch
        
        # YOUR CODE HERE
        
        # ys_pred = ...
        # loss = ...
        # ...
        # ...
        
        # END OF YOUR CODE
        
        losses.append(loss.item())
    
    return np.mean(losses)

На валидации будем еще и сохранять результат предсказаний - для визуализации:

In [None]:
def val_epoch(model, dataloader, loss_fn):
    model.eval()
    
    losses = []
    preds = []
    for batch in dataloader:
        xs, ys_true = batch
        with torch.no_grad():
            ys_pred = model(xs)
        
        loss = loss_fn(ys_pred, ys_true)        
        losses.append(loss.item())
        
        preds.append(ys_pred.numpy())
    
    preds = np.concatenate(preds, axis=0)
    return np.mean(losses), preds

## 2. Учим

### 2.1. Baseline

Начнем с обучения 1 полносвязного слоя, по сути - аппроксимируем данные прямой.

In [None]:
import tqdm

In [None]:
num_epochs = 128
lr = 8e-4
batch_size = 8

train_size = 800

In [None]:
xs = np.random.uniform(-3, 3, size=num_samples)
ys_clean = _a * xs ** 2 + _b * xs + _c
ys_noise = np.random.normal(0, 1, size=len(ys_clean))
ys = ys_clean + ys_noise

train_dataset = CustomDataset(xs[:train_size], ys[:train_size])
val_dataset = CustomDataset(xs[train_size:], ys[train_size:])

In [None]:
train_dataloader = DataLoader(
    train_dataset, 
    batch_size=batch_size, 
    shuffle=True, 
    collate_fn=train_dataset.collate_fn, 
    drop_last=True
)

val_dataloader = DataLoader(
    val_dataset, 
    batch_size=batch_size, 
    shuffle=False, 
    collate_fn=train_dataset.collate_fn, 
    drop_last=False
)

In [None]:
model = CustomLinear(1, 1)

In [None]:
optimizer = torch.optim.SGD(model.parameters(), lr=lr)

In [None]:
loss_fn = mse_loss

In [None]:
losses = []
val_losses = []
val_preds = []
for epoch in tqdm.trange(num_epochs):
    loss = train_epoch(model, train_dataloader, optimizer, loss_fn, epoch)
    losses.append(loss)
    
    val_loss, preds = val_epoch(model, val_dataloader, loss_fn)
    val_losses.append(val_loss)
    val_preds.append(preds)

In [None]:
plt.figure(figsize=(16, 5))

plt.subplot(1, 2, 1)
plt.plot(losses)
plt.grid(True)
plt.xlabel("epoch")
plt.ylabel("loss")

plt.subplot(1, 2, 2)
plt.plot(val_losses)
plt.grid(True)
plt.xlabel("epoch")
plt.ylabel("val loss")

plt.show()

In [None]:
plt.figure(figsize=(12, 5))
plt.scatter(xs[train_size:], ys[train_size:], label="true")
plt.scatter(xs[train_size:], val_preds[-1], label="fc_1layer")
plt.legend()
plt.grid()
plt.xlabel("x")
plt.ylabel("y")
plt.show()

In [None]:
fc_1layer_train_losses = losses
fc_1layer_val_losses = val_losses
fc_1layer_preds = preds

### 2.2. Stack more layers

In [None]:
from torch.nn import Sequential
from torch.nn import ReLU

**Задание**: соберите сеть из двух полносвязных слоев размерами (1, 4) и (4, 1); добавьте между слоями нелинейность ReLU.

In [None]:
# YOUR CODE HERE

layers = ...
model = ...

# END OF YOUR CODE

model

In [None]:
optimizer = torch.optim.SGD(model.parameters(), lr=lr)

In [None]:
losses = []
val_losses = []
val_preds = []
for epoch in tqdm.trange(num_epochs):
    loss = train_epoch(model, train_dataloader, optimizer, loss_fn, epoch)
    losses.append(loss)
    
    val_loss, preds = val_epoch(model, val_dataloader, loss_fn)
    val_losses.append(val_loss)
    val_preds.append(preds)

In [None]:
plt.figure(figsize=(16, 5))

plt.subplot(1, 2, 1)
plt.plot(losses, label="fc_2layers_4h")
plt.plot(fc_1layer_train_losses, label="fc_1layer")
plt.grid(True)
plt.legend()
plt.xlabel("epoch")
plt.ylabel("loss")

plt.subplot(1, 2, 2)
plt.plot(val_losses, label="fc_2layers_4h")
plt.plot(fc_1layer_val_losses, label="fc_1layer")
plt.grid(True)
plt.legend()
plt.xlabel("epoch")
plt.ylabel("val loss")

plt.show()

In [None]:
plt.figure(figsize=(12, 5))
plt.scatter(xs[train_size:], ys[train_size:], label="true")
plt.scatter(xs[train_size:], val_preds[-1], label="fc_2layer_4h")
plt.legend()
plt.grid()
plt.xlabel("x")
plt.ylabel("y")
plt.show()

In [None]:
fc_2layer_4h_train_losses = losses
fc_2layer_4h_val_losses = val_losses
fc_2layer_4h_preds = preds

Добавим нейронов в скрытый слой:

In [None]:
layers = [
    CustomLinear(1, 8),
    ReLU(inplace=True),
    CustomLinear(8, 1)
]

model = Sequential(*layers)
model

In [None]:
optimizer = torch.optim.SGD(model.parameters(), lr=lr)

In [None]:
losses = []
val_losses = []
for epoch in tqdm.trange(num_epochs):
    loss = train_epoch(model, train_dataloader, optimizer, loss_fn, epoch)
    losses.append(loss)
    
    val_loss, preds = val_epoch(model, val_dataloader, loss_fn)
    val_losses.append(val_loss)

In [None]:
plt.figure(figsize=(16, 5))

plt.subplot(1, 2, 1)
plt.plot(losses, label="fc_2layer_8h")
plt.plot(fc_2layer_4h_train_losses, label="fc_2layer_4h")
plt.plot(fc_1layer_train_losses, label="fc_1layer")
plt.grid(True)
plt.legend()
plt.xlabel("epoch")
plt.ylabel("loss")

plt.subplot(1, 2, 2)
plt.plot(val_losses, label="fc_2layer_8h")
plt.plot(fc_2layer_4h_val_losses, label="fc_2layer_4h")
plt.plot(fc_1layer_val_losses, label="fc_1layer")
plt.grid(True)
plt.legend()
plt.xlabel("epoch")
plt.ylabel("val loss")

plt.show()

In [None]:
plt.figure(figsize=(12, 5))
plt.scatter(xs[train_size:], ys[train_size:], label="true")
plt.scatter(xs[train_size:], preds, label="fc_2layer_8h")
plt.legend()
plt.grid()
plt.xlabel("x")
plt.ylabel("y")
plt.show()

Видимо, что наша модель ведет себя как кусочно-линейная функция. Любопытные визуализации на эту тему можно найти, например, [здесь](http://neuralnetworksanddeeplearning.com/chap4.htmlhttp://neuralnetworksanddeeplearning.com/chap4.html).

**Пища для размышлений:** данные были сгенерированы с использованием всего лишь трех неизвестных параметров (a, b, c). Они полностью, не считая случайного шума, определяют поведение целевой функции. Нам же потребовалось значительно больше параметров (сколько, кстати?), чтобы кое-как аппроксимировать данные с помощью полносвязной сети. Почему это так? Можно ли с этим что-то сделать?

## 3. I/O

Обученные веса модели хорошо бы уметь сохранять и загружать для дальнейшего использования.

In [None]:
print(model)

В Pytorch сохранение и загрузка весов выполняется через `state_dict` модели:

In [None]:
print(model.state_dict())

### 3.1. Save

In [None]:
output_fn = "./state_dict.pth.tar"

In [None]:
with open(output_fn, "wb") as fp:
    torch.save(model.state_dict(), fp)

### 3.2. Load

In [None]:
model = Sequential(CustomLinear(1, 8), ReLU(inplace=True), CustomLinear(8, 1))

In [None]:
print(model.state_dict())

In [None]:
with open(output_fn, "rb") as fp:
    state_dict = torch.load(fp, map_location="cpu")
state_dict

In [None]:
model.load_state_dict(state_dict)

In [None]:
model.state_dict()

Помимо непосредственно весов, бывает полезно сохранить и состояние других объектов: например, оптимизатора (чтобы продолжить обучении с той же точки):

In [None]:
def save_checkpoint(model, optimizer, output_fn):
    checkpoint = {
        "state_dict": model.state_dict(),
        "optimizer": optimizer.state_dict()
    }
    
    with open(output_fn, "wb") as fp:
        torch.save(checkpoint, output_fn)
        
def load_checkpoint(checkpoint_fn, model, optimizer):
    with open(checkpoint_fn, "rb") as fp:
        checkpoint = torch.load(fp, map_location="cpu")
    
    model.load_state_dict(checkpoint["state_dict"])
    optimizer.load_state_dict(checkpoint["optimizer"])

In [None]:
optimizer = torch.optim.Adam(model.parameters(), lr=3e-4)
optimizer.param_groups[0]["lr"] = 1e-10
optimizer

In [None]:
checkpoint_fn = "./checkpoint.pth.tar"

In [None]:
save_checkpoint(model, optimizer, checkpoint_fn)

In [None]:
optimizer = torch.optim.Adam(model.parameters(), lr=3e-4)
optimizer

In [None]:
load_checkpoint(checkpoint_fn, model, optimizer)

In [None]:
optimizer

## 4. Пример с картинками: MNIST

Обучения на MNIST в курсе DL почти не избежать...

In [None]:
import os
import glob
import matplotlib.pyplot as plt

In [None]:
#!pip install opencv-python

In [None]:
import cv2

MNIST - это ставший классикой датасет с изображениями рукописных цифр. На нем мы построим минимальный пример работы с изображениями.

In [None]:
# !wget https://github.com/myleott/mnist_png/raw/master/mnist_png.tar.gz
# !tar -xzf mnist_png.tar.gz
!ls mnist_png/

В отличие от датасета, рассмотренного в начале семинара, здесь мы будем передавать не непосредственно данные, а путь до папки с файлами; причем структуру мы считаем известной (`split/digit/*.png`).

In [None]:
class MNISTDataset(Dataset):
    
    def __init__(self, root_dir):
        self.images_filenames = []
        self.class_labels = []
        for class_label in os.listdir(root_dir):
            for image_basename in os.listdir(os.path.join(root_dir, class_label)):
                if not image_basename.endswith(".png"):
                    continue
                image_filename = os.path.join(root_dir, class_label, image_basename)
                self.images_filenames.append(image_filename)
                self.class_labels.append(int(class_label))
    
    def __len__(self):
        return len(self.images_filenames)
    
    def __getitem__(self, i):
        image = cv2.imread(self.images_filenames[i], cv2.IMREAD_GRAYSCALE)
        label = self.class_labels[i]
        return image, label
    
    @staticmethod
    def collate_fn(items):
        images = []
        labels = []
        for image, label in items:
            image = image / 255.
            images.append(image.ravel())
            labels.append(label)
        return torch.tensor(images).float(), torch.tensor(labels).long()

In [None]:
train_dataset = MNISTDataset(root_dir="mnist_png/training")
len(train_dataset)

Посмотрим на сами данные из датасета:

In [None]:
image, label = train_dataset[0]
plt.imshow(image, cmap="gray")
plt.show()

In [None]:
plt.imshow(image[:14, -14:], cmap="gray")

Вспомогательная функция для массовой визуализации:

In [None]:
def show_images_with_captions(images, captions=None, ncol=8):
    nrow = len(images) // ncol
    
    plt.figure(figsize=(16, 16 * nrow // ncol))
    for i in range(len(images)):
        plt.subplot(nrow, ncol, i + 1)
        plt.imshow(images[i], cmap="gray")
        if captions is not None:
            plt.title(captions[i])
        plt.grid(False)
        plt.axis(False)
    plt.show()

In [None]:
sample_indices = np.random.choice(len(train_dataset), size=64, replace=False)

sample_images = []
sample_captions = []
for i in sample_indices:
    image, label = train_dataset[i]
    sample_images.append(image)
    sample_captions.append(f"gt: {label}")

In [None]:
show_images_with_captions(sample_images, sample_captions)

Зарядим теперь обучение сети чуть глубже (3 слоя), да еще и с BatchNorm1d:

In [None]:
num_epochs = 5
batch_size = 32
lr = 3e-4

device = torch.device("cpu")
# device = torch.device("cuda:0")

In [None]:
train_dataloader = DataLoader(
    dataset=train_dataset,
    batch_size=batch_size,
    shuffle=True,
    drop_last=True,
    collate_fn=train_dataset.collate_fn
)

val_dataset = MNISTDataset(root_dir="mnist_png/testing/")
val_dataloader = DataLoader(
    dataset=val_dataset,
    batch_size=batch_size,
    shuffle=False,
    drop_last=False,
    collate_fn=train_dataset.collate_fn
)

In [None]:
from torch.nn import BatchNorm1d

In [None]:
model = Sequential(
    CustomLinear(28*28, 512),
    ReLU(inplace=True),
    BatchNorm1d(512),
    CustomLinear(512, 1024),
    ReLU(inplace=True),
    BatchNorm1d(1024),
    CustomLinear(1024, 10)
)

In [None]:
optimizer = torch.optim.Adam(model.parameters(), lr=lr)

Лосс возьмем готовый, свой напишете дома:

In [None]:
from torch.nn import CrossEntropyLoss
loss_fn = CrossEntropyLoss()

Функции для обучения / валидации возьмем те же, что и раньше - пока сгодятся:

In [None]:
losses = []
val_losses = []
val_preds = []
for epoch in tqdm.trange(num_epochs):
    loss = train_epoch(model, train_dataloader, optimizer, loss_fn, epoch)
    losses.append(loss)
    
    val_loss, preds = val_epoch(model, val_dataloader, loss_fn)
    val_losses.append(val_loss)
    val_preds.append(preds)

In [None]:
plt.figure(figsize=(12, 5))
plt.plot(losses, label="train")
plt.plot(val_losses, label="val")
plt.xlabel("epoch")
plt.ylabel("xEntLoss")
plt.legend()
plt.grid()
plt.show()

Соберем все предсказания / gt-лейблы, чтобы посчитать метрику Accuracy и сделать визуализацию:

In [None]:
val_pred_labels = []
for val_pred in val_preds[-1]:
    pred_label = np.argmax(val_pred)
    val_pred_labels.append(pred_label)
val_pred_labels = np.asarray(val_pred_labels)

In [None]:
val_labels = []
for image, label in val_dataset:
    val_labels.append(label)
val_labels = np.asarray(val_labels)

In [None]:
acc = (val_pred_labels == val_labels).mean()
acc

In [None]:
sample_indices = np.random.choice(len(val_dataset), size=64, replace=False)

sample_images = []
sample_captions = []
for i in sample_indices:
    image, label = val_dataset[i]
    pred_label = val_pred_labels[i]
    sample_images.append(image)
    sample_captions.append(f"gt: {label} | pred: {pred_label}")

In [None]:
show_images_with_captions(sample_images, sample_captions)

Можем отдельно отрисовать те примеры из валидации, на которых модель ошибается:

In [None]:
sample_indices = np.random.choice(np.where(val_labels != val_pred_labels)[0], size=64, replace=False)

sample_images = []
sample_captions = []
for i in sample_indices:
    image, label = val_dataset[i]
    pred_label = val_pred_labels[i]
    sample_images.append(image)
    sample_captions.append(f"gt: {label} | pred: {pred_label}")

In [None]:
show_images_with_captions(sample_images, sample_captions)

## Итоги

* Узнали, какие есть базовые сущности в Pytorch для обучения нейросетей
* Реализовали собственные классы датасета и модели
* Написали собственную функции активации и даже `backward()` для нее

В следующий раз: 
* Свертки и сверточные сети