In [None]:
# запускаем в colab или локально?
try:
    from google.colab import drive
    colab = True
except ImportError:
    colab = False

print(f"colab: {colab}")

In [None]:
# установка необходимых пакетов в colab
if colab:
    !pip install rootutils -q
    !pip install torchmetrics -q
    !pip install torchinfo -q
    !pip install lightning -q

In [None]:
# монтирование google диска и установка
# рабочей директории в `computer-vision`

import os
from rootutils import setup_root

if colab:
    drive.mount("/content/drive", force_remount=True)
    os.chdir("drive/MyDrive/computer-vision")
    root = setup_root(".", indicator="homeworks", pythonpath=True)
else:
    root = setup_root(".", indicator="homeworks", pythonpath=True)

os.chdir(root)
print(f"working directory: {os.getcwd()}")


In [None]:
# создание директории для данных

from pathlib import Path

if colab:
    DATA_DIR = Path("/content/data")
else:
    DATA_DIR = root / "data"

DATA_DIR.mkdir(exist_ok=True)

print(f"DATA_DIR: {DATA_DIR}")

In [None]:
# настройка matplotlib

import matplotlib.pyplot as plt

%matplotlib inline
%config InlineBackend.figure_format="retina"

plt.style.use("seaborn-v0_8-notebook")

In [None]:
# Загрузка tensorboard расширения
%load_ext tensorboard

## **Полносвязные нейронные сети. Методы регуляризации**

### **1. Полносвязные нейронные сети**

**Полносвязные нейронные сети** (Fully Connected Neural Networks, FCNN).

Другое название - **многослойный перцептрон** (Multilayer Perceptron, MLP).

<center>
    <figure>
        <img src="../figures/02/fcnn.jpg" width="600px"/>
    </figure>
</center>

- У этой сети один входной слой, один выходной слой и три скрытых слоя.

- Параметры нейронной сети 
    $$
        \mathbf{w} = \left\{
            \boldsymbol{\beta}_0,\boldsymbol{\Omega}_0,
            \boldsymbol{\beta}_1,\boldsymbol{\Omega}_1,
            \boldsymbol{\beta}_2,\boldsymbol{\Omega}_2,
            \boldsymbol{\beta}_3,\boldsymbol{\Omega}_3
        \right\}
    $$
    Число параметров равно:
    $$
        (D_1\cdot D_i + D_1) + (D_2\cdot D_1 + D_2) + (D_3\cdot D_2 + D_3) + (D_0\cdot D_3 + D_0) = 43
    $$

- Вычисления слоев нейронной сети:
    $$
        \mathbf{h}_1 = \mathbf{a}\left[\boldsymbol{\beta}_0 + \mathbf{\Omega}_0 \mathbf{x}\right]
    $$
    $$
        \mathbf{h}_2 = \mathbf{a}\left[\boldsymbol{\beta}_1 + \mathbf{\Omega}_1 \mathbf{h}_1\right]
    $$
    $$
        \mathbf{h}_3 = \mathbf{a}\left[\boldsymbol{\beta}_2 + \mathbf{\Omega}_2 \mathbf{h}_2\right]
    $$
    $$
        \mathbf{y} = \boldsymbol{\beta}_3 + \mathbf{\Omega}_3 \mathbf{h}_3
    $$

    где $\mathbf{a}$ - функция активации, обычно это $\mathrm{ReLU}$ (Rectified Linear Unit):
    <center>
        <figure>
            <img src="../figures/02/relu.png" width="200px"/>
        </figure>
    </center>

    $$
        a[z] = \mathrm{ReLU}[z] =
        \begin{cases}
            0 & z < 0\\
            z & z \geqslant 0
        \end{cases}
    $$

- Сеть называется **полносвязной**, поскольку каждый элемент (node) связан со всеми предыдущими элементами.


Для создания одного слоя в PyTorch используется класс `torch.nn.Linear()`: 

In [None]:
from torch import nn

class Net(nn.Module):
    def __init__(self, Di=3, D1=4, D2=2, D3=3, Do=2):
        super().__init__()

        act = nn.ReLU()

        self.layers = nn.Sequential(
            nn.Linear(Di, D1),
            act,
            nn.Linear(D1, D2),
            act,
            nn.Linear(D2, D3),
            act,
            nn.Linear(D3, Do),
        )
         
    def forward(self, x):
        y = self.layers(x)

        return y

Протестируем работу сети:

In [None]:
import torch

# модель сети
model = Net()

# батч размера 5 из случайных чисел
x = torch.rand((5, 3))

# forward pass
y = model(x)

print(f"x.shape: {x.shape}")
print(f"\nx: {x}")
print(f"\ny.shape: {y.shape}")
print(f"\ny: {y}")

Выведем информацию об архитектуре сети:

In [None]:
import torchinfo

print(torchinfo.summary(model, input_size=x.shape, device="cpu"))

### **2. Методы регуляризации**

- **Регуляризация в математике**: добавление к функции
    потерь заданных в явном виде членов, которые приводят к определенному
    выбору параметров.

- **Регуляризация в машинном обучении**: любые методы, которые улучшают обобщающую способность модели.

Наиболее распространенные методы регуляризации:

- Выбор архитектуры модели.

- Инициализация параметров модели.
- Выбор метода оптимизации для обучения сети.
- Регуляризация функции потерь.
- Аугментация изображений во время обучения.
- Learning rate schedulers.
- Ранняя остановка обучения (early stopping).

#### **2.1 Выбор архитектуры модели**

<center>
    <figure>
        <img src="../figures/02/transfer.jpg" width="800px"/>
    </figure>
</center>

- **Neural architecture search (NAS)**: подбираем подходящую архитектуру вручную или с помощью специализированных фреймворков.

- **Transfer learning**: 
    - берем готовую модель, обученную на вторичной задаче, удаляем последние слои и замещаем их новыми слоями, свойственными нашей задаче

    - обучаем только новые слои или обучаем всю сеть (**fine tuning**)


#### **2.2 Инициализация параметров модели**

##### **Проблема роста и убывания данных**
<center>
    <figure>
        <img src="../figures/02/gradient_init.jpg" width="500px"/>
    </figure>
</center>

- Прямой проход в слое $k$ полносвязной сети:
$$
    \mathbf{h}_{k+1} = \mathbf{a}\left[\mathbf{f}_{k+1}\right] =
    \mathbf{a}\left[\boldsymbol{\beta}_k + \boldsymbol{\Omega}_k \mathbf{h}_k\right]
$$
- Инициализируем параметры следующим образом:
$$
    \boldsymbol{\Omega}_k\sim N\left(0\,,\sigma^2_\Omega\right) 
$$
- Проблема роста и убывания данных:
$$    
    \sigma^2_\Omega \gg 1 
    \quad\Rightarrow\quad  
    \sigma^2_{h_k} \quad 
    \text{- увеличивается при}
    \quad k=1,2,\ldots ,K 
$$
$$
    \sigma^2_\Omega \ll 1 
    \quad\Rightarrow\quad  
    \sigma^2_{h_k} \quad
    \text{- уменьшается при} \quad k=1,2,\ldots ,K
$$

##### **Проблема исчезающих и взрывных градиентов**
<center>
    <figure>
        <img src="../figures/02/gradient_init.jpg" width="500px"/>
    </figure>
</center>

- Обратный проход в слоях полносвязной сети:
$$
    \frac{\partial L}{\partial\mathbf{f}_{k-1}} = 
    \mathbb{I}[\mathbf{f}_{k-1}>0]
    \odot
    \left(
        \boldsymbol{\Omega}^\top_k \frac{\partial L}{\partial\mathbf{f}_k}
    \right)
    \quad
    k=K,K-1,\ldots,1 
$$
- Проблема исчезающих и взрывных градиентов:
$$ 
    \sigma^2_\Omega \gg 1 
    \quad\Rightarrow\quad  
    \text{дисперсия}
    \quad \frac{\partial L}{\partial\mathbf{f}_k}\quad 
    \text{увеличивается при} \quad k=K,K-1,\ldots ,1 
$$
$$
    \sigma^2_\Omega \ll 1 
    \quad\Rightarrow\quad  
    \text{дисперсия}\quad \frac{\partial L}{\partial\mathbf{f}_k}\quad 
    \text{уменьшается при} \quad k=K,K-1,\ldots ,1
$$


##### **Инициализация Хе (Kaiming He)**
<center>
    <figure>
        <img src="../figures/02/layer.png" width="200px"/>
    </figure>
</center>

В случае функции активации ReLU:
$$
    a[x] = \mathrm{ReLU}[x]
$$
Инициализация Хе:
$$
    \boldsymbol{\Omega}_k\sim N\left(0\,,\sigma^2_\Omega\right)\,,
    \qquad
    \sigma_{\Omega}^2  = \frac{4}{D_{\mathrm{in}} + D_{\mathrm{out}}}
$$
Позволяет предотвратить взрыв и затухание данных и градиентов. 

##### **Инициализация Ксавьера (Xavier Glorot)**
<center>
    <figure>
        <img src="../figures/02/layer.png" width="200px"/>
    </figure>
</center>

В случае нечетной функции активации (например арктангенс или cигмоида):
$$
    a[-x] = -a[x]
$$

предотвратить взрыв и затухание данных и градиентов позволяет Ксавьер инициализация:
$$
        \boldsymbol{\Omega}_k\sim N\left(0\,,\sigma^2_\Omega\right)\,,
        \qquad
        \sigma_{\Omega}^2  = \frac{2}{D_{\mathrm{in}} + D_{\mathrm{out}}}
$$
или
$$
    \boldsymbol{\Omega}_k\sim
    U\left(-d\,,d\right)\,,\qquad
    d = \sqrt\frac{6}{D_{\mathrm{in}} + D_{\mathrm{out}}}
$$

#### **2.3 Выбор метода оптимизации для обучения сети**

##### **Stochastic gradient descent (SGD)**
<center>
    <figure>
        <img src="../figures/02/sgd.jpg" width="500px"/>
    </figure>
</center>

Правило обновления параметров модели $\boldsymbol{\phi}_t$ для итерации $t$:

- **SGD**
$$
    \boldsymbol{\phi}_{t+1} = 
    \boldsymbol{\phi}_t - \lambda \cdot \frac{\partial L_i}{\partial \boldsymbol{\phi}}
$$

- **Batch SGD**
$$
    \boldsymbol{\phi}_{t+1} = 
    \boldsymbol{\phi}_t - \lambda \cdot 
    \sum_{i\in{I}_t}\frac{\partial L_i}{\partial \boldsymbol{\phi}}
$$

- **GD**
$$
    \boldsymbol{\phi}_{t+1} = 
    \boldsymbol{\phi}_t - \lambda 
    \sum_{i\in\textbf{train data}}\frac{\partial L_i}{\partial \boldsymbol{\phi}}
$$

##### **Adaptive moment estimation (Adam)**
<center>
    <figure>
        <img src="../figures/02/adam.jpg" width="400px"/>
    </figure>
</center>

- **Momentum step:**
$$
    \mathbf{m}_{t+1} =
    \frac{1}{1-\beta^{t+1}}
    \left[
        \beta\cdot\mathbf{m}_t +
        (1-\beta)\cdot
        \frac{\partial L_i}{\partial \boldsymbol{\phi}}
    \right]
$$
$$
    \mathbf{v}_{t+1} =
    \frac{1}{1-\gamma^{t+1}}
    \left[
        \gamma\cdot\mathbf{v}_t +
        (1-\gamma)\cdot
        \left(\frac{\partial L_i}{\partial \boldsymbol{\phi}}\right)^2
    \right]
$$

- **Weights update step:**
$$
    \boldsymbol{\phi}_{t+1} = 
    \boldsymbol{\phi}_t - \alpha \cdot 
    \frac{\mathbf{m}_{t+1}}{\sqrt{\mathbf{v}_{t+1} + \varepsilon}}
$$

#### **2.4 Регуляризация функции потерь**
<center>
    <figure>
        <img src="../figures/02/regularization.jpg" width="600px"/>
    </figure>
</center>

К функции потерь добавим дополнительное слагаемое:
$$
    L[\boldsymbol{\phi}] + \mu\cdot g[\boldsymbol{\phi}]
$$

Например, для $L_2$ регуляризации:
$$
    g[\boldsymbol{\phi}] = \sum_i \phi^2_i
$$

$L_2$ регуляризацию можно заменить **AdamW** оптимизатором, в котором $L_2$ регуляризация выполняется неявно:

In [None]:
from torch.optim import AdamW

optimizer = AdamW(
    model.parameters(), 
    lr=1e-4,          # Learning rate
    weight_decay=1e-2 # Recommended for AdamW
)

#### **2.5 Learning rate schedulers**

<center>
    <figure>
        <img src="../figures/02/multi_step.png" width="500px"/>
    </figure>
</center>

In [None]:
from torch.optim.lr_scheduler import MultiStepLR

scheduler = MultiStepLR(
    optimizer, 
    milestones = [8, 24, 28], # List of epoch indices
    gamma = 0.5               # Multiplicative factor of learning rate decay
) 

<center>
    <figure>
        <img src="../figures/02/cosine_annealing.png" width="500px"/>
    </figure>
</center>

In [None]:
from torch.optim.lr_scheduler import CosineAnnealingLR

scheduler = CosineAnnealingLR(
    optimizer,
    T_max = 32,    # Maximum number of iterations.
    eta_min = 1e-4 # Minimum learning rate.
) 

#### **2.6 Ранняя остановка обучения (early stopping)**

<center>
    <figure>
        <img src="figs/02/early_stopping.png" width="500px"/>
    </figure>
</center>

- **Early stopping** - остановка процедуры обучения до того, как она полностью завершилась.

- Ранняя остановка может уменьшить переобучение.

#### **2.7 Аугментация изображений во время обучения**

<center>
    <figure>
        <img src="../figures/02/aug.jpg" width="800px"/>
    </figure>
</center>

**Цели аугментации:**

- Научить модель оставаться инвариантной к несущественным, для данной задачи, трансформациям изображений.

- Генерация дополнительных обучающих данных. 


### **Классификация изображений Fashion-MNIST** 

На примере задачи классификации изображений из датасета Fashion-MNIST, рассмотрим использование некоторых из методов регуляризации.

Для обучения и тестирования модели классификации будем использовать фреймворк PyTorch Lightning.

#### **Fasion-MNIST dataset**

<center>
    <figure>
        <img src="../figures/02/fashion_mnist.jpg" width="700px"/>
    </figure>
</center>

- Размер изображений: 28x28 пикселей

- Цветовое пространство: grayscale

- Количество классов: 10 (одежда)

- Размер набора данных: 60 000 обучающих и 10 000 тестовых изображений


In [None]:
# классы Fasion-MNIST
class_names = {
    0: "T-shirt/top",
    1: "Trouser",
    2: "Pullover",
    3: "Dress",
    4: "Coat",
    5: "Sandal",
    6: "Shirt",
    7: "Sneaker",
    8: "Bag",
    9: "Ankle boot"
}

В torchvision датасетах:

https://docs.pytorch.org/vision/main/datasets.html#image-classification

есть класс для работы Fashion-MNIST.

Для того чтобы попрактиковаться, напишем свою реализацию класса `torch.utils.data.Dataset` для Fashion-MNIST.

Загрузим и распакуем Fashion-MNIST данные с Google Disk:

In [None]:
from src.utils import download_and_extract

download_and_extract("1KpBql_Rpc1dtBSwFTT7UZdNLUoDde6YQ", "fashion-mnist.zip", DATA_DIR)

In [None]:
import cv2
import lightning.pytorch as pl

from torch.utils.data import Dataset, DataLoader
from torch.utils.data import random_split
from torchvision import transforms as T


class DataSet(Dataset):
    def __init__(self, image_files, transform):
        super().__init__()

        self.files = image_files
        self.labels = [int(f.parent.name) for f in self.files]
        self.transform = transform

    def __len__(self):
        return len(self.files)

    def __getitem__(self, index):
        image = cv2.imread(self.files[index], cv2.IMREAD_GRAYSCALE)

        x = self.transform(image)
        y = self.labels[index]

        return x, y

class DataModule(pl.LightningDataModule):
    def __init__(self, data_dir, batch_size):
        super().__init__()

        self.batch_size = batch_size
        
        self.test_dataset = DataSet(
            list((data_dir / "test").glob("**/*.png")), 
            T.Compose([
                T.ToTensor()
            ])
        )
    
        files = list((data_dir / "train").glob("**/*.png"))

        train_files, val_files = random_split(
            files,
            [50_000, 10_000],
            generator=torch.Generator().manual_seed(42)
        )

        self.train_dataset = DataSet(
            train_files, 
            T.Compose([
                T.ToTensor()
            ])
        )

        self.val_dataset = DataSet(
            val_files, 
            T.Compose([
                T.ToTensor()
            ])
        )
    
    def train_dataloader(self):
        loader = DataLoader(
            self.train_dataset, 
            batch_size=self.batch_size,
            num_workers=0,
            shuffle=True,
            drop_last=True
        )
        return loader

    def val_dataloader(self):
        loader = DataLoader(
            self.val_dataset, 
            batch_size=self.batch_size,
            num_workers=0,
            shuffle=False,
            drop_last=False
        )
        return loader

    def test_dataloader(self):
        loader = DataLoader(
            self.test_dataset, 
            batch_size=self.batch_size,
            num_workers=0,
            shuffle=False,
            drop_last=False
        )
        return loader

    def predict_dataloader(self):
        loader = DataLoader(
            self.test_dataset, 
            batch_size=self.batch_size,
            num_workers=0,
            shuffle=False,
            drop_last=False
        )
        return loader
    

pl.seed_everything(42)


datamodule = DataModule(data_dir=DATA_DIR / "fashion-mnist", batch_size=1000)

In [None]:
loader = datamodule.train_dataloader()
dataset = loader.dataset

x, y = next(iter(loader))
print(x.shape)
print(y.shape)

In [None]:
import numpy as np

image = x.squeeze()[0]
label = y[0].item()

image = (255 * image).numpy().astype(np.uint8)
class_name = class_names[label]

# построение изображения
plt.figure(figsize=(3, 3))
plt.imshow(image, cmap="gray")
plt.title(f"class name: {class_name}")
plt.axis("off");

In [None]:
class Net(nn.Module):
    def __init__(self, hidden_size):
        super().__init__()

        self.layers = nn.Sequential(
            nn.Linear(28 * 28, hidden_size),
            nn.ReLU(),
            nn.Linear(hidden_size, 10),
        )

    def forward(self, x):
        # преобразуем размер 
        # B x 1 x 28 x 28 -> B x (28 * 28)
        x = x.view(-1, 28 * 28)
        
        y = self.layers(x)

        return y
    

class Classifier(pl.LightningModule):
    def __init__(self, hidden_size, learning_rate):
        super().__init__()
        self.save_hyperparameters()
        self.net = Net(hidden_size)
        self.loss_fn = nn.CrossEntropyLoss()

    def forward(self, x):
        return self.net(x)
    
    def training_step(self, batch, batch_idx):
        x, y = batch
        y_hat = self(x)
        loss = self.loss_fn(y_hat, y)
        self.log("train/loss", loss, on_step=False, on_epoch=True, prog_bar=False)
        return loss

    def validation_step(self, batch, batch_idx):
        x, y = batch
        y_hat = self(x)
        loss = self.loss_fn(y_hat, y)
        self.log("val/loss", loss, on_step=False, on_epoch=True, prog_bar=False)
        

    def test_step(self, batch, batch_idx):
        x, y = batch
        y_hat = self(x)
        loss = self.loss_fn(y_hat, y)
        self.log("test_loss", loss)

    def predict_step(self, batch, batch_idx, dataloader_idx=None):
        x, _ = batch
        return self(x)

    def configure_optimizers(self):
        # self.hparams available because we called self.save_hyperparameters()
        return torch.optim.Adam(self.parameters(), lr=self.hparams.learning_rate)

model = Classifier(hidden_size=196, learning_rate=0.1)

In [None]:
import warnings
warnings.filterwarnings("ignore")

from lightning.pytorch.callbacks import LearningRateMonitor, ModelCheckpoint


trainer = pl.Trainer(
    default_root_dir = DATA_DIR / "classifier",                          
    accelerator = "gpu" if torch.cuda.is_available() else "cpu",                    
    devices=1,                                                                         
    max_epochs=10,                                                                    
    callbacks=[
        #ModelCheckpoint(save_weights_only=True, mode="max", monitor="val_acc"), 
        LearningRateMonitor("epoch")
    ],                                     
    enable_progress_bar=True
)    


In [None]:
trainer.fit(model, datamodule=datamodule)

In [None]:
# Opens tensorboard in notebook. Adjust the path to your CHECKPOINT_PATH!
if colab:
    %tensorboard --logdir data/classifier/lightning_logs/version_0
else:
    !tensorboard --logdir data/classifier/lightning_logs/version_0

In [None]:
from torchvision.datasets import FashionMNIST
from torchvision import transforms as T

import numpy as np

# 1. Define transformations: Convert images to PyTorch tensors
transform = T.Compose([
    T.ToTensor()
])
             
# 2. Load the Fashion-MNIST datasets (downloads if not present)
train_dataset = FashionMNIST(
    root=DATA_DIR, 
    train=True, 
    download=True, 
    transform=transform
)

test_dataset = FashionMNIST(
    root=DATA_DIR, 
    train=False, 
    download=True, 
    transform=transform
)


print(f"Train dataset size: {len(train_dataset)}")
print(f"Test dataset size: {len(test_dataset)}")

Посмотрим на один из сэмплов:

In [None]:
# x - tensor
# y - int
x, y = train_dataset[2026]

class_name = class_names[y]

print(f"x.shape: {x.shape}")
print(f"label: {y}")
print(f"class name: {class_name}")

In [None]:
import matplotlib.pyplot as plt

# де-нормализация изображения
image = (255 * x.squeeze()).numpy().astype(np.uint8)

# построение изображения
plt.figure(figsize=(3, 3))
plt.imshow(image, cmap="gray")
plt.title(f"class name: {class_name}")
plt.axis("off");

Создадим датасеты для обучения и тестирования:

In [None]:
dataset = DataSet(DATA_DIR / "fashion-mnist/train")
test_dataset = DataSet(DATA_DIR / "fashion-mnist/test")

# число изображений в датасетах
print(f"dataset size: {len(dataset)}")
print(f"test_dataset size: {len(test_dataset)}")

Посмотрим на один из сэмплов:

In [None]:
# x - numpy массив
# y - int
x, y = dataset[2026]

# имя класса
class_name = class_names[y]

print(f"x shape: {x.shape}")
print(f"y: {y}")

# де-нормализация изображения
image = (255 * x[0]).astype(np.uint8)

# построение изображения
plt.figure(figsize=(3, 3))
plt.imshow(image, cmap="gray")
plt.title(f"class: {class_name}")
plt.axis("off");

Разделим `dataset` на датасеты для обучения и валидации:

In [None]:
from torch.utils.data import random_split

train_dataset, val_dataset = random_split(
    dataset,
    [50_000, 10_000]
)

print(f"train_dataset size: {len(train_dataset)}")
print(f"val_dataset size: {len(val_dataset)}")

Создадим загрузчики батчей для обучения и валидации:

In [None]:
from torch.utils.data import DataLoader

train_loader = DataLoader(
    train_dataset,   # датасет
    batch_size=1024, # размер батча
    num_workers=0,   # число процессов для формирования батчей
    shuffle=True,    # перемешивать датасет в конце каждой эпохи
    drop_last=True   # выбрасывать последний неполный батч в эпохе
)

val_loader = DataLoader(
    val_dataset,
    batch_size=1024,
    num_workers=0,
    shuffle=False,
    drop_last=False
)

# число батчей
print(f"train_loader size: {len(train_loader)}")
print(f"val_loader size: {len(val_loader)}")

Сгенерируем один батч из данных для обучения: 

In [None]:
# для изображений размер батча должен
# иметь вид B x C x H x W
# (размер батча) x (число цветовых каналов) x (высота изображения) x (ширина изображения)

# выборка случайного батча данных из датасета
# x, y - это тензоры
x, y = next(iter(train_loader))

# приведение к нужному типу данных
x = x.float()
y = y.long()

print(f"x shape: {x.shape}")
print(f"y shape: {y.shape}\n")

print(f"x.min(): {x.min()}")
print(f"x.max(): {x.max()}")

#### **Модель классификатора**

Создадим полносвязную нейронную сеть для классификации с одним скрытым слоем:

In [None]:
class Classifier(nn.Module):
    def __init__(self, D):
        super().__init__()

        self.layers = nn.Sequential(
            nn.Linear(28 * 28, D),
            nn.ReLU(),
            nn.Linear(D, 10),
        )

    def forward(self, x):
        # преобразуем размер 
        # B x 1 x 28 x 28 -> B x (28 * 28)
        x = x.view(-1, 28 * 28)
        
        y = self.layers(x)

        return y

Протестируем модель сети:

In [None]:
model = Classifier(D=196)

x, y = next(iter(val_loader))

y_hat = model(x)

print(f"x shape: {x.shape}")
print(f"y_hat shape: {y_hat.shape}")

Выведем архитектуру модели:

In [None]:
print(torchinfo.summary(model, input_size=x.shape, device="cpu"))

#### **Функция потерь и метрика**

Функция потерь для задачи мультиклассовой классификации - средняя кросс-энтропия на батче (Cross Entropy):
$$
    \mathbf{CE} = 
    -\frac{1}{|\mathcal{I}_t|}
    \sum_{i\in\mathcal{I}_t}\mathbf{p}_i\cdot\ln \widehat{\mathbf{p}}_i
$$
где $\mathbf{p}_i$ - one-hot вектор истинных вероятностей изображения с номером $i$:
$$
   \mathbf{p}_i = (0\,,0\,,\ldots\,,1\,,0\,,\ldots\,,0)
$$ 
$\widehat{\mathbf{p}}_i$ - вектор предсказанных моделью вероятностей изображения с номером $i$:
$$
    \widehat{\mathbf{p}}_i = \mathrm{softmax}[\widehat{\mathbf{y}}_i] = 
    \frac{\exp[\widehat{\mathbf{y}}_i]}{\sum\limits_j \exp[\widehat{y}_{ij}]}
$$

Загрузчик данных возвращает $\left\{\mathbf{y}_i\right\}_{i\in\mathcal{I}_t}$.

Модель возвращает $\left\{\widehat{\mathbf{y}}_i\right\}_{i\in\mathcal{I}_t}$.

Все необходимые преобразования в вероятности происходят в классе `torch.nn.CrossEntropyLoss()`:

In [None]:
loss_fn = nn.CrossEntropyLoss()

x, y = next(iter(train_loader))

y_hat = model(x.float())

# вычисление loss функции по предсказанию `y_hat` и реальному `y`
# вычисления softmax и one-hot encoding `y` реализовано в `loss_fn` 
loss = loss_fn(y_hat, y)

print(f"loss value = {loss}")

В качестве оптимизатора возьмем SGD:

In [None]:
optimizer = torch.optim.SGD(params=model.parameters(), lr=0.1)

В качестве метрики качества возьмем среднюю точность по классам:

In [None]:
from torchmetrics.classification import MulticlassAccuracy

# вычисляет точность предсказания по каждому классу
metric = MulticlassAccuracy(num_classes=10, average=None)

Протестируем метрику качества:

In [None]:
# итератор по данным
iterator = iter(val_loader)

# получим первый батч 
x, y = next(iterator)
y_hat = model(x.float())

# добавим в метрику
metric.update(y_hat, y.long())

# получим следующий батч
x, y = next(iterator)
y_hat = model(x.float())

# добавим в метрику
metric.update(y_hat, y.long())

# вычисление точности по каждому классу
accuracy = metric.compute()

# средняя точность по классам
mean_accuracy = accuracy.mean()

print(f"class accuracy: {accuracy}")
print(f"mean accuracy: {mean_accuracy}")

#### **Обучение модели**

Соберем все вместе и напишем полный цикл обучения и валидации модели по эпохам:

In [None]:
from dataclasses import dataclass

from torchmetrics.aggregation import MeanMetric
from livelossplot import PlotLosses

from src.utils import set_seed

@dataclass
class Config:
    seed = 0xC0FFEE
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    num_workers = 0
    # гиперпараметры
    epochs = 10
    learning_rate = 0.1
    batch_size = 1000
    D = 196
    
cfg = Config()

# для воспроизводимости результатов обучения
set_seed(cfg.seed)

# загрузчик данных для обучения
train_loader = DataLoader(
    train_dataset,
    batch_size=cfg.batch_size,
    shuffle=True,
    drop_last=True,
    num_workers=cfg.num_workers
)

# загрузчик данных для валидации
val_loader = DataLoader(
    val_dataset,
    batch_size=cfg.batch_size,
    shuffle=False,
    drop_last=False,
    num_workers=cfg.num_workers
)

# модель классификатора
model = Classifier(D=cfg.D)
model = model.to(cfg.device)

# оптимизатор 
optimizer = torch.optim.SGD(params=model.parameters(), lr=cfg.learning_rate)

# функция потерь
loss_fn = nn.CrossEntropyLoss()

# для построения графиков во время обучения
plot = PlotLosses(figsize=(12, 3))

# лучшее значение метрики качества
best_metric = 0

for epoch in range(cfg.epochs):
    # ЭПОХА ОБУЧЕНИЯ МОДЕЛИ

    # модель переведем в режим обучения
    model.train()

    # значения loss функции на батчах одной эпохи
    batch_losses = torch.empty(0)

    metric = MulticlassAccuracy(num_classes=10, average=None)

    # для вычислений среднего значения метрики
    mean_metric = MeanMetric()

    # выбираем случайные батчи из обучающих данных
    for x, y in train_loader:
        x = x.float().to(cfg.device)
        y = y.long().to(cfg.device)

        # предсказание модели
        y_hat = model(x)

        # вычисление loss функции по предсказанию `y_hat` и реальному `y`
        loss = loss_fn(y_hat, y)

        # обнулим все производные перед их вычислениями
        # чтобы не было gradient accumulation
        optimizer.zero_grad()

        # вычисление производных loss функция по параметрам
        # c помощью метода обратного распространения ошибки (backpropagation)
        loss.backward()

        # обновление параметров модели
        optimizer.step()

        mean_metric.update(loss.detach().cpu())
        metric.update(y_hat.detach().cpu(), y.cpu())

    # среднее значение функции потерь в эпохе обучения
    train_epoch_loss = mean_metric.compute()
    
    # среднее значение метрики в эпохе обучения
    train_epoch_metric = metric.compute().mean()
    
    # ЭПОХА ВАЛИДАЦИИ МОДЕЛИ

    # модель переведем в режим валидации
    model.eval()

    batch_losses = torch.empty(0)

    metric = MulticlassAccuracy(num_classes=10, average=None)
    mean_metric = MeanMetric()

    for x, y in val_loader:
        x = x.float().to(cfg.device)
        y = y.long().to(cfg.device)

        # этот контекст рекомендуют использовать для ускорения вычислений при валидации
        with torch.no_grad():
            y_hat = model(x)
        
        loss = loss_fn(y_hat, y)

        mean_metric.update(loss.cpu())
        metric.update(y_hat.cpu(), y.cpu())

    # среднее значение функции потерь в эпохе валидации
    val_epoch_loss = mean_metric.compute()

    # среднее значение метрики в эпохе валидации
    val_epoch_metric = metric.compute().mean()

    # сохраняем модель, если на валидации метрика улучшилась
    if best_metric < val_epoch_metric:
        best_metric = val_epoch_metric
        torch.save(model.state_dict(), DATA_DIR / "classifier.pth")

    # построение графиков во время обучения
    plot.update({
        "loss": train_epoch_loss,
        "val_loss": val_epoch_loss,
        "accuracy": train_epoch_metric,
        "val_accuracy": val_epoch_metric
    })

    plot.send()

#### **Тестирование модели**

Загрузим веса обученной модели для тестирования:

In [None]:
state_dict = torch.load(DATA_DIR / "classifier.pth", weights_only=True)

model = Classifier(cfg.D)
model.load_state_dict(state_dict, strict=True)

Протестируем на CPU модель на тестовых данных:

In [None]:
test_loader = DataLoader(
    test_dataset,
    batch_size=1000,
    shuffle=False,
    drop_last=False,
    num_workers=0
)

# модель в режим тестирования
model.eval()

metric = MulticlassAccuracy(num_classes=10, average=None)

# перебираем все батчи из тестовых данных
for x, y in test_loader:
    x = x.float()
    y = y.long()

    # при тестировании, для скорости
    # рекомендуют использовать `torch.inference_mode()` контекст
    with torch.inference_mode():
        y_hat = model(x)

    metric.update(y_hat, y)

class_accuracy = metric.compute()
mean_accuracy = class_accuracy.mean()

for label, accuracy in enumerate(class_accuracy):
    name = class_names[label]
    print(f"{name:>15}: {100 * accuracy.item():.2f} %")

print(f"\nmean_accuracy: {100 * mean_accuracy.item():.2f} %")



Возьмем одно тестовое изображение:

In [None]:
x, y = test_dataset[102]

image = (255 * x[0]).astype(np.uint8)
name = class_names[y]

plt.figure(figsize=(3, 3))
plt.imshow(image, cmap="gray")
plt.title(f"Class: {name}")
plt.axis("off");

и сделаем на нем предсказание модели:

In [None]:
# преобразование из 28 x 28 numpy array
# в 1 x 1 x 28 x 28 pytorch tensor
x = torch.from_numpy(image)
x = x.unsqueeze(0).unsqueeze(1)
x = x.float() / 255

with torch.inference_mode():
    y_hat = model(x)

# предсказанная метка класса - 
# это индекс максимального элемента выхода модели
pred_label = torch.argmax(y_hat, dim=1)

# преобразование из тензора в число
pred_label = pred_label.item()

# имя предсказанного класса
pred_class = class_names[pred_label]

print(f"Predicted class: {pred_class}")