# Lineární klasifikace obrázků CIFAR10

Úkolem cvičení je naprogramovat lineární klasifikátor, který bude rozpoznávat objekty z datasetu CIFAR-10.
Vstupem je RGB obrázek o rozměrech 32$\times$32 pixelů a úkolem říci, který z 10 možných objektů (tříd) je na něm zachycen. Možnosti jsou tyto: letadlo, automobil, pták, kočka, jelen, pes, žába, kůň, loď, náklaďák.

**Model**
- Vstup: $\boldsymbol{x}$, rozměr $N \times D$, kde $N$ je počet obrázků a $D$ počet číselných hodnot v jednom obrázku
  - Každý řádek je jeden obrázek reprezentovaný jako vektor, čísla v rozmezí 0-1.
- Parametr váhy (weights): $\boldsymbol{w}$, rozměr $D \times C$
- Parametr bias: $\boldsymbol{b}$, rozměr $C$
- Predikované skóre (logity): $\boldsymbol{s} = \boldsymbol{x}\cdot\boldsymbol{w} + \boldsymbol{b}$, rozměr $N \times C$
  - Pro každý obrázek predikce $C$ hodnot
- Predikovaná třída: $\boldsymbol{z} = \arg\max_c\boldsymbol{s}$, rozměr $N$
  - Pro každý obrázek vybereme třídu s nejvyšším skóre.

**Optimalizace**
- Kritérium křížová entropie: $l = \sum_c{p_c \cdot \log q_c}$
- Metoda Stochastic Gradient Descent (SGD)
  - $\boldsymbol{w} := \boldsymbol{w} - \gamma \frac{dl}{d\boldsymbol{w}}$
  - $\boldsymbol{b} := \boldsymbol{b} - \gamma \frac{dl}{d\boldsymbol{w}}$
  - Hyperparametr $\gamma$ značí rychlost učení (learning rate)

In [None]:
%load_ext autoreload
%autoreload 2

In [None]:
import sys
sys.path.append('..')  # import tests
from typing import Callable

import numpy as np
import matplotlib.pyplot as plt
import torch
import torchvision

import ans
from tests import test_linear_classification

In [None]:
torch.set_printoptions(profile='short')

# Načtení dat

Balík torchvision podporuje některé znamé datasety, mezi něž patří i CIFAR-10. Nemusíme tedy data stahovat z internetu manuálně, torchvision za nás vše obstará automaticky. Data uložíme do adresáře `./data`. Všimněme si flagu `train=True`, který říká, že se má načíst trénovací množina datasetu CIFAR-10 (soubory `data_batch_*`).

In [None]:
train_dataset = torchvision.datasets.CIFAR10(root='../data', train=True, download=True)
train_dataset

Validovat budeme na zbylých 10000 obrázcích. Získáme je nastavením `train=False`.

In [None]:
val_dataset = torchvision.datasets.CIFAR10(root='../data', train=False, download=True)
val_dataset

Seznam tříd je uložen v atributu `.classes`.

In [None]:
train_dataset.classes

Objekt třídy `torchvision.datasets.cifar.CIFAR10` se chová podobně jako pythonovský `list` s tím, že každý jeho prvek je dvojice (obrázek, třída).

In [None]:
train_dataset[5]

Jak vidíme, 6. prvek datasetu je *dvojice* (`tuple`) sestávající z obrázku a jeho indexu třídy (label, target).

- Obrázek je defaultně navrácen jako typ `Image` knihovny Pillow (Python Imaging Library, PIL).

- Target je číslo typu `int` označující jednu ze tříd v atributu `.classes`.

Všechny obrázky CIFAR-10 datasetu jsou uloženy v atributu `.data`, což je 4D `numpy.ndarray` typu `np.uint8`. První dimenze odpovídá jednotlivým obrázkům, další pak řádkům, sloupcům a kanálům (RGB).

In [None]:
type(train_dataset.data), train_dataset.data.shape, train_dataset.data.dtype, train_dataset.data.min(), train_dataset.data.max()

Podobně všechny targety jsou uložny v `.targets`, což je `list` o délce počtu obrázků, přičemž každý target číslo typu `int` v rozmezí 0-9, kde 0 značí letadlo (airplane), 1 značí automobil (automobile) atd.

In [None]:
type(train_dataset.targets), len(train_dataset.targets), type(train_dataset.targets[0]), min(train_dataset.targets), max(train_dataset.targets)

Pro lepší představu si vykreslíme sloupec 10 obrázků pro každou z 10 tříd.

In [None]:
plt.figure(figsize=(12, 12))

for i, cls in enumerate(train_dataset.classes):
    # chceme pouze obrazky aktualni tridy a z nich nahodne vybereme 10
    cls_ids = [j for j, y in enumerate(train_dataset.targets) if y == i]
    draw_ids = np.random.choice(cls_ids, size=10)
    
    # pyplot podobne jako MATLAB nabizi funkci subplot pro vykresleni vice grafu do jednoho okna
    for j, k in enumerate(draw_ids):
        # vykresli 10x10 obrazku, poradi je po radcich, ovsem my budeme vykreslovat po sloupcich,
        # tj. kazdy sloupec bude obsahovat 10 prikladu jedne ze trid
        plt.subplot(10, 10, j * 10 + i + 1)
        
        # vyresli obrazek
        plt.imshow(train_dataset.data[k])
        
        # nevykresluj popisky os
        plt.axis('off')
        
        # v prvnim radku pridame nazev grafu (obrazku)
        if j == 0:
            plt.title(cls, fontsize=10)
plt.show()

# Načítání dat po dávkách

Prvním úkolem bude implementovat načítání dat po dávkách, na kterých se bude klasifikátor učit. Funkcionalita je implementovaná třídou `ans.data.BatchLoader` a nachází se v souboru `ans/data.py`. Třída implementuje metodu `__iter__` a je tedy možné ji použít jako zdroj např. pro `for` cyklus následujícím způsobem:
``` python
train_loader = ans.data.BatchLoader(
    torch.tensor(train_dataset.data),  # input images, shape (50000, 32, 32, 3)
    torch.tensor(train_dataset.targets),  # targets, shape (50000,)
    batch_size=100,
    shuffle=True  # return the data in random order
)
for inputs, targets in train_loader:
    # inputs ... shape (100, 32, 32, 3)
    # targets ... shape (100,)
    ...
```

### TODO: implementujte metodu `__iter__` třídy `ans.data.BatchLoader`.

Implementaci lze zkontrolovat připravenými unit testy.

In [None]:
test_linear_classification.TestBatchLoader.eval()

In [None]:
train_loader = ans.data.BatchLoader(
    torch.tensor(train_dataset.data),
    torch.tensor(train_dataset.targets),
    batch_size=5,
    shuffle=True
)
train_loader

In [None]:
inputs, targets = next(iter(train_loader))
print(type(inputs), inputs.shape, inputs.dtype, inputs.min(), inputs.max())
print(type(targets), targets.shape, targets.dtype, targets.min(), targets.max())

In [None]:
val_loader = ans.data.BatchLoader(
    torch.tensor(val_dataset.data),
    torch.tensor(val_dataset.targets),
    batch_size=5,
    shuffle=False
)
val_loader

# Preprocessing

Data jsou celočiselného typu `torch.uint8`, což jsou čísla v rozmezí 0-255. Pro lepší numerické vlastnosti data převedeme do rozsahu 0-1 a datového typu `torch.float32`, který je pro PyTorch výchozí. Operaci provedeme jednoduchým vydělením max. hodnotou 255. Zároveň obrázky přetvarujeme do vektoru, takže výstup bude mít rozměr (batch_size, počet_pixelů). Celé předzpracování bude implementovat funkce `preprocess`, kterou budeme volat pro každou dávku po jejím načtení z `BatchLoader`u. Normalizovat budeme pouze obrázky, s targety nic dělat nebudeme.

### TODO: implementuje funkci `preprocess`.

In [None]:
def preprocess(inputs: torch.Tensor) -> torch.Tensor:
    """
    Args:
        inputs: n-dimensional tensor with first dimension of size num_inputs
    Returns:
        outputs: 2-dimensional tensor; shape (num_inputs, num_features), dtype float32
    """
    
    ########################################
    # TODO: implement
    
    
    
    # ENDTODO
    ########################################
    
    return outputs

In [None]:
test_linear_classification.TestPreprocess.eval(preprocess_fn=preprocess)

In [None]:
inputs_prep = preprocess(inputs)
inputs_prep

# Inicializace

Váhovou matici $\boldsymbol{W}$ klasifikátoru inicializujeme na náhodné hodnoty s normálním rozdělením a malou standardní odchylkou. Bias $\boldsymbol{b}$ inicializujeme vektor nul s odpovídajícím rozměrem. Inicializaci bude provádět funkce `init_params`, která převezme rozměry a požadovanou odchylku (parametr `multiplier`) a vrátí dvojici (weight, bias).

Pozn.: nezapomínejme, že obrázky jsou uloženy *po řádcích* a náš model má podobu $\boldsymbol{s} = \boldsymbol{x}\cdot\boldsymbol{w} + \boldsymbol{b}$. Od toho se odvíjejí rozměry $\boldsymbol{w}$ a $\boldsymbol{b}$.

### TODO: implementuje funkci `init_params`.

In [None]:
def init_params(input_dim: int, output_dim: int, multiplier: float = 1e-2) -> tuple[torch.Tensor, torch.Tensor]:
    """
    Args:
        input_dim: size of one input
        output_dim: size of one output
        multiplier: standard deviation of weight
    Returns:
        weight, bias
    """
    
    ########################################
    # TODO: implement
    
    

    # ENDTODO
    ########################################
    
    return weight, bias

In [None]:
test_linear_classification.TestInit.eval(init_params_fn=init_params)

In [None]:
weight, bias = init_params(inputs_prep.shape[1], len(train_dataset.classes))
weight, bias

# Výpočet lineárních skóre (logitů)

Nyní vypočteme lineární skóre (logity) jako
$$\boldsymbol{s}_n = \boldsymbol{x}_n \cdot \boldsymbol{w} + \boldsymbol{b}$$
kde
- $\boldsymbol{s}_n = [s_{n,1},\ldots,s_{n,C}]$ je (řádkový) vektor skóre pro $n$-tý vzorek (obrázek) $\boldsymbol{x}_n$ a každou z $C$ (= `num_classes`) tříd
- $\boldsymbol{x}_n = [x_{n,1},\ldots,x_{n,D}]$ je $n$-tý vzorek (obrázek) v dávce reprezentovaný jako (řádkový) vektor s rozměrem $D$ (= `num_features`)
- $\boldsymbol{w} = [w_{d,c}]$ je matice vah klasifikátoru s rozměry $D \times C$
- $\boldsymbol{b} = [b_1,\ldots,b_C]$ je bias klasifikátoru - (řádkový) vektor s rozměrem $C$

Výpočet bude zajišťovat funkce `calc_linear_scores`, jejímiž vstupy budou
- dávka vektorů $\boldsymbol{x}=[\boldsymbol{x}_1,\ldots,\boldsymbol{x}_N]$ (každý řádek je jeden vektor) s rozměry $N \times D$
- váhová matice $\boldsymbol{w}$
- bias vektor $\boldsymbol{b}$

a výstupem bude
- *matice* skóre $\boldsymbol{S} = [\boldsymbol{s}_1,\ldots,\boldsymbol{s}_N]$ (každý řádek je jeden vektor skóre $\boldsymbol{s}_n$) s rozměry $N \times C$

### TODO: implementuje funkci `calc_linear_scores`.

In [None]:
def calc_linear_scores(inputs: torch.Tensor, weight: torch.Tensor, bias: torch.Tensor) -> torch.Tensor:
    """
    Args:
        inputs: shape (num_samples, num_features)
        weight: shape (num_features, num_classes)
        bias: shape (num_classes,)
    Returns:
        scores: shape (num_samples, num_classes)
    """
    ########################################
    # TODO: implement
    
    
    
    # ENDTODO
    ########################################
    
    return scores

In [None]:
test_linear_classification.TestCalcLinearScores.eval(calc_linear_scores_fn=calc_linear_scores)

In [None]:
logits = calc_linear_scores(inputs_prep, weight, bias)
logits

# Kritérium: softmax cross entropy loss

Výstupní pravděpodobnost $c$-té třídy $q_{nc}$ predikovaná klasifikátorem pro $\boldsymbol{x}_n$ bychom mohli získat aplikací funkce softmax na skóre $\boldsymbol{s}_n$
$$
q_{n,c} = \frac{\exp{s_{n,c}}}{\sum_{i=1}^{C}{\exp{s_{n,i}}}}, c=1,\ldots,C
$$
kde
- $s_{n,j}$ je predikované skóre jako reálné číslo $(-\infty, +\infty)$ $n$-tého vzorku dávky třídy $j$

Klasifikátor budeme trénovat optimalizací křížové entropie mezi predikovanými $q_{n,c}$ a skutečnými pravděpodobnostmi $p_{n,c}$
$$
l_n = -\sum_c{p_{n,c} \log q_{n,c}}
$$
kde
- $l_n$ je hodnota kritéria (kladné reálné číslo) pro $n$-tý vzorek $\boldsymbol{x}_n$ dávky

Jelikož pro každý obrázek známe, který objekt je na něm zachycen, skutečné diskrétní rozdělení pravděpodobnosti $\boldsymbol{p}_n=[p_{n,1},\ldots,p_{n,C}]$ má pouze jednu hodnotu $p_{n,c}=1$ a to správnou třídu $c=y_n$; ostatní $p_{n,c}=0, c \ne y_n$ jsou nulové. Jde tedy o tzv. one hot vektor. Sloučením softmaxu a odstraněním nulových členů ve vztahu pro výpočet entropie získáme
$$
l_n = -\log q_{n,y_n} = -\log\frac{\exp{s_{n,y_n}}}{\sum_{c=1}^{C}{\exp{s_{n,c}}}} = -s_{n,y_n} + \log\sum_c\exp s_{n,c}
$$
Loss tedy můžeme počítat přímo z lineárních skóre (logitů), což s sebou zároveň přináší výhodu modularity, protože později takto bude možné kritérium jednoduše vyměnit např. za hinge loss a namísto logistické regrese tak trénovat klasifikátor SVM. Kritérium bude počítat funkce `softmax_cross_entropy`, jejímiž vstupy budou
- matice skóre $\boldsymbol{S} = [\boldsymbol{s}_1,\ldots,\boldsymbol{s}_N]$ (každý řádek je jeden vektor skóre $\boldsymbol{s}_n$) s rozměry $N \times C$
- vektor správných indexů tříd $\boldsymbol{y} = [y_1, \ldots, y_N]$ s rozměrem $N$

a výstupy budou
- celkový loss $l = \frac{1}{N}\sum_{n=1}^{N}l_n$ spočítaný jako aritmetický průměr lossů $l_n$ pro jednotlivé predikce $\boldsymbol{s}_1, \ldots, \boldsymbol{s}_N$

### TODO: implementujte funkci `softmax_cross_entropy`

In [None]:
def softmax_cross_entropy(scores: torch.Tensor, targets: torch.Tensor) -> torch.Tensor:
    """
    Args:
        scores: output linear scores (logits before softmax); shape (num_samples, num_classes)
        targets: vector of class indicies (integers); shape (num_samples,)
    Returns:
        loss: averare cross entropy on the batch; tensor containing single number (scalar), e.g. "tensor(2.23)"
    """
    
    ########################################
    # TODO: implement
    
    
    
    # ENDTODO
    ########################################
    
    return loss

In [None]:
test_linear_classification.TestSoftmaxCrossEntropy.eval(softmax_cross_entropy_fn=softmax_cross_entropy)

In [None]:
loss = softmax_cross_entropy(logits, targets)
loss

# Úspěšnost: accuracy

Kromě lossu budeme pro lepší orientaci měřit i přesnost (accuracy), byť tuto veličinu nebudeme přímo optimalizovat.

### TODO: implementujte funkci `accuracy`.

In [None]:
def accuracy(scores: torch.Tensor, targets: torch.Tensor) -> torch.Tensor:
    """
    Args:
        scores: output linear scores (logits before softmax); shape (num_samples, num_classes)
        targets: vector of class indicies (integers); shape (num_samples,)
    Returns:
        acc: averare accuracy on the batch; tensor containing single number (scalar), e.g. "tensor(0.364)"
    """
    
    ########################################
    # TODO: implement
    
    
    
    # ENDTODO
    ########################################
    
    return acc

In [None]:
test_linear_classification.TestAccuracy.eval(accuracy_fn=accuracy)

# Gradient na parametry

Optimalizace lossu $l$ bude probíhat stochastickou metodou nejvějtšího spádu (Stochastic Gradient Descent, SGD). K tomu potřebujeme znát gradient na jednotlivé parametry, na kterých $l$ závisí:

Gradient na $c$-tý *sloupec* $\boldsymbol{w}_{:,c}$ matice $\boldsymbol{w}$ platný pro jeden vstup $\boldsymbol{x}_n$:
$$
\frac{\partial l_n}{\partial \boldsymbol{w}_{:,c}} = (q_{n,c} - p_{n,c})\cdot\boldsymbol{x}_n
$$
kde
- $\partial l_n/\partial \boldsymbol{w}_{:,c}$ má rozměr $D \times C$, tj. shodný s $\boldsymbol{w}$
- $\boldsymbol{x}_n = [x_{n,1}, \ldots, x_{n,D}]$ je $n$-tý vzorek dávky jako řádkový vektor s rozměrem $D$
- $q_{n,c}$ je pravděpodobnost (reálné číslo) $c$-té třídy predikovaná pro $x_n$
- $p_{n,c}$ je cílová požadovaná pravděpodobnost (reálné číslo) pro $x_n$

Gradient na $c$-tý prvek biasu platný pro jeden vstup $\boldsymbol{x}_n$:
$$\frac{\partial l_n}{\partial b_c} = (q_{n,c} - p_{n,c})$$

Celkový gradient $\textrm{d}l/\textrm{d}\boldsymbol{w}_{:,c}$ na $c$-tý sloupec vah za celou dávku získáme jako **průměr dílčích příspěvků** za jednotlivé vstupy
$$
\frac{\textrm{d}l}{\textrm{d}\boldsymbol{w}_{:,c}} = \frac{1}{N}\sum_{n=1}^N{ \frac{\partial{l}_n}{\partial \boldsymbol{w}_{:,c}} }
$$
- $N$ je počet vzorků $x_n$ v dávce

Analogicky platí shodně i pro bias.

Oba celkové gradienty za dávku bude vracet funkce `softmax_cross_entropy_gradients`, přičemž vstupem jí budou potřebné proměnné, tj.
- dávka vstupů $\boldsymbol{x} = [\boldsymbol{x}_1, \ldots, \boldsymbol{x}_N]$ s rozměrem $N \times D$
- matice skóre $\boldsymbol{s} = [\boldsymbol{s}_1, \ldots, \boldsymbol{s}_N]$ s rozměrem $N \times C$ 
- vektor správných indexů třídy (targetů) $\boldsymbol{y} = [y_1, \ldots, y_N]$ s rozměrem $N$, $y_c \in \{1, \ldots, C\}$

a výstupem budou
- gradient na váhovou matici $\overline{\boldsymbol{w}} = \textrm{d}l/\textrm{d}\boldsymbol{w}$ jako matice s rozměrem $D \times C$
- gradient na bias $\overline{\boldsymbol{b}} = \textrm{d}l/\textrm{d}\boldsymbol{b}$ jako vektor s rozměrem $C$

### TODO: implementuje funkci `softmax_cross_entropy_gradients`.

In [None]:
def softmax_cross_entropy_gradients(
    inputs: torch.Tensor,
    logits: torch.Tensor,
    targets: torch.Tensor
) -> tuple[torch.Tensor, torch.Tensor]:
    ########################################
    # TODO: implement
    
    
    
    # ENDTODO
    ########################################
    
    return dweight, dbias

In [None]:
test_linear_classification.TestSoftmaxCrossEntropyGradients.eval(softmax_cross_entropy_gradients_fn=softmax_cross_entropy_gradients)

In [None]:
dweight, dbias = softmax_cross_entropy_gradients(inputs_prep, logits, targets)
dweight, dbias

# Update parametrů

Update bude probíhat metodou největšího spádu (Gradient Descent), tj. od aktuáního odhadu parametrů $\boldsymbol{\theta}$ odečteme gradient $\textrm{d}l/\textrm{d}\boldsymbol{\theta}$ přeškálovaný krokem $\gamma$:

$$\boldsymbol{\theta} := \boldsymbol{\theta} - \gamma \frac{\textrm{d}l}{\textrm{d}\boldsymbol{\theta}}$$

Update implementujeme jako funkci, která převezme parametr, gradient na něj a krok učení $\gamma$ a parametr updatuje. Nebude přitom bytečně vytvářet jeho kopii, vše proběhne modifikací původního tensoru, anglicky tzv. inplace.

### TODO: implementuje funkci `update_param_inplace`.

In [None]:
def update_param_inplace(param: torch.Tensor, dparam: torch.Tensor, learning_rate: float) -> None:
    ########################################
    # TODO: implement
    
    
    
    # ENDTODO
    ########################################

In [None]:
test_linear_classification.TestUpdateParamInplace.eval(update_param_inplace_fn=update_param_inplace)

In [None]:
weight, bias

In [None]:
update_param_inplace(weight, dweight, 0.1)
update_param_inplace(bias, dbias, 0.1)

In [None]:
weight, bias

# Spojení všech kroků dohromady: funkce `train_step` a `val_step`

Nyní spojíme všechny kroky do jedné funkce `train_step_softmax`, která převezme dávku vzorků, aktuální parametry klasifikátoru a hyperparametr krok učení a provede jeden krok směrem k mnimializaci křížové entropie na dávce. Funkce vrátí hodnotu lossu a přesnosti (accuracy) dosaženou na dávce.

### TODO: implementuje funkci `train_step_softmax`

In [None]:
def train_step_softmax(
    inputs: torch.Tensor,
    targets: torch.Tensor,
    weight: torch.Tensor,
    bias: torch.Tensor,
    learning_rate: float = 1e-3
) -> tuple[float, float]:
    ########################################
    # TODO: implement
    
    
    
    # ENDTODO
    ########################################
    
    return loss.item(), acc.item()

In [None]:
test_linear_classification.TestTrainStepSoftmax.eval(train_step_softmax_fn=train_step_softmax)

### TODO: implementuje funkci `val_step`

In [None]:
def val_step(
    inputs: torch.Tensor,
    targets: torch.Tensor,
    weight: torch.Tensor,
    bias: torch.Tensor,
    loss_fn: Callable[[torch.Tensor, torch.Tensor], tuple[float, float]]  # e.g. softmax_cross_entropy
) -> tuple[float, float]:
    ########################################
    # TODO: implement
    
    
    
    # ENDTODO
    ########################################
    
    return loss.item(), acc.item()

In [None]:
test_linear_classification.TestValStep.eval(val_step_fn=val_step, loss_fn=softmax_cross_entropy)

In [None]:
def validate(
    loader: ans.data.BatchLoader,
    weight: torch.Tensor,
    bias: torch.Tensor,
    loss_fn: Callable[[torch.Tensor, torch.Tensor], tuple[float, float]]  # e.g. softmax_cross_entropy
) -> tuple[float, float]:
    total_loss = 0.
    total_acc = 0.
    for inputs, targets in loader:
        loss, acc = val_step(inputs, targets, weight, bias, loss_fn)
        total_loss += loss
        total_acc += acc
    return total_loss / len(loader), total_acc / len(loader)

In [None]:
ans.utils.seed_everything(0)

# hyperparameters
num_epochs = 50
learning_rate = 5e-3

# data loaders
train_loader = ans.data.BatchLoader(
    torch.tensor(train_dataset.data),
    torch.tensor(train_dataset.targets),
    batch_size=100,
    shuffle=True
)
val_loader = ans.data.BatchLoader(
    torch.tensor(val_dataset.data),
    torch.tensor(val_dataset.targets),
    batch_size=100,
    shuffle=False
)

# init parameters
weight, bias = init_params(np.prod(train_dataset.data.shape[1:]), len(train_dataset.classes), multiplier=1e-3)

# validate once before training
train_loss, train_acc = validate(train_loader, weight, bias, softmax_cross_entropy)
val_loss, val_acc = validate(val_loader, weight, bias, softmax_cross_entropy)
print(f"after init: train_loss={train_loss:.5f}, train_acc={train_acc:.3f}, val_loss={val_loss:.5f}, val_acc={val_acc:.3f}")

# optimize
for epoch in range(num_epochs):
    # train loop
    for inputs, targets in train_loader:
        loss, acc = train_step_softmax(inputs, targets, weight, bias, learning_rate=learning_rate)
        train_loss = 0.99 * train_loss + 0.01 * loss
        train_acc = 0.99 * train_acc + 0.01 * acc
    
    # validation loop
    # train_loss, train_acc = validate(train_loader, weight, bias, softmax_cross_entropy)
    val_loss, val_acc = validate(val_loader, weight, bias, softmax_cross_entropy)
    
    # print
    print(f"epoch {epoch + 1}: train_loss={train_loss:.5f}, train_acc={train_acc:.3f}, val_loss={val_loss:.5f}, val_acc={val_acc:.3f}")

# Support Vector Machine (SVM)

SVM je softmaxu velmi podobné. Z pohledu neuronových sítí se liší pouze způsobem výpočtu lossu - místo (softmax) cross entropy použijeme hinge loss:
$$l_n = \sum_{c\ne y_n}\max(0, 1 + s_{n,c} - s_{n,y_n})$$
kde:
- $y_n \in \{1, \ldots, C\}$ je správný index třídy (celé číslo) na vzorku (obrázku) $\boldsymbol{x}_n$
- $s_{n,i}$ je skóre (logity) predikované lineárním klasifikátorem pro $n$-tý obrázek a $i$-tou třídu.

Podobně jako u `softmax_cross_entropy` celkový loss
$$
l = \frac{1}{N}\sum_{n=1}^{N}l_n
$$
spočítáme jako aritmetický průměr lossů $l_n$ pro jednotlivé predikce $\boldsymbol{s}_1, \ldots, \boldsymbol{s}_N$.

Gradient na $c$-tý sloupec $\boldsymbol{w}_{:,c}$ váhové matice $\boldsymbol{w}$ pak je
$$
\frac{\partial l_n}{\partial \boldsymbol{w}_{:,c}} = \begin{cases}
    \sum_{c\ne y_n}\mathbb{1}(1 + s_{n,c} - s_{n,y_n} > 0)\cdot\boldsymbol{x}_n & \textrm{pokud} & c = y_n \\
    \mathbb{1}(1 + s_{n,c} - s_{n,y_n} > 0) \cdot \boldsymbol{x}_n & \textrm{pokud} & c \ne y_n
\end{cases}
$$
kde
- $\mathbb{1}(\cdot) = 1$, pokud podmínka $\cdot$ je splněna, jinak $\mathbb{1}(\cdot) = 0$

Jelikož dílčí lossy za jednotliové vzorky v dávce průměrujeme, i jejich gradienty je nutné zprůměrovat
$$
\frac{\textrm{d}l}{\textrm{d}\boldsymbol{w}_{:,c}} = \frac{1}{N} \sum_{n=1}^{N}{ \frac{\partial l_n}{\partial \boldsymbol{w}_{:,c}} }
$$
Pro biasy platí vše podobně jako pro váhy, pouze bez násobení $\boldsymbol{x}_n$
$$
\frac{\partial l_n}{\partial b_c} = \begin{cases}
    \sum_{c\ne y_n}\mathbb{1}(1 + s_{n,c} - s_{n,y_n} > 0) & \textrm{pokud} & c = y_n \\
    \mathbb{1}(1 + s_{n,c} - s_{n,y_n} > 0) & \textrm{pokud} & c \ne y_n
\end{cases}
$$
a
$$
\frac{\textrm{d}l}{\textrm{d}b_c} = \frac{1}{N} \sum_{n=1}^{N}{ \frac{\partial l_n}{\partial b_c} }
$$

### TODO: implementuje funkce `hinge_loss`, `hinge_loss_gradients` a `train_step_svm`

In [None]:
def hinge_loss(scores: torch.Tensor, targets: torch.Tensor) -> torch.Tensor:
    """
    Args:
        scores: output from linear classifier, i.e. the pre-softmax logits; shape (num_samples, num_classes)
        targets: vector of class indicies (integers); shape (num_samples,)
    Returns:
        loss: average Weston-Watkins hinge loss on the batch; tensor containing single number (scalar), e.g. "tensor(2.374)"
    """
    
    ########################################
    # TODO: implement
    
    
    
    # ENDTODO
    ########################################
    
    return loss

In [None]:
test_linear_classification.TestHingeLoss.eval(hinge_loss_fn=hinge_loss)

In [None]:
def hinge_loss_gradients(
    inputs: torch.Tensor,
    scores: torch.Tensor,
    targets: torch.Tensor
) -> tuple[torch.Tensor, torch.Tensor]:
    
    ########################################
    # TODO: implement
    
    
    
    # ENDTODO
    ########################################
    
    return dweight, dbias

In [None]:
test_linear_classification.TestHingeLossGradients.eval(hinge_loss_gradients_fn=hinge_loss_gradients)

In [None]:
def train_step_svm(
    inputs: torch.Tensor,
    targets: torch.Tensor,
    weight: torch.Tensor,
    bias: torch.Tensor,
    learning_rate: float = 1e-3
) -> tuple[float, float]:
    ########################################
    # TODO: implement
    
    
    
    # ENDTODO
    ########################################
    
    return loss.item(), acc.item()

In [None]:
test_linear_classification.TestTrainStepSVM.eval(train_step_svm_fn=train_step_svm)

In [None]:
ans.utils.seed_everything(0)

# hyperparameters
num_epochs = 50
learning_rate = 5e-4

# data loaders
train_loader = ans.data.BatchLoader(
    torch.tensor(train_dataset.data),
    torch.tensor(train_dataset.targets),
    batch_size=100,
    shuffle=True
)
val_loader = ans.data.BatchLoader(
    torch.tensor(val_dataset.data),
    torch.tensor(val_dataset.targets),
    batch_size=100,
    shuffle=False
)

# init parameters
weight, bias = init_params(np.prod(train_dataset.data.shape[1:]), len(train_dataset.classes), multiplier=1e-3)

# validate once before training
train_loss, train_acc = validate(train_loader, weight, bias, hinge_loss)
val_loss, val_acc = validate(val_loader, weight, bias, hinge_loss)
print(f"after init: train_loss={train_loss:.5f}, train_acc={train_acc:.3f}, val_loss={val_loss:.5f}, val_acc={val_acc:.3f}")

# optimize
for epoch in range(num_epochs):
    # train loop
    for xb, yb in train_loader:
        loss, acc = train_step_svm(xb, yb, weight, bias, learning_rate=learning_rate)
        train_loss = 0.99 * train_loss + 0.01 * loss
        train_acc = 0.99 * train_acc + 0.01 * acc
    
    # validation loop
    # train_loss, train_acc = validate(train_loader, weight, bias, hinge_loss)
    val_loss, val_acc = validate(val_loader, weight, bias, hinge_loss)
    
    # print
    print(f"epoch {epoch + 1}: train_loss={train_loss:.5f}, train_acc={train_acc:.3f}, val_loss={val_loss:.5f}, val_acc={val_acc:.3f}")