# Line√°rn√≠ klasifikace

√ökolem cviƒçen√≠ je naprogramovat line√°rn√≠ klasifik√°tor, kter√Ω bude rozpozn√°vat objekty z datasetu CIFAR-10. **Vyu≈æijeme k tomu knihovnu pytorch.**

Kromƒõ zn√°m√Ωch knihoven numpy, matplotlib a torch budeme pot≈ôebovat n√°sleduj√≠c√≠:
- torchvision ... roz≈°i≈ôuj√≠c√≠ pytorch bal√≠k pro pytorch obsahuj√≠c√≠ datasety, funkce pro zpracov√°n√≠ obr√°zk≈Ø a p≈ôedtr√©novan√© modely konvoluƒçn√≠ch s√≠t√≠
- tqdm ... vykresluje bƒõhem v√Ωpoƒçt≈Ø progress bar

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import torch
import torchvision
import tqdm

In [None]:
plt.rcParams['figure.figsize'] = 12, 8

## Data

Zp≈Øsob naƒç√≠t√°n√≠ dat kompletnƒõ z√°vis√≠ na zp≈Øsobu, jak√Ωm byla ulo≈æena. Zde pou≈æijeme popul√°rn√≠ dataset CIFAR-10, kter√Ω ƒçasto slou≈æ√≠ jako z√°kladn√≠ benchmark pro porovn√°n√≠ p≈ô√≠nosu nov√Ωch algoritm≈Ø v≈Øƒçi st√°vaj√≠c√≠m. √ökolem je klasifikace obr√°zk≈Ø do jedn√© z 10 t≈ô√≠d.

Bal√≠k torchvision podporuje nƒõkter√© znam√© datasety, mezi nƒõ≈æ pat≈ô√≠ i CIFAR-10. Nemus√≠me tedy data stahovat z internetu manu√°lnƒõ, torchvision za n√°s v≈°e obstar√° automaticky. Data ulo≈æ√≠me do adres√°≈ôe `./data`. V≈°imnƒõme si flagu `train=True`, kter√Ω ≈ô√≠k√°, ≈æe se m√° naƒç√≠st tr√©novac√≠ mno≈æina datasetu CIFAR-10 (soubory `data_batch_*`).

Tenhle koment√°≈ô zmƒõn√≠m.

In [None]:
trainset = torchvision.datasets.CIFAR10(root='../data', train=True, download=True)
trainset

V√Ωsledn√Ω objekt se chov√° jako `list`, by≈• nen√≠ jeho odvozeninou (subclass). Indexuje tedy prvky od nuly, m√° definovanou d√©lku skrze `__len__` a podporuje `__getitem__`.

In [None]:
# zavola `__len__`
len(trainset)

In [None]:
# zavola `__getitem__` s parametrem (indexem) 5
trainset[5]

Jak vid√≠me, 6. prvek datasetu je *dvojice* sest√°vaj√≠c√≠ z obr√°zku a jeho indexu t≈ô√≠dy (label, target). Obr√°zek je defaultnƒõ navr√°cen jako typ `Image` knihovny Pillow (Python Imaging Library, PIL). Pokud je v√Ωstupem bu≈àky objekt tohoto typu, jupyter notebook to rozpozn√° a zobraz√≠ ho jako obr√°zek. `Image` m√° toti≈æ definovanou metodu `__html__`, j√≠≈æ d√° notebook p≈ôednost p≈ôed obvykl√Ωm `__repr__`.

In [None]:
trainset[5][0]

Objekt CIFAR datasetu obsahuje i textov√Ω popis t≈ô√≠d ve formƒõ pole (`list`) n√°zv≈Ø.

In [None]:
trainset.classes

In [None]:
# label 6. prvku
trainset.classes[trainset[5][1]]

V≈°echny obr√°zky CIFAR datasetu jsou ulo≈æeny v atributu `.train_data`, co≈æ je 4D `numpy.ndarray`. Prvn√≠ dimenze odpov√≠d√° jednotliv√Ωm obr√°zk≈Øm, dal≈°√≠ pak ≈ô√°dk≈Øm, sloupc≈Øm a kan√°l≈Øm (RGB), tedy $50000 \times 32 \times 32 \times 3$. Hodnoty jsou ulo≈æeny jako datov√Ω typ `uint8`, tedy v rozsahu 0...255.

In [None]:
type(trainset.data), trainset.data.shape, trainset.data.dtype, trainset.data.min(), trainset.data.max()

Podobnƒõ v≈°echny labely jsou ulo≈æeny v `.targets`, co≈æ je `list` ƒç√≠sel (`int`) o d√©lce poƒçtu obr√°zk≈Ø.

In [None]:
type(trainset.targets), len(trainset.targets), type(trainset.targets[0]), min(trainset.targets), max(trainset.targets)

Pokud chceme obr√°zk≈Ø vykreslit v√≠ce najednou, vhodnƒõj≈°√≠ pou≈æ√≠t matplotlib (pyplot). Pro ka≈ædou t≈ô√≠du vykresl√≠me po sloupc√≠ch 10 p≈ô√≠klad≈Ø, abychom vidƒõli, jak data vlastnƒõ vypadaj√≠.

In [None]:
for i, cls in enumerate(trainset.classes):
    # chceme pouze obrazky aktualni tridy a z nich nahodne vybereme 10
    cls_ids = [j for j, y in enumerate(trainset.targets) if y == i]
    draw_ids = np.random.choice(cls_ids, size=10)
    
    # pyplot podobne jako MATLAB nabizi funkci subplot pro vykresleni vice grafu do jednoho okna
    for j, k in enumerate(draw_ids):
        # vykresli 10x10 obrazku, poradi je po radcich, ovsem my budeme vykreslovat po sloupcich,
        # tj. kazdy sloupec bude obsahovat 10 prikladu jedne ze trid
        plt.subplot(10, 10, j * 10 + i + 1)
        
        # vyresli obrazek
        plt.imshow(trainset.data[k])
        
        # nevykresluj popisky os
        plt.axis('off')
        
        # v prvnim radku pridame nazev grafu (obrazku)
        if j == 0:
            plt.title(cls, fontsize=10)
plt.show()

## Testovac√≠/validaƒçn√≠ data

Testovac√≠ data ze souboru `test_batch` naƒçteme stejnƒõ jako tr√©novac√≠, pouze tentokr√°t nastav√≠me flag `train` na hodnotu `False`.

In [None]:
testset = torchvision.datasets.CIFAR10(root='../data', train=False, download=True)
testset

In [None]:
for i, cls in enumerate(testset.classes):
    # chceme pouze obrazky aktualni tridy a z nich nahodne vybereme 10
    cls_ids = [j for j, y in enumerate(testset.targets) if y == i]
    draw_ids = np.random.choice(cls_ids, size=10)
    
    # pyplot podobne jako MATLAB nabizi funkci subplot pro vykresleni vice grafu do jednoho okna
    for j, k in enumerate(draw_ids):
        # vykresli 10x10 obrazku, poradi je po radcich, ovsem my budeme vykreslovat po sloupcich,
        # tj. kazdy sloupec bude obsahovat 10 prikladu jedne ze trid
        plt.subplot(10, 10, j * 10 + i + 1)
        
        # vyresli obrazek
        plt.imshow(testset.data[k])
        
        # nevykresluj popisky os
        plt.axis('off')
        
        # v prvnim radku pridame nazev grafu (obrazku)
        if j == 0:
            plt.title(cls, fontsize=10)
plt.show()

## Matice tr√©novac√≠ch a validaƒçn√≠ch dat

Jeliko≈æ pou≈æijeme jednoduch√Ω line√°rn√≠ klasifik√°tor, data **p≈ôevedeme do maticov√© formy**, ve kter√© ka≈æd√Ω ≈ô√°dek reprezentuje jeden obr√°zek. Pro lep≈°√≠ numerick√© chov√°n√≠ data nav√≠c z rozsahu `0...255` a typu `uint8` p≈ôevedeme do rozsahu `0...1` a datov√©ho typu s plovouc√≠ ≈ô√°dovou ƒç√°rkou.

### Validaƒçn√≠ vs testovac√≠ mno≈æiny

Testovac√≠ sada, kter√° je v p≈ô√≠padƒõ CIFAR-10 obsa≈æena v souboru `cifar-10-batches-py/test_batch`, by spr√°vnƒõ nemƒõla b√Ωt pou≈æ√≠v√°na pro validaci, tj. volbu modelu a ladƒõn√≠ hyperparametr≈Ø, ale pouze pro odhad √∫spƒõ≈°nosti natr√©novan√©ho klasifik√°toru na nevidƒõn√Ωch datech. Pokud pou≈æijeme testovac√≠ data pro validaci, efektivnƒõ t√≠m vyu≈æ√≠v√°me informaci v nich obsa≈æenou pro uƒçen√≠ modelu. Takto dosa≈æen√° sk√≥re bychom proto nemƒõli uv√°dƒõt jako odhad √∫spƒõ≈°nosti na nevidƒõn√Ωch datech, m≈Ø≈æe b√Ωt toti≈æ p≈ô√≠li≈° optimistick√Ω.

In [None]:
# prevedeme na pytorch tensor
X_train = torch.tensor(trainset.data)

# na vychozi datovy typ (float nebo double, lze menit) a do rozsahu 0...1
X_train = X_train.to(torch.get_default_dtype()) / 255.

# reshape na matici s obrazky na radcich
X_train = X_train.reshape(X_train.shape[0], -1)

X_train.dtype, X_train.shape, X_train.min(), X_train.max()

**Labely** tr√©novac√≠ch dat:

In [None]:
y_train = torch.tensor(trainset.targets)
y_train.dtype, y_train.shape, y_train.min(), y_train.max()

Matice **validaƒçn√≠ch** dat:

In [None]:
# prevedeme na pytorch tensor
X_valid = torch.tensor(testset.data)

# na vychozi datovy typ (float nebo double, lze menit) a do rozsahu 0...1
X_valid = X_valid.to(torch.get_default_dtype()) / 255.

# reshape na matici s obrazky na radcich
X_valid = X_valid.reshape(X_valid.shape[0], -1)

X_valid.dtype, X_valid.shape, X_valid.min(), X_valid.max()

**Labely** validaƒçn√≠ch dat:

In [None]:
y_valid = torch.tensor(testset.targets)
y_valid.dtype, y_valid.shape, y_train.min(), y_train.max()

## Softmax (logistick√° regrese)

### Inicializace

P≈ôipome≈àme, ≈æe logistick√° regrese je jednoduch√Ω line√°rn√≠ klasifik√°tor s parametry:

- v√°hov√° matice $W$
  - rozmƒõr `rozmƒõr_vstupu x poƒçet_t≈ô√≠d`
  - inicializujeme na mal√© n√°hodn√© hodnoty
  - v k√≥du oznaƒç√≠me jako `W_smax` (v√°hy softmaxu)
- bias vektor $b$
  - rozmƒõr `poƒçet_t≈ô√≠d`
  - inicializujeme na vektor nul
  - v k√≥du oznaƒç√≠me jako `b_smax` (bias softmaxu)

In [None]:
X_train.shape[1]

In [None]:
#################################################################
# ZDE DOPLNIT

W_smax = 

#################################################################

W_smax.dtype, W_smax.shape

In [None]:
#################################################################
# ZDE DOPLNIT

b_smax = 

#################################################################

b_smax.dtype, b_smax.shape

### Tr√©nov√°n√≠ metodou online SGD

#### Dop≈ôedn√Ω pr≈Øchod
1. Pokud m√°me na vstupu *jeden* obr√°zek $x$, vektor line√°rn√≠ho sk√≥re pro jednotliv√© t≈ô√≠dy je
$$ s \leftarrow W x + b $$
a tedy $s \in \mathbb{R}^C$, kde $C$ znaƒç√≠ celkov√Ω poƒçet t≈ô√≠d.

2. Vektor sk√≥re $s$ d√°le proch√°z√≠ softmaxem. Z√≠sk√°me vektor $p$, ve kter√©m $i$-t√Ω prvek znaƒç√≠ pravdƒõpodobnost, ≈æe $x$ pat≈ô√≠ do t≈ô√≠dy $i$.
$$ p \leftarrow \frac{\exp{s}}{\sum_{c=0}^{C-1}\exp{s_c}} $$
V√Ωsledn√© $p$ m√° tedy stejn√Ω rozmƒõr jako $s$ a plat√≠ $\sum_{c}p_c=1$.

3. Zda a jak moc byla predikce spr√°vn√° urƒç√≠ kriteri√°ln√≠ funkce (loss), tzv. cross entropy, kter√° ve speci√°ln√≠m p≈ô√≠padƒõ klasifikace do jedn√© z $C$ t≈ô√≠d m√° tvar
$$L \leftarrow -\log p_y$$
kde $y\in\{1,\ldots,C\}$ je index t≈ô√≠dy, do kter√© obr√°zek ve skuteƒçnosti pat≈ô√≠ (label/target obr√°zku).

##### Regularizace

Regularizace penalizuje p≈ô√≠li≈° velk√© hodnoty vah $W$. Nejƒçastƒõji se setk√°me s typem L2, u nƒõj≈æ k v√Ωsledn√© hodnotƒõ lossu p≈ôiƒç√≠t√°me dodateƒçn√Ω ƒçlen
$$\lambda\sum_{ij}w_{ij}^2$$
kde $w_{ij}$ je v√°ha na $i$-t√©m ≈ô√°dku a $j$-t√©m sloupci matice $W$ a $\lambda$ je hyperparametr vyjad≈ôuj√≠c√≠ v√°hu regularizace (v k√≥du je $\lambda$ oznaƒçen√° jako promƒõnn√° `l2_decay`).

Pro lep≈°√≠ monitoring hodnoty lossu **regularizaci nep≈ôiƒç√≠tejte**, ale dr≈æte ji zvl√°≈°≈• v promƒõnn√© `l2_val`.

#### Zpƒõtn√Ω pr≈Øchod
1. Vzorec pro gradient na $c$-t√Ω ≈ô√°dek v√°hov√© *matice* je (≈ô√°dek pro spr√°vnou t≈ô√≠du se od ostatn√≠ch li≈°√≠)
$$ \frac{\partial L}{\partial w_c} \leftarrow \left(p_c - \boldsymbol{1}(c=y)\right) x^\top $$

2. Gradient na $c$-t√Ω prvek bias *vektoru* (prvek pro spr√°vnou t≈ô√≠du se od ostatn√≠ch li≈°√≠)
$$ \frac{\partial L}{\partial b_c} \leftarrow p_c - \boldsymbol{1}(c=y) $$

##### Regularizace

Pokud pou≈æ√≠v√°me regularizaci vah $W$, je≈°tƒõ p≈ôed updatem parametr≈Ø $W$ a $b$ uprav√≠me ${\partial L} / {\partial W}$ gradientem regularizaƒçn√≠ho ƒçlenu (ten zvl√°dnete sami). Nezapome≈àte na v√°hu regularizace $\lambda$.

#### Gradient descent update 

1. Update vah $W$
$$ W \leftarrow W - \gamma \frac{\partial L}{\partial W} $$
kde $\gamma$ je velikost kroku gradient descentu (learning rate)

2. Update biasu $b$
$$ b \leftarrow b - \gamma \frac{\partial L}{\partial b} $$

### Pozn√°mky

- Popsan√Ω zp≈Øsob a kostra k√≥du odpov√≠d√° tr√©nov√°n√≠ online variantou gradient descentu (stochastic gradient descent, SGD), tzn. update parametr≈Ø n√°sleduje po ka≈æd√©m vstupn√≠m vektoru, nikoliv po zpracov√°n√≠ v≈°ech dat.
- Ve vzoreƒçc√≠ch se pracuje s vektorem $x$ jako se sloupcem, ale data v `X_train` jsou po ≈ô√°dc√≠ch a matice vah $W$ m√° rozmƒõr `rozmƒõr_vstupu x poƒçet_t≈ô√≠d`. V k√≥du proto budou v√Ωpoƒçty transponovan√©, tj. $s = x W + b$ a vzorec pro gradient na $c$-t√Ω *≈ô√°dek* matice $W$ bude ve skuteƒçnosti vzorec na $c$-t√Ω sloupec!
  
  "Proboha proƒç?", pt√°te se? Teorie vych√°z√≠ ze zaveden√© konvence v line√°rn√≠ algeb≈ôe, kde jsou vektory uva≈æov√°ny jako sloupcov√© a strojov√© uƒçen√≠ t√≠mto zp≈Øsobem popisuje i vƒõt≈°ina dopstupn√© literatury. Pro zachov√°n√≠ "kompatibility" materi√°l≈Ø tak postpujejme i zde. Tuto konvenci kdysi d√°vno p≈ôevzal jazyk Fortran a v n√°vaznosti na nƒõj i MATLAB, a proto maj√≠ tyto jazyky matice ulo≈æen√© po sloupc√≠ch. V jazyc√≠ch jako Python (pota≈æmo v knihovn√°ch numpy a pytorch) jsou v≈°ak matice tzv. row-major, a tedy daty ulo≈æen√Ωmi typicky po ≈ô√°dc√≠ch, a bez transpozice rovnic by se musela transponovat data $x$, co≈æ by bylo v√Ωpoƒçetnƒõ neefektivn√≠.
  
- Vƒõt≈°ina operac√≠ (nap≈ô. funkce `argmax`) v pytorchi vrac√≠ `torch.tensor`, i kdy≈æ je v√Ωsledkem jedin√© re√°ln√© ƒç√≠slo. V takov√©m p≈ô√≠padƒõ lze obvykle p≈ôev√©st na pythonovsk√Ω built-in typ jednodu≈°e jako nap≈ô. `int(pytorch_tensor)`.

- Odlaƒète tr√©novac√≠ cyklus nejprve pro `num_iters = 1`, pak teprve spus≈•te na velk√Ω poƒçet iterac√≠ (nap≈ô. roven poƒçtu tr√©novac√≠ch obr√°zk≈Ø = 1 epocha). Poka≈æd√©, kdy≈æ nƒõco sel≈æe, sledujte hodnoty a tvar matic (vektor≈Ø) sk√≥re, vah apod. v jednotliv√Ωch kroc√≠ch tak, ≈æe si vytvo≈ô√≠te novou bu≈àku a prozkoum√°te, co se s nimi dƒõje.

- Hyperparametry $\gamma$ (`learning_rate`) a $\lambda$ (`l2_decay`) nastavte na mal√© hodnoty $\ll 1$ a optimalizujte tak, abyste dos√°hli co nejlep≈°√≠ho sk√≥re na validaƒçn√≠ch datech. Krok gradient descentu `learning_rate` m≈Ø≈æete p≈ôi opakovan√Ωch pr≈Øchodech daty (epochy) postupnƒõ sni≈æovat.

In [None]:
# hyperparametry
learning_rate = 
l2_decay = 
num_iters = 

# akumulator
num_correct = 0
loss = 0.
l2_val = 0.

# hlavni trenovaci cyklus
pb = tqdm.tnrange(num_iters)
for n in pb:
    # obrazek vybereme nahodne
    idx = int(torch.randint(X_train.shape[0], (1,)))
    
    # ziskame data
    xn = X_train[idx]
    yn = y_train[idx]
    
    #################################################################
    # ZDE DOPLNIT
    
    # dopredny pruchod: linearni skore, sigmoida a loss
    score = 
    prob = 
    loss += 
    l2_val += 
    
    # gradient na skore (clen $(ùëùùëê‚àí1(ùëê=ùë¶))$ ve vzorecku dL/dw_c)
    dscore = 
    
    # gradient na vahy
    dW = 
    
    # gradient na bias
    db = 
    
    # regularizace (volitelna; modifikuje gradient na vahy)
    dW += 
    
    # update parametru
    W_smax 
    b_smax
    
    #################################################################
    
    if score.argmax() == yn:
        num_correct += 1
    
    # prubezny vypis
    if n % 100 == 0:
        pb.set_postfix(loss='{:.3f}'.format(float(loss / (n + 1))), acc='{:.3f}'.format(num_correct / (n + 1)))

print('train accuracy: {}/{} = {:.1f} %'.format(num_correct, n, 100. * num_correct / n))
print(float(loss) / n, float(l2_val) / n)

### Validace


Natr√©novan√Ω klasifik√°tor ovƒõ≈ô√≠me na validaƒçn√≠ (development) mno≈æinƒõ. Ide√°lnƒõ bychom mƒõli dos√°hnout stejn√© √∫spƒõ≈°nosti jako na tr√©novac√≠ sadƒõ, pravdƒõpodobnƒõ tomu tak ale nebude. Proƒç?

**Postup je jednodu≈°≈°√≠ ne≈æ v p≈ô√≠padƒõ tr√©nov√°n√≠:**
1. Dop≈ôedn√Ω pr≈Øchod
$$ s \leftarrow W x + b $$

2. Nen√≠ t≈ôeba poƒç√≠tat pravdƒõpodobnosti. Softmax pouze znormalizuje sk√≥re tak, aby v√Ωsledn√° ƒç√≠sla tvo≈ôila rozdƒõlen√≠ pravdƒõpodobnosti. Pokud je ve vektoru $s$ max. hodnota na pozici $i$, pak bude $i$-t√Ω prvek max. i ve vektoru $p$. Staƒç√≠ tedy porovnat index $i$ s labelem obr√°zku $y$ a pokud se rovnaj√≠, je predikce spr√°vn√°, jinak ne. V√Ωsledn√© sk√≥re pak bude pod√≠l spr√°vnƒõ klasifikovan√Ωch obr√°zk≈Ø v≈Øƒçi celkov√©mu poƒçtu.

In [None]:
%%time

num_correct = 0

for n in tqdm.tnrange(X_valid.shape[0]):   
    # ziskame data
    xn = X_valid[n]
    yn = y_valid[n]
    
    #################################################################
    # ZDE DOPLNIT
    
    # dopredny pruchod: linearni skore, sigmoida a loss
    score = 
    
    #################################################################
    
    if score.argmax() == yn:
        num_correct += 1

print('val accuracy: {}/{} = {:.1f} %'.format(num_correct, n, 100. * num_correct / n))

## Weston-Watkins SVM

Jak jsme si uk√°zali v p≈ôedn√°≈°ce, SVM je softmaxu velmi podobn√©. Z pohledu neuronov√Ωch s√≠t√≠ se li≈°√≠ pouze zp≈Øsobem v√Ωpoƒçtu lossu - m√≠sto cross entropy pou≈æijeme hinge loss definovan√Ω jako
$$L = \sum_{c\ne y}\max(0, 1 + s_c - s_y)$$
kde $s$ je vektor line√°rn√≠ch sk√≥re $s=Wx + b$.

Gradient na v√°hy pak je
$$\frac{\partial L}{\partial w_y} = -\sum_{c\ne y}\boldsymbol{1}(1 + s_c - s_y > 0)x$$
$$\frac{\partial L}{\partial w_{c\ne y}} = \boldsymbol{1}(1 + s_c - s_y > 0)x$$
a pro biasy podobnƒõ, pouze bez n√°soben√≠ $x$ (na konci).

### Inicializace

In [None]:
#################################################################
# ZDE DOPLNIT

W_svm = 

#################################################################

W_svm.dtype, W_svm.shape

In [None]:
#################################################################
# ZDE DOPLNIT

b_svm = 

#################################################################

b_svm.dtype, b_svm.shape

### Tr√©nov√°n√≠

In [None]:
%%time

# hyperparametry
learning_rate = 
l2_decay = 
num_iters = 

# akumulator
num_correct = 0
loss = 0.
l2_val = 0.

# hlavni trenovaci cyklus
pb = tqdm.tnrange(num_iters)
for n in pb:
    # obrazek vybereme nahodne
    idx = int(torch.randint(X_train.shape[0], (1,)))
    
    # ziskame data
    xn = X_train[idx]
    yn = y_train[idx]
    
    #################################################################
    # ZDE DOPLNIT
    
    # dopredny pruchod: linearni skore, sigmoida a loss
    score = 
    margin = 
    loss += 
    l2_val += 
    
    # gradient na bias
    db = 
    
    # gradient na vahy
    dW = 
    
    # regularizace (modifikuje gradient na vahy)
    dW += 
    
    # update parametru
    W_svm
    b_svm
    
    #################################################################
    
    if score.argmax() == yn:
        num_correct += 1
    
    # prubezny vypis
    if n % 100 == 0:
        pb.set_postfix(loss='{:.3f}'.format(float(loss / (n + 1))), acc='{:.3f}'.format(num_correct / (n + 1)))

print('train accuracy: {}/{} = {:.1f} %'.format(num_correct, num_iters, 100. * num_correct / num_iters))
print(float(loss) / num_iters, float(l2_val) / num_iters)

### Validace

In [None]:
%%time

num_correct = 0

for n in tqdm.tnrange(X_valid.shape[0]):   
    # ziskame data
    xn = X_valid[n]
    yn = y_valid[n]
    
    #################################################################
    # ZDE DOPLNIT
    
    # dopredny pruchod: linearni skore, sigmoida a loss
    score = 
    
    #################################################################
    
    if score.argmax() == yn:
        num_correct += 1

print('val accuracy: {}/{} = {:.1f} %'.format(num_correct, X_valid.shape[0], 100. * num_correct / X_valid.shape[0]))