# Vežbe iz neuralnih mreža
## Seminar Primenjene Fizike i  Elektronike 2022

Dobrodošli na vežbe iz neuralnih mreža :) Na ovim vežbama ćemo kroz seriju zadataka iterativno graditi koncepte potrebne za uspešno korišćenje i treniranje neuralnih mreža. Vežbe su konceptualno podeljene u sledeće celine:

* Uvod: Funkcija gubitka i gradijentni spust
* Neuron
    * Zaključivanje neuronom
    * Aktivacione funkcije
    * Komputacioni graf i propagacija greške unazad
* Neuralne mreže i slojevi
    * Slojevi
        * Softmax sloj
        * Gusto povezani sloj
    * Povezivanje slojeva
* Treniranje neuralne mreže
* Testiranje neuralne mreže


Par reči ohrabrenja pre nego što krenemo:

* Vežbe se oslanjaju na matematičke koncepte koji su varovatno mnogima od vas strani :( Ovo nije urađeno zato što autor vežbi želi da vas muči, već zato što nije znao kako da ih zaobiđe. Ukoliko neka formula nije u potpunosti jasna, nije strašno. Cilj ovih vežbi je da izađete sa jakom intuicijom zašto i kako određene stvari rade, za šta nije nužno potrebno savršeno razumevanje kompletne matematike u pozadini. Upravo zbog toga će svaka formula biti posebno diskutovana, i njena svrha rečima objašnjena.
* Vežbe se dodatno oslanjaju na određeno programersko znanje, ali ni u jednom zadatku neće biti potrebno da implementirate više od 5 - 6 linija koda. Kod koji se u zadacima traži se mahom tiče `numpy` biblioteke za matematička izračunavanja, i najčešće će se u osnovi svoditi na množenje matrica i slične operacije.
* __Nemojte se plašiti da pitate šta god vam nije jasno, autor vežbi u srednjoj školi ništa od ovoga ne bi znao da reši :)__

Konačno par tehničkih stavki:

* Od vas će se tražiti da popunite samo određene delove koda koji će jasno biti obeleženi `TODO: Opis zadatka` komentarima u okviru koda. Ukoliko se eksplicitno ne zahteva promena određene linije koda, molimo vas da ih ne dirate.
* Uprkos tome da kod treba da se menja samo na određenim mestima, definisanim stavkom iznad, __svaka ćelija sa kodom treba da se izvrši__. Izvršavanje ćelije se može izvršiti `shift-ENTER` kombinacijom koja izvršava trenutno obeleženu ćeliju i prelazi na sledeću. Ćelije sa tekstom se takođe mogu izvršavati, ali to utiče samo na izgled teksta u okviru ćelije.
* Iako se većina koda koji je od interesa se nalazi u okviru ove sveske, postoje određeni delovi koda koji se nalaze u okviru `trainer.py` fajla. Autor vas poziva da prođete i kroz taj fajl ako vas zanima, ali vam njegov sadržaj nije od interesa sve do samog kraja vežbi.

Krećemo :)

Za početak izvršite ćeliju ispod kucanjem `shift-ENTER` skraćenice. Ćelija učitava potrebne biblioteke za ostatak radionice.

In [None]:
from enum import Enum
import numpy as np

## Uvod: Funkcija gubitka i gradijentni spust

Cilj obučavanja modela u supervizijskom (nadgledanom) pristupu u mašinskom učenju je minimizacija greške između zadatih vrednosti, u nastavku vežbi obeleženih sa $y$, i vrednosti koje supervizijski model predviđa, $\hat{y}$. Greška modela se može izraziti na različite načine:

* $(\hat{y} - y)^2$: kvadratna greška
* $|\hat{y} - y|$: apsolutna greška
* $y\log(\hat{y}) + (1-y)\log(1-\hat{y})$: `log` greška

Greška modela je sinonimna sa terminom __funkcije gubitka__ $L(y, \hat{y})$. Drugim rečima, cilj obučavanja u supervizijskom pristupu je minimizacija funkcije gubitka $L(y, \hat{y})$, koja direktno zavisi od ponuđene ispravne vrednosti $y$ i predviđene vrednosti $\hat{y}$. Budući da funkcija gubitka zavisi od izlaza modela $\hat{y}$, ona posledično zavisi i od svih parametara od kojih sam izlaz zavisi, odnosno od njegovih težina $w$. Zbog toga se funkcija gubitka može zapisati i u obliku $L(w)$.

Iako postoje različiti metodi kojima se može postići minimalna greška, u ovoj vežbi nam je od interesa algoritam __gradijentnog spusta__. Cilj algoritma gradijentnog spusta je pronalaženje onih parametara $w$ modela, za koje je funkcija gubitka $L(w)$ minimialna. Algoritam gradijentnog spusta iterativno prati "nagib" funkcije, na taj način dolazeći do minimuma, kao što je prikazano na sledećoj slici.

<p align="center">
    <img src="resources/loss_function.png" alt="drawing" width="50%"/>
</p>

"Nagib" funkcije se može opisati prvim izvodom funkcije po oređenoj promenjivoj, što ćemo u ovim vežbama obeležavati kao $\frac{\partial L(w)}{\partial w}$. Značenje ovog izraza je sledeće. Zanima nas nagib funkcije $L(w)$ (brojilac), po parametru $w$ (imenilac). Simbol $\partial$ specifično obeležava __parcijalni izvod__ funkcije, što znači da funkcija potencijalno može zavisiti od različitih promenjivih. Dvodimenzionalna funkcija $L(w, v)$ tako može imati parcijalne izvode po promenjivama $w$ i $v$, koji se obeležavaju sa $\frac{\partial L(w, v)}{\partial w}$, i $\frac{\partial L(w, v)}{\partial v}$ respektivno.

Algoritam __gradijentnog spusta__ je sledeći:

1. Inicijalizovati nasumične vrednosti $w$
2. Odabrati stopu učenja $\alpha$
3. Do konvergencije (dok god se značajno menja $L(w)$) raditi:
    1. Izračunati parcijalni izvod po parametru $w$: $\frac{\partial L(w)}{\partial w}$
    2. Osvežiti trenutnu vrednost parametra $w$ sledećim izrazom:
        * $w \leftarrow w - \alpha \cdot \frac{\partial L(w)}{\partial w}$

Na slici iznad plave strelice pokazuju u kom smeru bi pokazivao izvod funkcije po promenjivoj $w$.

### Primer

Na slici je data funkcija $L(w) = (w - 2)^2 -1$, čiji je izvod $\frac{\partial L(w)}{\partial w} = 2(w-2)$. Na osnovu pseudo-koda datog iznad, popuniti probni algoritam gradijentnog spusta dat ispod.

In [None]:
w = 5
learning_rate = 0.1
L_w = (w - 2)**2 - 1

for i in range(100):
    
    # TODO: Popuniti čemu treba da budu jednake promenjive dw i w, na osnovu pseudo-koda algoritma gradijentnog spusta.  
    
    L_w = (w - 2)**2 - 1
    print(f'Trenutna vrednost parametra w je {w:.3f}. Funkcija gubitka za zadatu vrednost iznosi {L_w:.3f}.')
print(f'Okvirna vrednost parametra w za koji se postiže minimum funkcije je {w:.3f}. Funkcija gubitka postiže minimalnu vrednost od {L_w:.3f}.')

## Neuron

### Zaključivanje neuronom

Neuralne mreže su izgrađene od neurona. Slika neurona je data ispod. Neuron sa slike prima vektor $\textbf{x} = [x_0, x_1, x_2]^\top$, i ima asocirane __težine__ (__parametre__) $\textbf{w} = [w_0, w_1, w_2]^\top$.

<p align="center">
    <img src="resources/neuron.png" alt="drawing" width="50%"/>
</p>

Neuron radi sledeće izračunavanje:

$$ z = \sum_{i=1} x_iw_i = \textbf{w}^\top\textbf{x} \\ \hat{y} = \sigma(z)$$

$z$ se dobira kao skalarni proizvod vektora $\textbf{x}$ i $\textbf{w}$, na koji se primenjuje nelinearna __aktivaciona funkcija__ $\sigma$.  

### Aktivacione funkcije

Aktivacione funkcije daju neuralnim mrežama mogućnost da predstavljaju proizvoljnu funkciju, odnosno proizvoljno preslikavanje. Drugim rečima, neuralne mreže ne bi bili univerzalni aproksimatori kada aktivacione funkcije ne bi postojale.

U nastavku su date tri aktivacione funkcije:

1. IdentityActivation
2. SigmoidActivation
3. TanhActivation

Zadatak je da se dovrše metode `forward(cls, preactivation)` i `backward(cls, activation, output_grad)`. Metoda `forward(cls, preactivation)` implementira samo preslikavanje aktivacione funkcije $\sigma(z)$, gde je $z$ označeno kao `preactivation`. Metoda `backward(cls, activation, output_grad)` implementira parcijalni izvod aktivacione funkcije $\sigma(z)$ po promenjivoj $z$, $\frac{\partial}{\partial z} \sigma(z)$. Ovde argument metode `activation` predstavlja vrednost koja se dobija primenom aktiacione funkcije, $\text{activation} = \sigma(z)$, dok će argument `output_grad` biti objašnjen kasnije i __nije ga potrebno koristiti u kodu koji je potrebno da dovršite__.

In [None]:
class ActivationType(Enum):
    """ Defines available activation functions. """
    IDENTITY = 1
    TANH = 2
    SIGMOID = 3

#### `identity` aktivaciona funkcija

Za zagrevanje je data aktivaciona funkcija identiteta, koja samo radi $\sigma(z) = z$. Ovakva aktivaciona funkcija se nikada ne koristi, budući da ništa i ne radi, ali prolazak kroz nju je koristan zarad razumevanja ostalih.

##### Zadatak

Parcijalni izvod aktivacione funkcije identiteta po $z$ je: $\frac{\partial}{\partial z} \sigma(z) = \frac{\partial z}{\partial z} = 1$. __Znajući samu aktivacionu funkciju, i njen parcijalni izvod po $z$, dovršiti metode `forward(cls, preactivation)` i `backward(cls, activation, output_grad)` ispod__.

In [None]:

class IdentityActivation:
    """ Class that implements identity activation function (y = x). """
    @classmethod
    def forward(cls, preactivation):
        """ Implements forward pass. Since identity just returns preactivation as is (y = x). """
        return_value = None
        # TODO: Replace dummy implementation below with identity forward pass.
        return return_value

    @classmethod
    def backward(cls, activation, output_grad):
        """ Implements backward pass. Since identity activation derivative is array of 1s (y = x => dy/dx = 1). """
        activation_derivative = None
        # TODO: Replace dummy implementation below with identity backward pass.
        return np.multiply(output_grad, activation_derivative)

assert((IdentityActivation.forward(np.ones((1, 2)) * 0.5) == np.ones((1, 2)) * 0.5).all())
assert((IdentityActivation.backward(np.ones((1, 2)) * 0.5, np.ones((1, 2)) * 0.5) == np.ones((1, 2)) * 0.5).all())

#### `sigmoid` aktivaciona funkcija

Sigmoidna aktivaciona funkcija se do pre par godina vrlo često koristila, ali je u skorije vreme zamenjena funkcijama sa boljim karakteristikama. Logistička regresija, međutim, i dalje koristi sigmoidnu aktivacionu funkciju jer skalira izlaz na opseg $[0, 1]$, te se njen izlaz može interpretirati kao verovatnoća. Na slici ispod je punom linijom obeležena sigmoidna funkcija, dok je isprekidanom linijom dat njen izvod po $z$.

<p align="center">
    <img src="resources/sigmoid.png" alt="drawing" width="50%"/>
</p>

$$\sigma(z) = \frac{1}{1+e^{-z}}$$
$$\frac{\partial y}{\partial z} = \sigma(z)(1-\sigma(z))$$

Razlog zašto se sigmoidna funkcija ređe koristi danas je zbog problema __nestajućih gradijenata__. Da li neko sa slike vidi zašto? Ukoliko ne vidite, biće nešto jasnije kada sveska dođe do celine koja se bavi propagacijom greške unazad.

#### Zadatak

Parcijalni izvod aktivacione sigmoide po $z$ je dat iznad, i iznosi: $\frac{\partial}{\partial z} \sigma(z) = \sigma(z)(1-\sigma(z))$. Drugim rečima, iznosi čemu god je jednak izlaz te funkcije pomnožen sa (1 - čemu god je jednak izlaz te funkcije). __Znajući samu aktivacionu funkciju, i njen parcijalni izvod po $z$, dovršiti metode `forward(cls, preactivation)` i `backward(cls, activation, output_grad)` ispod__.

In [None]:
class SigmoidActivation:
    """ Class that implements sigmoid activation function (y = e^x / (1 + e^x). """
    @classmethod
    def forward(cls, preactivation):
        return_value = None
        """ Implements forward pass. Apply sigmoid to preactivation and return it. """
        # TODO: Replace dummy implementation below with sigmoid forward pass.
        return return_value

    @classmethod
    def backward(cls, activation, output_grad):
        """ Implements backward pass (y = sigmoid(x) => dy/dx = sigmoid(x) * (1 - sigmoid(x)) = y * (1 - y)). """
        activation_derivative = None
        # TODO: Replace dummy implementation below with sigmoid backward pass.
        return np.multiply(output_grad, activation_derivative)

assert((SigmoidActivation.forward(np.zeros((1, 2))) == np.ones((1, 2)) * 0.5).all())
assert((SigmoidActivation.backward(np.ones((1, 2)) * 0.5, np.ones((1, 2))) == np.ones((1, 2)) * 0.25).all())

#### `tanh` aktivaciona funkcija

<p align="center">
    <img src="resources/tanh.png" alt="drawing" width="50%"/>
</p>

$$\sigma(z) = \tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}$$
$$\frac{\partial \sigma(z)}{\partial z} = 1 - \tanh^2(z)$$


#### Zadatak

Parcijalni izvod hiperbolićkog tangensa po $z$ je dat iznad, i iznosi: $\frac{\partial \sigma(z)}{\partial z} = 1 - \tanh^2(z)$. Drugim rečima, iznosi 1 -  kvadrirana vrednost čemu god je jednak izlaz te funkcije. __Znajući samu aktivacionu funkciju, i njen parcijalni izvod po $z$, dovršiti metode `forward(cls, preactivation)` i `backward(cls, activation, output_grad)` ispod__.

In [None]:
class TanhActivation:
    """ Class that implements tanh activation function (y = tanh(x)). """
    @classmethod
    def forward(cls, preactivation):
        """ Implements forward pass. Apply tanh to preactivation and return it (y = tanh(x)). """
        return_value = None
        # TODO: Replace dummy implementation below with tanh forward pass.
        return return_value

    @classmethod
    def backward(cls, activation, output_grad):
        """ Implements backward pass (y = tanh(x) => dy/dx = (1 - tanh^2(x)). """
        activation_derivative = None
        # TODO: Replace dummy implementation below with tanh backward pass.
        return np.multiply(output_grad, activation_derivative)

assert((TanhActivation.forward(np.zeros((1, 2))) == np.zeros((1, 2))).all())
assert((TanhActivation.backward(np.zeros((1, 2)), np.ones((1, 2))) == np.ones((1, 2))).all())

Kod u ćeliji ispod samo bira u odnosu na `activation_type` koju će aktivacionu funkciju vratiti.

In [None]:
def create_activation(activation_type):
    """ Activation factory function. Based on the give type creates and returns corresponding activation.
        :param activation_type: Type of activation.
    """
    activation = None
    if activation_type == ActivationType.IDENTITY:
        activation = IdentityActivation()
    elif activation_type == ActivationType.TANH:
        activation = TanhActivation()
    elif activation_type == ActivationType.SIGMOID:
        activation = SigmoidActivation()
    else:
        raise Exception("Unknown activation type.")
    return activation

### Komputacioni graf i propagacija greške unazad

#### Komputacioni graf

<p align="center">
    <img src="resources/neuron.png" alt="drawing" width="50%"/>
</p>

Za neuron, i posledično za neuralne mreže, vezuje se koncept __komputacionog grafa__. Komputacioni graf prati sva izračunavanja koje neuron, ili neuralna mreža, vrši od ulaza do izlaza. Slika neurona je već data, ali je ponovljena i iznad. __Komputacioni graf__ koji se vezuje za neuron je dat na slici ispod. 

<p align="center">
    <img src="resources/neuron_computation_graph.png" alt="drawing" width="50%"/>
</p>

Svako izračunavanje je uokvireno elipsom ili kvadratom, u zavisnosti od toga da li se radi o dobijanju preaktivacione $z$ vrednosti, ili aktivacione vrednosti $\sigma(z)$. Ulaz u komputacioni graf čine sve promenjive koje model koristi, odnosno sam ulaz u model $\textbf{x}$, težine modela $\textbf{w}$, i pomeraj modela $b$. U slučaju neurona ulaz i težine su vektori, dok je pomeraj skalar. Konačno, na samom kraju komputacionog grafa se nalazi __funkcija gubitka__ $L(y, \hat{y})$ koja direktno evaluira kvalitet modela --- koliko su njegove predikcije $\hat{y}$ bliske zazatim izlazima $y$.

#### Propagacija greške unazad

__Propagacija greške unazad__ je poslednji, i najkompleksniji, fundamentalni koncept koji je potreban za potpuno razumevanje neuralnih mreža. Ovo poglavlje će sadržati najviše matematike koja je nekima od vas možda strana, ali to ne znači da se ne može shvatiti. Štaviše, većinu koncepata za razumevanje smo već objasnili kada smo govorili o __grešci modela__, odnosno __funkciji gubitka__, njenom __parcijalnom izvodu__, i __gradijentnom spustu__.

##### Izvod složene funkcije

Kao što je već rečeno, kod učenja sa supervizijom želimo da predviđanje modela $\hat{y}$ bude što bliže zadatim vrednostima $y$. Blizinu merimo greškom modela, odnosno fukcijom gubitka $L(y, \hat{y})$. Sa druge strane, učenje modela, neurona, neuralne mreže ili nečeg trećeg, se svodi na učenje optimalnih __parametara__, odnosno  __težina__ modela $\textbf{w}$ (i pomeraja $b$). __Cilj učenja je da propagira grešku $L(y, \hat{y})$ do parametara modela $\textbf{w}$ i $b$.__

Posmatrano iz ugla gradijentnog spusta, želimo u svakoj iteraciji videti za koliko da osvežimo parametre $\textbf{w}$. Kao što je već prikazano u uvodnom primeru, ova veličina se može dobiti kao parcijalni izvod funkcije gubitka po promenjivoj $\textbf{w}$, $\frac{\partial}{\partial \textbf{w}}L(y, \hat{y})$.

__Ovde dolazimo do srži problema.__ Naime, znamo čemu je jednak izvod funkcije sa jednim parametrom po tom parametru, međutim ukoliko vrednost tog parametra zavisi od neke pređašnje funkcije, onda se mora koristiti pravilo __izvoda složene funkcije__! Takav je slučaj kod nas --- funkcija gubtka $L(y, \hat{y})$ direktno zavisi od $\hat{y}$, ali $\hat{y}$ dalje zavisi od $z$, dok najposle $z$ zavisi od $\textbf{w}$. Kako bismo izračunali $\frac{\partial}{\partial \textbf{w}}L(y, \hat{y})$, potrebno je da uračunamo sve ove zavisnosti.

##### Propagacija greške unazad

Na slici ispod je data jednačina čemu iznose $\frac{\partial}{\partial \textbf{w}}L(y, \hat{y})$ i $\frac{\partial}{\partial b}L(y, \hat{y})$ u crvenoj boji. Do njih se dolazi primenom pravila __izvoda složene funkcije__, i primenom algoritma __propagacije greške unazad__.

__Primetite najpre da se jednačine vrlo lako mogu dobiti__ ako se krene od kraja komputacionog grafa, $L(y, \hat{y})$, i redom primenjuju percijalni izvodi __isključivo po parametrima od kojih svaki element direktno zavisi.__ Ove vrednosti su obeležene __ljubičastom bojom__. Naime, najpre na samom kraju izračunamo $\frac{\partial L(y, \hat{y})}{\partial \hat{y}}$. Zatim u sledećem koraku, vidimo da $\hat{y}$ zavisi od $z$, pa izračunamo $\frac{\partial \hat{y}}{\partial z}$. Na kraju, napokon, vidimo da $z$ zavisi od $\textbf{w}$ i $b$, pa zato i izračunamo $\frac{\partial z}{\partial \textbf{w}}$ i $\frac{\partial z}{\partial b}$. __Pravilo izvoda složene funkcije__ nalaže da se konačni izvod $\frac{\partial}{\partial \textbf{w}}L(y, \hat{y})$ dobija kao proizvod dobijenih parcijalnih izvoda.

__Propagacija greške unazad__ se odnosi na to da svaki element grafa izračunavanja prosleđuje svoj parcijalni izvod unazad, prethodnom elementu. Tako poslednji element, $\frac{\partial L(y, \hat{y})}{\partial \hat{y}}$, ne prima ništa jer je poslednji i samo prosleđuje $\frac{\partial L(y, \hat{y})}{\partial \hat{y}}$ unazad. Element pre njega prima $\frac{\partial L(y, \hat{y})}{\partial \hat{y}}$, izračunava svoj parcijalni izvod, i __prosleđuje njihov proizvod__ $\frac{\partial \hat{y}}{\partial z}\frac{\partial L(y, \hat{y})}{\partial \hat{y}}$ unazad. Poslednji element će, na samom kraju, proslediti kompletnu jednačinu parametrima $\textbf{w}$ i $b$.

<p align="center">
    <img src="resources/neuron_computation_derivatives.png" alt="drawing" width="50%"/>
</p>

#### Pitanja

1. Da li neko vidi čemu je služio argument funkcije `output_grad` u `backward(cls, activation, output_grad)` kod implementacija aktivacionih funkcija u ranijoj vežbi?
2. Da li smo mogli da propagiramo gradijent ka $\textbf{x}$. Ako jesmo, čemu bi on bio jednak? Takođe, šta bi to imalo za posledicu?
3. U ovom poglavlju je objašnjivan jedan neuron. Da li neko vidi kako se ovi koncepti primenjuju na neuralnu mrežu?

## Neuralne mreže i slojevi

Slaganjem pojedinačnih neurona u __slojeve__, i slaganjem datih slojeva dobija se neuralna mreža. Na slici ispod je prikazana neuralna mreža sa __jednim skrivenim slojem__ od 4 neurona, i izlaznim slojem od jednog neurona.

Ovde vas podstičem da se vratite na sliku neurona i uočite razlike:
* U odnosu na pre, budući da sada imamo više neurona po sloju, je preaktivacija $\textbf{z}^{[1]}$ vektor, a ne skalar.
* Posledično, težine prvog sloja više nisu vektor $\textbf{w}$, već matrica $\textbf{W}^{[1]}$. Obratite pažnju na dimenziju matrice.
* Imamo još jedan sloj, međutim budući da se on sastoji od samo jednog neurona, isti je kao neuron sa ranije slike.

Prvi sloj mreže na slici ispod se naziva __gusto povezani sloj__, budući da se svaki element njegovog ulaza (u ovom slučaju $\textbf{x}$)) spaja sa svakim elementom (neuronom) datog sloja.

<p align="center">
    <img src="resources/nn.png" alt="drawing" width="50%"/>
</p>

Komputacioni graf je dat na slici ispod. Boje jednačina imaju isto značenje kao i ranije, pri čemu sada samih jednačina ima više zbog dubljeg komputacionog grafa.

<p align="center">
    <img src="resources/nn_computation_graph.png" alt="drawing" width="50%"/>
</p>

#### Pitanja

1. Zašto je $\textbf{b}^{[1]}$ sada vektor?
2. U kontekstu neuralne mreže, koja potencijalno može imati jako puno naslaganih slojeva (daleko više od dva!), da li neko vidi zbog čega postoji problem __nestajućeg gradijenta__ ako bismo koristili sigmoidnu aktivacionu funkciju? Na koji način hiperbolički tangens to popravlja?

### Slojevi

#### Softmax sloj

$\textbf{y}_i = \frac{e^{x_i}}{\sum_{j=1}^K e^{x_j}}$

In [None]:
class SoftmaxWithCrossEntropyLayer:
    """ Class that implements softmax + cross-entropy functionality. """
    def __init__(self, inputs_count):
        """
        Constructor, creates internal objects.
        :param inputs_count: number of inputs (== number of outputs).
        """
        # Outputs of the layer.
        self.y_hat = np.zeros((inputs_count, 1), dtype=float)
        # Gradients with respect to inputs.
        self.a_gradients = np.zeros((inputs_count, 1), dtype=float)
        # The most probable class (index of max output).
        self.y_max = None

    def forward(self, x_input):
        """
        Performs forward pass on this layer.
        :param x_input: Input array for this layer.
        """
        # Calculate output as softmax of inputs.
        # TODO: Implement softmax below as [y_hat] = softmax([x_input]).
        exp = np.exp(x_input)
        assert not np.isinf(exp).any()
        norm = sum(exp)
        self.y_hat = exp / norm
        # Save the most probable class.
        self.y_max = np.argmax(self.y_hat)

    def backward(self, target):
        """
        Performs backward pass on this layer.
        :param target: Expected output (to be used in loss function).
        """
        self.a_gradients = np.copy(self.y_hat)
        self.a_gradients[target, 0] -= 1

    def prediction(self):
        """ Returns the most probably class for the most recent forward call. """
        return self.y_max

#### Gusto povezani sloj

#### Zadatak 1: Prolazak unapred kroz sloj

Gledajući formulu __gusto povezanog sloja__  sa komputacionog grafa, dovršiti `forward(self, x_input)` metodu. 

#### Zadatak 2: Propagacije greške unazad

Za rešavanje ovog zadatka je potrebno gledati komputacioni graf sa poslednje slike. Specifično, najkorisnije je gledati drugu i treću ćeliju: $z^{[2]} = \textbf{W}^{{[2]}\top}  \textbf{a}^{[1]} + b^{[1]}$ i $\sigma(z^{[2]})$. Ove dve ćelije se posmatraju zajedno jer sloj podrazumeva i izračunavanje preaktivacije $z^{[2]}$, i aktivacije $\sigma(z^{[2]})$.

Od vas se traži da dovršite metodu `backward(self, output_grad)`. Kako biste to postigli, potrebno je najpre:
* Uočiti čemu je na slici jednaka promenjiva `output_grad`. Ovo nije neophodno za samu implementaciju, ali jeste za razumevanje celine.
* Uočiti izvode po kojim promenjivama sa slike je sloj zadužen da izračuna? Kojom bojom su oni obeleženi?
* Proizvod kojih izvoda sloj treba u algoritmu propagacije greške unazad da propagira unazad? 

Imajući u vidu da je:

* $\frac{\partial \hat{y}}{\partial z^{[2]}}$ zavisi od tipa aktivacione funkcije koja se koristi, i da ste to već implementirali. Ova promenjiva u kodu se naziva `z_gradients`
* $\frac{\partial z^{[2]}}{\partial \textbf{W}^{[2]}} = \frac{\partial \hat{y}}{\partial z^{[2]}} \cdot \textbf{x}^\top$. Ova promenjiva u kodu se naziva `w_gradients`
* $\frac{\partial z^{[2]}}{\partial b^{[2]}} = \frac{\partial \hat{y}}{\partial z^{[2]}}$. Ova promenjiva u kodu se naziva `b_gradients`
* $\frac{\partial z^{[2]}}{\partial \textbf{a}^{[1]}} = \textbf{W}^{[2]\top} \cdot \frac{\partial \hat{y}}{\partial z^{[2]}}$. Ova promenjiva u kodu se naziva `a_gradients`

dovršite naznačene delove u metodi `backward(self, output_grad)`.

#### Zadatak 3: Osvežavanje težina algoritmom gradijentnog spusta

Dovršiti osvežavanje težina u metodi `update_weights(self, alpha)` na osnovu algoritma gradijentnog spusta, prezentovanog u prvom poglavlju.

In [None]:
class FullyConnectedLayer:
    """ Class that implements fully connected layer functionality. """
    def __init__(self, rng, inputs_count, outputs_count, activation_type):
        """
        Constructor, creates internal objects.
        :param rng: A random number generator used to initialize weights.
        :param inputs_count: Dimensionality of input.
        :param outputs_count: Dimensionality of output.
        """
        # Create weights array and initialize it randomly.
        self.w = np.asarray(
            rng.uniform(
                low=-np.sqrt(6. / (inputs_count + outputs_count)),
                high=np.sqrt(6. / (inputs_count + outputs_count)),
                size=(outputs_count, inputs_count)
            ),
            dtype=float
        )
        # Create biases and zero them out.
        self.b = np.zeros((outputs_count, 1), dtype=float)
        # Allocate all gradient arrays.
        self.w_gradients = np.zeros((outputs_count, inputs_count), dtype=float)
        self.b_gradients = np.zeros((outputs_count, 1), dtype=float)
        self.a_gradients = np.zeros((inputs_count, 1), dtype=float)
        # Set activation function according to given type.
        self.sigma = create_activation(activation_type)
        # Declare input/output arrays to be used later.
        self.x = None
        self.a = np.zeros((outputs_count, 1), dtype=float)

    def forward(self, x):
        """
        Performs forward pass for this layer using formula [output] = activation([input] * [wights] + [biases])
        :param x_input: Input array for forward pass.
        """
        # TODO: Implement fully connected layer forward compute below as
        # [activation] = activation([w] * [x] + [b]).
        # First calculate preactivation as [z] = [w] * [x] + [b]
        # Now apply activation function on preactivation to obtain output ([self.a] = activation([z])).

        
        # Remember input to be able to compute gradients with respect to weights.
        self.x = x

    def backward(self, output_grad):
        """
        Performs backward pass for this layer.
        :param output_grad: Gradients of the outputs.
        """
        # Calculate preactivation gradients.
        z_gradients = self.sigma.backward(self.a, output_grad)
        # Based on z_gradients calculate bias, weights and input gradients.
        # TODO: Implement fully connected layer backward. Compute b_gradients, w_gradients and a_gradients
        #       using the formulas below:
        #       [b_gradients] = [z_gradients]
        #       [w_gradients] = [z_gradients] * [input]T
        #       [a_gradients] = [w]T * [z_gradients]

    def update_weights(self, alpha):
        """
        Updates weights for this layer using given learning rate and already computed gradients.
        :param alpha: Learning rate to be used.
        """
        # TODO: Implement weight and bias update steps from gradient descent algorithm from the first chapter

## Povezivanje slojeva

Došlo je vreme da napravimo prvu neuralnu mrežu :) Neuralna mreža ispod se sastoji od tri sloja:

1. Skriveni sloj sa aktivacionom funkcijom `tanh` (ovo slobodno u kodu promenite na `sigmoid` ako vam je draže)
2. Skriveni sloj sa aktivacionom funkcijom identiteta
3. Izlazni `softmax` sloj budući da se danas bavimo zadatkom __klasifikacije na n kategorija__

#### Zadatak 1: Prolazak unapred kroz mrežu

Implementirati metodu `forward(self, x)`. Imati u vidu da smo već implementirali sve slojeve koje mreža koristi, te je dovoljno da se adekvatno iskoriste njihove `forward(self, x)` metode :) Konačno, potrebno je videti na koji način dohvatiti izlaze svakog sloja.

#### Zadatak 2: Propagacija greške unazad

Implementirati metodu `backward(self, y)` koja prima zadatu vrednost $y$ i propagira $L(y, \hat{y})$ unazad. Imati u vodu da su sve `backward` funkcije već implementirane, i da je samo potrebno pozvati ih u ispravnom redosledu sa ispravnim podacima. Konačno, potrebno je videti na koji način dohvatiti gradijente izlaza svakog sloja.

In [None]:
class MLPNetwork:
    """
    Multi-Layer Perceptron Class
    A multilayer perceptron is a feedforward artificial neural network model that has one hidden fully connected layer,
    and one output fully connected layer, both with nonlinear activations. The top layer (third one) is a softmax layer.
    """
    def __init__(self, rng, inputs_count, hidden_count, outputs_count):
        """Initialize the parameters for the multilayer perceptron.
        :param rng: A random number generator used to initialize weights
        :param inputs_count: Number of input units, the dimension of the space in which the datapoints lie.
        :param hidden_count: number of hidden units.
        :param outputs_count: Number of output units, the dimension of the space in which the labels lie.
        """
        # Create hidden layer (first fully connected layer).
        self.hidden_layer = FullyConnectedLayer(
            rng=rng,
            inputs_count=inputs_count,
            outputs_count=hidden_count,
            activation_type=ActivationType.TANH
        )

        # Create output layer (second fully connected layer).
        self.output_layer = FullyConnectedLayer(
            rng=rng,
            inputs_count=hidden_count,
            outputs_count=outputs_count,
            activation_type=ActivationType.IDENTITY
        )

        # Create softmax layer.
        self.softmax_layer = SoftmaxWithCrossEntropyLayer(inputs_count=outputs_count)

    def forward(self, x):
        """ Performs forward pass through the network by sequentially invoking forward on child layers.
        :param x_input: Input to the network.
        """
        # TODO: Implement forward pass. Remember that outputs of each layer are stored in .a attributes.

    def backward(self, y):
        """ Performs backward pass through the network by sequentially invoking backward on child layers in reverse
        order.
        :param t_target: Expected output of the network.
        """
        # TODO: Implement backward pass. Remember that during backprop computation graph is read from right to left.

    def update_weights(self, alpha):
        """ Performs update of the network weights by updating weight on each child layer.
        :param alpha: Learning rate to be used for weight update.
        """
        self.output_layer.update_weights(alpha)
        self.hidden_layer.update_weights(alpha)

    def inference(self, x):
        self.forward(x.reshape(x.shape[0], 1))
        y_hat = self.softmax_layer.prediction()
        return y_hat

    def test(self, dataset):
        """ Performs testing of the trained network on the given dataset. Returns accuracy of the network.
        :param dataset: Dataset to be used for testing.
        """
        x_input, y_target = dataset
        error_count = 0
        for i in range(x_input.shape[0]):
            self.forward(x_input[i].reshape(x_input.shape[1], 1))
            if self.softmax_layer.prediction() != y_target[i]:
                error_count += 1
        return float(error_count) / x_input.shape[0]

neural_net = MLPNetwork(np.random, inputs_count=28 * 28, hidden_count=100, outputs_count=10)

## Treniranje neuralne mreže

In [None]:
import os
from trainer import train_nn_with_sgd, get_random_sample, sample_to_image, load_data

dataset_path_os_normalized = os.path.join(".","data","mnist.pkl")
_, _, test_set = load_data(dataset_path=dataset_path_os_normalized)

In [None]:
x, y = get_random_sample(dataset=test_set)
image = sample_to_image(x=x)
print(f"A typical example for class {y} looks like this.")
display(image)

In [None]:
EPOCHS = 10
ALPHA = 0.01

train_nn_with_sgd(neural_net=neural_net, dataset_path=dataset_path_os_normalized, epochs_count=EPOCHS, alpha=ALPHA)

## Zaključivanje neuralnom mrežom

In [None]:
y_hat = neural_net.inference(x=x)

print(f"Neural network prediction for class {y} and image below is {y_hat}")
display(image)

## Testiranje neuralne mreže

In [None]:
from trainer import test_nn

dataset_path_os_normalized = os.path.join(".","data","mnist.pkl")
model_path_os_normalized = os.path.join(".","model","nn.pkl")
test_nn(model_path_os_normalized, dataset_path_os_normalized)