# 11. Neuralne mreže

Branislav Gerazov, FEEIT, CMUS

Jedan od najpoznatijih modela za mašinsko učenje, koji je osnova dubokog učenja, su **veštačke neuralne mreže (NN)**.
U ovom poglavlju naučićete više o osnovnim gradivnim jedinicama neuralnih mreža - veštačkim neuronima.

## 11.0. Biološki neuroni

**Nervne ćelije** ili **neuroni** su osnovne gradivne jedinice nervnog sistema.
Za razliku od drugih ćelija u telu, neuroni se karakterišu pobuđivošću, osetljivošću i provodljivošću.
Ove karakteristike su u skladu sa njihovom specifičnom funkcijom.

Struktura neurona prikazana je na slici 1 i sadrži:
- telo nervne ćelije ili neurocit,
- dendrite (ulazi), i
- nervno vlakno ili akson (izlaz).

<img align="middle" alt="Šema biološkog neurona" src="https://github.com/VALENCEML/eBOOK/blob/main/EN/11/11_neuron_bio.png?raw=1" width="600px" style="display:block; margin-left: auto; margin-right: auto;">

**Slika 1.** Struktura bioloških neurona..

\* [Wikimedia - Neuron](https://commons.wikimedia.org/wiki/File:Neuron.svg)

Za poređenje, slika 2 prikazuje neokortikalni piramidalni neuron obojen Golgijevom metodom.
Mogu se videti brojni dendriti koji izlaze, zapravo vodeći do neurocita.

<img align="middle" alt="Biological neuron microscope" src="https://github.com/VALENCEML/eBOOK/blob/main/EN/11/11_neuron_microscope.jpg?raw=1" width="400px" style="display:block; margin-left: auto; margin-right: auto;">

**Slika 2.** Ljudski neuron viđen kroz mikroskop.
\* [Wikimedia - GolgiStainedPyramidalCell](https://commons.wikimedia.org/wiki/File:GolgiStainedPyramidalCell.jpg)

Osnovna funkcija neurona je da odgovori na pobuđivanje svojih ulaza generisanjem nervnih impulsa (akcionih potencijala).
Pobuđivanja mogu biti pozitivna (ekscitatorna) - ona koja povećavaju električnu polarizaciju neurona, i negativna (inhibitorna) - ona koja smanjuju njegovu polarizaciju.

Kada zbir pobuđivanja premaši prag napona, u neuronu će doći do brze promene potencijala (depolarizacija), koja će se širiti duž izlaznog aksona u formi nervnog impulsa.
Na kraju neurona, ovaj impuls igra ulogu pobuđivanja za drugi neuron, mišićno vlakno, itd.

<img align="middle" alt="Neuron integration" src="https://github.com/VALENCEML/eBOOK/blob/main/EN/11/11_neuron_integration.jpg?raw=1" width="700px" style="display:block; margin-left: auto; margin-right: auto;">

**Slika 3.** Sumiranje pobuđivanja u telu neurona.

\* [Wikimedia - Post Synaptic Potential Summation](https://commons.wikimedia.org/wiki/File:1224_Post_Synaptic_Potential_Summation.jpg)

## 11.1.  Veštački neuron

Osnovna građevinska jedinica neuronskih mreža je veštački neuron, čija funkcija je inspirisana fiziologijom bioloških neurona.
Dalje u tekstu ćemo govoriti samo o veštačkim neuronima.

Svaki neuron ima $K$ ulaza koji primaju ulazni vektor $\mathbf{x} = [x_0, x_1, ... , x_{K-1}]$.
Ulazi neurona se skaliraju koeficijentima težine ili težinama $w_k$, koje mogu biti negativne.
Aktivacija neurona $a$ se dobija sumiranjem skaliranih ulaza plus dodavanje pristrasnosti (bias) $b$.

$$
a = \sum_{k=0}^{K-1}w_k x_k + b = \mathbf{w} \mathbf{x}^T + b
$$

Ovde je, $\mathbf{w} = [w_0, w_1, ... \, w_{K-1}]$  vektor težina ovog neurona.

Konačno, izlaz neurona $y$ određuje izlazna nelinearnost $f(a)$, takođe nazvana aktivaciona funkcija. Pristrasnost $b$ odgovara pragu izlazne nelinearnosti.

$$
y = f(a) = f(\sum_{k=0}^{K-1}w_k x_k + b) = f(\mathbf{w} \mathbf{x}^T + b)
$$



<img align="middle" alt="Software neuron" src="https://github.com/VALENCEML/eBOOK/blob/main/EN/11/11_software_neuron.png?raw=1" width="400px" style="display:block; margin-left: auto; margin-right: auto;">

Slika 4. Šematski prikaz softverskog neurona. Težina $w_1$ je pozitivna, $w_2$ je takođe pozitivna, ali veća, dok je $w_3$ jednaka $w_1$, ali negativna.

Ako se na ulaz neurona dovede niz od $N$ uzoraka ulaznih podataka $\mathbf{x}_n$, imaćemo:
$$
y_n = f(a_n) = f(\mathbf{w} \mathbf{x}_n^T + b) \quad \text{for} \,\, n = 0, 1, 2, ... \, N -1 \, ,
$$

$$
\mathbf{y} = f(\mathbf{a}) = f(\mathbf{w} \mathbf{X}^T + b) \,
$$


Ovde $\mathbf{X}$ označava matricu u čijim su redovima postavljeni ulazni uzorci $\mathbf{x}_n$.

Regresioni modeli zasnovani na upotrebi jednog neurona nazivaju se linearna regresija, dok se oni za klasifikaciju nazivaju logistička regresija.

## 11.2. Implementacija veštačkog neurona

Implementirajmo veštački neuron pomoću Python-a.

In [None]:
import numpy as np


class Neuron:
    def __init__(self, weights=None, bias=None, n_inputs=None):
        if weights is not None:
            self.weights = weights
            self.bias = bias
        else:
            self.weights = np.random.normal(size=n_inputs)
            self.bias = np.random.normal()

    def __call__(self, x):
        a = np.sum(self.weights * x) + self.bias
        y = 1 if a > 0 else 0
        return y

Ovim kodom smo definisali novu `Neuron` klasu za koju smo kreirali inicijalizacionu funkciju, takozvani konstruktor (`__init__`), i funkciju koju će neuron izvršavati kada ga pozovemo (`__call__`).

Inicijalizujmo jedan neuron sa dva ulaza sa koeficijentima težine `1` i pristrasnošću (bias) od `-1`.

In [None]:
neuron = Neuron([1, 1], -1)
print(neuron.weights, neuron.bias)

Da bismo videli koju logičku funkciju naš neuron izvršava, definisaćemo matricu ulaza kombinacija logičkih 0 i 1 i ispisati izlaz neurona:

In [None]:
xs = np.array([
    [0, 0],
    [0, 1],
    [1, 0],
    [1, 1],
    ])
for x in xs:
    print(x, "->", neuron(x))

Vidimo da neuron izvršava logičku funkciju `AND`.

Vežba: Inicijalizujte neuron sa težinama `-1` i pristrasnošću (bias) `1`. Koju logičku funkciju ovaj neuron izvršava?

## 11.3. Obučavanje neurona

Kao eksperiment, inicijalizujmo neuron sa nasumičnim težinama i pristrasnošću i vidimo koju logičku funkciju će izvršiti.
Prvo ćemo postaviti stanje generatora slučajnih brojeva na `42` za ponovljivost rezultata.

In [None]:
np.random.seed(42)
neuron = Neuron(n_inputs=2)
print(neuron.weights, neuron.bias)

for x in xs:
    print(x, "->", neuron(x))

Vidimo da nasumično inicijalizovan neuron neprestano izlazi `1` na svom izlazu, tj. ne izvršava nikakvu logičku funkciju.

U stvari, neuroni u veštačkim neuronskim mrežama se uvek inicijalizuju nasumično, a tek onda se obučavaju da nauče neku logičku ili neku drugu funkciju, npr. prepoznavanje rukom pisanih cifara.

### Gradijentni spust

Problem obučavanja neuronskih mreža se svodi na promenu težina i pristrasnosti svakog od neurona u pravcu smanjenja greške koju mreža pravi.
Jedan način za to je primenom algoritma gradijentnog spusta (GS), koji je iterativni algoritam za pronalaženje minimuma zadate funkcije.

Da bismo primenili ovaj algoritam učenja, definišemo **funkciju gubitka** $\mathcal{L}(y, \tilde{y})$ koja zavisi od **stvarne vrednosti**, tj. ciljnog izlaza $y$ i izlaza dobijenog iz mreže $\tilde{y}$, koji zauzvrat zavisi od parametara neuronske mreže $\mathbf{\theta}$ i ulaznog vektora $\mathbf{x}$.
Dakle, kako bismo dostigli minimum funkcije $\mathcal{L}$, potrebno je promeniti $l$-ti parametar na iteraciji $i$ označen sa $\theta_l^i$, u pravcu suprotnom od gradijenta:

$$
   \theta_l^{i+1} = \theta_l^i - \frac{\partial \mathcal{L}}{\partial \theta_l} \cdot \eta
       \quad \, ,
$$

gde je $\frac{\partial \mathcal{L}}{\partial \theta_l}$ parcijalni izvod funkcije gubitka u odnosu na parametar $\theta_l$, a $\eta$ označava veličinu koraka koju preduzimamo u pravcu ka minimumu funkcije gubitka, što se naziva stopa učenja.

<img align="middle" alt="Gradient descend" src="https://github.com/VALENCEML/eBOOK/blob/main/EN/11/11_gradient_descend.png?raw=1" width="600px" style="display:block; margin-left: auto; margin-right: auto;" >

Slika 5. Ilustracija algoritma gradijentnog spusta.

U primeru sa slike 5, parametar $\theta$ neuronske mreže se nasumično inicijalizuje na vrednost $\theta_0$. Pošto je u ovoj tački funkcija gubitka $\mathcal{L}$ strmoglava, gradijent će biti pozitivan, pa će vrednost $\theta$ biti smanjena za veću vrednost. U sledećoj iteraciji, gradijent je ponovo pozitivan, ali manji, pa će $\theta$ biti smanjen, ali za manju vrednost, i tako dalje dok ne dostigne svoju konačnu vrednost $\theta_6$.

U neuronskim mrežama koje se sastoje od slojeva neurona, računanje gradijenta za ažuriranje parametara $\theta$ počinje na izlazu mreže i računa se prema ulaznim slojevima.
Zbog toga se izračunavanje gradijenta naziva **povratno širenje** (backpropagation).

## 11.4. Implementacija obučavanja neurona

Da bismo mogli da obučavamo naš neuron, implementiraćemo funkciju `backprop()` za izračunavanje gradijenta funkcije gubitka u odnosu na dve težine i pristrasnost (bias).
Takođe ćemo implementirati funkciju` update()` za promenu parametara neurona prema izračunatom gradijentu i brzini učenja.
Na kraju, implementiraćemo funkciju `fit()` koju možemo pozvati da obučimo neuron.

In [None]:
class Neuron:
    def __init__(self, weights=None, bias=None, n_inputs=None):
        if weights is not None:
            self.weights = weights
            self.bias = bias
        else:
            self.weights = np.random.normal(size=n_inputs)
            self.bias = np.random.normal()

    def __call__(self, x):
        a = np.sum(self.weights * x) + self.bias
        y = 1 if a > 0 else 0
        return y

    def backprop(self, loss, x):
        # loss = y - y_pred = y - (sum(w * x) + b)
        self.grad_weights = - loss * x
        self.grad_bias = - loss

    def update(self):
        self.weights = self.weights - self.grad_weights * self.learn_rate
        self.bias = self.bias - self.grad_bias * self.learn_rate

    def fit(self, xs, ys, epochs=20, learn_rate=0.1, verbose=True):
        self.learn_rate = learn_rate
        for epoch in range(epochs):
            if verbose:
                print(f"{epoch + 1}/{epochs} loss = ", end="")
            epoch_loss = 0
            for x, y in zip(xs, ys):
                y_pred = self(x)
                loss = y - y_pred
                self.backprop(loss, x)
                self.update()
                epoch_loss += loss
            if verbose:
                print(epoch_loss / x.shape[0])

Upotrebimo ove funkcije da obučimo neuron koji smo dobili nasumičnim inicijalizovanjem parametara neurona.
U tu svrhu definisaćemo željeni izlaz `ys` za svaki red tabele kombinacija ulaza `xs`.
To će predstavljati funkciju koju želimo da naš neuron nauči, i zajedno sa tabelom ulaza činiće obučavajući skup.

In [None]:
np.random.seed(42)
neuron = Neuron(n_inputs=2)
print(neuron.weights, neuron.bias)
for x in xs:
    print(x, "->", neuron(x))

ys = np.array([0, 0, 0, 1])  # AND

Sada smo spremni da obučimo naš neuron sledećom komandom:

In [None]:
neuron.fit(xs, ys)

Možemo videti kako greška opada i konvergira ka 0 tokom procesa obučavanja.
Da bismo proverili rezultate obučavanja, možemo koristiti sledeći kod:

In [None]:
print(neuron.weights, neuron.bias)
for x in xs:
    print(x, "->", neuron(x))

Vidimo da je naš neuron zaista naučio logičku funkciju `AND` koju smo mu dali!
Osim toga, možemo videti da vrednosti parametara koje smo dobili nisu iste kao one koje smo ručno uneli da bismo dobili funkciju `AND` iznad.

Vežba: Kreirajte 3 nova neurona i obučite ih da izvršavaju logičke funkcije `OR`, `NAND` i `NOR`.

Vežba: Kreirajte novi neuron i obučite ga da izvršava logičku funkciju `XOR`. Da li neuron može naučiti ovu funkciju?

## 11.5. Animacija procesa obučavanja

Koristeći interaktivnu opciju za crtanje koju pruža biblioteka `matplotlib`, možemo vizuelno prikazati proces obučavanja našeg neurona.
To možemo učiniti sledećim kodom:



In [None]:
%matplotlib notebook
import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimation
from IPython import display

ys = np.array([0, 1, 1, 1])
fig, ax = plt.subplots()
x_axis = np.array([-.1, 1.1])
colors = {0: "b", 1: "r"}
ax.scatter(xs[:, 0], xs[:, 1], c=[colors[y] for y in ys])
decision_boundary = x_axis 
line, = ax.plot(x_axis, decision_boundary, 'g', lw=2)
ax.set_xlim([-.1, 1.1])
ax.set_ylim([-0.1, 1.1])

def animate(epochs):
    np.random.seed(100)
    neuron = Neuron(n_inputs=2)
    neuron.fit(xs, ys, epochs=epochs, learn_rate=0.01, verbose=False)
    decision_boundary = (
        -neuron.weights[0] * x_axis - neuron.bias
        ) / neuron.weights[1]
    line.set_data((x_axis, decision_boundary))
    return line

anim = FuncAnimation(fig, animate, frames=300, interval=20)
video = anim.to_html5_video()
html = display.HTML(video)
display.display(html)
plt.close()

Vežba: Pokušajte promeniti logičku funkciju, stanje generatora slučajnih brojeva i brzinu učenja.