# 11. Nevronske mreže

Pripravil Branislav Gerazov, FEEIT, CMUS

Eden najbolj znanih modelov za strojno učenje, ki je osnova globokega učenja, so umetne **nevronske mreže (NN)**.
V tem poglavju boste izvedeli več o osnovnih gradnikih nevronskih mrež - umetnih nevronih.

## 11.0. Biološki nevroni

**Živčne celice** ali **nevroni** so osnovni gradniki živčnega sistema.
Za razliko od drugih celic v telesu so za nevrone značilni vzburljivost, občutljivost in prevodnost.
Te značilnosti so skladne z njihovo specifično funkcijo.

Struktura nevronov je prikazana na sliki 1 in vsebuje:
- telo živčne celice ali nevrocit,
- dendrite (vhodi) in
- živčno vlakno ali akson (izhod).

<img align="middle" alt="Biological neuron schematic" src="11_neuron_bio.png" width="600px" style="display:block; margin-left: auto; margin-right: auto;">

**Slika 1.** Zgradba bioloških nevronov.

\* [Wikimedia - Neuron](https://commons.wikimedia.org/wiki/File:Neuron.svg)

Za primerjavo je na sliki 2 prikazan neokortikalni piramidni nevron, obarvan z Golgijevo metodo.
Vidite lahko številne dendrite, ki dejansko vodijo do nevrocita.

**Slika 2.** Človeški nevron, viden skozi mikroskop.

\* [Wikimedia - GolgiStainedPyramidalCell](https://commons.wikimedia.org/wiki/File:GolgiStainedPyramidalCell.jpg)

Osnovna funkcija nevrona je, da se odzove na vzburjenje svojih vhodov z ustvarjanjem živčnih impulzov (akcijskih potencialov).
Dražljaji so lahko pozitivni (ekscitatorni) - tisti, ki povečajo električno polarizacijo nevrona, in negativni (inhibitorni) - tisti, ki zmanjšajo njegovo polarizacijo.

Ko vsota dražljajev preseže napetost praga, pride v nevronu do hitre spremembe potenciala (depolarizacije), ki se v obliki živčnega impulza širi po izhodnem aksonu.
Na koncu nevrona ima ta impulz vlogo vzburjenja za drug nevron, mišično vlakno, itd.

<img align="middle" alt="Neuron integration" src="11_neuron_integration.jpg" width="700px" style="display:block; margin-left: auto; margin-right: auto;">

**Slika 3.** Sumacija vzbujanja v telesu nevrona.

\* [Wikimedia - Post Synaptic Potential Summation](https://commons.wikimedia.org/wiki/File:1224_Post_Synaptic_Potential_Summation.jpg)

## 11.1. Umetni nevron

Osnovni gradnik nevronskih omrežij je **umetni nevron**, katerega delovanje se zgleduje po fiziologiji bioloških nevronov.
V nadaljevanju besedila bomo govorili le o umetnih nevronih.

Vsak nevron ima $K$ vhodov, ki prejmejo vhodni vektor $\mathbf{x} = [x_0, x_1, ... \, x_{K-1}]$ .
Vhodi nevronov so skalirani z utežnimi koeficienti ali utežmi $w_k$, ki so lahko negativni.
Aktivacijo nevrona $a$ dobimo s seštevanjem skaliranih vhodov in dodatkom **objektivnega** člena $b$.

$$
a = \sum_{k=0}^{K-1}w_k x_k + b = \mathbf{w} \mathbf{x}^T + b
$$

Tu je $\mathbf{w} = [w_0, w_1, ... \, w_{K-1}]$ vektor uteži tega nevrona.

Končno je izhod nevrona $y$ določen z izhodno nelinearnostjo $f(a)$, ki se imenuje tudi **aktivacijska funkcija**. Odklon $b$ ustreza pragu izhodne nelinearnosti.

$$
y = f(a) = f(\sum_{k=0}^{K-1}w_k x_k + b) = f(\mathbf{w} \mathbf{x}^T + b)
$$

<img align="middle" alt="Software neuron" src="11_software_neuron.png" width="400px" style="display:block; margin-left: auto; margin-right: auto;">

**Slika 4.** Shematski prikaz programskega nevrona. Utež $w_1$ je pozitivna, $w_2$ je prav tako pozitivna, vendar večja, $w_3$ pa je enaka $w_1$, vendar negativna.

Če na vhod nevrona pripeljemo zaporedje $N$ vzorcev vhodnih podatkov $\mathbf{x}_n$, dobimo:

$$
y_n = f(a_n) = f(\mathbf{w} \mathbf{x}_n^T + b) \quad \text{for} \,\, n = 0, 1, 2, ... \, N -1 \, ,
$$

$$
\mathbf{y} = f(\mathbf{a}) = f(\mathbf{w} \mathbf{X}^T + b) \,
$$

Tu $\mathbf{X}$ označuje matriko, v katere vrstice so postavljeni vhodni vzorci $\mathbf{x}_n$.

Regresijski modeli, ki temeljijo na uporabi enega nevrona, se imenujejo **linearna regresija**, tisti za klasifikacijo pa **logistična regresija**.

## 11.2. Implementacija umetnega nevrona

Implementiramo umetni nevron v Pythonu.

In [None]:
import numpy as np


class Neuron:
    def __init__(self, weights=None, bias=None, n_inputs=None):
        if weights is not None:
            self.weights = weights
            self.bias = bias
        else:
            self.weights = np.random.normal(size=n_inputs)
            self.bias = np.random.normal()

    def __call__(self, x):
        a = np.sum(self.weights * x) + self.bias
        y = 1 if a > 0 else 0
        return y

S to kodo smo definirali nov razred `Neuron`, za katerega smo ustvarili inicializacijsko funkcijo, tako imenovani konstruktor (`__init__`), in funkcijo, ki jo bo nevron izvedel, ko jo bomo poklicali (`__call__`).

Inicializirajmo en nevron z dvema vhodoma z utežnimi koeficienti `1` in pristranskostjo `-1`.

In [None]:
neuron = Neuron([1, 1], -1)
print(neuron.weights, neuron.bias)

[1, 1] -1


Da bi videli, katero logično funkcijo izvaja naš nevron, bomo definirali vhodno matriko kombinacij logičnih vrednosti `0` in `1` ter izpisali izhod nevrona:

In [None]:
xs = np.array([
    [0, 0],
    [0, 1],
    [1, 0],
    [1, 1],
    ])
for x in xs:
    print(x, "->", neuron(x))

[0 0] -> 0
[0 1] -> 0
[1 0] -> 0
[1 1] -> 1


Vidimo, da nevron izvaja logično funkcijo `AND`.

*Vaja*: Inicializirajte nevron z utežmi `-1` in nagibom `1`. Katero logično funkcijo izvaja ta nevron?

## 11.3. Učenje nevrona

Kot poskus inicializirajmo nevron z naključnimi utežmi in pristranskostjo ter poglejmo, kakšno logično funkcijo bo izvajal.
Najprej bomo nastavili stanje generatorja naključnih števil `42` zaradi ponovljivosti rezultatov.

In [None]:
np.random.seed(42)
neuron = Neuron(n_inputs=2)
print(neuron.weights, neuron.bias)

for x in xs:
    print(x, "->", neuron(x))

[ 0.49671415 -0.1382643 ] 0.6476885381006925
[0 0] -> 1
[0 1] -> 1
[1 0] -> 1
[1 1] -> 1


Vidimo, da naključno inicializirani nevron na izhodu nenehno oddaja `1`, tj. ne izvaja nobene logične funkcije.

Pravzaprav so nevroni v umetnih nevronskih mrežah vedno naključno inicializirani in šele nato so usposobljeni za *učenje* neke logične ali druge funkcije, npr. prepoznavanje ročno napisanih številk.

#### Gradientni spust

Problem učenja nevronskih mrež je omejen na spreminjanje uteži in pristranskosti vsakega nevrona v smeri zmanjšanja napake, ki jo naredi mreža.
Eden od načinov za to je uporaba algoritma **gradientnega spuščanja (GD)**, ki je iterativni algoritem za iskanje minimuma dane funkcije.

Za uporabo tega algoritma učenja opredelimo **funkcijo izgube** $\mathcal{L}(y, \tilde{y})$ , ki je odvisna od **resničnih podatkov**, tj. ciljnega izhoda $y$ in izhoda, pridobljenega iz mreže $\tilde{y}$ , ki pa je odvisen od parametrov nevronske mreže $\mathbf{\theta}$ in vhodnega vektorja $\mathbf{x}$ .
Da bi dosegli minimum funkcije $\mathcal{L}$, moramo torej spremeniti $l$-ti parameter na iteraciji $i$, označen z $\theta_l^i$, v smeri, nasprotni gradientu:

$$
   \theta_l^{i+1} = \theta_l^i - \frac{\partial \mathcal{L}}{\partial \theta_l} \cdot \eta
       \quad \, ,
$$

kjer je $\frac{\partial \mathcal{L}}{\partial \theta_l}$ delni odvod funkcije izgube glede na parameter $\theta_l$, $\eta$ pa označuje velikost koraka v smeri proti minimumu funkcije izgube, ki se imenuje **stopnja učenja**.

<img align="middle" alt="Gradient descend" src="11_gradient_descend.png" width="600px" style="display:block; margin-left: auto; margin-right: auto;" >

**Slika 5.** Prikaz gradientnega spusta.

V primeru na sliki 5 je parameter $\theta$ nevronske mreže naključno inicializiran na vrednost $\theta_0$. Ker na tej točki funkcija izgube $\mathcal{L}$ strmo narašča, bo gradient pozitiven, zato se bo vrednost $\theta$ zmanjšala za večjo vrednost. V naslednji iteraciji je gradient spet pozitiven, vendar manjši, zato se bo vrednost $\theta$ zmanjšala, vendar za manjšo vrednost, in tako naprej, dokler ne doseže končne vrednosti $\theta_6$.

V nevronskih mrežah, sestavljenih iz plasti nevronov, se izračun gradienta za posodobitev parametrov $\theta$ začne na izhodu mreže in se izračuna proti vhodnim plastem. 
Zaradi tega se izračun gradienta imenuje **sestopanje**.

## 11.4. Implementacija učenja nevronov

Da bi lahko trenirali naš nevron, bomo implementirali funkcijo `backprop()` za izračun gradienta funkcije izgube glede na obe uteži in pristranskost.
Izvedli bomo tudi funkcijo `update()` za spreminjanje parametrov nevrona glede na izračunani gradient in stopnjo učenja.
Nazadnje bomo implementirali funkcijo `fit()`, ki jo lahko pokličemo za učenje nevrona.

In [None]:
class Neuron:
    def __init__(self, weights=None, bias=None, n_inputs=None):
        if weights is not None:
            self.weights = weights
            self.bias = bias
        else:
            self.weights = np.random.normal(size=n_inputs)
            self.bias = np.random.normal()

    def __call__(self, x):
        a = np.sum(self.weights * x) + self.bias
        y = 1 if a > 0 else 0
        return y

    def backprop(self, loss, x):
        # loss = y - y_pred = y - (sum(w * x) + b)
        self.grad_weights = - loss * x
        self.grad_bias = - loss

    def update(self):
        self.weights = self.weights - self.grad_weights * self.learn_rate
        self.bias = self.bias - self.grad_bias * self.learn_rate

    def fit(self, xs, ys, epochs=20, learn_rate=0.1, verbose=True):
        self.learn_rate = learn_rate
        for epoch in range(epochs):
            if verbose:
                print(f"{epoch + 1}/{epochs} loss = ", end="")
            epoch_loss = 0
            for x, y in zip(xs, ys):
                y_pred = self(x)
                loss = y - y_pred
                self.backprop(loss, x)
                self.update()
                epoch_loss += loss
            if verbose:
                print(epoch_loss / x.shape[0])

Uporabimo te funkcije za učenje nevrona, ki smo ga dobili z naključno inicializacijo parametrov nevrona.
V ta namen bomo za vsako vrstico tabele vhodnih kombinacij `xs` določili želeni izhod `ys`.
To bo predstavljalo funkcijo, za katero želimo, da se je naš nevron nauči, skupaj s tabelo vhodov pa bosta sestavljali **učno množico**.

In [None]:
np.random.seed(42)
neuron = Neuron(n_inputs=2)
print(neuron.weights, neuron.bias)
for x in xs:
    print(x, "->", neuron(x))

ys = np.array([0, 0, 0, 1])  # AND

[ 0.49671415 -0.1382643 ] 0.6476885381006925
[0 0] -> 1
[0 1] -> 1
[1 0] -> 1
[1 1] -> 1


S tem smo pripravljeni za učenje našega nevrona z naslednjim ukazom:

In [None]:
neuron.fit(xs, ys)

1/20 loss = -1.5
2/20 loss = -1.5
3/20 loss = -0.5
4/20 loss = 0.0
5/20 loss = 0.0
6/20 loss = -0.5
7/20 loss = 0.0
8/20 loss = 0.0
9/20 loss = -0.5
10/20 loss = 0.0
11/20 loss = 0.0
12/20 loss = 0.0
13/20 loss = 0.0
14/20 loss = 0.0
15/20 loss = 0.0
16/20 loss = 0.0
17/20 loss = 0.0
18/20 loss = 0.0
19/20 loss = 0.0
20/20 loss = 0.0


Vidimo lahko, kako se napaka med procesom usposabljanja zmanjšuje in konvergira k 0.
Za preverjanje rezultatov usposabljanja lahko uporabimo naslednjo kodo:

In [None]:
print(neuron.weights, neuron.bias)
for x in xs:
    print(x, "->", neuron(x))

[0.19671415 0.0617357 ] -0.2523114618993075
[0 0] -> 0
[0 1] -> 0
[1 0] -> 0
[1 1] -> 1


Vidimo, da se je naš nevron naučil logične funkcije `AND`, ki smo mu jo dali!
Poleg tega lahko vidimo, da vrednosti parametrov, ki smo jih dobili, niso enake tistim, ki smo jih vnesli ročno, da bi dobili zgornjo funkcijo `AND`.

*Vaja*: Ustvarite tri nove nevrone in jih naučite izvajanje logičnih funkcij `OR`, `NAND` in `NOR`.

*Vaja*: Ustvarite nov nevron in ga naučite izvajanje logične funkcije `XOR`. Ali se lahko nevron nauči te funkcije?

## 11.5. Animacija procesa učenja

Z uporabo možnosti interaktivnega izrisa, ki jo zagotavlja knjižnica `matplotlib`, lahko vizualiziramo proces učenja našega nevrona.
To lahko storimo z naslednjo kodo:

In [None]:
%matplotlib notebook
import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimation
from IPython import display

ys = np.array([0, 1, 1, 1])
fig, ax = plt.subplots()
x_axis = np.array([-.1, 1.1])
colors = {0: "b", 1: "r"}
ax.scatter(xs[:, 0], xs[:, 1], c=[colors[y] for y in ys])
decision_boundary = x_axis 
line, = ax.plot(x_axis, decision_boundary, 'g', lw=2)
ax.set_xlim([-.1, 1.1])
ax.set_ylim([-0.1, 1.1])

def animate(epochs):
    np.random.seed(100)
    neuron = Neuron(n_inputs=2)
    neuron.fit(xs, ys, epochs=epochs, learn_rate=0.01, verbose=False)
    decision_boundary = (
        -neuron.weights[0] * x_axis - neuron.bias
        ) / neuron.weights[1]
    line.set_data((x_axis, decision_boundary))
    return line

anim = FuncAnimation(fig, animate, frames=300, interval=20)
video = anim.to_html5_video()
html = display.HTML(video)
display.display(html)
plt.close()

<IPython.core.display.Javascript object>

RuntimeError: Requested MovieWriter (ffmpeg) not available

*Vaja*: Poskusite spremeniti logično funkcijo, stanje generatorja naključnih števil in stopnjo učenja.