# Primena neuronskih mreža

### Veštački Neuron i neuronska mreža

<div style="text-align:left">
<img src="img/neuron.jpg" style='width:90%; max-width:70rem'/>
</div>

## Aktivacione funkcije

Uloga aktivacionih funkcija u neuronskoj mreži je da transformišu sumu ulaza neurona pomnoženih sa težinama u izlaznu vrednost koja se prosleđuje sledećem sloju.

Korišćenje nelinearne aktivacione funkcije omogućava neuronskoj mreži da rešava nelinearne probleme.

Ukoliko se koristi nelinearna aktivaciona funkcija u neuronima, dvoslojna neuronska mreža je u stanju da aproksimira bilo koju funkciju. Ovo je poznato kao **teorema o univerzalnoj aproksimaciji**.

### Sigmoid

<div style="text-align:left">
<img src="img/sig.jpg" style='width:90%; max-width:60rem'/>
</div>

Osobine
* Izlaz su vrednosti u opsegu od 0 do 1
* Često se koristi kada je potrebno predvideti verovatnoću

Mane
* Vanishing gradient problem
  * Izvod funkcije je blizu nuli za vrednosti koje su mnogo udaljene od koordinatnong početka
  * Mreža prestaje da uči kada se gradijenti približavaju nuli

### Tanh (Hyperbolic Tangent)
<div style="text-align:left">
<img src="img/tanh.jpg" style='width:90%; max-width:60rem'/>
</div>

Osobine
* Izlaz su vrednosti u opsegu od -1 do 1
* Vrednosti su centrirane oko nule, pa je u stanju da mapira vrednosti kao jako negativne, neutralne, ili jako pozitivne.

Mane
* Vanishing gradient problem
  * Izvod funkcije je blizu nuli za vrednosti koje su mnogo udaljene od koordinatnong početka
  * Mreža prestaje da uči kada se gradijenti približavaju nuli

### Relu (Rectified Linear Unit)
<div style="text-align:left">
<img src="img/relu.jpg" style='width:90%; max-width:60rem'/>
</div>

Osobine
* Nelinearna funkcija u celini, ali linearna po delovima
* Neuron je deaktiviran samo ako je rezultat linearne transformacije u neuronu manji od 0
* Laka za izračuvananje
* Najčešće se koristi u skrivenim slojevima jer izbegava vanishing gradient problem

Mane
* Dying ReLU
  * Leva strana funkcije ima izvod 0, i zbog toga se težine nekih neurona ne ažuriraju u backpropagation procesu
  * Ovo može da stvori mrtve neurone koji se nikada ne aktiviraju

### Linear
<div style="text-align:left">
<img src="img/linear.jpg" style='width:90%; max-width:50rem'/>
</div>

Osobine
* Funkcija Identiteta
* Samo vraća vrednost koja joj je prosleđena
* Čest izbor za aktivacionu funkciju poslednjeg izlaznog sloja kod problema regresije

Mane
* Ne treba da se koristi u skrivenim slojevima
  * Mreža koja koristi samo linearnu aktivacionu funkciju neće biti u stanju da nauči nelinearne funkcije

### Softmax
<div style="text-align:left">
<img src="img/softmax.jpg" style='width:90%; max-width:60rem'/>
</div>

Osobine
* Može se posmatrati kao kombinacija više sigmoidnih funkcija
* Računa relativne verovatnoće klasa, i vraća verovatnoću za svaku klasu
* Najčešće se koristi kod multi-class klasifikacije u poslednjem sloju


## Vanishing i Exploding Gradients problemi

Ukoliko su ulazne vrednosti za aktivacionu funkciju previše udaljene od 0, tada neke aktivacione funkcije kao što su sigmoidna i tanh mogu postati saturirane, i njihov gradijent je tada blizu 0. Ukoliko je mreža duboka, ovako male vrednosti gradijenata mogu usporiti brzinu učenja, i to se naziva **Vanishing gradient** problem.

**Exploding gradient** problem nastaje kada vrednosti koje neuroni izbacuju postanu previše velike zbog eksponencijalnog rasta parametara modela. Ovo može dovesti do toga da parametri u modelu dobiju NaN vrednosti zbog toga što se može desiti overflow.

Neke od tehnika za rešavanje ovih problema:
* Inicijalizacija težina
  * Najčešće se koristi [Xavier](https://paperswithcode.com/method/xavier-initialization) inicijalizacija
* Korišćenje aktivacionih funkcija koje nemaju problem sa saturacijom
  * Najšečće se koristi ReLU
* Batch Normalization
  * Normalizacija težina u slojevima neuronske mreže
* Gradient Clipping
  * Gradijenti iznad nekog praga se postavljaju na vrednost praga

## Odabir adekvatne aktivacione funkcije

Za skrivene slojeve, dobra polazna aktivaciona funkcija je **ReLU**.

U zavisnosti od vrste problema, bira se aktivaciona funkcija u izlaznom sloju.
* Regresija - Linearna aktivaciona funkcija
* Binarna klasifikacija - Sigmoidna aktivaciona funkcija
* Multiclass klasifikacija - Softmax
  * Podatak može pripadati samo jednoj od ponuđenih klasa
* Multilabel klasifikacija - Sigmoidna aktivaciona funkcija
  * Podatak može imati više labela

<div style="text-align:left">
<img src="img/biranje-class-reg.jpg" style='width:90%; max-width:60rem'/>
</div>

## Podela skupa podataka

Skup podataka na kojem se primenjuju neuronske mreže se najčešće ne koristi ceo za treniranje. U praksi se skup podataka deli na **trening, validacioni i test** skup (validacioni skup je koristan kada treba podešavati hiperparametre). Za potrebe ovog predmeta, dovoljno će biti da se u zadacima izdvoje **trening i test** skup.

Svrha testnog skupa je da nakon treniranja neuronske mreže na trening skupu, možemo da vidimo kakve bi performanse model mogao da ima na podacima koje možda nije video prilikom treniranja. Ovo nam može dati uvid u to kako će se model ponašati kada se primeni u praksi. Idealno se neuronska mreža evaluira samo jednom na testnom skupu, da bi se dobila što realnija procena performansi.

Ne postoji tačno pravilo koje kaže koliko podataka treba da bude u trening i test skupu.
Ali u praksi se često prate sledeće smernice:
* Kada je broj podataka manji od 10000, često se koristi **70/30** podela, gde 70% podataka pripada trening skupu, a ostatak test skupu.
* Za velike skupove podataka se ovaj odnos menja, i često se koristi **95/5** podela.

## Bias i varijansa

Na primeru klasifikacije gde treba prepoznati da li se na slici nalazi mačka, čovek može postići savršen rezultat sa greškom od 0%.
Za korišćenje modela mašinskog učenja, možemo podeliti ovaj skup podataka na trening i test skup.

<div style="text-align:left">
<img src="img/high-bias-and-variance.jpg" style='width:90%; max-width:60rem'/>
</div>

* Bias je razlika između greške modela na trening skupu i najmanje moguće greške
* Varijansa je razlika između grešaka na testnom skupu i trening skupu

### Overfitting

<div style="text-align:left">
<img src="img/high-variance.jpg" style='width:90%; max-width:60rem'/>
</div>

Ukoliko naš model ima sledeći odnos grešaka:
* Trening greška = 1%
* Test greška = 12%

Iz grešaka na trening skupu se vidi da se model dobro prilagodio trening skupu podataka.

Razlika u odnosu na ljudske performanse je 1% = (1% - 0%). Zbog toga model ima **mali bias**.

Ali razlika između greške na testnom i trening skupu je 11%=(12%-1%). Zbog toga model ima **veliku varijansu**.

Mali bias i velika varijansa ukazuju na to da model nije naučio dobro da generalizuje, i kaže se da se desio **overfitting**.

### Underfitting

<div style="text-align:left">
<img src="img/high-bias.jpg" style='width:90%; max-width:60rem'/>
</div>

Ukoliko naš model ima sledeći odnos grešaka:
* Trening greška = 14%
* Test greška = 15%

U ovom primeru je **bias velik** i iznosi 14%=(14% - 0%).

**Varijansa je ovde mala** i iznosi 1%=(15% - 14%).

To nam govori da je ostalo još dosta prostora da se performanse modela unaprede, tako što će se bolje prilagoditi na trening skup.

U ovom slučaju kažemo da se desio **underfitting**.

### Tehnike za smanjenje biasa i varijanse

Idealno bi želeli da model ima mali bias i malu varijansu.

Za **smanjenje varijanse** i da bi se **umanjio overfitting**:
* Dodati više podataka u trening skup
* Smanjiti fleksibilnost modela
  * Smanjiti broj parametara modela smanjenjem broja slojeva ili broja neurona u slojevima
* Uvesti regularizaciju
  * U neuronskim mrežama se često koristi **dropout regularizacija** gde se nasumično prilikom treniranja deaktivira zadati procenat neurona

Za **smanjenje biasa** i da bi se **umanjio underfitting**:
* Povećati fleksibilnost modela
  * Povećati broj parametara modela uvećanjem broja slojeva ili broja neurona u slojevima
* Smanjiti regularizaciju


## Normalizacija i Standardizacija

Pre korišćenja neuronske mreže na podacima, potrebno je podatke standardizovati ili normalizovati.
Ovo se radi da bi se izbegao **exploding gradients** problem kojem mogu doprineti velike vrednosti na ulazu u mrežu.
Takođe, zbog velike razlike u skali ulaznih vrednosti koje nisu normalizovane ili standardizovane, može se desiti da se mreža sporo trenira, jer algoritmu gradijentnog spusta treba puno vremena da konvergira.


### Normalizacija

Normalizacija predstavlja maprianje svih vrednosti na opseg [0, 1].

<div style="text-align:left">
<img src="img/norm.jpg" style='width:90%; max-width:25rem'/>
</div>

### Standardizacija (Z-Normalizacija)

Standardizacija je transformacija podataka u kojoj se od svake vrednosti oduzima srednja vrednost i deli se sa standardnom devijacijom.

<div style="text-align:left">
<img src="img/std.jpg" style='width:90%; max-width:25rem'/>
</div>



## Petlja za treniranje

Ovo je primer pojednostavljene petlje za treniranje.

Prilikom treniranja, potrebno je prvo napraviti model koji će se trenirati.

Zatim se definišu hiperparametri kao što je broj epoha i learning rate.

Epohe predstavljaju broj epizoda u kojima će se model trenirati.

U svakoj epohi se podaci propuštaju kroz model, i model vraća predikcije. Zatim se računa greška koju model pravi na podacima. Ta greška se koristi da bi se izračunali gradijenti i da bi se na kraju ažurirale težine u samom modelu.

<div style="text-align:left">
<img src="img/training.jpg" style='width:90%; max-width:35rem'/>
</div>




## Zadatak 1

U zadatku se koristi life-expectancy.csv skup podataka. Potrebno je predvitedi očekivanu dužinu života na osnovu ostalih obeležja u skupu podataka.

Zadatak raditi u zadatak1.py fajlu.

* TODO preprocesirati podatke
* TODO podeliti podatke na train i test skup
* TODO razdvojiti x i y
* TODO primeniti standardizaciju ili normalizaciju
* TODO implementirati model neuronske mreze
* TODO trenirati mrezu



## Zadatak 2

U zadatku se koristi diabetes.csv skup podataka. Potrebno je predvitedi da li osoba ima dijabetes na osnovu ostalih obeležja u skupu podataka.

Zadatak raditi u zadatak2.py fajlu

* TODO preprocesirati podatke
* TODO podeliti podatke na train i test skup
* TODO razdvojiti x i y
* TODO primeniti standardizaciju ili normalizaciju
* TODO implementirati model neuronske mreze
* TODO trenirati mrezu - koristiti sklearn.neural_network.MLPClassifier 