# Optimizacija 

<center><img src="Images/V6_banner.png" width="700" height="700"/></center>

U drugoj vježbi pokazano je da se rješenje većine problema strojnog učenja može svesti na 

* Ulazne podatke 

* Odabir modela 

* Funkcija cilja

* **Optimizacija modela**

Optimizacija modela znači pronalazak odgovarajućih vrijednosti modela koje na odabranoj funkciji cilja polučuju najbolje rezultate. U ovoj vježbi postepeno će se izgraditi motivacija i ideja iz sljedećih alogirtama optimizacije koji kreću od jednostavnijeg ka kompleksnijem:

1. Linearna pretraga
2. Gradijentni spust
3. Stohastički gradijentni spust
4. Momentum
5. ADAM

---

# Podsjetnik funkcije cilja

Funkcija cilja može se predstaviti kao prostor u kojemu tražimo globalni ili dovoljno dobar lokalni minumum. 

| 2D Funkcija cilja | 3D funkcija cilja |
|:-----------------:|:-----------------:|
| ![2D](Images/V6_loss2D.png) | ![3D](Images/V6_loss3D.png) |

## Linearna pretraga

Jedan od algoritama za pronalazak lokalnog, odnosno globalnog minimuma jest linearna pretraga koji se može raspisati ilustirati na sljedeći način:

* Započnemo sa inervalom koji je definiran točkama $[a,d]$ takvim da $a < d$ a unutar kojih smo sigurni da se nalazi minimum.
* Potom odaberimo dvije točke $b$ i $c$ unutar intervala takve da vrijedi $b < c$ i evaluirajmo funkciju gubitka u tim točkama odnosno $L(b)$ i $L(c)$. Tipično 1/3 i 2/3 intervala.
* Ažurirajmo interval primjenjujući iduče pravilo:
    * Ako je $L(b) > L(c)$, minimum je unutar intervala $[b,d]$ pa stoga ažuriramo $a \rightarrow b$.
    * Ako je $L(b) \leq L(c)$, minimum je unutar intervala $[a,c]$ pa stoga ažuriramo $d \rightarrow c$.
* Ponavljamo postupak dok interval ne postane manje od prethodno zadane $tolerancije$

Slikovni prikaz navedenog algoritma nalazi se na idućoj slici:

<center><img src="Images/V6_linear.png" width="500" height="500"/></center>

Kao što se može vidjeti, interval se dijeli na tri ravnomjerna dijela (trisekcija)

---

<font color='red'>


## Zadatak

<left><img src="Images/Zadatak.png" width="70" height="70"/></left>

</font>

U skripti **Vjezba6/linearna_pretraga.py** potrebno je implementirati funkciju **bracketing_step** koja računa prethodno opisani algoritam (bez ponavljanja i tolerancije). Potom izvršite idući programski kod i odgovorite na pitanja:

* Konvergira li uvijek algoritam linearne pretrage?
* Kako na algoritam utječe parametar broja iteracija, a kako tolerancije?
* Pronađe li algoritam uvijek optimalno rješenje?
* Što se dogodi ako je inicijalni interval $[a,d]$ krivo definiran, primjerice premali ili preveliki?
* Kako odabrati dobar incijalni interval?
* Izračunajte ručno idući korak intervala.


In [None]:
# Autoreload
%load_ext autoreload
%autoreload 2

# Pokretanje skripte 
from Skripte.Vjezba6.linearna_pretraga_rj import linear_search_widget

linear_search_widget()

---

## Gradijentni spust

U drugoj vježbi je uveden gradijentni spust koji se računa po sljedećoj formuli:

$$\Theta_{n+1} = \Theta_n - \alpha\cdot\bigtriangledown_\Theta J(\Theta) $$

Odnosno derivacijom funkcije cilja po ulaznim parametrima modela. Dok gradijent -- točnije negativni gradijent ukazuje na smjer koji vodi ka optimalnom rješenju, dok stopa učenja $\alpha$ kaže za koliko se se valja pomaknuti u tom smjeru u promatranom koraku.

Za funkciju cilja $MSE$ i linearnu regresiju ($y = \theta_0 + \theta_1 \cdot x$) gradijent se računa pomoću sljedeće formule:

\begin{equation}
\frac{\partial L}{\partial \boldsymbol\phi} = \begin{bmatrix}\frac{\partial L}{\partial \phi_0} \\\frac{\partial L}{\partial \phi_1} \end{bmatrix}
\end{equation}

Odnosno:

\begin{align}
\frac{\partial \ell_i}{\partial \boldsymbol{\phi}}
=
\begin{bmatrix}
\frac{\partial \ell_i}{\partial \phi_0} \\
\frac{\partial \ell_i}{\partial \phi_1}
\end{bmatrix}
=
\begin{bmatrix}
2(\phi_0 + \phi_1 x_i - y_i) \\
2x_i(\phi_0 + \phi_1 x_i - y_i)
\end{bmatrix}.
\tag{6.7}
\end{align}

Također, gradijent se može računati i aproksimativno:

\begin{align}
\frac{\partial L}{\partial \phi_{0}}&\approx & \frac{L[\phi_0+\delta, \phi_1]-L[\phi_0, \phi_1]}{\delta}\\
\frac{\partial L}{\partial \phi_{1}}&\approx & \frac{L[\phi_0, \phi_1+\delta]-L[\phi_0, \phi_1]}{\delta}
\end{align}

gdje $\delta$ označava neki jako mali broj poput $e^{-7}$.

---

<font color='red'>


## Zadatak

<left><img src="Images/Zadatak.png" width="70" height="70"/></left>

</font>

U skripti **Vjezba6/gradijentni_spust.py**  implementirajte funkcije **gradijent_derivacija** i **gradijent_aproksimacija** te pokrenite idući programski kod te odgovorite na pitanja:

* Koja je razlika u implmentaciji oba pristupa?
* Polučuju li pristupi isto rješenje?
* Derivirajte MSE funkciju na papiru i odredite ručno derivacije koje su prethodno za vas izračunate.
* Kako utječe parametar delta na gradijentnu aproksimaciju?
* Kako početna vrijednost parametra $\Theta$ utječe na algoritme?
* **X** Koje su mane gradijentnog spusta? O čemu on najviše ovisi te kako se te mane mogu prevladati? Uzmite u obzir funkcije cilja iz linearnog pretraživanja.

In [None]:
# Autoreload
%load_ext autoreload
%autoreload 2

# Knjižnice
from Skripte.Vjezba6.gradijentni_spust_rj import *
from Skripte.Vjezba3.dataloader import *
import os
   
# Pokretanje skripte 
# Izgradimo dataset i dataloader
_dataset = bikeRentalDataset(
    path_to_csv=os.path.join("Skripte","Vjezba3", "day_bikes_rental.csv"),
    input_label="temp",
    target_label="cnt",
    normalizacija=True,
)
_dataloader = ordinary_dataloader(dataset=_dataset, batch_size=1)

_xs, _ys = [], []
for _x_batch, _y_batch in _dataloader:
    _xs.append(_x_batch.squeeze().item())
    _ys.append(_y_batch.squeeze().item())
_x = np.asarray(_xs, dtype=float).reshape(-1)
_y = np.asarray(_ys, dtype=float).reshape(-1)

# Postavimo thetu
_theta = np.array([0.5,0.25])

# Pozivi
_g_a = gradijent_aproksimacija(y = _y, x = _x, theta = _theta, delta = 1e-7)
_g_d = gradijent_derivacija(y = _y, x = _x, theta = _theta)

# Ispis (Trebaju bti približno isti: [0.24042378 0.09295978], [0.24042388 0.09295981]
print(f"Gradijenti Theta računati pomoću derivacije: {_g_d}\nGradijenti Theta računati pomoću aproksimacije: {_g_a}")

---

<font color='red'>


## Zadatak

<left><img src="Images/Zadatak.png" width="70" height="70"/></left>

</font>

Sljedeći programski kod omogućuje pomocanje $\Theta$ parametara kao i promatranje konvergencije/izračuna gradijentnog spusta. Pokretanjem koda i mijenjanjem parametara odgovorite na iduća pitanja:

* Kako utječe parametar $\alpha$ na gradijentni spust, a kako inicjalna vrijednost parametra $\Theta$?
* Što se dogodi kada je $\alpha$ jako mali a broj iteracije postavljen na maksimum? ($\Theta$ parametar je maksimalno negativan.)
* Što se dogodi kada je broj iteracija mali (primjerice 5) a $\alpha$ postavljen na 0.01? ($\Theta$ parametar je maksimalno negativan.)
* Može li gradijenti spust divergirati, ako da, u kojem scenariju (nacrtajte)?.
* Koja je uloga broja iteracija?
* Trenutna implementacija koristi fiksnu veličinu parametra $\alpha$ između dva koraka gradijentnog spusta. Predložite način na koji se parametar $\alpha$ adaptira iz koraka u korak. 


In [None]:
# Autoreload
%load_ext autoreload
%autoreload 2

# Pokretanje skripte 
from Skripte.Vjezba6.gradijentni_spust_rj import *

%matplotlib widget

plot_bike_side_by_side()

---

## Stohastički gradijentni spust

Jedan od glavnih problema gradijentnog spusta je taj što je konačno odredište algoritma u potpunosti određeno početnom točkom. **Stohastički gradijentni spust (SGD)** pokušava riješiti ovaj problem dodavanjem malo šuma gradijentu u svakom koraku. Rješenje se i dalje u prosjeku kreće nizbrdo, ali u bilo kojoj iteraciji, odabrani smjer nije
nužno u najstrmijem smjeru nizbrdo. Zapravo, možda uopće nije nizbrdo. SGD algoritam ima mogućnost privremenog kretanja uzbrdo i time skakanja iz jedne "doline" funkcije gubitka u drugu. 

Mehanizam uvođenja slučajnosti je jednostavan. U svakoj iteraciji algoritam odabire nasumičan podskup trening skupa i računa gradijent koristeći samo te primjere. Ovaj podskup naziva se **minibatch** ili **jednostavno batch.**

Pravilo ažuriranja za parametre modela:


\begin{align}
\phi_{t+1} \leftarrow \phi_t - \alpha \cdot \sum_{i \in B_t} \frac{\partial \ell_i[\phi_t]}{\partial \phi}
\end{align}

gdje je $B_t$ skup indeksa ulazno/izlaznih parova u trenutnom batchu, a kao i prije $\ell_i$ je gubitak za $i$-ti par. Parametar  $\alpha$ predstavlja learning rate (korak učenja) i zajedno s veličinom gradijenta određuje veličinu pomaka u svakom koraku učenja. Vrijednost learning rate-a određuje se na početku treniranja i ne ovisi o lokalnim svojstvima funkcije gubitka.

Batch-evi se obično uzimaju iz skupa podataka bez ponavljanja. Algoritam prolazi kroz sve primjere sve dok ne prođe kroz cijeli skup, nakon čega ponovno počinje od početka. Jedan prolazak kroz cijeli skup podataka naziva se epoch.

Veličina batcha može varirati:

ako batch ima samo jedan primjer → stohastički gradijentni spust (SGD),

ako batch sadrži cijeli trening skup → full-batch gradijentni spust, koji je jednak standardnom (determinističkom) gradijentnom spustu.

Manji batch-i uvode slučajnost u proces učenja, što može pomoći algoritmu da izbjegne lokalne minimume te ubrzati učenje na velikim skupovima podataka.

---

<font color='red'>


## Zadatak

<left><img src="Images/Zadatak.png" width="70" height="70"/></left>

</font>

U skripti **Vjezba6/sgd.py** implementirajte u funkciji **sgd** stohastički gradijentni spust. Zatim pokrenite idući programski kod i odgovorite na iduća pitanja:

* Koje razlike uočavate u putanjama koje ilustriraju konvergenciju SGD-a i GD-a?
* Kako pormjene svakog od parametara utječu na ponašanje optimizacijske funkcije?
* Ako zamislite funkcije cilja koje su predstavljenje u linearnom pretraživanju, kako će se na njima ponašati GD a kako SGD? Što očekujete od SGD-a?
* Komentirajte dodatno batch_size? Za koji batch_size SGD postaje GD?


In [None]:
# Autoreload
%load_ext autoreload
%autoreload 2

# Pokretanje skripte 
from Skripte.Vjezba6.sgd_rj import *
%matplotlib widget
sgd_widget()

---

## Momentum

**Momentum** je uobičajena nadogradnja stohastičkog gradijentnog spusta (SGD). Ideja je ažurirati parametre koristeći ponderiranu kombinaciju gradijenta iz tekućeg batcha i smjera kretanja u prethodnom koraku:

\begin{align}
\mathbf{m}_{t+1}
\leftarrow
\beta \cdot \mathbf{m}_t
+
(1 - \beta)
\sum_{i \in B_t}
\frac{\partial \ell_i(\boldsymbol{\phi}_t)}{\partial \boldsymbol{\phi}}
\end{align}

\begin{align}
\boldsymbol{\phi}_{t+1}
\leftarrow
\boldsymbol{\phi}_t
-
\alpha \cdot \mathbf{m}_{t+1}
\end{align}

gdje $m_t$ predstavlja momentum u koraku $t$ (akumulirani smjer kretanja), $\beta in[0,1)$ određuje kolko se momentum "izglađuje" kroz vrijeme, $\alpha$ je stopa učenja, $B_t$ je minibatch podataka u iteraciji 
$t$. U konačnici parametri $\Theta$ se ažuriraju korištenjem momentuma, čime se:

* ubrzava kretanje u dosljednim smjerovima gradijenta,
* prigušuju oscilacije u uskim dolinama (što se često javlja u optimizaciji),
* putanja optimizacije postaje glatkija i stabilnija, posebno u blizini minimuma.
---

## Nesterov momentum:

Nesterov momentum uvodi malu promjenu u kojoj:

* Prvo napravi mali korak u smjeru trenutnog momentuma, kao predikciju
* Zatim izračunaj gradijent u toj predviđenoj točki (umjesto u staroj točki)

Ova preinaka omogućuje bolju kontrolu i manje oscilacija kada se krivulja približava minimumu, što ujedno dovodi do manje oscilacija i brže konvergencije.

\begin{align}
\mathbf{m}_{t+1}
\leftarrow
\beta\cdot \mathbf{m}_t
+
(1-\beta)
\sum_{i\in B_t}
\frac{\partial \ell_i\!\left(\boldsymbol{\phi}_t - \alpha\beta \cdot \mathbf{m}_t\right)}{\partial \boldsymbol{\phi}}
\end{align}

\begin{align}
\boldsymbol{\phi}_{t+1}
\leftarrow
\boldsymbol{\phi}_t
-
\alpha \cdot \mathbf{m}_{t+1}
\end{align}

---

<font color='red'>


## Zadatak

<left><img src="Images/Zadatak.png" width="70" height="70"/></left>

</font>

* Pokrenite idući kod koji implementira momentum i iznesite zaključke o ulozi parametara i ponašanju Nesterov Momentm optimizatora.
* Dodatno proučite i pronađite više informacija o ADAM i ADAMW optimizatoru. Koje su njihove prednosti nad prikazanim optimizatorima. 
* Što je to learning rate scheduler?

In [None]:
# Autoreload
%load_ext autoreload
%autoreload 2

# Pokretanje skripte 
from Skripte.Vjezba6.momentum import *
%matplotlib widget
sgd_widget()

---

## ADAM

**Problemi sa dosadašnjim pristupom**: Gradientni spust s fiksnim korakom ima sljedeće nepoželjno svojstvo: algoritam generira/radi velike prilagodbe parametara povezanih s velikim gradijentima (gdje bi se trebalo biti opreznim) i male prilagodbe parametara povezanih s malim gradijentima (gdje bi trebali istražiti više). Kada je gradijent funkcije gubitka mnogo strmiji u jednom smjeru nego u drugom (n-D, u 1D prostoru ovog problema nema, ali 1D prostor znači i samo jedan parametar mdoela), teško je odabrati faktor učenja koji (i) omogućuje dobar napredak u oba smjera i (ii) ostaje stabilan. 

Jednostavan pristup je normalizirati gradijente tako da se gradijent minimizira fiksnom udaljenošću (određenom faktorom učenja) u svakom smjeru. Da bi se to učinilo, prvo se mjeri gradijent $m_{t+1}$ i kvadrirani gradijent gradijent $v_{t+1}$
\begin{align}
\mathbf{m}_{t+1} \leftarrow \frac{\partial L(\phi_t)}{\partial \phi}
\end{align}

\begin{align}
\mathbf{v}_{t+1} \leftarrow \left( \frac{\partial L(\phi_t)}{\partial \phi} \right)^2
\end{align}

Potom se primjenjuje pravilo ažuriranja sa normaliziranim gradijentom:

\begin{align}
\phi_{t+1} \leftarrow \phi_t - \alpha \cdot \frac{\mathbf{m}_{t+1}}{\sqrt{\mathbf{v}_{t+1}} + \epsilon}
\end{align}


gdje je $\alpha$ stopa učenja, $\epsilon$ mala konstanta koja sprječava djeljenje s nulom kada je gradijent jednak nuli. Član $v_{t+1}$ predstavlja kvadrirani gradijent, a njegov pozitivni korjen služi za normaliziranje samog gradijenta. 

Ovaj jednostavan algoritam omogućuje napredak u oba smjera, ali neće konvergirati osim ako slučajno ne dospije točno u minimum. Umjesto toga, poskakivat će naprijed-natrag oko minimuma. Adaptivna procjena momenta, odnosno **Adam**, preuzima ovu ideju i dodaje moment i na procjenu gradijenta i na kvadrirani gradijent.

Odnosno **Adaptive Moment Estimation Adam** je definiran pomoću pristupa u kojem se zadržava eksponencijalna pomična sredina i gradijenta i njihovih kvadrata:

\begin{align}
\mathbf{m}_{t+1} \leftarrow \beta \cdot \mathbf{m}_t + (1 - \beta)\frac{\partial L(\phi_t)}{\partial \phi}
\end{align}

\begin{align}
\mathbf{v}_{t+1} \leftarrow \gamma \cdot \mathbf{v}_t + (1 - \gamma)\left( \frac{\partial L(\phi_t)}{\partial \phi} \right)^2
\end{align}

gdje su $\beta$ i $\gamma$ koeficijenti momenta za ove dvije statistike.

Korištenje momenta ekvivalentno je uzimanju ponderiranog prosjeka kroz povijest ovih statistika. Na početku su svi prethodni gradijenti blizu nule, što bi dovelo do nerealno malih procjena. Zato uvodimo korekciju pristranosti:

\begin{align}
\hat{\mathbf{m}}_{t+1} \leftarrow \frac{\mathbf{m}_{t+1}}{1 - \beta^{t+1}}
\end{align}

\begin{align}
\hat{\mathbf{v}}_{t+1} \leftarrow \frac{\mathbf{v}_{t+1}}{1 - \gamma^{t+1}}
\end{align}

Budući da su $\beta$ i $\gamma$ u rasponu $[0, 1]$, članovi $\beta^{t+1}$ i $\gamma^{t+1}$ postaju sve manji kako vrijeme teče pa nazivnici postaju bliski 1, odnosno učinak korekcija slabi kako se optimizacija nastavlja. 

Samo ažuriranje gradijenta glasi:

\begin{align}
\phi_{t+1} \leftarrow \phi_t - \alpha \cdot \frac{\hat{\mathbf{m}}_{t+1}}{\sqrt{\hat{\mathbf{v}}_{t+1}} + \epsilon}
\end{align}

Naravno, Adam se koristi i u stohastičkom okruženju kada se optimizacija vrši u mini-batchevima. Posljedično, formule se ažuriraju u njihovu stohastičku verziju:


\begin{align}
\mathbf{m}_{t+1} \leftarrow \beta \cdot \mathbf{m}_t + (1 - \beta)\left(\sum_{i \in \beta_t} \frac{\partial l_i(\phi_t)}{\partial \phi} \right)
\end{align}

\begin{align}
\mathbf{v}_{t+1} \leftarrow \gamma \cdot \mathbf{v}_t + (1 - \gamma)\left(\sum_{i \in \beta_t} \left( \frac{\partial l_i(\phi_t)}{\partial \phi} \right)^2 \right)
\end{align}

---

<font color='red'>


## Zadatak

<left><img src="Images/Zadatak.png" width="70" height="70"/></left>

</font>

Procjenite kakvu će trajektoriju imati ADAM algoritam. Skicirajte istu za proizvoljni primjer na papiru.
