# Oznaczenia

* $\theta$ - wektor wszystkich parametrów modelu
* $\theta^{(0)}$ - początkowa wartość parametrów
* $\theta^{(t)}$ - wartość parametrów po $t$ krokach (po czasie $t$)


* $\Delta\theta^{(t)} := \theta^{(t+1)} - \theta^{(t)}$ - krok w czasie $t$


* $L$ - różniczkowalna funkcja kosztu


* $\eta$ - __learning rate__
    * kontroluje szybkość uczenia
    * obecna w praktycznie każdym optimizerze

Wartość $L$ zależy od:
* wektora $\theta$
* danych treningowych
* być może jeszcze innych stałych

Optymalizujemy tylko $\theta$, będziemy pisać w skrócie $L(\theta)$.

$L$ zwraca liczbę. Zakładamy, że umiemy policzyć gradient $\nabla L(\theta)$.

__Gradientowa__ i __iteracyjna__ minimalizacja $L$.

# Materiały dodatkowe

http://ruder.io/optimizing-gradient-descent/index.html

# Metody

## Gradient Descent

#### Parametry
* $\eta$ - learning rate (typowe wartości: od 0.001 do 0.01)

#### Update

1. $\theta^{(t+1)}=\theta^{(t)} - \eta\nabla L(\theta^{(t)})$

#### Dyskusja

<img src="../ml_figures/Optimizery_steepest_descent.png" width=70%>

1. $- \nabla L(\theta^{(t)}$ to kierunek najszybszego spadku $L$
2. ale $- \nabla L(\theta^{(t)}$ __nie wskazuje__ w kierunku optymalnego $\theta$
3. wektor gradientu $\nabla L(\theta^{(t)})$ jest prostopadły do hiperpłaszczyzny stycznej do powierzchni o równych wartościch funkcji kosztu (_isosurface_) w miejscu $\theta^{(t)}$
4. zmniejszenie $L$ odpowiada __co najmniej__ rozwartemu kątowi między $\nabla\theta^{(t)}$ a $\Delta\theta^{(t)}$
5. __zbyt duże__ $\eta \|\Delta\theta^{(t)}\|$ spowoduje, że $\theta^{(t+1)}$ może znaleźć się po _drugiej stronie krzywizny_
6. learning rate
    * mała wartość - spowalnia uczenie
    * duża wartość - powoduje __oscylacje__, problem ze zbieżnością
7. dlaczego nie normalizujemy $\nabla L(\theta^{(t)})$?
    * duża wartość gradientu to __duża lokalna zmienność $L$__ - powinniśmy robić __małe kroki__ (precyzyjne)
    * mała wartość gradientu to __mała lokalna zmienność $L$__ - powinniśmy robić __duże kroki__ (żeby szybciej opuścić __plateau__)

7. wariant GD ze zmiennym w czasie $\eta$
  * malejący w stosunku odwrotnym do kroku uczenia $t$
    * warunki konieczne osiągnięcia optymalnego $\theta$ (przy jakich założeniach? uwaga na __lokalne minima__)
        $$\begin{align}\sum_t\eta_t^2\lt\infty\\\sum_t\eta_t=\infty\end{align}$$
    * $v_0(1-\lambda\eta_0)^t$ dla poczętkowego $\eta_0$ i stałej $\lambda$
    * $\exp(-t/\tau)$ dla stałej $\tau$


## Momentum

#### Parametry
* $\eta$ - learning rate (typowe wartości: od 0.001 do 0.01)
* $\gamma$ - zawsze $<1$, zwykle równe 0.9.

#### Parametry wewnętrzne
* $v^{(t)}$ - wektor __pędu__ (_momentum_) w czasie $t$, wymiar taki sam jak $\theta$

#### Inicjalizacja

$v^{(0)} = \mathbf{0}$

#### Update

1. $v^{(t+1)} = \gamma v^{(t)} + \eta\nabla L(\theta^{(t)})$
2. $\theta^{(t+1)}=\theta^{(t)} - v^{(t+1)}$

#### Dyskusja

1. Analogia do kulki toczącej się ze wzgórza, $\gamma$ to tarcie lub opór powietrza.
2. __Pamięć__
    * wzajemnie wzmacniają się kroki w __istotnym kierunku__
    * __oscylacje__ uśredniają się do małej wartości
    * mniejsze spowolnienie na __plateau__, jeśli "kulka" była rozpędzona

## Nesterov accelerated gradient NAG

#### Parametry
* $\eta$ - learning rate (typowe wartości: od 0.001 do 0.01)
* $\gamma$ - zawsze $<1$, zwykle równe 0.9.

#### Parametry wewnętrzne
* $v^{(t)}$ - wektor __pędu__ (_momentum_) w czasie $t$, wymiar taki sam jak $\theta$

#### Inicjalizacja

$v^{(0)} = \mathbf{0}$

#### Update

1. $v^{(t+1)} = \gamma v^{(t)} + \eta\nabla L(\theta^{(t)}-\gamma v^{(t)})$
2. $\theta^{(t+1)}=\theta^{(t)} - v^{(t+1)}$

#### Dyskusja

1. __spojrzenie wprzód__
    * zgrubne oszacowanie _prawdopodobnego_ nowego $\theta^{(t+1)}=\theta^{(t)}-\gamma v^{(t)}$
    * gradient liczony w nowym miejscu
    * rozszerzenie momentum z _ekstrapolacją_
    
2. __parametry__
    * learning rate ustalony
        * ewentualne modyfikacje w eksperymentach
    * __momentum nesterova__
        * schemat: $\gamma^{(t)}=1-3/(5+t)$
        * rosnące
        * w dalszych iteracjach dalej wybiega wprzód