#Hluboké učení

###Proč posledních cca 5let?

Zjednodušená historie NS:

- 50.-60. léta - 1 vrstva dopředných sítí
- 80.-90. léta - algoritmus back propagation, typicky 1-2 skryté vrstvy, stovky jednotek
- současnost - desítky vrstev, specializované jednotky

Boom hlubokých architektur:

- rozvoh hardware, hlavně grafických karet
- vyřešení některých praktických problémů spojených s mnoha vrstvami - vanishing gradient, dropout
- unsupervised preprocessing - v aplikační oblasti efektivní autoencodéry, konvoluční vrstvy, ...
- prostorová složitost sítí s více vrstvami je menší (existují příklady úloh vyžadující na $O(n)$ jednotek pro $d$ vrstev, ale $O(2^n)$ jednotek pro $d-1$ vrstev


###Perceptron

Perceptron je model a učící algoritmus binárního klasifikátoru, funkce z reálných vstupů $x$ do jedné binární hodnoty $f(x)$:

$$f(x) = \begin{cases}1 & \text{if }w \cdot x + b > 0\\0 & \text{otherwise}\end{cases}$$
kde $w$ jsou reálné váhy, $w \cdot x$ je skalární součin $\sum_{i=0}^m w_i x_i - b$, kde m je počet vstupů, b je práh.


Algoritmus učení:

1. Inicializuj váhy a prahy malým kladným číslem. 

2. Pro každý vzor j z tréningové množin D, proveď následující kroky se vstupem  $\mathbf{x}_j \,$ a požadovaným výstupem  $d_j \,$:
    - Spočti výstup:
$$y_j(t) = f[\mathbf{w}(t)\cdot\mathbf{x}_j] = f[w_0(t) + w_1(t)x_{j,1} + w_2(t)x_{j,2} + \dotsb + w_n(t)x_{j,n}]$$

    - Update vah:
$$w_i(t+1) = w_i(t) + \alpha (d_j - y_j(t)) x_{j,i} \,, for all feature 0 \leq i \leq n.$$



 
###Back Propagation

$e_j(n)=d_j(n)-y_j(n)$
je chyba j-tého vstupu sítě pro n-tý vzor.
Změny vah jsou řízeny snahou minimalizovat chybu:
$$\mathcal{E}(n)=\frac{1}{2}\sum_j e_j^2(n).$$

$$\Delta w_{ji} (n) = -\eta\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} y_i(n)$$
kde $y_i$ je výstup předchozího neuronu a $\eta$ je krok metody. 

pro minimalizaci počítáme derivaci

$$-\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} = e_j(n)\phi^\prime (v_j(n))$$

$$-\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} = \phi^\prime (v_j(n))\sum_k -\frac{\partial\mathcal{E}(n)}{\partial v_k(n)} w_{kj}(n).$$

![svm](mlp.gif)

- gradientní descent
- stochasticý gradient descent
- minibatch gradient descent
- weight decay
- vanishing gradient




###Deep NN

Hluboká síť (DNN) je umělá neuronové síť s větším počtem skrytých vrstev. Více vrstev umožňuje agregovat příznaky z předchozích vrstev a tak potenciálně modelovat složité vztahy pomocí menšího celkového množství jednotek v porovnání s mělkými síěmi.

DNN jsou nejčastěji dopředné, ale v poslední době se objevují modely rekurentních sítí, jako např. v oblasti zpracování přirozeného jazyka. Konvoluční sítě se používají často pro zpracování obrazu.

DNN se nejčastěji učí algoritmem back propagation.

$$w_{ij}(t + 1) = w_{ij}(t) + \eta\frac{\partial E}{\partial w_{ij}}$$

kde  $\eta$ je krok metody a  $E$ je chybová funkce. 

__Konvolutční sítě:__

![](deep.png)

- Konvoluční vrstva

Na rozdíl od ručně předem zvolených kernelových modelů jsou v konvoluční síti paramtetry jader učeny algoritmem back propagation. Konvolučních jednotek v jedné vrstvě je mnoho a každý kernel je aplikován po celém vzoru (např. obrázku) se stejnými parametry. Konvoluční operátor by měl z dat extrahovat různé příznaky. Typicky se ukazuje, že první vrstvy z obrazových dat získají příznaky jako hrany, rohy, apod, další vrtsvy pak konstruují složitější příznaky.

Mějme vrstvu neuronů chápaných dvojrozměrně jako pole $NxN$, nad ní konvolční vrstvu s $m×m$ filtrem $\omega$. Konvoluční vrstva má výstup velikosti $(N−m+1)×(N−m+1)$. Vstupy do jednotky  $x_{ij}^l$ ve vrstvě jsou tvořeny:
$$x_{ij}=\sum_{a=0}^{m−1}\sum_{b=0}^{m−1}\omega_{ab}y^{(l−1)}_{(i+a)(j+b)}.$$


- Pooling 

Pooling jednotky redukují varianci tak, že počítají maximální, průměrnou apod hodnotu nějakého příznaku na lokálním okolí v datech. Tím se dílem zajistí invariance vůči drobným posunutím, dílem se architektura redukuje do pyramidálního tvaru sítě. 




##Sparsity

\begin{align}
\hat\rho_j = \frac{1}{m} \sum_{i=1}^m \left[ a^{(2)}_j(x^{(i)}) \right]
\end{align}

\begin{align}
\hat\rho_j = \rho,
\end{align}
kde  $\rho$ je parameter, typicky dost malé kladné číslo (např $\rho = 0.05$). 

\begin{align}
\sum_{j=1}^{s_2} \rho \log \frac{\rho}{\hat\rho_j} + (1-\rho) \log \frac{1-\rho}{1-\hat\rho_j}.
\end{align}


##ReLU


Sigmoidální jednotka :
$$f(x)=\frac{1}{1+exp(−x)}$$

Tanh jednotka:
$$f(x)=tanh(x)$$

Rectified linear unit (ReLU):
$$f(x)=\sum_{i=1}^\infty
\sigma(x−i+0.5) = approx \log(1+e^x)$$

$\log(1+e^x)$ softplus function $= approx  \max(0,x+N(0,1))$ (hard max). a to je Rectified Linear Function (ReL).
 
 - řeší problém mizení gradientu (gradient je 0 pro $x<0$ a 1 pro $x>1$)
 
 - podporuje sparsity ve skrytých vrstvách
 

##Stacked autoencoders


autoencoder

greedy layer-wise learning

po vrstvách, pak doladit - pomáhá řešit problém mizejícího gradientu



Yoshua Bengio, Learning Deep Architectures for AI, Foundations and Trends in Machine Learning, 2(1), 2009