# Batch normalization


<img src="img/batch_normalization.png"/>


Obliczenia mogą być wykonywane niezależnie dla każdej z $d$ cech. Mamy

$x^{(k)}\in(x^{(1)}...x^{(d)})$ będący jedną konkretną cechą $k$.



$m$ - rozmiar batcha


Celem jest normalizacja danych wejściowych tak, aby w obrębie batcha zachowany były warunki: 

$E[x^{(k)}]=0$ 

$Var[x^{(k)}]=1$

Mamy:
$\mathcal{B}=\{x_{1...m}\}$ - zbiór danych wejściowych dla rozważanego neuronu

Do każdej warstwy przekazujemy zmodyfikowane wejście:

$\widehat{x}^{(k)}=\frac{x^{(k)}-E[x^{(k)}]}{\sqrt{Var[x^{(k)}]+\epsilon}}$

gdzie $\epsilon=const$ został dodany dla stabilności numerycznej

Wyjście warstwy wynosi:

$y^{(k)}=\gamma^{(k)}\widehat{x}^{(k)} + \beta^{(k)}$

Algorytm musi nauczyć się parametrów $\gamma^{(k)}$ oraz $\beta^{(k)}$ 


## Batch Normalizing Transform

$BN_{\gamma,\beta}:x_{1...m}\rightarrow y_{1...m}$ - Batch Normalizing Transform

(Parametr (k) pominięty)

1. $\mu_{\mathcal{B}}\leftarrow\frac{1}{m}\sum\limits_{i=1}^{m}{x_i}$

2. $\sigma_{\mathcal{B}}^2\leftarrow\frac{1}{m}\sum\limits_{i=1}^{m}{(x_i-\mu_{\mathcal{B}})^2}$

3. $\widehat{x}_i\leftarrow\frac{x_i-\mu_{\mathcal{B}}}{\sqrt{\sigma_{\mathcal{B}}^2+\epsilon}}$

4. $y_i\leftarrow\gamma\widehat{x}_i+\beta\equiv BN_{\gamma,\beta}(x_i)$

## Algorytm uczenia

**Input:** Network $N$ with trainable parameters $\Theta$;subset of activations $\{x^{(k)}\}^K_{k=1}$

**Output:** Batch-normalized network for inference, $N^{inf}_{BN}$

1. $N^{tr}_{BN}\leftarrow N$
2. **for** $k=1...K$ **do*
3. &nbsp;&nbsp;&nbsp;&nbsp;Add transformation $y^{(k)}=BN_{\gamma^{k},\beta^{k}}(x^{(k)})$ to $N^{tr}_{BN}$
4. &nbsp;&nbsp;&nbsp;&nbsp;Modify each layer in $N^{tr}_{BN}$ with input $x^{(k)}$ to take $y^{(k)}$ instead
5. **end for**
6. Train $N^{tr}_{BN}$ to optimize the parameters $\Theta \cup \{\gamma^{(k)},\beta^{(k)}\}^K_{k=1}$
7. $N^{inf}_{BN}\leftarrow N^{tr}_{BN}$
8. **for** $k=1...K$ **do**
9. &nbsp;&nbsp;&nbsp;&nbsp;Process multiple training mini-batches $\mathcal{B}$, each of size $m$, and average over them: $$\begin{align} E[x^{(k)}]\leftarrow E_{\mathcal{B}}[\mu_{\mathcal{B}}] \\Var[x^{(k)}]\leftarrow \frac{m}{m-1} E_{\mathcal{B}}[\sigma_{\mathcal{B}}^2]
\end{align}
$$
10. &nbsp;&nbsp;&nbsp;&nbsp; In $N^{inf}_{BN}$, replace the transform $y=BN_{\gamma,\beta}(x)$ with: 

$$\begin{align}
y^{(k)}=\frac{\gamma^{(k)}}{\sqrt{Var[x^{(k)}]+\epsilon}}\cdot x^{(k)} +(\beta^{(k)}-\frac{\gamma^{(k)} E[x^{(k)}]}{\sqrt{Var[x^{(k)}]+\epsilon}})
\end{align}
$$

11.**end for**

Możemy odzyskać oryginalne aktywacje poprzez użycie wartości parametrów


$$
\begin{align}
\gamma^{(k)} = \sqrt{Var[x^{(k)}]} \\
\beta^{(k)}=E[x^{(k)}]
\end{align}
$$

## Cechy

* Przyspiesza uczenie sieci
* Stabilizuje proces nauczania
* Zmniejsza wpływ warunków początkowych na proces nauczania

## Batch Normalization w DCGAN

Normalizacja używana osobno w warstwach **generatora** oraz **dyskryminatora**.

# Funkcje aktywacji

### ReLU (Rectified Linear Unit)

$$
\begin{align}
y_i=
\begin{cases}
x_i & \quad \text{if } x_i \geq 0 \\
0 & \quad \text{if } x_i<0
\end{cases}
\end{align}
$$

Użyta w warstwach generatora z wyjątkiem warstwy wyjściowej

### LeakyReLU
$$
\begin{align}
y_i=
\begin{cases}
x_i & \quad \text{if } x_i \geq 0 \\
\frac{x_i}{a_i} & \quad \text{if } x < 0
\end{cases}
\end{align}
$$

gdzie $a_i\cup(1,+\infty)$

Użyta w warstwach dyskriminatora

# Badania

Użyto 2 zbiorów z bazy LSUN
 * Zbiór 3 milionów zdjęć sypialni
 * Zbiór 350 tysięcy zdjęć twarzy
