# Regularization of LSTMs

Well known regularization methods:  
* [DropOut](https://i.stack.imgur.com/CewjH.png)
* [DropConnect](https://i.stack.imgur.com/D1QC7.png)
* early stopping
* $L_2$ and $L_1$ regularization
* weight noise
* (GRU)

## Stabilizing Activations (Krueger & Memisevic, 26 Apr 2016)

Dodatkowy wyraz do funkcji kosztu:
$$
\beta \frac{1}{T} \sum_{t=1}^{T}(||h_t||_2 -||h_{t-1}||_2)^2
$$

> Unlike the “temporal coherence” penalty of Jonschkowski & Brock (2015), our penalty does not encourage the state representation to remain constant, only its norm.


Stabilność jest szczególnie ważna, jeśli podczas testowania chcemy generalizować dla dłuższych sekwencji wejściowych niż podczas uczenia (ogólnie dla RNN).

Autorzy zauważyli, że LSTMy zachowują normę pamięci dłużej niż horyzont czasowy podczas trenowania, i to może być właśnie tym, co powodują ich użyteczność przy przewidywaniu długich sekwencji.

[IRNN = Identity Recurrent Neural Networks](https://gist.github.com/GabrielPereyra/353499f2e6e407883b32)
a nie Image Recognition...

Podobne techniki (dla LSTMów):  
- clipping memory
- clippedReLU,  
ale działają elementwise, a oni chcieli na całośći.



#### Eksperymenty

Stabilizacja normy stanu ukrytego lub pamięci.

Table 1 - ciekawa rozbieżność dla $\beta=0$, co dla większych $\beta$, jaki błąd?

Figure 3 - [LSTMs] _exhibit **natural** stability_ - właściwość LSTMów

Figure 6 - jak stabilizacja wpływa na bramki zapominania

#### Podsumowanie

> The best performance is achieved by penalizing the squared difference of subsequent hidden states’ norms. This penalty, the _norm-stabilizer_, improved performance on the tasks of language modeling and addition tasks, and gave state of the art RNN performance on phoneme recognition on the TIMIT dataset.

A po mojemu:

RNN się robią jak LSTMy, a LSTM jeszcze lepsze.





.

## Zoneout (Krueger et al., 13 Jun 2016)

Głowna idea: zamiast ustawiać aktywacje neuronów na zero (jak w dropałcie), używamy aktywacji z poprzednioego kroku czasowego (czyli neurony się tak jakby zawieszają - to moja intuicja, inni mówią na to freeze).

#### Wzory dla RNN:

Zoneout $\mathcal{T}_t = d_t \odot \tilde{\mathcal{T}} + (1-d_t) \odot \mathbb{1}$

Dropout $\mathcal{T}_t = d_t \odot \tilde{\mathcal{T}} + (1-d_t) \odot \mathbb{0}$

gdzie $d_t$ - losowy wektor Bernoulliego.

#### Wzory dla LSTM:

Dropout i zoneout - w artykule rysunki i wzory.


#### Wyniki

pMNIST - gorsze niż Batch Normalization - Table 1.

Penn Treebank Language Modeling Dataset - state of the art  - Table 2, Figure 4.




## Surprisal Zoneout (Rocki et al., 13 Dec 2016)

#### Motywacja: 

>According to Redundancy-Reducing Hypothesis (Barlow, 1961) neurons within the brain can code messages using different number of impulses. This indicates that the most probable events should be assigned codes with fewer impulses in order to minimize energy expenditure, or, in other words, that the more frequently occuring patterns in lower level neurons should trigger sparser activations in higher level ones. Keeping that in mind, we have focused on the problem of adaptive regularization, i.e. minimization of a number of neurons being activated depending on the novelty of the current input.

#### Dalsza motywacja:

>As learning progresses, the activations of that cell become less frequent in time and more iterations will just skip memorization, thus the proposed mechanism in fact enables different memory cells to operate on different time scales.

#### Koncepcja:
Każdy neuron niezależnie znajduje swój zoneout.

#### Wyniki:
State of the art on enwik8 and linux kernel.

Rysunki z mapami(t).

### Źródła:
1. [Regularizing RNNs by Stabilizing Activations](https://arxiv.org/abs/1511.08400)
2. [Zoneout](https://arxiv.org/abs/1606.01305)
3. [Surprisal-Driven Zoneout](https://arxiv.org/abs/1610.07675)
