# Téma: LSTM - Long Short-Term Memory

V poslední přednášce zlehka nahlédneme do neuronových sítí, konkrétně do LSTM. Jelikož celá problematika by vydala na samotný semestr, nebudeme se zabývat podrobnostmi, ale jen filosofií.

## Proč (spíš ne) RNN?

Rekurentní neuronové sítě vzniknou, zjednodušeně řečeno, následujícím způsobem: Uvažujme nejprve jednoduchou neuronovou síť, která má na základě vstupu $X_t$ predikovat $Y_t$. Nechť obsahuje nějaké váhy, aktivační funkci, potenciálně další vrstvy a další prvky tak, jak jsme zvyklí. Pro jednoduchost si to znázorníme následovně:

<center>
<img src="img/rnn-1.png" width="60%" />
</center>
    
Nyní chceme zajistit, aby do predikce $Y_t$ vstupovala i znalost z minule. Elegantním způsobem, jak to udělat, je vložit zpětnou smyčku z výstupu zpět do vstupu. Pokud takovou síť "rozbalíme" (*unfold*), pak to bude vypadat takto:

<center>
<img src="img/rnn-2.png" width="60%" />
</center>

Znalost se nám tedy rekurentně propaguje. Pokud takovou síť začneme učit, narazíme následující složitost: Multiplikativní váha $w$ propojující sítě se s každou novou vrstvou umocní. Pokud by tedy platilo $w>1$, budeme mít problémy s optimalizací kvůli explozivnímu charakteru gradientu. Naopak, pokud bude váha $w<1$, půjde gradient exponenciálně k nule (tzv. *vanishing gradient problem*). Ladění $w$ tedy představuje zásadní optimalizační problém. Navíc toto propojení v RNN neumožňuje elegantně přenést dlouhodobou paměť, např. mezi časem $t-5$ a $t$, neboť informace musí vždy "probublat" přes všechny mezilehlé vrstvy.

Pro úplnost dodejme, že RNN se typicky zobrazují následovně (zdroj wikipedia.org)

<center>
<img src="img/rnn-unfold.png" width="70%" />
</center>

## LSTM

LSTM - Long Short-Term Memory - je alternativa k RNN vhodná pro data s charakterem časových řad. Jejich vznik se datuje do druhé poloviny 90. let, hlavními autory byli Sepp Hochreiter, Jürgen Schmidhuber, Felix Gers a Jürgen Schmidhuber. Úspěšné aplikace měly např. ve zpracování hlasového signálu, tedy tam, kde je k dispozici **hodně trénovacích dat**. Trénování typicky využívá gradientní metody spolu se zpětnou propagací.

### Architektura buňky
Základní LSTM buňka se sestává z
- brány zapomínání (*forget gate*) - na základě porovnání se současnou (krátkodobou) informací rozhoduje, jaká část dlouhodobé informace (stavu buňky) bude zahozena. Typicky využívá sigmoidu, jejímž výstupem je číslo mezi 0 a 1.
- vstupní brány (*input gate*) - rozhoduje, jaká míra nové informace bude vložena do informace dlouhodobé, tj. do stavu.
- výstupní brány (*output gate*) - "míchá" dlouhodobou informaci (stav) s krátkodobou a poskytuje výstup z buňky jako hodnotu predikce.

Podívejme se na buňku blíže:
- světle modrý blok je brána zapomínání
- zelený a fialový blok dávají dohromady vstupní bránu
- oranžový a šedý blok tvoří výstupní bránu
- LT je long-term paměť, tj. stav buňky
- ST je short-term paměť, tj. vnitřní stav buňky. Slouží jako výstup buňky

<img src="img/lstm.png" width="100%" />

#### **Brána zapomínání**
Zkuste sami rozklíčovat, jak tato brána funguje:
<img src="img/lstm-forget.png" width="100%" />

#### **Vstupní brána**
Zkuste sami rozklíčovat, jak tato brána funguje:
<img src="img/lstm-forget-memory.png" width="100%" />

#### **Výstupní brána**
Zkuste sami rozklíčovat, jak tato brána funguje:
<img src="img/lstm.png" width="100%" />

### Varianty LSTM

- Peephole LSTM - upgrade od Gerse a Schmidhubera, následovaný mnoha dalšími. Brány mají přístup k informaci dlouhodobé paměti (stavu).
- Gated Recurrent Unit (GRU) - Cho et al. - kombinuje brány zapomínání a vstupu do jedné updatovací brány. Dále kombinuje stav a vnitřní stav. 
- Depth-Gated RNN, Clockwork RNN, Grid LSTM a spousty dalších...

V roce 2015 vyšla studie (Greff et al.), která analyzovala populární varianty LSTM sítí se závěrem, že jejich výsledky jsou víceméně srovnatelné. V tomtéž roce porovnal Jozefowicz a jeho tým srovnání obrovského množství RNN. Výsledkem bylo, že některé RNN dávají lepší výsledky, než LSTM. V určitých aplikacích :)