<div align="center">
    <img src="images/logo_fmkn.png" alt="logo_fmkn" />
</div>

# Введение в рекуррентные нейронные сети

### Занятие 4. Long short-term memory (LSTM)

<br />
<br />
19 января 2022

Посмотрим и обсудим визуализацию работы RNN:

https://karpathy.github.io/2015/05/21/rnn-effectiveness/

### Глубокие рекуррентные сети

<table style="width:80%">
  <tr>
    <td>
    <div align="center">
    <b>Vanilla RNN</b>
    $$h_t^\ell = \tanh W^\ell \left(\begin{array}{c}
    h_t^{\ell-1} \\ h_{t-1}^{\ell}
    \end{array}\right) \\
    h \in \mathbb{R}^n, \quad\quad W^\ell [n \times 2n] $$
    <hr>
    <b>LSTM</b>
    $$\quad\quad W^\ell [4n\times 2n]\\
    \left(\begin{array}{c}
    i \\ f \\ o \\ c_t^\prime
    \end{array}\right) = 
    \left(\begin{array}{c}
    \text{sigm} \\ \text{sigm} \\ \text{sigm} \\ \tanh
    \end{array}\right)
    W^\ell \left(\begin{array}{c}
    h_t^{\ell-1} \\ h_{t-1}^{\ell}
    \end{array}\right)\\
    \begin{array}{l}
    c_t^\ell = f \odot c_{t-1}^\ell + i \odot c_t^\prime \\
    h_t^\ell = o \odot \tanh(c_t^\ell)
    \end{array} \\
    \odot - \text{ покомпонентное произведение}
    $$
    </div>
    </td>
    <td><img src="images/rnn_depth.jpg" alt="rnn_architectures"/></td>  
  </tr>
</table>

### Мотивация и схема LSTM

Сеть должна долго помнить контекст. Какой именно сеть выучивает сама.

Для этого вводится вектор $c_t$ — вектор состояния сети в момент $t$.

<table style="width:70%">
  <tr>
    <td>
    <div align="left">
    $ c_t^\prime = \tanh(W_{xc}x_t + W_{hc}h_{t-1} + b_{c^\prime}) \\
    i_t = \sigma(W_{xi}x_t + W_{hi}h_{t-1} + b_{i}) \\
    f_t = \sigma(W_{xf}x_t + W_{hf}h_{t-1} + b_{f}) \\
    o_t = \sigma(W_{xo}x_t + W_{ho}h_{t-1} + b_{o}) \\
    c_t = f_t \odot c_{t-1} + i_t \odot c_t^\prime \\
    h_t = o_t \odot \tanh(c_t)$
    </div>
    </td>
    <td>
    <div align="left">
    $ candidate\ cell\ state \\
      input\ gate \\
      forget\ gate \\
      output\ gate \\
      cell\ state \\
      block\ output$
    </div>
    </td>
    <td><div align="center">
        <img src="images/lstm_module.jpg" alt="lstm_module"/>
        </div>
    </td>
  </tr>
</table>


### LSTM: forget gate


<table style="width:70%">
  <tr>
    <td>
    <div align="left">
    $ \ \\
      \ \\
    f_t = \sigma(W_{xf}x_t + W_{hf}h_{t-1} + b_{f}) \\
      \ \\
      \ \\
      \ $
    </div>
    </td>
    <td>
    <div align="left">
    $ \ \\
      \ \\
      forget\ gate \\
      \ \\
      \ \\
      \ $
    </div>
    </td>
    <td><div align="center">
        <img src="images/forget_gate.jpg" alt="forget_gate"/>
        </div>
    </td>
  </tr>
</table>

Пример: удаление пола действующего лица при генерации текста


### LSTM: input/candidate gates

<table style="width:70%">
  <tr>
    <td>
    <div align="left">
    $ c_t^\prime = \tanh(W_{xc}x_t + W_{hc}h_{t-1} + b_{c^\prime}) \\
    i_t = \sigma(W_{xi}x_t + W_{hi}h_{t-1} + b_{i}) \\
    \ \\
    \ \\
    \ \\
    \ $
    </div>
    </td>
    <td>
    <div align="left">
    $ candidate\ cell\ state \\
      input\ gate \\
      \ \\
      \ \\
      \ \\
      \ $
    </div>
    </td>
    <td><div align="center">
        <img src="images/input_gate.jpg" alt="input_gate"/>
        </div>
    </td>
  </tr>
</table>

Пример: добавление пола действующего лица при генерации текста

### LSTM: обновление состояния ячейки памяти

<table style="width:70%">
  <tr>
    <td>
    <div align="left">
    $ \ \\
    \ \\
    \ \\
    \ \\
    c_t = f_t \odot c_{t-1} + i_t \odot c_t^\prime \\
    \ $
    </div>
    </td>
    <td>
    <div align="left">
    $ \ \\
      \ \\
      \ \\
      \ \\
      cell\ state \\
      \ $
    </div>
    </td>
    <td><div align="center">
        <img src="images/lstm_update.jpg" alt="lstm_update"/>
        </div>
    </td>
  </tr>
</table>


### LSTM: генерация выхода

<table style="width:70%">
  <tr>
    <td>
    <div align="left">
    $ \ \\
    \ \\
    \ \\
    o_t = \sigma(W_{xo}x_t + W_{ho}h_{t-1} + b_{o}) \\
    \ \\
    h_t = o_t \odot \tanh(c_t)$
    </div>
    </td>
    <td>
    <div align="left">
    $ \ \\
      \ \\
      \ \\
      output\ gate \\
      \ \\
      block\ output$
    </div>
    </td>
    <td><div align="center">
        <img src="images/lstm_output.jpg" alt="lstm_output"/>
        </div>
    </td>
  </tr>
</table>


### GRU: Gated Recurrent Unit

<table style="width:70%">
  <tr>
    <td>
    <div align="left">
    $ u_t = \sigma(W_{xu}x_t + W_{hu}h_{t-1} + b_{u}) \\
      r_t = \sigma(W_{xr}x_t + W_{hr}h_{t-1} + b_{r}) \\
      h_t^\prime = \tanh(W_{xh^\prime}x_t + W_{hh^\prime}(r_t\odot h_{t-1})) \\
      h_t = (1-u_t) \odot h_t^\prime + u_t \odot h_{t-1}$
    </div>
    </td>
    <td><div align="center">
        <img src="images/gru.jpg" alt="gru_module"/>
        </div>
    </td>
  </tr>
</table>


### RNN для синтеза последовательностей (seq2seq)

$X = (x_1, \dots, x_n)$ — входная последовательность

$Y = (y_1, \dots, y_m)$ — выходная последовательность

$\color{red}{c \equiv h_n}$ кодирует всю информацию про $X$ для синтеза $Y$

<div align="center">
    <img src="images/seq2seq.png" alt="seq2seq" width=400/>
</div>

$h_i = f_{in}(x_i, h_{i-1})$

$\color{red}{h_t^\prime = f_{out}(h_{t-1}^\prime,y_{t-1},c)}$

$y_t = f_{y}(h_t^\prime, y_{t-1})$

 * $h_n$ лучше помнит конец последовательности, чем начало
 * чем больше $n$, тем труднее упаковать всю информацию в $c$
 * придётся контролировать затухание\взрывы градиента
 * RNN трудно распараллеливается

### RNN с вниманием (attention mechanism)

$a(h, h^\prime)$ — функция сходства состояний входа $h$ и выхода $h^\prime$ 
(скалярное произведение или $\exp(h^T h^\prime)$ и другие) 

$\alpha_{ti}$ — важность входа $i$ для выхода $t$ (attention score), $\sum_i \alpha_{ti} = 1$

$c_t$ — вектор входного контекста для выхода $t$ (context vector)

<div align="center">
    <img src="images/seq2seq_attention.png" alt="seq2seq_attention" width=400/>
</div>

$h_i = f_{in}(x_i, h_{i-1})$

$\color{red}{\alpha_{ti} = \text{norm}_i a(h_i, h^\prime_{t-1})},\ \text{norm}_i(p) = \frac{p_i}{\sum_j p_j} \\
\color{red}{c_t = \sum_i \alpha_{ti} h_i}$

$h_t^\prime = f_{out} (h^\prime_{t-1}, y_{t-1}, \color{red}{c_t}) \\ y_t = f_{y}(h_t^\prime, y_{t-1}, \color{red}{c_t})$

 * можно вводить обучаемые параметры в $a$ и $c$
 * можно отказаться от рекуррентности как по $h_i$, так и по $h_t^\prime$
 
------
_Bahdanau et al._ Neural machine translation by jointly learning to align and translate. 2015.

### Резюме

 * Рекуррентные нейронные сети — простой, мощный и гибкий подход решения различных задач машинного обучения
 * Vanilla RNN просты, но всё-таки недостаточно хороши
 * Поэтому нужно использовать LSTM или GRU
 * Зануление градиентов предотвращает LSTM
 * А от «взрыва градиента» помогает clipping
 * По-прежнему необходимо более глубокое понимание, как теоретическое, так и практическое
   
### Что ещё можно посмотреть?
 * Лекция 10 курса «CS231n» Andrej Karpathy в Стенфорде: https://www.youtube.com/watch?v=iX5V1WpxxkY
 * Как тренировать нейросети? http://karpathy.github.io/2019/04/25/recipe/
 * Аналогичное занятие курса Школы анализа данных: https://github.com/yandexdataschool/Practical_DL/tree/fall21/week06_rnn
 * Лекция К.В. Воронцова «Модели внимания и трансформеры» https://www.youtube.com/watch?v=KhMweP00S44
 