# Variações de células recorrentes

As arquiteturas recorrentes devem ser escolhidas de acordo com o problema a ser abordado:

- **Many to one:** Arquitetura onde a entrada é uma sequência e a saída uma única inferência. Como na parte 1 que foi dado um nome (sequência de caracteres) de entrada e uma nacionalidade de saída.

- **Many to many síncrono:** Arquitetura onde a entrada é uma sequência e a saída também, como pegar uma frase e encontrar os nomes próprios nessa frase. Dessa forma a saída possui correspondentes diretos com a entrada.

- **Many to many assíncrono:** Arquitetura onde a entrada é uma sequência e a saída também. Como por exemplo o voice to text, onde a entrada é uma sequência de sons (voz) e a saída é o texto. Dessa forma não existe correspondência direta da entrada com a saída, como no many to many síncrono.

## O problema Vanishing Gradient

As informações mais antigas vão sendo 'esquecidas' pela rede. Como na seguinte frase:

- Larissa morou na França. Passou dois anos estudando lá. Hoje em dia ela fala muito bem ________. 

A rede deveria saber que a resposta certa é 'Francês'. Mas o conhecimento mais recente tende a pesar mais no cálculo do gradiente do que o conhecimento mais antigo.

Dessa forma, a inferência é prejudicada em longas sequências. Mas como solucionar isso?

### Solução: Gates

Ferramental para interferir em como a memória é construída, para que o aprendizado mais antigo não tenha tão pouca influência.

- São aplicados à memória interna da célula recorrente;
- Um 'portão' que decide quanto da informação vai passar adiante;
    - Nem sempre o passado mais recente é o mais importante;
    - Valores na faixa de 0 ~ 1 (ativação sigmoide); 

             | 0.9 | 0.6 | 0.2 |  -> Portão 
                |     |     |        (% de info que será 
                |     |     |        atribuída para cada h)
                |     |     |
             |  h1 |  h2 |  h3 |  -> Memória (da antiga para recente)

- **GRU**: Gated Recurrent Unit. Substitui a RNNCell e é idêntica a implementação no pytorch;
    - Menos parâmetros;
    - Mais 'fácil' de treinar;
    - Desempenho semelhante à LSTM em boa parte das tarefas.
- **LSTM**: Long-Short Term Memory. Substitui o RNNCel mas possui um segundo vetor de memória, o cell state.
    - Mais parâmetros;
    - Mais 'difícil' de treinar;
    - Maior capacidade de representação.


Principal referência quando se fala em RNNs. Karpathy nos mostra algumas aplicações e visualizações do comportamento de modelos recorrentes simples.
http://karpathy.github.io/2015/05/21/rnn-effectiveness/

Uma versão animada do fluxo de dados nas unidades recorrentes. https://towardsdatascience.com/animated-rnn-lstm-and-gru-ef124d06cf45

Veja um post que detalha muito bem a função dos gates da LSTM. https://colah.github.io/posts/2015-08-Understanding-LSTMs/
