# Uma breve introdução às Redes Neurais Recorrentes (RNN - Recurrent Neural Network)

### Universidade Federal de Lavras - Agosto de 2022
* Elaborado por: Victor Gonçalves Lima
* Orientado por: Prof. Dr. Denilson Alves Pereira

# Dados sequenciais (sequential data):

## Propriedades:

* A sequência pode conter elementos repetidos

* É sensível ao contexto

* O tamanhos dos dados varia

## Exemplos:

* Textos

* Audio (voz e música)

* Vídeos

* Séries de dados

* Sequência de DNA

## Language models

* Generative model

* N-grams

* Context vectorizing

# Vetorização de contexto (context vectorizing)

* É um método onde os dados da sequência é dividida em um vetor.

<img src="figs/Context-vectorizing.png" width="400" title="https://neptune.ai/blog/recurrent-neural-network-guide"/>

#### Vantagens:

* A ordem é preservada
* Funciona para entradas de diferentes tamanhos
* Pode ser aplicado ***backpropagation*** e assim aprender
* O contexto é presenvado para sentenças curtas ou texto

# Arquitetura das Redes Neurais Recorrentes (RNN)

* Por conta de suas propriedades, dados sequenciais não funcionam bem com ***feed-forward networks***, que por definição trabalha com entradas de tamanho fixo.

* RNN são modelos usados para trabalhar com ***dados sequenciais*** incorporando a técnica de ***vetorização de contexto***.

* A vetorização permite que as RNNs busque informações passadas já calculadas ao longo da sequencia, assim, as RNNs permitem a entrada de múltiplos vetores, produzindo uma mais mais saídas vetoriais.

* De uma forma simplificada, RNN são redes neurais com loops, permitindo que as informações anteriores sejam preservadas.

<img src="figs/RNN-rolled.png" width="150" title="http://colah.github.io/posts/2015-08-Understanding-LSTMs/"/>

* Desenrolando este loop, verificamos que a RNN se apresenta como múltiplas cópias da mesma rede, cada uma passando a informação para um sucessor.

<img src="figs/RNN-unrolled.png" width="800" title="http://colah.github.io/posts/2015-08-Understanding-LSTMs/"/>

## Time step *t*
* Nas RNN, *x(t)* é uma entrada na rede em um paço de tempo *t*, utilizado para indicar a ordem que uma palavra, por exemplo, ocorre na sequência.

## Hidden state *h(t)*

* Um *h(t)* representa um ***vetor contextual*** em um tempo *t* e age como uma "mémoria" da rede.

* O ***vetor contextual*** *h(t)* é calculado a partir da entrada atual *x(t)* e da entrada em uma unidade de tempo *t* anterior da ***hidden state*** *h(t-1)*.

* $h_{t} = tanh(W_{h}h_{t-1} + W_{x}x_{t})$

#### Compartilhamento de parâmetros (parameter sharing)

* Os parametros $\{W_{h}, W_{x}, W_{y}\}$ são constantes para todas as entradas da rede, permitindo que as RNN mantenham a informação contextual mesmo com variações no tamanho da sentança de entrada.

<img src="figs/Recurrent-neural-network.png" width="200" title="https://neptune.ai/blog/recurrent-neural-network-guide"/>

* RNNs compartilham os mesmos parâmetros por várias unidades de tempo.

## Predição

* A predição de uma RNN será a saída do último ***hiden state*** junto ao parâmetro de saída $W_{y}$

* Tal predição é similar a um ***problema de classificação***, e então uma função ***softmax*** é aplicada a fim de prever a saída ideal de acordo com as possiblidades.

# Treinando RNNs

## Computando os gradientes

* Durante o ***backpropagation***, a rede deve voltar cada paço de tempo para atualizar os parâmetros.

* Como prever a saída de uma RNN é um ***problema de classificação***, é utilizado ***cross-entropy*** para calcular a perda.

* **Cross-entropy:** $L_{θ}(y,y’)_{t} = -y+{t}\log{y_{t}'}$, onde $θ = \{Wh,Wx,Wy\}$.

## Backpropagation through time (BPTT)

* A rede precisa ser desenrolada para que seus parâmetros sejam diferenciados pela rede respeitando o ***time step***.

* Como a rede pega uma palavra por vez, o cálculo da perda é baseado por cada palavra.

<img src="figs/Backpropagation.png" width="400" title="https://neptune.ai/blog/recurrent-neural-network-guide"/>

# Problemas com as RNNs

* As aplicações de RNN utilizam o contexto para executar sua tarefa.

<img src="figs/RNN-shorttermdepdencies.png" width="500" title="http://colah.github.io/posts/2015-08-Understanding-LSTMs/"/>

* Quanto maior a distância entre o contexto para a saída, mais difícil será para a RNN conectar a informação necessária.

<img src="figs/RNN-longtermdependencies.png" width="600" title="http://colah.github.io/posts/2015-08-Understanding-LSTMs/"/>

##  Vanishing gradients

## Exploding gradients

# Long Short Term Memory (LSTM)