# Uma breve introdução às Redes Neurais Recorrentes (RNN - Recurrent Neural Network)

### Universidade Federal de Lavras

##### Agosto de 2022

* Elaborado por: Victor Gonçalves Lima

* Orientado por: Prof. Denilson Alves Pereira

# Dados sequenciais (sequential data):

## Propriedades:

* A sequência pode conter elementos repetidos

* É sensível ao contexto

* O tamanhos dos dados varia

## Exemplos:

* Textos

* Audio (voz e música)

* Vídeos

* Séries de dados

* Sequência de DNA

## Language models

* Generative model

* N-grams

* Context vectorizing

# Vetorização de contexto (context vectorizing)

* É um método onde os dados da sequência é dividida em um vetor.

<img src="figs/Context-vectorizing.png" width="400" title="https://neptune.ai/blog/recurrent-neural-network-guide"/>

#### Vantagens:

* A ordem é preservada
* Funciona para entradas de diferentes tamanhos
* Pode ser aplicado ***backpropagation*** e assim aprender
* O contexto é presenvado para sentenças curtas ou texto

# Arquitetura das Redes Neurais Recorrentes (RNN)

* Por conta de suas propriedades, dados sequenciais não funcionam bem com ***feed-forward networks***, que por definição trabalha com entradas de tamanho fixo.

* RNNs são modelos usados para trabalhar com ***dados sequenciais*** incorporando a técnica de ***vetorização de contexto***.

* A vetorização permite que as RNNs busque informações passadas já calculadas ao longo da sequencia, assim, as RNNs permitem a entrada de múltiplos vetores, produzindo uma mais mais saídas vetoriais.

* De uma forma simplificada, RNN são redes neurais com loops, permitindo que as informações anteriores sejam preservadas.

<img src="figs/RNN-rolled.png" width="150" title="http://colah.github.io/posts/2015-08-Understanding-LSTMs/"/>

* Desenrolando este loop, verificamos que a RNN se apresenta como múltiplas cópias da mesma rede, cada uma passando a informação para um sucessor.

<img src="figs/RNN-unrolled.png" width="800" title="http://colah.github.io/posts/2015-08-Understanding-LSTMs/"/>

## Time step *t*
* Nas RNN, *x(t)* é uma entrada na rede em um paço de tempo *t*, utilizado para indicar a ordem que uma palavra, por exemplo, ocorre na sequência.

## Hidden state *h(t)*

* Um *h(t)* representa um ***vetor contextual*** em um tempo *t* e age como uma "mémoria" da rede.

* O ***vetor contextual*** *h(t)* é calculado a partir da entrada atual *x(t)* e da entrada em uma unidade de tempo *t* anterior da ***hidden state*** *h(t-1)*.

* $h_{t} = tanh(W_{h}h_{t-1} + W_{x}x_{t})$

#### Compartilhamento de parâmetros (parameter sharing)

* Os parametros $\{W_{h}, W_{x}, W_{y}\}$ são constantes para todas as entradas da rede, permitindo que as RNN mantenham a informação contextual mesmo com variações no tamanho da sentança de entrada.

<img src="figs/Recurrent-neural-network.png" width="200" title="https://neptune.ai/blog/recurrent-neural-network-guide"/>

* RNNs compartilham os mesmos parâmetros por várias unidades de tempo.

## Predição

* A predição de uma RNN será a saída do último ***hiden state*** junto ao parâmetro de saída $W_{y}$

* Tal predição é similar a um ***problema de classificação***, e então uma função ***softmax*** é aplicada a fim de prever a saída ideal de acordo com as possiblidades.

# Treinando RNNs

## Computando os gradientes

* Durante o ***backpropagation***, a rede deve voltar cada paço de tempo para atualizar os parâmetros.

* Como prever a saída de uma RNN é um ***problema de classificação***, é utilizado ***cross-entropy*** para calcular a perda.

* **Cross-entropy:** $L_{θ}(y,y’)_{t} = -y+{t}\log{y_{t}'}$, onde $θ = \{Wh,Wx,Wy\}$.

## Backpropagation through time (BPTT)

* A rede precisa ser desenrolada para que seus parâmetros sejam diferenciados pela rede respeitando o ***time step***.

* Como a rede pega uma palavra por vez, o cálculo da perda é baseado por cada palavra.

<img src="figs/Backpropagation.png" width="400" title="https://neptune.ai/blog/recurrent-neural-network-guide"/>

# Problemas com as RNNs

* As aplicações de RNN utilizam o contexto (entradas anteriores $x_{0}$, $x_{1}$, ...) para executar sua tarefa.

<img src="figs/RNN-shorttermdepdencies.png" width="500" title="http://colah.github.io/posts/2015-08-Understanding-LSTMs/"/>

* Quanto maior a distância entre o contexto ($x_{0}$, $x_{1}$, ...) e a saída ($h_{t+1}$), mais difícil será para a RNN conectar a informação necessária.

<img src="figs/RNN-longtermdependencies.png" width="600" title="http://colah.github.io/posts/2015-08-Understanding-LSTMs/"/>

## Problemas com gradientes

###  Vanishing gradients

* Cada unidade de neurônio na rede participa do cálculo da saída, assim todos devem ter seus parâmetros atualizados a fim de minimizar os erros, voltando em todos os ***time step**.

* O vetor contextual e os parâmetros da hiden state é compartilhado por toda rede a fim de preservar a continuidade da sequência.

* No inicio do treinamento, o parâmetro é inicializado com um número aleatório próximo a zero.

* Com o ***hiden state***  sendo multiplicado por si próprio enquanto avança o ***time step***, o gradiente $W_{h}$ se torna tão pequeno e tende a zero.

* Quando menor o gradiente, mais difpicil será para a rede atualizar seus pesos, e se o gradiente for zero, os pesos para de ser atualizados.

* Com o gradiente tendendo a zero de forma exponencialmente rápida, faz com que a rede tenha dificuldades em aprender com informações muito distantes.

### Exploding gradients

* Ocore no processo de ***backpropagation*** quando gradientes altos são acumulados devido a um processo instável, resultando em atualizações muito grandes nos parâmetros.

# Long Short Term Memory (LSTM)

* São criadas na intenção de preservar informações contextuais de longa distância, perdidas em RNN tradicionais devido aos ***problemas com gradientes***.

* Ao envés de terem apenas uma camada de rede neural, LSTMs possuem quatro, interagindo de forma que preservem contextos distantes.

<img src="figs/Long-Short-Term-Memory.png" width="500" title="https://neptune.ai/blog/recurrent-neural-network-guide"/>

## Funcionamento da LSTM

##### ***Cell state:***

* É a parte ***long-term memory***, denotada por $C_{t-1}$ e recursiva.

* Permite que informações anteriores sejam armazenadas na rede LSTM.

* É modulada internamente por *gates* denominados ***forget gate*** e ***input gate***.

<img src="figs/LSTM-network-1.png" width="400" title="https://neptune.ai/blog/recurrent-neural-network-guide"/>

##### ***Forget Gate:***

* É responsável por decidir qual informação será preservada e qual será esquecida.

* Seu funcionamento é através da ***função sigmoid***.

* Olha o estado inicial em $h_{t-1}$ e $x_{t}$ e retorna um número entre 0 e 1 para cada ***cell state*** $C_{t-1}$.

* Se a informação retornada for 1, ele guarda a informação, e se retornar 0, ele apaga.

<img src="figs/LSTM-network-2.png" width="500" title="https://neptune.ai/blog/recurrent-neural-network-guide"/>

##### ***Input gate:***

* Pega a mesma entrada $x_{t} do estado inicial $h_{t-1}$.

* Passa por duas ***funções de ativição*** não lineares: ***sigmoid*** e ***tanh***.

* O retorno se torna candidato para $C_{t}$.

* Assim, ajuda o ***cell state** salvar novas informações e atuaizar de $C_{t-1}$ à $C_{t}$.

<img src="figs/LSTM-network-3.png" width="500" title="https://neptune.ai/blog/recurrent-neural-network-guide"/>

##### ***Output gate:***

* É baseado no ***cell state*** $C_{t}$, o ***hiden state*** inicial $h_{t-1}$ e a entrada $x_{t}$.

* $h_{t-1}$ e $x_{t}$ são passados pela ***sigmoid***, com retorno entre 0 e 1.

* Simultaneamente, $C_{t} é passado pela ***tanh***, com retorno entre -1 e 1.

* A informação passada para o próximo ***hiden state*** é a multiplicação dos retornos das ***funções de ativação*** calculadas.

<img src="figs/LSTM-network-4.png" width="500" title="https://neptune.ai/blog/recurrent-neural-network-guide"/>