# Natural Language Processing with Probabilistic Models

Notas sobre o curso Natural Language Processing with Sequence Models da DeeplearninigAI. O notebook é composto majoritariamente de material original, salvo as figuras, que foram criadas pela **Deep Learning AI** e disponibilizadas em seu curso.

# Week 1

## Neural Networks for Sentiment Analysis

Modelos mais simples são um ótimo baseline mas podem não capturar bem a o sentimento de uma frase. Nesses casos, podemos utilizar redes neurais.

As redes neurais (Neural Networks) são um tipo de modelo de aprendizado de máquina inspirado na estrutura e no funcionamento do cérebro humano. Elas consistem em camadas de unidades interconectadas (neurônios) que processam informações e aprendem a realizar tarefas através de exemplos. As principais componentes das redes neurais são:

1. **Camada de Entrada (Input Layer):** Recebe os dados brutos.
2. **Camadas Ocultas (Hidden Layers):** Realizam processamento intermediário. Cada neurônio em uma camada oculta está conectado a neurônios da camada anterior e da camada seguinte, e aplica uma função de ativação para transformar a entrada.
3. **Camada de Saída (Output Layer):** Produz o resultado final, como uma classificação ou previsão.

A análise de sentimento envolve a **classificação de textos**, como comentários ou tweets, para determinar se expressam sentimentos positivos, negativos ou neutros. As redes neurais, especialmente as arquiteturas avançadas como LSTM (Long Short-Term Memory) e GRU (Gated Recurrent Units), são amplamente usadas nessa tarefa devido à sua capacidade de **capturar dependências de longo prazo em sequências de texto**.

O processo de análise de sentimento com redes neurais segue os seguintes passos:

1. **Pré-processamento:** O texto bruto é limpo e transformado em uma **representação numérica**, como vetores de palavras (Word Embeddings) ou **sequências de índices de palavras**.
2. **Arquitetura do Modelo:**
   - **Embedding Layer:** Transforma as palavras em vetores densos que capturam seus significados.
   - **Camadas Recurrentes (LSTM/GRU):** Processam a sequência de vetores, mantendo informações contextuais ao longo do tempo.
   - **Camadas Densas (Fully Connected):** Agregam informações das camadas anteriores e produzem a probabilidade de cada classe de sentimento (positivo, negativo, neutro).
3. **Treinamento:** O modelo é treinado em um conjunto de dados rotulados, ajustando os pesos das conexões entre neurônios para minimizar o erro na classificação.
4. **Avaliação e Ajuste:** O desempenho do modelo é avaliado em dados de validação, e ajustes são feitos para melhorar a precisão.
5. **Predição:** O modelo treinado é usado para analisar novos textos e prever o sentimento.

As redes neurais permitem uma análise de sentimento mais robusta, capturando nuances e contextos que métodos mais simples podem perder.

Os dados de entrada como já mencionados são **representações numéricas** de palavras, como as ilustradas a seguir

<img src="./imgs/word_representation.png">

<img src="./imgs/forward_propagation.png">

Observe que a rede acima possui três camadas (input layer, hidden layer e output layer) e três saídas (ex. positivo, negativo e neutro). Para ir de uma camada para outra você pode usar uma matriz $W^{i}$ para propagar para a próxima camada. Portanto, chamamos esse conceito de ir da entrada até a camada final de propagação direta (forward propagation).

Observe que adicionamos zeros para preenchimento para corresponder ao tamanho do tweet mais longo. Uma rede neural na configuração que você pode ver acima **só pode processar um tweet por vez**. Para tornar o treinamento mais eficiente (mais rápido), você deseja processar muitos tweets **em paralelo**. Você consegue isso juntando muitos tweets em uma matriz e depois passando essa matriz (em vez de tweets individuais) pela rede neural. Então a rede neural pode realizar seus cálculos em todos os tweets ao mesmo tempo.

## Dense Layers and ReLU

As **camadas densas**, também conhecidas como camadas totalmente conectadas (Fully Connected Layers), são um tipo de camada em redes neurais onde **cada neurônio de uma camada está conectado a todos os neurônios da camada seguinte**. Essas conexões são ponderadas e ajustadas durante o processo de treinamento para aprender a mapear entradas para saídas desejadas. A camada Densa é o cálculo do produto interno entre um conjunto de pesos treináveis (matriz de pesos) e um vetor de entrada. Elas funcionam da seguinte forma:

<img src="./imgs/dense_layer.png">

1. **Entrada:** Recebe um vetor de ativação da camada anterior.
2. **Pesos e Bias:** Cada conexão tem um peso associado, e cada neurônio tem um valor de bias (viés).
3. **Produto Ponto:** A camada calcula o produto ponto entre os vetores de entrada e os pesos, e soma o bias.
4. **Função de Ativação:** O resultado é passado por uma função de ativação, que introduz não-linearidade no modelo, permitindo a aprendizagem de relações complexas.

A **função de ativação ReLU** é uma das mais populares em redes neurais modernas devido à sua simplicidade e eficácia. ReLU é definida como:

$$ f(x) = \max(0, x) $$

**Características:**
1. **Linearidade por Partes:** ReLU mantém a linearidade para valores positivos, mas define todos os valores negativos como zero.
2. **Não-Linearidade:** Introduz não-linearidade no modelo, essencial para aprender representações complexas.
3. **Eficiente Computacionalmente:** Computacionalmente simples e eficiente de calcular.
4. **Problema do Neurônio Morto:** Uma desvantagem potencial é que, se muitos neurônios saírem da faixa ativa (produzirem sempre zero), podem "morrer" e parar de aprender.

<img src="./imgs/relu.png">

A caixa laranja na imagem acima mostra a camada densa. Uma camada de ativação é o conjunto de nós azuis mostrados com a caixa laranja na imagem abaixo. Concretamente, uma das camadas de ativação mais comumente utilizadas é a unidade linear retificada (ReLU).

**Uso em Camadas Densas:**
- **Aprimoramento da Expressividade:** A aplicação da ReLU em camadas densas permite que a rede aprenda representações mais ricas e capture relações não lineares nos dados.
- **Mitigação do Desvanecimento de Gradiente:** ReLU ajuda a mitigar o problema do desvanecimento de gradiente, permitindo que gradientes maiores fluam durante o treinamento.

## Embedding and Mean Layers

Usando uma camada de embedding, podemos aprender os embeddings para cada palavra do vocabulário da seguinte maneira:

<img src="./imgs/embedding_layer.png">

A camada de embedding é uma camada especial utilizada em redes neurais para transformar palavras ou tokens em vetores densos de dimensão fixa, onde cada vetor captura informações semânticas sobre a palavra. Este processo é fundamental no processamento de linguagem natural (NLP) e permite que o modelo aprenda representações de palavras que refletem suas relações semânticas. Ele funciona da seguinte forma:

1. **Entrada**: Recebe uma sequência de índices, onde cada índice corresponde a uma palavra ou token no vocabulário.
2. **Lookup**: Cada índice é mapeado para um vetor denso, geralmente inicializado aleatoriamente e ajustado durante o treinamento.
3. **Saída**: Produz uma matriz onde cada linha é o vetor de embedding correspondente a uma palavra na sequência de entrada.

Essa camada possui os seguintes benefícios:

1. **Dimensionalidade Reduzida**: Transforma palavras em vetores densos de menor dimensão, facilitando o processamento.
2. **Captura de Semântica**: As palavras com significados semelhantes tendem a ter vetores próximos no espaço de embedding.
3. **Treinável**: Os vetores de embedding são ajustados durante o treinamento para otimizar a tarefa específica, como classificação de texto ou tradução.

A camada média (mean layer) permite tirar a média dos embeddings. Elas são usadas para **agregar informações** ao longo de uma sequência, calculando a média dos vetores de embedding ou das ativações ao longo da sequência. Esta técnica é simples e pode ser eficaz para **capturar uma representação global do contexto** ou do conteúdo de um texto. O vetor resultante da camada de média pode ser passado para camadas densas ou outras camadas de rede neural para realizar a classificação de sentimento, determinando se a frase expressa um sentimento positivo, negativo ou neutro. Fuciona da seguinte forma:

<img src="./imgs/mean_layer.png">

1. **Entrada**: Recebe uma matriz de vetores de embedding ou ativações de uma camada anterior, onde cada linha corresponde a uma palavra ou token na sequência.
2. **Cálculo da Média**: Calcula a média ao longo de uma dimensão específica (geralmente ao longo da dimensão da sequência).
3. **Saída**: Produz um único vetor que representa a média das ativações ou embeddings ao longo da sequência.

Possui os seguintes benefícios:

1. **Simplicidade**: Fácil de implementar e computacionalmente eficiente.
2. **Redução de Dimensionalidade**: Reduz a sequência de vetores a um único vetor, simplificando o processamento subsequente.
3. **Representação Global**: Fornece uma representação global da sequência, capturando informações de todas as palavras ou tokens.

Esta camada não possui nenhum parâmetro treinável.

## Traditional Language models

Os modelos de idiomas tradicionais utilizam probabilidades para ajudar a identificar qual frase provavelmente ocorrerá.

<img src="./imgs/trad_models1.png">

No exemplo acima, a segunda frase é a que provavelmente ocorrerá, pois tem a maior probabilidade de acontecer. Para calcular as probabilidades, você pode fazer o seguinte:

<img src="./imgs/trad_models2.png">

Grandes gramas de N capturam dependências entre palavras distantes e **precisam de muito espaço e RAM**. Portanto, recorremos ao uso de diferentes tipos de alternativas.

## Recurrent Neural Networks

A frase seguinte é um exemplo de que os modelos probabilísticos não tem um bom desempenho, a exemplo, os modelos n-gram.

<img src="./imgs/rnn1.png">


Um n-grama (trigrama) só olharia para "did not" e **tentaria concluir a frase a partir daí**, não veria o contexto nem as palavras anteriores. Como resultado, o modelo não poderá ver o início da frase "I called her but she". Provavelmente a palavra mais provável é "have" depois do "did not". Os RNNs nos ajudam a resolver esse problema, sendo capazes de **rastrear dependências muito mais longe uma da outra**. À medida que o RNN passa por um corpus de texto, ele capta algumas informações da seguinte forma:

<img src="./imgs/rnn2.png">

Observe que, à medida que você alimenta mais informações no modelo, **a retenção da palavra anterior fica mais fraca, mas ainda está lá**. Olhe para o retângulo laranja acima e veja como ele se torna menor ao percorrer o texto. Isso mostra que seu modelo é capaz de capturar dependências e se lembra de uma palavra anterior, embora esteja no início de uma frase ou parágrafo. Outra vantagem dos RRNs é que muitos computações compartilham parâmetros. Ou seja, ao contrário dos modelos tradicionais de N-gramas, onde cada estado (ou cada grupo de palavras) tem seus próprios parâmetros independentes, as RNNs usam um conjunto fixo de parâmetros ao longo de toda a sequência de entrada.

1. **Modelos Tradicionais de N-gramas**:
   - Em modelos de N-gramas, os parâmetros são específicos para cada combinação de palavras de um tamanho fixo (N). Isso significa que o modelo precisa armazenar informações separadas para cada possível N-grama.
   - Isso pode levar a um grande consumo de espaço e memória, especialmente com um vocabulário grande, pois a quantidade de N-gramas únicos pode ser enorme.

2. **Redes Neurais Recorrentes (RNNs)**:
   - As RNNs, por outro lado, processam a sequência de texto de forma iterativa, palavra por palavra, ou token por token.
   - Uma RNN usa os mesmos parâmetros (pesos e bias) em cada passo da sequência. Esses parâmetros são aplicados repetidamente enquanto a RNN percorre a sequência de entrada.
   - O compartilhamento de parâmetros ocorre porque a RNN aplica a mesma função de atualização (com os mesmos pesos) para processar cada palavra na sequência. Essa função leva em consideração tanto a palavra atual quanto o estado oculto anterior (que contém informações acumuladas das palavras anteriores).
   
**Benefícios do Compartilhamento de Parâmetros**

- **Eficiência de Memória**: Como as RNNs não precisam armazenar parâmetros separados para cada combinação de palavras, elas são muito mais eficientes em termos de memória.
- **Generalização**: O compartilhamento de parâmetros ajuda o modelo a generalizar melhor, pois ele aprende uma representação mais compacta e reutilizável das dependências na sequência de entrada.

Imagine que você tenha uma sequência de palavras: \[w_1, w_2, w_3, \ldots, w_n\]. 

- Em um N-grama de trigramas, você teria parâmetros específicos para cada trigrama possível, como (w_1, w_2, w_3), (w_2, w_3, w_4), etc.
- Em uma RNN, você tem um conjunto fixo de parâmetros \( \theta \) que são usados em cada passo para atualizar o estado oculto \( h_t \) com base na palavra atual \( w_t \) e o estado oculto anterior \( h_{t-1} \).

Esse compartilhamento de parâmetros é uma das razões pelas quais as RNNs são eficazes em capturar dependências de longo prazo e são uma escolha popular para tarefas de processamento de linguagem natural.

## Applications of RNNs

Redes Neurais Recorrentes (RNNs, do inglês Recurrent Neural Networks) são uma classe de redes neurais particularmente eficazes no processamento de dados sequenciais, como texto, áudio e séries temporais. Em NLP (Processamento de Linguagem Natural), as RNNs têm várias aplicações importantes devido à sua capacidade de capturar dependências temporais e contextuais em sequências de dados.

| **Task**                        | **LSTM** | **GRU** | **BiRNN** |
|----------------------------------|:--------:|:-------:|:---------:|
| Modelagem de Linguagem           |    ✔️    |   ✔️    |    ✔️     |
| Tradução Automática              |    ✔️    |   ✔️    |    ✔️     |
| Análise de Sentimento            |    ✔️    |   ✔️    |    ✔️     |
| Reconhecimento de Entidades Nomeadas (NER) | ✔️ | ✔️ | ✔️ |
| Classificação de Texto           |    ✔️    |   ✔️    |    ✔️     |
| Sumarização de Texto             |    ✔️    |   ✔️    |    ✔️     |
| Geração de Texto                 |    ✔️    |   ✔️    |    ✔️     |

Arquiteturas Comuns de RNNs em NLP:
- **LSTM:** Long Short-Term Memory é frequentemente usado para todas as tarefas listadas devido à sua capacidade de capturar dependências de longo prazo e gerenciar o problema do desvanecimento de gradiente.
- **GRU:** Gated Recurrent Units são uma alternativa mais simples e computacionalmente eficiente às LSTMs, mas ainda muito eficazes para a maioria das tarefas de NLP.
- **BiRNN:** Bidirectional RNNs processam a sequência de texto em ambas as direções, o que pode ser vantajoso para tarefas que dependem do contexto completo da sequência.

Cada tipo de RNN pode ser usado para resolver essas tarefas de maneira eficaz, dependendo das necessidades específicas do problema e dos recursos computacionais disponíveis.

Existem muitas maneiras de implementar um modelo RNN:

- one to one: dadas algumas pontuações de um campeonato, você pode prever o vencedor.
- one to many: dada uma imagem, você pode prever qual será a legenda.
- many to one: Dado um tweet, você pode prever o sentimento desse tweet.
- many to many: dada uma frase em inglês, você pode traduzi -la para seu equivalente alemão.

## Math in Simple RNNs

Para entender como funciona uma RNN simples (vanilla RNN), vamos explorar a matemática por trás dela usando uma representação gráfica e equações.

### Conceitos e Notação

1. **Estado Oculto $ h^{<t>} $:**
   - Representa a memória da RNN no tempo $ t $.
   - Atualizado em cada passo de tempo com base no estado oculto anterior $ h^{<t-1>} $ e na entrada atual $ x^{<t>} $.

2. **Função de Ativação $ g $:**
   - Pode ser uma função não-linear como a tangente hiperbólica ($\tanh$) ou ReLU (Rectified Linear Unit).

3. **Pesos e Biases:**
   - $ W_{hh} $: Pesos que conectam o estado oculto anterior ao novo estado oculto.
   - $ W_{hx} $: Pesos que conectam a entrada atual ao novo estado oculto.
   - $ W_{yh} $: Pesos que conectam o estado oculto à saída.
   - $ b_h $: Bias do estado oculto.
   - $ b_y $: Bias da saída.

### Atualização do Estado Oculto

A fórmula geral para atualizar o estado oculto em um vanilla RNN é:
$$ h^{<t>} = g(W_h [h^{<t-1>}, x^{<t>}] + b_h) $$

Esta fórmula pode ser detalhada em componentes individuais:
$$ h^{<t>} = g(W_{hh} h^{<t-1>} + W_{hx} x^{<t>} + b_h) $$

Aqui:
- $ W_{hh} h^{<t-1>} $: Multiplicação dos pesos $ W_{hh} $ pelo estado oculto anterior $ h^{<t-1>} $.
- $ W_{hx} x^{<t>} $: Multiplicação dos pesos $ W_{hx} $ pela entrada atual $ x^{<t>} $.
- $ b_h $: Adição do bias $ b_h $.

### Concatenando Entradas e Estados Ocultos

Para simplificar a notação, podemos concatenar o estado oculto anterior e a entrada atual em um único vetor:
$$ h^{<t>} = g(W_h [h^{<t-1>}, x^{<t>}] + b_h) $$

Isso pode ser reescrito como:
$$ h^{<t>} = g(W_{hh} h^{<t-1>} \oplus W_{hx} x^{<t>} + b_h) $$

Aqui, $\oplus$ indica a concatenação dos produtos $ W_{hh} h^{<t-1>} $ e $ W_{hx} x^{<t>} $.

<img src="./imgs/rnn3.png">

### Previsão em Cada Passo de Tempo

Para gerar uma previsão ou saída em cada passo de tempo, usamos o estado oculto atualizado:
$$ \hat{y}^{<t>} = g(W_{yh} h^{<t>} + b_y) $$

Aqui:
- $ W_{yh} h^{<t>} $: Multiplicação dos pesos $ W_{yh} $ pelo estado oculto atual $ h^{<t>} $.
- $ b_y $: Adição do bias $ b_y $.

### Treinamento

Durante o treinamento da RNN, ajustamos os seguintes parâmetros:
- $ W_{hh} $: Pesos conectando estados ocultos.
- $ W_{hx} $: Pesos conectando entradas às unidades ocultas.
- $ W_{yh} $: Pesos conectando estados ocultos às saídas.
- $ b_h $: Bias das unidades ocultas.
- $ b_y $: Bias das saídas.

<img src="./imgs/rnn4.png">

### Visualização do Modelo

Aqui está uma visualização simplificada do modelo vanilla RNN:

```
x^{<1>} ---> [ Unidade RNN ] ---> h^{<1>}
           |                |
x^{<2>} ---> [ Unidade RNN ] ---> h^{<2>}
           |                |
x^{<3>} ---> [ Unidade RNN ] ---> h^{<3>}
            ...
```

Para cada passo de tempo $ t $:
- A entrada $ x^{<t>} $ e o estado oculto anterior $ h^{<t-1>} $ são usados para calcular o novo estado oculto $ h^{<t>} $.
- O novo estado oculto $ h^{<t>} $ é usado para gerar a saída $ \hat{y}^{<t>} $.

Este processo continua ao longo de toda a sequência, permitindo que a RNN capture dependências temporais nos dados.

### Resumo

- **Estado Oculto:** Memória que armazena informações sobre a sequência até o ponto atual.
- **Função de Ativação:** Introduz não-linearidade, permitindo que a RNN capture relações complexas.
- **Pesos e Biases:** Parâmetros treináveis que conectam entradas, estados ocultos e saídas.
- **Atualização Recorrente:** O estado oculto é atualizado a cada passo de tempo com base na entrada atual e no estado oculto anterior.
- **Previsão:** As saídas são geradas com base no estado oculto atualizado em cada passo de tempo.

As vanilla RNNs são poderosas para capturar dependências em dados sequenciais, mas têm limitações, como o desvanecimento de gradiente, que são abordadas em variantes mais avançadas como LSTMs e GRUs.

Uma Rede Neural Recorrente (RNN) "vanilla" é uma arquitetura básica de RNN que processa sequências de dados, um elemento por vez, mantendo um estado oculto que armazena informações sobre elementos anteriores da sequência. Isso permite que o modelo capture dependências temporais ou sequenciais nos dados. Vamos explorar o funcionamento de um vanilla RNN de forma aprofundada e intuitiva.

### Estrutura de uma Vanilla RNN

1. **Entrada:** 
   - Uma sequência de dados, como uma frase, onde cada palavra é convertida em uma representação numérica, por exemplo, um vetor de embedding.

2. **Estado Oculto (Hidden State):**
   - Um vetor que armazena informações sobre a sequência até o ponto atual. Este vetor é atualizado em cada passo da sequência.

3. **Unidade Recurrente:**
   - A função que define como o estado oculto é atualizado em cada passo da sequência.

4. **Saída:**
   - Uma previsão ou transformação do estado oculto, que pode ser usada para diversas tarefas, como classificação de texto ou previsão da próxima palavra na sequência.

### Funcionamento Passo a Passo

#### Passo 1: Inicialização
- O estado oculto inicial $\mathbf{h}_0$ é geralmente um vetor de zeros ou pode ser inicializado aleatoriamente.

#### Passo 2: Processamento da Sequência
Para cada elemento $x_t$ na sequência de entrada ($x_1, x_2, \ldots, x_T$):
1. **Entrada Atual ($x_t$):** O vetor de entrada no tempo $t$.
2. **Estado Oculto Anterior ($\mathbf{h}_{t-1}$):** O estado oculto do passo anterior.

3. **Atualização do Estado Oculto:**
   - O estado oculto atual $\mathbf{h}_t$ é calculado usando a unidade recurrente.
   - A fórmula típica é:
     $$
     \mathbf{h}_t = \tanh(\mathbf{W}_{xh} \cdot x_t + \mathbf{W}_{hh} \cdot \mathbf{h}_{t-1} + \mathbf{b}_h)
     $$
     - $\mathbf{W}_{xh}$: Matriz de pesos que conecta a entrada ao estado oculto.
     - $\mathbf{W}_{hh}$: Matriz de pesos que conecta o estado oculto anterior ao novo estado oculto.
     - $\mathbf{b}_h$: Vetor de bias.
     - $\tanh$: Função de ativação não-linear (tangente hiperbólica) que ajuda a manter os valores do estado oculto dentro de um intervalo fixo.

4. **Saída do Passo Atual:**
   - A saída do modelo no tempo $t$ ($y_t$) pode ser calculada a partir do estado oculto atual.
     $$
     y_t = \mathbf{W}_{hy} \cdot \mathbf{h}_t + \mathbf{b}_y
     $$
     - $\mathbf{W}_{hy}$: Matriz de pesos que conecta o estado oculto à saída.
     - $\mathbf{b}_y$: Vetor de bias para a saída.

#### Passo 3: Processamento da Sequência Completa
- Este processo é repetido para cada elemento da sequência, atualizando o estado oculto em cada passo e gerando uma saída correspondente.

### Intuição sobre o Estado Oculto
- O estado oculto pode ser visto como a "memória" da RNN. Ele carrega informações sobre elementos anteriores da sequência e influencia como os próximos elementos são processados.
- Em cada passo, o estado oculto é uma combinação linear da entrada atual e do estado oculto anterior, transformado por uma função não-linear (tanh). Isso permite que o modelo capture tanto informações novas quanto contextuais.

### Limitações das Vanilla RNNs
- **Desvanecimento e Explosão do Gradiente:** Durante o treinamento, os gradientes podem se tornar extremamente pequenos (desvanecimento) ou extremamente grandes (explosão), dificultando o aprendizado de dependências de longo prazo.
- **Dependências de Longo Prazo:** Vanilla RNNs podem ter dificuldades para capturar dependências que ocorrem em grandes intervalos de tempo dentro da sequência.

### Conclusão
Vanilla RNNs são modelos poderosos para processar dados sequenciais, mantendo uma memória dinâmica da sequência através do estado oculto. No entanto, suas limitações levaram ao desenvolvimento de variantes mais sofisticadas, como LSTMs e GRUs, que abordam problemas como o desvanecimento do gradiente e melhoram a capacidade de capturar dependências de longo prazo.

## Cost Function for RNNs

A função de custo utilizada nas RNNs é a **cross entropy loss**

<img src="./imgs/cross_entropy_loss.png">

### Entropia Cruzada

A perda por entropia cruzada mede a diferença entre a distribuição de probabilidade verdadeira (ou alvo) e a distribuição de probabilidade prevista pelo modelo. Para cada classe $ j $ em uma tarefa de classificação com $ K $ classes, a entropia cruzada é calculada como:

$$ \text{Loss} = - \sum_{j=1}^{K} y_j \log(\hat{y}_j) $$

Aqui:
- $ y_j $ é o valor real da classe $ j $ (1 se a classe é a correta, 0 caso contrário).
- $ \hat{y}_j $ é a probabilidade prevista pelo modelo para a classe $ j $.

### Função de Custo em RNNs

Quando se trabalha com RNNs, estamos lidando com sequências de dados, e a previsão é feita em cada passo de tempo $ t $. Portanto, precisamos calcular a perda para cada passo de tempo e depois somá-las para obter a perda total da sequência.

A fórmula geral para a função de custo $ J $ ao longo de $ T $ passos de tempo é:

$$ J = -\frac{1}{T} \sum_{t=1}^{T} \sum_{j=1}^{K} y_j^{<t>} \log(\hat{y}_j^{<t>}) $$

Aqui:
- $ T $ é o número total de passos de tempo na sequência.
- $ K $ é o número total de classes.
- $ y_j^{<t>} $ é o valor real para a classe $ j $ no tempo $ t $.
- $ \hat{y}_j^{<t>} $ é a probabilidade prevista pelo modelo para a classe $ j $ no tempo $ t $.

### Intuição

1. **Soma sobre as Classes:** Para cada passo de tempo $ t $, calculamos a entropia cruzada para todas as classes $ j $. Isso mede o quão bem o modelo previu a distribuição de probabilidade para o passo de tempo específico.

2. **Soma sobre os Passos de Tempo:** Depois, somamos a perda de todos os passos de tempo. Isso nos dá a perda total para toda a sequência.

3. **Média ao Longo do Tempo:** Dividimos pela quantidade total de passos de tempo $ T $ para obter a média da perda por passo de tempo. Isso é importante porque nos dá uma noção da performance do modelo em média, ao longo de toda a sequência.

### Visualização

Imagine que temos uma sequência com 3 passos de tempo (T = 3) e 4 classes (K = 4). Para cada passo de tempo $ t $, temos as previsões do modelo $\hat{y}^{<t>}$ e os valores reais $ y^{<t>} $.

1. Para cada $ t $ (passo de tempo):
   - Calculamos a entropia cruzada entre $\hat{y}^{<t>}$ e $ y^{<t>} $.
   - Fazemos isso somando $ y_j^{<t>} \log(\hat{y}_j^{<t>}) $ para todas as classes $ j $.

2. Somamos essas perdas para todos os passos de tempo $ t = 1, 2, 3 $.

3. Dividimos a soma total pelo número de passos de tempo $ T $ para obter a média.

### Exemplo de Cálculo

Suponha que temos as seguintes probabilidades previstas $\hat{y}$ e valores reais $ y $ para uma sequência de 3 passos de tempo e 2 classes:

- Tempo 1: $ \hat{y}^{<1>} = [0.7, 0.3] $, $ y^{<1>} = [1, 0] $
- Tempo 2: $ \hat{y}^{<2>} = [0.4, 0.6] $, $ y^{<2>} = [0, 1] $
- Tempo 3: $ \hat{y}^{<3>} = [0.9, 0.1] $, $ y^{<3>} = [1, 0] $

Para cada passo de tempo, calculamos a entropia cruzada:

- Tempo 1: $ \text{Loss}^{<1>} = -(1 \log(0.7) + 0 \log(0.3)) = 0.3567 $
- Tempo 2: $ \text{Loss}^{<2>} = -(0 \log(0.4) + 1 \log(0.6)) = 0.5108 $
- Tempo 3: $ \text{Loss}^{<3>} = -(1 \log(0.9) + 0 \log(0.1)) = 0.1054 $

Somamos as perdas:

$$ \text{Total Loss} = 0.3567 + 0.5108 + 0.1054 = 0.9729 $$

Calculamos a média:

$$ J = \frac{\text{Total Loss}}{T} = \frac{0.9729}{3} = 0.3243 $$

### Resumo

- A função de custo em RNNs é a perda por entropia cruzada calculada para cada passo de tempo.
- A entropia cruzada mede a diferença entre as distribuições de probabilidade previstas e reais.
- A perda total é a soma das perdas em cada passo de tempo, dividida pelo número total de passos, resultando na média da perda por passo de tempo.
- Esse processo permite que o modelo aprenda a prever melhor as sequências de dados ao longo do tempo.

## Implementation Note

A função scan (abstração do rnn) é construída da seguinte forma:

<img src="./imgs/rnn_implementation.png">

Observe que isso é basicamente o que um RNN está fazendo. Ele pega o inicializador e retorna uma lista de saídas (ys) e usa o valor atual para obter o próximo y e o próximo valor atual. Esse tipo de abstração permite uma computação muito mais rápida.

## Gated Recurrent Units

As **unidades recorrentes com portas (GRUs)** são uma variante dos RNNs que introduzem mecanismos adicionais, chamados de portas, para melhor gerenciar o fluxo de informações ao longo do tempo. As GRUs possuem duas portas principais: a **porta de atualização (update)** e a **porta de relevância (relevance ou reset)**. Estas portas ajudam a **determinar o que deve ser lembrado ou esquecido no estado oculto**, permitindo que o modelo mantenha informações relevantes por longos períodos e melhore a captura de dependências de longo prazo.


<img src="./imgs/vanilla_rnn_vs_gru.png">


### Estrutura das GRUs

1. **Porta de Atualização ($\Gamma_u$)**:
   - Determina quanto do estado oculto anterior deve ser levado para frente.
   - Calculada como:
     $$
     \Gamma_u = \sigma(W_u [h^{<t-1>}, x^{<t>}] + b_u)
     $$
   - Aqui, $\sigma$ é a função sigmoid que gera valores entre 0 e 1.

2. **Porta de Relevância ($\Gamma_r$)**:
   - Decide quanta parte do estado oculto anterior deve ser esquecida (ou reiniciada).
   - Calculada como:
     $$
     \Gamma_r = \sigma(W_r [h^{<t-1>}, x^{<t>}] + b_r)
     $$
   - A função sigmoid também é usada aqui para limitar os valores entre 0 e 1.

3. **Novo Estado Candidato ($h'^{<t>}$)**:
   - É a nova memória candidata que poderia ser adicionada ao estado oculto.
   - Calculado como:
     $$
     h'^{<t>} = \tanh(W_h [\Gamma_r * h^{<t-1>}, x^{<t>}] + b_h)
     $$
   - Aqui, a função tangente hiperbólica ($\tanh$) é usada para permitir valores entre -1 e 1, e $\Gamma_r * h^{<t-1>}$ indica a multiplicação elemento a elemento entre a porta de relevância e o estado oculto anterior.

4. **Estado Oculto Atualizado ($h^{<t>}$)**:
   - Calculado combinando o estado oculto anterior e o novo estado candidato, ponderados pela porta de atualização.
   - A fórmula é:
     $$
     h^{<t>} = (1 - \Gamma_u) * h^{<t-1>} + \Gamma_u * h'^{<t>}
     $$
   - Isso significa que o novo estado oculto é uma média ponderada entre o estado oculto anterior (controlado por $1 - \Gamma_u$) e o novo estado candidato (controlado por $\Gamma_u$).

### Intuição

1. **Porta de Atualização ($\Gamma_u$)**:
   - Se $\Gamma_u$ está perto de 1, o modelo atualiza fortemente o estado oculto com o novo estado candidato.
   - Se $\Gamma_u$ está perto de 0, o modelo mantém mais do estado oculto anterior.

2. **Porta de Relevância ($\Gamma_r$)**:
   - Se $\Gamma_r$ está perto de 1, o modelo usa completamente o estado oculto anterior para calcular o novo estado candidato.
   - Se $\Gamma_r$ está perto de 0, o modelo ignora o estado oculto anterior e reinicia (ou reseta) a memória.

### Vantagens das GRUs

1. **Captura de Dependências Longas**: As GRUs ajudam a resolver o problema do desvanecimento do gradiente, permitindo que informações importantes sejam mantidas por longos períodos.
2. **Eficiência Computacional**: As GRUs têm menos parâmetros comparados às LSTMs, o que pode resultar em treinamento mais rápido e inferência mais eficiente.
3. **Simplicidade**: Embora sejam mais complexas que as vanilla RNNs, as GRUs são mais simples que as LSTMs, pois não possuem uma porta de saída.

### Fórmulas Resumidas

1. **Porta de Atualização**:
   $$
   \Gamma_u = \sigma(W_u [h^{<t-1>}, x^{<t>}] + b_u)
   $$

2. **Porta de Relevância**:
   $$
   \Gamma_r = \sigma(W_r [h^{<t-1>}, x^{<t>}] + b_r)
   $$

3. **Novo Estado Candidato**:
   $$
   h'^{<t>} = \tanh(W_h [\Gamma_r * h^{<t-1>}, x^{<t>}] + b_h)
   $$

4. **Estado Oculto Atualizado**:
   $$
   h^{<t>} = (1 - \Gamma_u) * h^{<t-1>} + \Gamma_u * h'^{<t>}
   $$

As GRUs são uma poderosa variante das RNNs, projetadas para capturar dependências de longo prazo de maneira mais eficaz, utilizando mecanismos de porta para controlar o fluxo de informações. Elas equilibram simplicidade e eficiência computacional, tornando-as uma escolha popular para muitas tarefas de NLP e séries temporais.

## Deep and Bi-directional RNNs

**Redes Neurais Recorrentes Bidirecionais (Bi-directional RNNs, ou BRNNs)** são uma extensão das RNNs tradicionais que permitem que a informação flua em ambas as direções: do passado para o futuro e do futuro para o passado. Essa arquitetura é particularmente útil em tarefas de processamento de linguagem natural (NLP) onde o contexto futuro pode ser tão importante quanto o contexto passado para a compreensão da sequência atual.

<img src="./imgs/birnn1.png">

### Estrutura das BRNNs

A principal diferença entre uma RNN tradicional e uma BRNN é que a BRNN possui duas redes recorrentes:
1. **Forward RNN**: Processa a sequência da esquerda para a direita.
2. **Backward RNN**: Processa a sequência da direita para a esquerda.

#### Funcionamento

1. **Forward Pass**:
   - A RNN direta (forward) processa a sequência de entrada $ x_1, x_2, ..., x_T $ e produz uma sequência de estados ocultos $ \overrightarrow{h_1}, \overrightarrow{h_2}, ..., \overrightarrow{h_T} $.

2. **Backward Pass**:
   - A RNN reversa (backward) processa a sequência de entrada na ordem inversa $ x_T, x_{T-1}, ..., x_1 $ e produz uma sequência de estados ocultos $ \overleftarrow{h_T}, \overleftarrow{h_{T-1}}, ..., \overleftarrow{h_1} $.

3. **Combinação**: Em cada passo de tempo $ t $, os estados ocultos das duas redes são combinados. A combinação pode ser feita de várias maneiras, como **concatenação ou soma**. Normalmente, usa-se a concatenação:
     $$
     h_t = [\overrightarrow{h_t}, \overleftarrow{h_t}]
     $$

4. **Previsão**: A saída final em cada passo de tempo $ y_t $ é gerada usando a combinação dos estados ocultos bidirecionais:
     $$
     y_t = g(W_y h_t + b_y)
     $$
     
     ou
     
     $$
     y_t = g(W_y [\overrightarrow{h_t}, \overleftarrow{h_t}] + b_y)
     $$
     
   - Onde $ g $ é uma função de ativação apropriada (por exemplo, softmax para tarefas de classificação).

### Intuição

A ideia principal por trás das BRNNs é fornecer ao modelo acesso ao contexto completo em torno de cada ponto da sequência. Por exemplo, ao processar uma palavra em uma frase, uma BRNN pode considerar tanto as palavras anteriores quanto as palavras subsequentes, o que pode ser crucial para desambiguação e melhor compreensão do contexto.

### Fórmulas e Arquitetura

Vamos detalhar as fórmulas e a arquitetura de uma BRNN.

1. **Forward Pass**:
   $$
   \overrightarrow{h_t} = g(W_x x_t + W_{\overrightarrow{h}} \overrightarrow{h_{t-1}} + b_{\overrightarrow{h}})
   $$

2. **Backward Pass**:
   $$
   \overleftarrow{h_t} = g(W_x x_t + W_{\overleftarrow{h}} \overleftarrow{h_{t+1}} + b_{\overleftarrow{h}})
   $$

3. **Combinação dos Estados Ocultos**:
   $$
   h_t = [\overrightarrow{h_t}, \overleftarrow{h_t}]
   $$

4. **Previsão da Saída**:
   $$
   y_t = g(W_y h_t + b_y)
   $$

### Vantagens das BRNNs

1. **Acesso Completo ao Contexto**: A capacidade de considerar tanto o contexto anterior quanto o futuro permite que as BRNNs façam previsões mais informadas e precisas.

2. **Melhor Desempenho em Tarefas de NLP**: BRNNs são especialmente eficazes em tarefas onde o contexto completo é crucial, como tradução automática, reconhecimento de fala e análise de sentimentos.

### Exemplos de Aplicações

1. **Tradução Automática**: Considerar palavras futuras pode ajudar a determinar a melhor tradução para palavras ambíguas.

2. **Reconhecimento de Fala**: O contexto futuro pode ajudar a desambiguar palavras que soam semelhantes.

3. **Análise de Sentimentos**: A compreensão do sentimento de uma frase pode depender de palavras tanto no início quanto no final da frase.

### Resumo

- **BRNNs** são uma extensão das RNNs que processam a entrada em duas direções: forward e backward.
- **Combinação dos Estados Ocultos**: Os estados ocultos das direções forward e backward são combinados para fornecer um contexto mais completo.
- **Vantagens**: Acesso ao contexto completo ao redor de cada ponto da sequência, resultando em previsões mais precisas em muitas tarefas de NLP.

As BRNNs representam uma melhoria significativa em relação às RNNs unidirecionais, especialmente em cenários onde o contexto completo da sequência é crítico para a tarefa em questão.

In [None]:
> deep rnn 

<img src="./imgs/birnn2.png">

## Calculating Perplexity

# Week 2

# Week 3

# Week 4

# Referência
- Natural Language Processing with Classification and Vector Spaces, disponível em https://www.coursera.org/learn/probabilistic-models-in-nlp

# Licença
- CC BY-SA 2.0 LEGAL CODE. Attribution-ShareAlike 2.0 Generic
- Para detalhes sobre a licença, verifique https://creativecommons.org/licenses/by-sa/2.0/legalcode