# Natural Language Processing with Sequence Models

Notas sobre o curso Natural Language Processing with Sequence Models da DeeplearninigAI. O notebook é composto majoritariamente de material original, salvo as figuras, que foram criadas pela **Deep Learning AI** e disponibilizadas em seu curso.

# Week 1

## Neural Networks for Sentiment Analysis

Modelos mais simples são um ótimo baseline mas podem não capturar bem a o sentimento de uma frase. Nesses casos, podemos utilizar redes neurais.

As redes neurais (Neural Networks) são um tipo de modelo de aprendizado de máquina inspirado na estrutura e no funcionamento do cérebro humano. Elas consistem em camadas de unidades interconectadas (neurônios) que processam informações e aprendem a realizar tarefas através de exemplos. As principais componentes das redes neurais são:

1. **Camada de Entrada (Input Layer):** Recebe os dados brutos.
2. **Camadas Ocultas (Hidden Layers):** Realizam processamento intermediário. Cada neurônio em uma camada oculta está conectado a neurônios da camada anterior e da camada seguinte, e aplica uma função de ativação para transformar a entrada.
3. **Camada de Saída (Output Layer):** Produz o resultado final, como uma classificação ou previsão.

A análise de sentimento envolve a **classificação de textos**, como comentários ou tweets, para determinar se expressam sentimentos positivos, negativos ou neutros. As redes neurais, especialmente as arquiteturas avançadas como LSTM (Long Short-Term Memory) e GRU (Gated Recurrent Units), são amplamente usadas nessa tarefa devido à sua capacidade de **capturar dependências de longo prazo em sequências de texto**.

O processo de análise de sentimento com redes neurais segue os seguintes passos:

1. **Pré-processamento:** O texto bruto é limpo e transformado em uma **representação numérica**, como vetores de palavras (Word Embeddings) ou **sequências de índices de palavras**.
2. **Arquitetura do Modelo:**
   - **Embedding Layer:** Transforma as palavras em vetores densos que capturam seus significados.
   - **Camadas Recurrentes (LSTM/GRU):** Processam a sequência de vetores, mantendo informações contextuais ao longo do tempo.
   - **Camadas Densas (Fully Connected):** Agregam informações das camadas anteriores e produzem a probabilidade de cada classe de sentimento (positivo, negativo, neutro).
3. **Treinamento:** O modelo é treinado em um conjunto de dados rotulados, ajustando os pesos das conexões entre neurônios para minimizar o erro na classificação.
4. **Avaliação e Ajuste:** O desempenho do modelo é avaliado em dados de validação, e ajustes são feitos para melhorar a precisão.
5. **Predição:** O modelo treinado é usado para analisar novos textos e prever o sentimento.

As redes neurais permitem uma análise de sentimento mais robusta, capturando nuances e contextos que métodos mais simples podem perder.

Os dados de entrada como já mencionados são **representações numéricas** de palavras, como as ilustradas a seguir

<img src="./imgs/word_representation.png">

<img src="./imgs/forward_propagation.png">

Observe que a rede acima possui três camadas (input layer, hidden layer e output layer) e três saídas (ex. positivo, negativo e neutro). Para ir de uma camada para outra você pode usar uma matriz $W^{i}$ para propagar para a próxima camada. Portanto, chamamos esse conceito de ir da entrada até a camada final de propagação direta (forward propagation).

Observe que adicionamos zeros para preenchimento para corresponder ao tamanho do tweet mais longo. Uma rede neural na configuração que você pode ver acima **só pode processar um tweet por vez**. Para tornar o treinamento mais eficiente (mais rápido), você deseja processar muitos tweets **em paralelo**. Você consegue isso juntando muitos tweets em uma matriz e depois passando essa matriz (em vez de tweets individuais) pela rede neural. Então a rede neural pode realizar seus cálculos em todos os tweets ao mesmo tempo.

## Dense Layers and ReLU

As **camadas densas**, também conhecidas como camadas totalmente conectadas (Fully Connected Layers), são um tipo de camada em redes neurais onde **cada neurônio de uma camada está conectado a todos os neurônios da camada seguinte**. Essas conexões são ponderadas e ajustadas durante o processo de treinamento para aprender a mapear entradas para saídas desejadas. A camada Densa é o cálculo do produto interno entre um conjunto de pesos treináveis (matriz de pesos) e um vetor de entrada. Elas funcionam da seguinte forma:

<img src="./imgs/dense_layer.png">

1. **Entrada:** Recebe um vetor de ativação da camada anterior.
2. **Pesos e Bias:** Cada conexão tem um peso associado, e cada neurônio tem um valor de bias (viés).
3. **Produto Ponto:** A camada calcula o produto ponto entre os vetores de entrada e os pesos, e soma o bias.
4. **Função de Ativação:** O resultado é passado por uma função de ativação, que introduz não-linearidade no modelo, permitindo a aprendizagem de relações complexas.

A **função de ativação ReLU** é uma das mais populares em redes neurais modernas devido à sua simplicidade e eficácia. ReLU é definida como:

$$ f(x) = \max(0, x) $$

**Características:**
1. **Linearidade por Partes:** ReLU mantém a linearidade para valores positivos, mas define todos os valores negativos como zero.
2. **Não-Linearidade:** Introduz não-linearidade no modelo, essencial para aprender representações complexas.
3. **Eficiente Computacionalmente:** Computacionalmente simples e eficiente de calcular.
4. **Problema do Neurônio Morto:** Uma desvantagem potencial é que, se muitos neurônios saírem da faixa ativa (produzirem sempre zero), podem "morrer" e parar de aprender.

<img src="./imgs/relu.png">

A caixa laranja na imagem acima mostra a camada densa. Uma camada de ativação é o conjunto de nós azuis mostrados com a caixa laranja na imagem abaixo. Concretamente, uma das camadas de ativação mais comumente utilizadas é a unidade linear retificada (ReLU).

**Uso em Camadas Densas:**
- **Aprimoramento da Expressividade:** A aplicação da ReLU em camadas densas permite que a rede aprenda representações mais ricas e capture relações não lineares nos dados.
- **Mitigação do Desvanecimento de Gradiente:** ReLU ajuda a mitigar o problema do desvanecimento de gradiente, permitindo que gradientes maiores fluam durante o treinamento.

## Embedding and Mean Layers

Usando uma camada de embedding, podemos aprender os embeddings para cada palavra do vocabulário da seguinte maneira:

<img src="./imgs/embedding_layer.png">

A camada de embedding é uma camada especial utilizada em redes neurais para transformar palavras ou tokens em vetores densos de dimensão fixa, onde cada vetor captura informações semânticas sobre a palavra. Este processo é fundamental no processamento de linguagem natural (NLP) e permite que o modelo aprenda representações de palavras que refletem suas relações semânticas. Ele funciona da seguinte forma:

1. **Entrada**: Recebe uma sequência de índices, onde cada índice corresponde a uma palavra ou token no vocabulário.
2. **Lookup**: Cada índice é mapeado para um vetor denso, geralmente inicializado aleatoriamente e ajustado durante o treinamento.
3. **Saída**: Produz uma matriz onde cada linha é o vetor de embedding correspondente a uma palavra na sequência de entrada.

Essa camada possui os seguintes benefícios:

1. **Dimensionalidade Reduzida**: Transforma palavras em vetores densos de menor dimensão, facilitando o processamento.
2. **Captura de Semântica**: As palavras com significados semelhantes tendem a ter vetores próximos no espaço de embedding.
3. **Treinável**: Os vetores de embedding são ajustados durante o treinamento para otimizar a tarefa específica, como classificação de texto ou tradução.

A camada média (mean layer) permite tirar a média dos embeddings. Elas são usadas para **agregar informações** ao longo de uma sequência, calculando a média dos vetores de embedding ou das ativações ao longo da sequência. Esta técnica é simples e pode ser eficaz para **capturar uma representação global do contexto** ou do conteúdo de um texto. O vetor resultante da camada de média pode ser passado para camadas densas ou outras camadas de rede neural para realizar a classificação de sentimento, determinando se a frase expressa um sentimento positivo, negativo ou neutro. Fuciona da seguinte forma:

<img src="./imgs/mean_layer.png">

1. **Entrada**: Recebe uma matriz de vetores de embedding ou ativações de uma camada anterior, onde cada linha corresponde a uma palavra ou token na sequência.
2. **Cálculo da Média**: Calcula a média ao longo de uma dimensão específica (geralmente ao longo da dimensão da sequência).
3. **Saída**: Produz um único vetor que representa a média das ativações ou embeddings ao longo da sequência.

Possui os seguintes benefícios:

1. **Simplicidade**: Fácil de implementar e computacionalmente eficiente.
2. **Redução de Dimensionalidade**: Reduz a sequência de vetores a um único vetor, simplificando o processamento subsequente.
3. **Representação Global**: Fornece uma representação global da sequência, capturando informações de todas as palavras ou tokens.

Esta camada não possui nenhum parâmetro treinável.

## Traditional Language models

Os modelos de idiomas tradicionais utilizam probabilidades para ajudar a identificar qual frase provavelmente ocorrerá.

<img src="./imgs/trad_models1.png">

No exemplo acima, a segunda frase é a que provavelmente ocorrerá, pois tem a maior probabilidade de acontecer. Para calcular as probabilidades, você pode fazer o seguinte:

<img src="./imgs/trad_models2.png">

Grandes gramas de N capturam dependências entre palavras distantes e **precisam de muito espaço e RAM**. Portanto, recorremos ao uso de diferentes tipos de alternativas.

## Recurrent Neural Networks

A frase seguinte é um exemplo de que os modelos probabilísticos não tem um bom desempenho, a exemplo, os modelos n-gram.

<img src="./imgs/rnn1.png">


Um n-grama (trigrama) só olharia para "did not" e **tentaria concluir a frase a partir daí**, não veria o contexto nem as palavras anteriores. Como resultado, o modelo não poderá ver o início da frase "I called her but she". Provavelmente a palavra mais provável é "have" depois do "did not". Os RNNs nos ajudam a resolver esse problema, sendo capazes de **rastrear dependências muito mais longe uma da outra**. À medida que o RNN passa por um corpus de texto, ele capta algumas informações da seguinte forma:

<img src="./imgs/rnn2.png">

Observe que, à medida que você alimenta mais informações no modelo, **a retenção da palavra anterior fica mais fraca, mas ainda está lá**. Olhe para o retângulo laranja acima e veja como ele se torna menor ao percorrer o texto. Isso mostra que seu modelo é capaz de capturar dependências e se lembra de uma palavra anterior, embora esteja no início de uma frase ou parágrafo. Outra vantagem dos RRNs é que muitos computações compartilham parâmetros. Ou seja, ao contrário dos modelos tradicionais de N-gramas, onde cada estado (ou cada grupo de palavras) tem seus próprios parâmetros independentes, as RNNs usam um conjunto fixo de parâmetros ao longo de toda a sequência de entrada.

1. **Modelos Tradicionais de N-gramas**:
   - Em modelos de N-gramas, os parâmetros são específicos para cada combinação de palavras de um tamanho fixo (N). Isso significa que o modelo precisa armazenar informações separadas para cada possível N-grama.
   - Isso pode levar a um grande consumo de espaço e memória, especialmente com um vocabulário grande, pois a quantidade de N-gramas únicos pode ser enorme.

2. **Redes Neurais Recorrentes (RNNs)**:
   - As RNNs, por outro lado, processam a sequência de texto de forma iterativa, palavra por palavra, ou token por token.
   - Uma RNN usa os mesmos parâmetros (pesos e bias) em cada passo da sequência. Esses parâmetros são aplicados repetidamente enquanto a RNN percorre a sequência de entrada.
   - O compartilhamento de parâmetros ocorre porque a RNN aplica a mesma função de atualização (com os mesmos pesos) para processar cada palavra na sequência. Essa função leva em consideração tanto a palavra atual quanto o estado oculto anterior (que contém informações acumuladas das palavras anteriores).
   
**Benefícios do Compartilhamento de Parâmetros**

- **Eficiência de Memória**: Como as RNNs não precisam armazenar parâmetros separados para cada combinação de palavras, elas são muito mais eficientes em termos de memória.
- **Generalização**: O compartilhamento de parâmetros ajuda o modelo a generalizar melhor, pois ele aprende uma representação mais compacta e reutilizável das dependências na sequência de entrada.

Imagine que você tenha uma sequência de palavras: \[w_1, w_2, w_3, \ldots, w_n\]. 

- Em um N-grama de trigramas, você teria parâmetros específicos para cada trigrama possível, como (w_1, w_2, w_3), (w_2, w_3, w_4), etc.
- Em uma RNN, você tem um conjunto fixo de parâmetros \( \theta \) que são usados em cada passo para atualizar o estado oculto \( h_t \) com base na palavra atual \( w_t \) e o estado oculto anterior \( h_{t-1} \).

Esse compartilhamento de parâmetros é uma das razões pelas quais as RNNs são eficazes em capturar dependências de longo prazo e são uma escolha popular para tarefas de processamento de linguagem natural.

## Applications of RNNs

Redes Neurais Recorrentes (RNNs, do inglês Recurrent Neural Networks) são uma classe de redes neurais particularmente eficazes no processamento de dados sequenciais, como texto, áudio e séries temporais. Em NLP (Processamento de Linguagem Natural), as RNNs têm várias aplicações importantes devido à sua capacidade de capturar dependências temporais e contextuais em sequências de dados.

| **Task**                        | **LSTM** | **GRU** | **BiRNN** |
|----------------------------------|:--------:|:-------:|:---------:|
| Modelagem de Linguagem           |    ✔️    |   ✔️    |    ✔️     |
| Tradução Automática              |    ✔️    |   ✔️    |    ✔️     |
| Análise de Sentimento            |    ✔️    |   ✔️    |    ✔️     |
| Reconhecimento de Entidades Nomeadas (NER) | ✔️ | ✔️ | ✔️ |
| Classificação de Texto           |    ✔️    |   ✔️    |    ✔️     |
| Sumarização de Texto             |    ✔️    |   ✔️    |    ✔️     |
| Geração de Texto                 |    ✔️    |   ✔️    |    ✔️     |

Arquiteturas Comuns de RNNs em NLP:
- **LSTM:** Long Short-Term Memory é frequentemente usado para todas as tarefas listadas devido à sua capacidade de capturar dependências de longo prazo e gerenciar o problema do desvanecimento de gradiente.
- **GRU:** Gated Recurrent Units são uma alternativa mais simples e computacionalmente eficiente às LSTMs, mas ainda muito eficazes para a maioria das tarefas de NLP.
- **BiRNN:** Bidirectional RNNs processam a sequência de texto em ambas as direções, o que pode ser vantajoso para tarefas que dependem do contexto completo da sequência.

Cada tipo de RNN pode ser usado para resolver essas tarefas de maneira eficaz, dependendo das necessidades específicas do problema e dos recursos computacionais disponíveis.

Existem muitas maneiras de implementar um modelo RNN:

- one to one: dadas algumas pontuações de um campeonato, você pode prever o vencedor.
- one to many: dada uma imagem, você pode prever qual será a legenda.
- many to one: Dado um tweet, você pode prever o sentimento desse tweet.
- many to many: dada uma frase em inglês, você pode traduzi -la para seu equivalente alemão.

## Math in Simple RNNs

Para entender como funciona uma RNN simples (vanilla RNN), vamos explorar a matemática por trás dela usando uma representação gráfica e equações.

### Conceitos e Notação

1. **Estado Oculto $ h^{<t>} $:**
   - Representa a memória da RNN no tempo $ t $.
   - Atualizado em cada passo de tempo com base no estado oculto anterior $ h^{<t-1>} $ e na entrada atual $ x^{<t>} $.

2. **Função de Ativação $ g $:**
   - Pode ser uma função não-linear como a tangente hiperbólica ($\tanh$) ou ReLU (Rectified Linear Unit).

3. **Pesos e Biases:**
   - $ W_{hh} $: Pesos que conectam o estado oculto anterior ao novo estado oculto.
   - $ W_{hx} $: Pesos que conectam a entrada atual ao novo estado oculto.
   - $ W_{yh} $: Pesos que conectam o estado oculto à saída.
   - $ b_h $: Bias do estado oculto.
   - $ b_y $: Bias da saída.

### Atualização do Estado Oculto

A fórmula geral para atualizar o estado oculto em um vanilla RNN é:
$$ h^{<t>} = g(W_h [h^{<t-1>}, x^{<t>}] + b_h) $$

Esta fórmula pode ser detalhada em componentes individuais:
$$ h^{<t>} = g(W_{hh} h^{<t-1>} + W_{hx} x^{<t>} + b_h) $$

Aqui:
- $ W_{hh} h^{<t-1>} $: Multiplicação dos pesos $ W_{hh} $ pelo estado oculto anterior $ h^{<t-1>} $.
- $ W_{hx} x^{<t>} $: Multiplicação dos pesos $ W_{hx} $ pela entrada atual $ x^{<t>} $.
- $ b_h $: Adição do bias $ b_h $.

### Concatenando Entradas e Estados Ocultos

Para simplificar a notação, podemos concatenar o estado oculto anterior e a entrada atual em um único vetor:
$$ h^{<t>} = g(W_h [h^{<t-1>}, x^{<t>}] + b_h) $$

Isso pode ser reescrito como:
$$ h^{<t>} = g(W_{hh} h^{<t-1>} \oplus W_{hx} x^{<t>} + b_h) $$

Aqui, $\oplus$ indica a concatenação dos produtos $ W_{hh} h^{<t-1>} $ e $ W_{hx} x^{<t>} $.

<img src="./imgs/rnn3.png">

### Previsão em Cada Passo de Tempo

Para gerar uma previsão ou saída em cada passo de tempo, usamos o estado oculto atualizado:
$$ \hat{y}^{<t>} = g(W_{yh} h^{<t>} + b_y) $$

Aqui:
- $ W_{yh} h^{<t>} $: Multiplicação dos pesos $ W_{yh} $ pelo estado oculto atual $ h^{<t>} $.
- $ b_y $: Adição do bias $ b_y $.

### Treinamento

Durante o treinamento da RNN, ajustamos os seguintes parâmetros:
- $ W_{hh} $: Pesos conectando estados ocultos.
- $ W_{hx} $: Pesos conectando entradas às unidades ocultas.
- $ W_{yh} $: Pesos conectando estados ocultos às saídas.
- $ b_h $: Bias das unidades ocultas.
- $ b_y $: Bias das saídas.

<img src="./imgs/rnn4.png">

### Visualização do Modelo

Aqui está uma visualização simplificada do modelo vanilla RNN:

```
x^{<1>} ---> [ Unidade RNN ] ---> h^{<1>}
           |                |
x^{<2>} ---> [ Unidade RNN ] ---> h^{<2>}
           |                |
x^{<3>} ---> [ Unidade RNN ] ---> h^{<3>}
            ...
```

Para cada passo de tempo $ t $:
- A entrada $ x^{<t>} $ e o estado oculto anterior $ h^{<t-1>} $ são usados para calcular o novo estado oculto $ h^{<t>} $.
- O novo estado oculto $ h^{<t>} $ é usado para gerar a saída $ \hat{y}^{<t>} $.

Este processo continua ao longo de toda a sequência, permitindo que a RNN capture dependências temporais nos dados.

### Resumo

- **Estado Oculto:** Memória que armazena informações sobre a sequência até o ponto atual.
- **Função de Ativação:** Introduz não-linearidade, permitindo que a RNN capture relações complexas.
- **Pesos e Biases:** Parâmetros treináveis que conectam entradas, estados ocultos e saídas.
- **Atualização Recorrente:** O estado oculto é atualizado a cada passo de tempo com base na entrada atual e no estado oculto anterior.
- **Previsão:** As saídas são geradas com base no estado oculto atualizado em cada passo de tempo.

As vanilla RNNs são poderosas para capturar dependências em dados sequenciais, mas têm limitações, como o desvanecimento de gradiente, que são abordadas em variantes mais avançadas como LSTMs e GRUs.

Uma Rede Neural Recorrente (RNN) "vanilla" é uma arquitetura básica de RNN que processa sequências de dados, um elemento por vez, mantendo um estado oculto que armazena informações sobre elementos anteriores da sequência. Isso permite que o modelo capture dependências temporais ou sequenciais nos dados. Vamos explorar o funcionamento de um vanilla RNN de forma aprofundada e intuitiva.

### Estrutura de uma Vanilla RNN

1. **Entrada:** 
   - Uma sequência de dados, como uma frase, onde cada palavra é convertida em uma representação numérica, por exemplo, um vetor de embedding.

2. **Estado Oculto (Hidden State):**
   - Um vetor que armazena informações sobre a sequência até o ponto atual. Este vetor é atualizado em cada passo da sequência.

3. **Unidade Recurrente:**
   - A função que define como o estado oculto é atualizado em cada passo da sequência.

4. **Saída:**
   - Uma previsão ou transformação do estado oculto, que pode ser usada para diversas tarefas, como classificação de texto ou previsão da próxima palavra na sequência.

### Funcionamento Passo a Passo

#### Passo 1: Inicialização
- O estado oculto inicial $\mathbf{h}_0$ é geralmente um vetor de zeros ou pode ser inicializado aleatoriamente.

#### Passo 2: Processamento da Sequência
Para cada elemento $x_t$ na sequência de entrada ($x_1, x_2, \ldots, x_T$):
1. **Entrada Atual ($x_t$):** O vetor de entrada no tempo $t$.
2. **Estado Oculto Anterior ($\mathbf{h}_{t-1}$):** O estado oculto do passo anterior.

3. **Atualização do Estado Oculto:**
   - O estado oculto atual $\mathbf{h}_t$ é calculado usando a unidade recurrente.
   - A fórmula típica é:
     $$
     \mathbf{h}_t = \tanh(\mathbf{W}_{xh} \cdot x_t + \mathbf{W}_{hh} \cdot \mathbf{h}_{t-1} + \mathbf{b}_h)
     $$
     - $\mathbf{W}_{xh}$: Matriz de pesos que conecta a entrada ao estado oculto.
     - $\mathbf{W}_{hh}$: Matriz de pesos que conecta o estado oculto anterior ao novo estado oculto.
     - $\mathbf{b}_h$: Vetor de bias.
     - $\tanh$: Função de ativação não-linear (tangente hiperbólica) que ajuda a manter os valores do estado oculto dentro de um intervalo fixo.

4. **Saída do Passo Atual:**
   - A saída do modelo no tempo $t$ ($y_t$) pode ser calculada a partir do estado oculto atual.
     $$
     y_t = \mathbf{W}_{hy} \cdot \mathbf{h}_t + \mathbf{b}_y
     $$
     - $\mathbf{W}_{hy}$: Matriz de pesos que conecta o estado oculto à saída.
     - $\mathbf{b}_y$: Vetor de bias para a saída.

#### Passo 3: Processamento da Sequência Completa
- Este processo é repetido para cada elemento da sequência, atualizando o estado oculto em cada passo e gerando uma saída correspondente.

### Intuição sobre o Estado Oculto
- O estado oculto pode ser visto como a "memória" da RNN. Ele carrega informações sobre elementos anteriores da sequência e influencia como os próximos elementos são processados.
- Em cada passo, o estado oculto é uma combinação linear da entrada atual e do estado oculto anterior, transformado por uma função não-linear (tanh). Isso permite que o modelo capture tanto informações novas quanto contextuais.

### Limitações das Vanilla RNNs
- **Desvanecimento e Explosão do Gradiente:** Durante o treinamento, os gradientes podem se tornar extremamente pequenos (desvanecimento) ou extremamente grandes (explosão), dificultando o aprendizado de dependências de longo prazo.
- **Dependências de Longo Prazo:** Vanilla RNNs podem ter dificuldades para capturar dependências que ocorrem em grandes intervalos de tempo dentro da sequência.

### Conclusão
Vanilla RNNs são modelos poderosos para processar dados sequenciais, mantendo uma memória dinâmica da sequência através do estado oculto. No entanto, suas limitações levaram ao desenvolvimento de variantes mais sofisticadas, como LSTMs e GRUs, que abordam problemas como o desvanecimento do gradiente e melhoram a capacidade de capturar dependências de longo prazo.

## Cost Function for RNNs

A função de custo utilizada nas RNNs é a **cross entropy loss**

<img src="./imgs/cross_entropy_loss.png">

### Entropia Cruzada

A perda por entropia cruzada mede a diferença entre a distribuição de probabilidade verdadeira (ou alvo) e a distribuição de probabilidade prevista pelo modelo. Para cada classe $ j $ em uma tarefa de classificação com $ K $ classes, a entropia cruzada é calculada como:

$$ \text{Loss} = - \sum_{j=1}^{K} y_j \log(\hat{y}_j) $$

Aqui:
- $ y_j $ é o valor real da classe $ j $ (1 se a classe é a correta, 0 caso contrário).
- $ \hat{y}_j $ é a probabilidade prevista pelo modelo para a classe $ j $.

### Função de Custo em RNNs

Quando se trabalha com RNNs, estamos lidando com sequências de dados, e a previsão é feita em cada passo de tempo $ t $. Portanto, precisamos calcular a perda para cada passo de tempo e depois somá-las para obter a perda total da sequência.

A fórmula geral para a função de custo $ J $ ao longo de $ T $ passos de tempo é:

$$ J = -\frac{1}{T} \sum_{t=1}^{T} \sum_{j=1}^{K} y_j^{<t>} \log(\hat{y}_j^{<t>}) $$

Aqui:
- $ T $ é o número total de passos de tempo na sequência.
- $ K $ é o número total de classes.
- $ y_j^{<t>} $ é o valor real para a classe $ j $ no tempo $ t $.
- $ \hat{y}_j^{<t>} $ é a probabilidade prevista pelo modelo para a classe $ j $ no tempo $ t $.

### Intuição

1. **Soma sobre as Classes:** Para cada passo de tempo $ t $, calculamos a entropia cruzada para todas as classes $ j $. Isso mede o quão bem o modelo previu a distribuição de probabilidade para o passo de tempo específico.

2. **Soma sobre os Passos de Tempo:** Depois, somamos a perda de todos os passos de tempo. Isso nos dá a perda total para toda a sequência.

3. **Média ao Longo do Tempo:** Dividimos pela quantidade total de passos de tempo $ T $ para obter a média da perda por passo de tempo. Isso é importante porque nos dá uma noção da performance do modelo em média, ao longo de toda a sequência.

### Visualização

Imagine que temos uma sequência com 3 passos de tempo (T = 3) e 4 classes (K = 4). Para cada passo de tempo $ t $, temos as previsões do modelo $\hat{y}^{<t>}$ e os valores reais $ y^{<t>} $.

1. Para cada $ t $ (passo de tempo):
   - Calculamos a entropia cruzada entre $\hat{y}^{<t>}$ e $ y^{<t>} $.
   - Fazemos isso somando $ y_j^{<t>} \log(\hat{y}_j^{<t>}) $ para todas as classes $ j $.

2. Somamos essas perdas para todos os passos de tempo $ t = 1, 2, 3 $.

3. Dividimos a soma total pelo número de passos de tempo $ T $ para obter a média.

### Exemplo de Cálculo

Suponha que temos as seguintes probabilidades previstas $\hat{y}$ e valores reais $ y $ para uma sequência de 3 passos de tempo e 2 classes:

- Tempo 1: $ \hat{y}^{<1>} = [0.7, 0.3] $, $ y^{<1>} = [1, 0] $
- Tempo 2: $ \hat{y}^{<2>} = [0.4, 0.6] $, $ y^{<2>} = [0, 1] $
- Tempo 3: $ \hat{y}^{<3>} = [0.9, 0.1] $, $ y^{<3>} = [1, 0] $

Para cada passo de tempo, calculamos a entropia cruzada:

- Tempo 1: $ \text{Loss}^{<1>} = -(1 \log(0.7) + 0 \log(0.3)) = 0.3567 $
- Tempo 2: $ \text{Loss}^{<2>} = -(0 \log(0.4) + 1 \log(0.6)) = 0.5108 $
- Tempo 3: $ \text{Loss}^{<3>} = -(1 \log(0.9) + 0 \log(0.1)) = 0.1054 $

Somamos as perdas:

$$ \text{Total Loss} = 0.3567 + 0.5108 + 0.1054 = 0.9729 $$

Calculamos a média:

$$ J = \frac{\text{Total Loss}}{T} = \frac{0.9729}{3} = 0.3243 $$

### Resumo

- A função de custo em RNNs é a perda por entropia cruzada calculada para cada passo de tempo.
- A entropia cruzada mede a diferença entre as distribuições de probabilidade previstas e reais.
- A perda total é a soma das perdas em cada passo de tempo, dividida pelo número total de passos, resultando na média da perda por passo de tempo.
- Esse processo permite que o modelo aprenda a prever melhor as sequências de dados ao longo do tempo.

## Implementation Note

A função scan (abstração do rnn) é construída da seguinte forma:

<img src="./imgs/rnn_implementation.png">

Observe que isso é basicamente o que um RNN está fazendo. Ele pega o inicializador e retorna uma lista de saídas (ys) e usa o valor atual para obter o próximo y e o próximo valor atual. Esse tipo de abstração permite uma computação muito mais rápida.

## Gated Recurrent Units

As **unidades recorrentes com portas (GRUs)** são uma variante dos RNNs que introduzem mecanismos adicionais, chamados de portas, para melhor gerenciar o fluxo de informações ao longo do tempo. As GRUs possuem duas portas principais: a **porta de atualização (update)** e a **porta de relevância (relevance ou reset)**. Estas portas ajudam a **determinar o que deve ser lembrado ou esquecido no estado oculto**, permitindo que o modelo mantenha informações relevantes por longos períodos e melhore a captura de dependências de longo prazo.


<img src="./imgs/vanilla_rnn_vs_gru.png">


### Estrutura das GRUs

1. **Porta de Atualização ($\Gamma_u$)**:
   - Determina quanto do estado oculto anterior deve ser levado para frente.
   - Calculada como:
     $$
     \Gamma_u = \sigma(W_u [h^{<t-1>}, x^{<t>}] + b_u)
     $$
   - Aqui, $\sigma$ é a função sigmoid que gera valores entre 0 e 1.

2. **Porta de Relevância ($\Gamma_r$)**:
   - Decide quanta parte do estado oculto anterior deve ser esquecida (ou reiniciada).
   - Calculada como:
     $$
     \Gamma_r = \sigma(W_r [h^{<t-1>}, x^{<t>}] + b_r)
     $$
   - A função sigmoid também é usada aqui para limitar os valores entre 0 e 1.

3. **Novo Estado Candidato ($h'^{<t>}$)**:
   - É a nova memória candidata que poderia ser adicionada ao estado oculto.
   - Calculado como:
     $$
     h'^{<t>} = \tanh(W_h [\Gamma_r * h^{<t-1>}, x^{<t>}] + b_h)
     $$
   - Aqui, a função tangente hiperbólica ($\tanh$) é usada para permitir valores entre -1 e 1, e $\Gamma_r * h^{<t-1>}$ indica a multiplicação elemento a elemento entre a porta de relevância e o estado oculto anterior.

4. **Estado Oculto Atualizado ($h^{<t>}$)**:
   - Calculado combinando o estado oculto anterior e o novo estado candidato, ponderados pela porta de atualização.
   - A fórmula é:
     $$
     h^{<t>} = (1 - \Gamma_u) * h^{<t-1>} + \Gamma_u * h'^{<t>}
     $$
   - Isso significa que o novo estado oculto é uma média ponderada entre o estado oculto anterior (controlado por $1 - \Gamma_u$) e o novo estado candidato (controlado por $\Gamma_u$).

### Intuição

1. **Porta de Atualização ($\Gamma_u$)**:
   - Se $\Gamma_u$ está perto de 1, o modelo atualiza fortemente o estado oculto com o novo estado candidato.
   - Se $\Gamma_u$ está perto de 0, o modelo mantém mais do estado oculto anterior.

2. **Porta de Relevância ($\Gamma_r$)**:
   - Se $\Gamma_r$ está perto de 1, o modelo usa completamente o estado oculto anterior para calcular o novo estado candidato.
   - Se $\Gamma_r$ está perto de 0, o modelo ignora o estado oculto anterior e reinicia (ou reseta) a memória.

### Vantagens das GRUs

1. **Captura de Dependências Longas**: As GRUs ajudam a resolver o problema do desvanecimento do gradiente, permitindo que informações importantes sejam mantidas por longos períodos.
2. **Eficiência Computacional**: As GRUs têm menos parâmetros comparados às LSTMs, o que pode resultar em treinamento mais rápido e inferência mais eficiente.
3. **Simplicidade**: Embora sejam mais complexas que as vanilla RNNs, as GRUs são mais simples que as LSTMs, pois não possuem uma porta de saída.

### Fórmulas Resumidas

1. **Porta de Atualização**:
   $$
   \Gamma_u = \sigma(W_u [h^{<t-1>}, x^{<t>}] + b_u)
   $$

2. **Porta de Relevância**:
   $$
   \Gamma_r = \sigma(W_r [h^{<t-1>}, x^{<t>}] + b_r)
   $$

3. **Novo Estado Candidato**:
   $$
   h'^{<t>} = \tanh(W_h [\Gamma_r * h^{<t-1>}, x^{<t>}] + b_h)
   $$

4. **Estado Oculto Atualizado**:
   $$
   h^{<t>} = (1 - \Gamma_u) * h^{<t-1>} + \Gamma_u * h'^{<t>}
   $$

As GRUs são uma poderosa variante das RNNs, projetadas para capturar dependências de longo prazo de maneira mais eficaz, utilizando mecanismos de porta para controlar o fluxo de informações. Elas equilibram simplicidade e eficiência computacional, tornando-as uma escolha popular para muitas tarefas de NLP e séries temporais.

## Deep and Bi-directional RNNs

**Redes Neurais Recorrentes Bidirecionais (Bi-directional RNNs, ou BRNNs)** são uma extensão das RNNs tradicionais que permitem que a informação flua em ambas as direções: do passado para o futuro e do futuro para o passado. Essa arquitetura é particularmente útil em tarefas de processamento de linguagem natural (NLP) onde o contexto futuro pode ser tão importante quanto o contexto passado para a compreensão da sequência atual.

<img src="./imgs/birnn1.png">

### Estrutura das BRNNs

A principal diferença entre uma RNN tradicional e uma BRNN é que a BRNN possui duas redes recorrentes:
1. **Forward RNN**: Processa a sequência da esquerda para a direita.
2. **Backward RNN**: Processa a sequência da direita para a esquerda.

#### Funcionamento

1. **Forward Pass**:
   - A RNN direta (forward) processa a sequência de entrada $ x_1, x_2, ..., x_T $ e produz uma sequência de estados ocultos $ \overrightarrow{h_1}, \overrightarrow{h_2}, ..., \overrightarrow{h_T} $.

2. **Backward Pass**:
   - A RNN reversa (backward) processa a sequência de entrada na ordem inversa $ x_T, x_{T-1}, ..., x_1 $ e produz uma sequência de estados ocultos $ \overleftarrow{h_T}, \overleftarrow{h_{T-1}}, ..., \overleftarrow{h_1} $.

3. **Combinação**: Em cada passo de tempo $ t $, os estados ocultos das duas redes são combinados. A combinação pode ser feita de várias maneiras, como **concatenação ou soma**. Normalmente, usa-se a concatenação:
     $$
     h_t = [\overrightarrow{h_t}, \overleftarrow{h_t}]
     $$

4. **Previsão**: A saída final em cada passo de tempo $ y_t $ é gerada usando a combinação dos estados ocultos bidirecionais:
     $$
     y_t = g(W_y h_t + b_y)
     $$
     
     ou
     
     $$
     y_t = g(W_y [\overrightarrow{h_t}, \overleftarrow{h_t}] + b_y)
     $$
     
   - Onde $ g $ é uma função de ativação apropriada (por exemplo, softmax para tarefas de classificação).

### Intuição

A ideia principal por trás das BRNNs é fornecer ao modelo acesso ao contexto completo em torno de cada ponto da sequência. Por exemplo, ao processar uma palavra em uma frase, uma BRNN pode considerar tanto as palavras anteriores quanto as palavras subsequentes, o que pode ser crucial para desambiguação e melhor compreensão do contexto.

### Fórmulas e Arquitetura

Vamos detalhar as fórmulas e a arquitetura de uma BRNN.

1. **Forward Pass**:
   $$
   \overrightarrow{h_t} = g(W_x x_t + W_{\overrightarrow{h}} \overrightarrow{h_{t-1}} + b_{\overrightarrow{h}})
   $$

2. **Backward Pass**:
   $$
   \overleftarrow{h_t} = g(W_x x_t + W_{\overleftarrow{h}} \overleftarrow{h_{t+1}} + b_{\overleftarrow{h}})
   $$

3. **Combinação dos Estados Ocultos**:
   $$
   h_t = [\overrightarrow{h_t}, \overleftarrow{h_t}]
   $$

4. **Previsão da Saída**:
   $$
   y_t = g(W_y h_t + b_y)
   $$

### Vantagens das BRNNs

1. **Acesso Completo ao Contexto**: A capacidade de considerar tanto o contexto anterior quanto o futuro permite que as BRNNs façam previsões mais informadas e precisas.

2. **Melhor Desempenho em Tarefas de NLP**: BRNNs são especialmente eficazes em tarefas onde o contexto completo é crucial, como tradução automática, reconhecimento de fala e análise de sentimentos.

### Exemplos de Aplicações

1. **Tradução Automática**: Considerar palavras futuras pode ajudar a determinar a melhor tradução para palavras ambíguas.

2. **Reconhecimento de Fala**: O contexto futuro pode ajudar a desambiguar palavras que soam semelhantes.

3. **Análise de Sentimentos**: A compreensão do sentimento de uma frase pode depender de palavras tanto no início quanto no final da frase.

### Resumo

- **BRNNs** são uma extensão das RNNs que processam a entrada em duas direções: forward e backward.
- **Combinação dos Estados Ocultos**: Os estados ocultos das direções forward e backward são combinados para fornecer um contexto mais completo.
- **Vantagens**: Acesso ao contexto completo ao redor de cada ponto da sequência, resultando em previsões mais precisas em muitas tarefas de NLP.

As BRNNs representam uma melhoria significativa em relação às RNNs unidirecionais, especialmente em cenários onde o contexto completo da sequência é crítico para a tarefa em questão.

**Redes Neurais Recorrentes Profundas (Deep RNNs)** são uma extensão das RNNs tradicionais que aumentam a profundidade da rede, **empilhando várias camadas** de unidades recorrentes umas sobre as outras. Isso permite que o modelo capture representações mais complexas e aprenda características hierárquicas dos dados sequenciais.

A estrutura de uma Deep RNN consiste em várias camadas recorrentes (RNNs, LSTMs, GRUs, etc.) **empilhadas verticalmente**. Cada camada da rede **recebe a saída da camada anterior** como entrada, processa essa entrada e passa a saída para a próxima camada.

<img src="./imgs/birnn2.png">

#### Funcionamento

1. **Primeira Camada Recorrente**:
   - Recebe a sequência de entrada original.
   - Processa a entrada sequencialmente para produzir uma sequência de estados ocultos.

2. **Camadas Recorrentes Subsequentes**:
   - Cada camada seguinte recebe a sequência de estados ocultos da camada anterior como entrada.
   - Processa essa entrada sequencialmente para produzir uma nova sequência de estados ocultos.
   - Isso continua até a camada final.

3. **Camada de Saída**:
   - A camada de saída recebe a sequência de estados ocultos da última camada recorrente.
   - Gera a previsão ou a saída desejada para cada passo de tempo.

### Fórmulas e Arquitetura

Vamos considerar uma Deep RNN com duas camadas de unidades recorrentes para simplificação:

1. **Primeira Camada Recorrente**:
   - Para cada passo de tempo $ t $:
     $$
     h^{(1)}_t = g(W^{(1)}_x x_t + W^{(1)}_h h^{(1)}_{t-1} + b^{(1)})
     $$
   - Onde $ h^{(1)}_t $ é o estado oculto da primeira camada no passo de tempo $ t $.

2. **Segunda Camada Recorrente**:
   - Recebe $ h^{(1)} $ como entrada:
     $$
     h^{(2)}_t = g(W^{(2)}_{h^{(1)}} h^{(1)}_t + W^{(2)}_h h^{(2)}_{t-1} + b^{(2)})
     $$
   - Onde $ h^{(2)}_t $ é o estado oculto da segunda camada no passo de tempo $ t $.

3. **Camada de Saída**:
   - Recebe $ h^{(2)}_t $ e gera a saída $ y_t $:
     $$
     y_t = g(W_y h^{(2)}_t + b_y)
     $$

### Intuição

- **Primeira Camada**: Extrai características básicas da sequência de entrada.
- **Camadas Intermediárias**: Capturam representações mais abstratas e complexas da sequência, permitindo que a rede aprenda dependências de longo alcance e padrões hierárquicos.
- **Camada de Saída**: Combina todas as características aprendidas para produzir a previsão final.

### Vantagens das Deep RNNs

1. **Captura de Padrões Complexos**: A profundidade adicional permite que a rede capture padrões mais complexos e hierárquicos nos dados.
2. **Aprendizado de Representações Hierárquicas**: Cada camada pode aprender diferentes níveis de abstração, melhorando a capacidade do modelo de generalizar.
3. **Melhor Desempenho em Tarefas Complexas**: Deep RNNs são mais eficazes em tarefas que exigem a captura de dependências de longo prazo e a compreensão de contextos complexos.

### Resumo

- **Deep RNNs** são RNNs com várias camadas empilhadas, permitindo a captura de representações mais complexas e hierárquicas.
- **Funcionamento**: Cada camada recorrente processa a saída da camada anterior, passando a sequência de estados ocultos para a próxima camada.
- **Vantagens**: Captura de padrões complexos, aprendizado de representações hierárquicas e melhor desempenho em tarefas complexas.

Deep RNNs são uma poderosa extensão das RNNs tradicionais, oferecendo melhorias significativas em termos de capacidade de modelagem e desempenho em tarefas de processamento de linguagem natural e outras aplicações sequenciais complexas.

## Calculating Perplexity

A perplexidade é uma métrica comum usada para avaliar modelos de linguagem, especialmente em tarefas de modelagem de linguagem e previsão de sequência. Ela mede quão bem um modelo de linguagem prevê uma sequência de palavras. Uma perplexidade mais baixa indica que o modelo está melhor em prever a sequência.

Perplexidade pode ser entendida como a medida de **"surpresa"** que o modelo experimenta ao prever a próxima palavra em uma sequência. Em outras palavras, **é uma medida de quão incerto o modelo está sobre a próxima palavra**.

Para calcular a perplexidade, usamos a probabilidade logarítmica da sequência de teste. Aqui estão os passos detalhados:

1. **Probabilidade Logarítmica**:
   - Suponha que temos uma sequência de palavras $ w_1, w_2, ..., w_N $.
   - A probabilidade do modelo prever a sequência é $ P(w_1, w_2, ..., w_N) $.

2. **Log Probabilidade Média**:
   - A probabilidade logarítmica média é calculada como:
     $$
     \frac{1}{N} \sum_{t=1}^N \log P(w_t | w_1, w_2, ..., w_{t-1})
     $$
   - Aqui, $ P(w_t | w_1, w_2, ..., w_{t-1}) $ é a probabilidade que o modelo atribui à palavra $ w_t $ dado o histórico $ w_1, w_2, ..., w_{t-1} $.

3. **Perplexidade**:
   - A perplexidade é então definida como a exponenciação negativa da log probabilidade média:
     $$
     \text{Perplexity} = \exp \left( - \frac{1}{N} \sum_{t=1}^N \log P(w_t | w_1, w_2, ..., w_{t-1}) \right)
     $$
   - Alternativamente, pode-se calcular a perplexidade diretamente da probabilidade da sequência:
     $$
     \text{Perplexity} = P(w_1, w_2, ..., w_N)^{-\frac{1}{N}}
     $$

Vamos ilustrar o cálculo da perplexidade com um exemplo simples:

- Suponha que temos uma sequência de três palavras $ w_1, w_2, w_3 $.
- As probabilidades previstas pelo modelo são:
  - $ P(w_1) = 0.1 $
  - $ P(w_2 | w_1) = 0.4 $
  - $ P(w_3 | w_1, w_2) = 0.3 $

1. **Probabilidade da sequência**:
   $$
   P(w_1, w_2, w_3) = P(w_1) \times P(w_2 | w_1) \times P(w_3 | w_1, w_2) = 0.1 \times 0.4 \times 0.3 = 0.012
   $$

2. **Log Probabilidade Média**:
   $$
   \frac{1}{3} \left( \log 0.1 + \log 0.4 + \log 0.3 \right) = \frac{1}{3} \left( -2.3026 + -0.9163 + -1.2040 \right) = \frac{1}{3} \left( -4.4229 \right) = -1.4743
   $$

3. **Perplexidade**:
   $$
   \text{Perplexity} = \exp(-1.4743) \approx 4.37
   $$

A métrica deve ser interpreta como:

- **Perplexidade Alta**: Indica que o modelo tem baixa confiança em suas previsões (é "muito surpreso").
- **Perplexidade Baixa**: Indica que o modelo está mais confiante em suas previsões (é "menos surpreso").

Por fim:

- **Perplexidade** mede a qualidade de um modelo de linguagem.
- É calculada usando a probabilidade logarítmica da sequência de teste.
- Uma perplexidade mais baixa indica um modelo de linguagem mais preciso.

A perplexidade é uma métrica crucial para avaliar modelos de linguagem, ajudando a comparar diferentes modelos e a melhorar suas previsões.

# Week 2

## RNNs and Vanishing Gradients

### Vanishing e Exploding Gradients em RNNs

Redes Neurais Recorrentes (RNNs) são particularmente suscetíveis aos problemas de vanishing (desaparecimento) e exploding (explosão) de gradientes devido à natureza recursiva de suas operações durante o treinamento. Esses problemas afetam a capacidade da rede de aprender dependências de longo prazo.

### Vanishing Gradients

O problema de vanishing gradients ocorre quando os gradientes das funções de perda em relação aos pesos da rede se tornam extremamente pequenos. Isso impede a atualização efetiva dos pesos durante o treinamento, resultando em um aprendizado muito lento ou em uma paralisação completa do aprendizado.

Durante o backpropagation através do tempo (BPTT), os gradientes são propagados de volta através de muitas camadas (uma por cada passo de tempo). Se as derivadas das funções de ativação ou dos pesos são menores que 1, os gradientes podem diminuir exponencialmente a cada passo de tempo:

$$
\frac{\partial L}{\partial \theta} \approx \left( \prod_{t=1}^T \frac{\partial h_t}{\partial h_{t-1}} \right) \frac{\partial L}{\partial h_T}
$$

Se $ \frac{\partial h_t}{\partial h_{t-1}} $ é menor que 1, **os gradientes multiplicados sucessivamente tornam-se muito pequenos**.

Consequências:
- **Dependências de Longo Prazo**: A rede tem dificuldade em aprender dependências de longo prazo, pois as informações dos passos de tempo anteriores são "esquecidas" rapidamente.
- **Treinamento Ineficaz**: O aprendizado se torna muito lento ou estagna.

### Exploding Gradients

O problema de exploding gradients ocorre quando os gradientes se tornam extremamente grandes, causando atualizações instáveis e grandes nos pesos da rede. Isso pode resultar em números muito grandes ou NaNs durante o treinamento.

Se as derivadas das funções de ativação ou dos pesos são maiores que 1, os gradientes podem aumentar exponencialmente a cada passo de tempo:

$$
\frac{\partial L}{\partial \theta} \approx \left( \prod_{t=1}^T \frac{\partial h_t}{\partial h_{t-1}} \right) \frac{\partial L}{\partial h_T}
$$

Se $ \frac{\partial h_t}{\partial h_{t-1}} $ é maior que 1, **os gradientes multiplicados sucessivamente tornam-se muito grandes**.

Consequências:
- **Instabilidade no Treinamento**: Pesos muito grandes podem causar oscilações na função de perda, dificultando a convergência.
- **Numéricos NaNs**: Gradientes muito grandes podem causar overflow, resultando em NaNs e falha no treinamento.

### Técnicas para Mitigar Vanishing e Exploding Gradients

1. **Inicialização Adequada dos Pesos**: Usar técnicas de inicialização como Xavier ou He que são projetadas para manter os gradientes em uma faixa adequada.

2. **Funções de Ativação Adequadas**: Usar funções de ativação como ReLU, que ajudam a mitigar o problema de vanishing gradients em comparação com funções como sigmoid ou tanh.

3. **Normalização dos Gradientes**: Gradient Clipping, ou seja, limitar o valor máximo dos gradientes durante o backpropagation para evitar exploding gradients:
  $$
  \text{if } ||\nabla L|| > \text{threshold} \text{ then } \nabla L = \frac{\nabla L}{||\nabla L||} \times \text{threshold}
  $$

4. **Arquiteturas Recorrentes Avançadas**: **LSTM (Long Short-Term Memory)** e **GRU (Gated Recurrent Unit)**: Essas arquiteturas incluem mecanismos internos de controle de fluxo de informações, ajudando a manter os gradientes estáveis e preservando informações de longo prazo.

Imagine que você está treinando um RNN para prever a próxima palavra em uma frase. Se o gradiente desaparece, **o modelo se torna incapaz de aprender** a influência de palavras anteriores (por exemplo, lembrar que "não" precede "gosta" para prever "não gosta"). Se o gradiente explode, o modelo fica instável e suas previsões se tornam erráticas.

Resumo:
- **Vanishing Gradients**: Gradientes diminuem exponencialmente, dificultando o aprendizado de dependências de longo prazo.
- **Exploding Gradients**: Gradientes aumentam exponencialmente, causando instabilidade e problemas numéricos no treinamento.
- **Mitigação**: Inicialização adequada dos pesos, uso de funções de ativação adequadas, normalização dos gradientes e uso de arquiteturas avançadas como LSTM e GRU.

Entender e lidar com vanishing e exploding gradients é crucial para treinar RNNs de maneira eficaz e alcançar bom desempenho em tarefas de modelagem de linguagem.

## LSTM Architecture

LSTM ou Long Short-Term Memory é uma arquitetura de rede neural recorrente (RNN) especialmente **projetada para superar os problemas de vanishing e exploding gradients** que podem ocorrer durante o treinamento de redes recorrentes tradicionais. LSTMs são eficazes na captura de dependências de longo prazo em dados sequenciais.

A estrutura básica de uma célula LSTM é mais complexa do que uma célula RNN tradicional. Cada célula LSTM possui uma série de "portões" que controlam o fluxo de informações. Esses portões são:

1. **Portão de Esquecimento (Forget Gate)**: Decide quais informações da célula anterior devem ser esquecidas.
2. **Portão de Entrada (Input Gate)**: Decide quais novas informações serão armazenadas na célula.
3. **Portão de Saída (Output Gate)**: Decide quais informações da célula serão usadas para a saída.

Componentes Principais:
- **Estado da Célula ($ C_t $)**: Armazena informações a longo prazo.
- **Estado Oculto ($ h_t $)**: Armazena informações para o próximo passo de tempo.

As aplicações desse modelo incluem:
- Next character prediction
- Chatbots
- Music Compositon
- Image Captioning
- Speech Recognition

### Portões do LSTM

<img src="./imgs/lstm_gates.png">


#### 1. Portão de Esquecimento
Decide quais partes do estado da célula devem ser esquecidas:
$$
f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)
$$
Onde $ \sigma $ é a função sigmoide, $ W_f $ são os pesos do portão de esquecimento, $ h_{t-1} $ é o estado oculto anterior, $ x_t $ é a entrada atual e $ b_f $ é o viés.

#### 2. Portão de Entrada
Decide quais novas informações serão armazenadas no estado da célula:
$$
i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)
$$
$$
\tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)
$$
Onde $ i_t $ é o vetor de atualização da célula e $ \tilde{C}_t $ é o vetor de candidatos a novas informações.

#### 3. Atualização do Estado da Célula
Atualiza o estado da célula combinando o estado anterior modificado pelo portão de esquecimento e o novo candidato modificado pelo portão de entrada:
$$
C_t = f_t \cdot C_{t-1} + i_t \cdot \tilde{C}_t
$$

#### 4. Portão de Saída
Decide quais informações do estado da célula serão usadas para a saída:
$$
o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)
$$
$$
h_t = o_t \cdot \tanh(C_t)
$$

### Resumo das Operações

1. **Esquecimento**: Parte do estado da célula anterior é esquecida.
2. **Atualização**: Novas informações relevantes são adicionadas ao estado da célula.
3. **Saída**: O estado da célula atualizado é usado para produzir o estado oculto atual, que também pode ser usado como saída.

### Diagrama da Célula LSTM

Um diagrama típico de uma célula LSTM mostra a interação entre esses portões e o fluxo de informações. Cada portão é uma camada neural com uma função de ativação específica (sigmoide para $ f_t $, $ i_t $, $ o_t $ e tanh para $ \tilde{C}_t $ e $ h_t $).

### Intuição por Trás das LSTMs

- **Portão de Esquecimento**: Permite que a célula decida quais informações antigas são relevantes o suficiente para serem mantidas.
- **Portão de Entrada**: Permite que a célula decida quais novas informações devem ser adicionadas ao estado.
- **Portão de Saída**: Permite que a célula decida quais informações do estado devem ser usadas para a saída atual.

### Vantagens das LSTMs

- **Aprendizagem de Dependências de Longo Prazo**: Graças à estrutura dos portões, LSTMs podem capturar dependências de longo prazo de maneira mais eficaz do que RNNs tradicionais.
- **Controle Fino do Fluxo de Informação**: Os portões fornecem um mecanismo para controlar o fluxo de informações dentro da célula, mitigando os problemas de vanishing e exploding gradients.

### Aplicações das LSTMs

- **Processamento de Linguagem Natural (NLP)**: Tradução automática, geração de texto, análise de sentimentos.
- **Reconhecimento de Fala**: Transcrição de fala para texto.
- **Séries Temporais**: Previsão de séries temporais, como preços de ações e dados meteorológicos.
- **Visão Computacional**: Descrição de imagens e vídeos.

### Resumo

- **LSTM**: Uma arquitetura de rede neural recorrente que usa portões para controlar o fluxo de informações, permitindo a captura de dependências de longo prazo.
- **Componentes Principais**: Portões de esquecimento, entrada e saída, estado da célula e estado oculto.
- **Vantagens**: Mitiga problemas de vanishing e exploding gradients, captura dependências de longo prazo, controle fino do fluxo de informações.

As LSTMs são uma ferramenta poderosa para modelagem de dados sequenciais, proporcionando melhorias significativas em diversas aplicações práticas.

Ler [Understanding LSTM Networks](https://colah.github.io/posts/2015-08-Understanding-LSTMs/)

## Named Entity Recognition

A tarefa de Reconhecimento de Entidades Nomeadas (NER) envolva a extração e localização de entidades pré-definidas no texto. Isso permite que encontremos termos que representam lugares, organizações, nomes, datas, etc. 

<img src="./imgs/intro_ner.png">

Os sistemas baseados em NER são utilizados para aumentar a eficiência em pesquisa, motores de recomendação, atendimento ao cliente, negociações automáticas (trading), etc.

## Training NERs: Data Processing

O processamento de dados é uma das tarefas mais importantes no treinamento de algoritmos de IA. Para NER, você deve:

- Converta palavras e classes de entidades em arrays:
- Bloco com tokens: Defina o comprimento da sequência para um determinado número e use o token <PAD> para preencher espaços vazios
- Crie um gerador de dados:

Depois de fazer isso, você pode atribuir um número a cada classe e um número a cada palavra.

<img src="./imgs/train_ner1.png">

Treinando um sistema NER:
- Crie um tensor para cada entrada e seu número correspondente
- Coloque-os em lote ==> 64, 128, 256, 512 ...
- Alimente-o em uma unidade LSTM
- Passe a saída por uma camada densa
- Prever usando um log softmax sobre classes K

Aqui está um exemplo da arquitetura:
    
<img src="./imgs/train_ner2.png">    

### Treinamento de um Modelo BERT para Named Entity Recognition (NER)

BERT (Bidirectional Encoder Representations from Transformers) é um modelo de linguagem pré-treinado que alcançou resultados de ponta em várias tarefas de NLP, incluindo Named Entity Recognition (NER). BERT é particularmente poderoso devido à sua capacidade de considerar o contexto bidirecional, o que é crucial para a tarefa de NER.

### Etapas para Treinar um Modelo BERT para NER

#### 1. Preparação dos Dados

1. **Coleta de Dados**:
   - Utilize um corpus anotado para NER, como CoNLL-2003 ou OntoNotes.
   - Cada token deve ser anotado com sua respectiva etiqueta (ex: B-PER, I-PER, B-LOC, O).

2. **Pré-processamento**:
   - Tokenize o texto usando o tokenizer BERT, que divide o texto em subpalavras (WordPiece).
   - Alinhe as etiquetas com os tokens BERT. Se um token é dividido em subtokens, a etiqueta do primeiro token é replicada para todos os subtokens.

#### 2. Configuração do Ambiente

- **Biblioteca**: Utilize a biblioteca `transformers` da Hugging Face, que fornece uma implementação do BERT e utilitários para tarefas de NLP.
- **Framework**: PyTorch ou TensorFlow (a seguir, um exemplo com PyTorch).

#### 3. Carregamento e Configuração do Modelo

1. **Modelo Pré-treinado**:
   - Carregue um modelo BERT pré-treinado (`bert-base-cased` ou `bert-base-uncased`).

2. **Camada de Classificação**:
   - Adicione uma camada linear no topo do BERT para classificar as etiquetas NER.

```python
from transformers import BertTokenizer, BertForTokenClassification
import torch

# Carregue o tokenizer e o modelo BERT pré-treinado
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
model = BertForTokenClassification.from_pretrained('bert-base-cased', num_labels=num_labels)
```

#### 4. Preparação dos Dados para o Modelo

1. **Tokenização**:
   - Tokenize o texto e as etiquetas.

2. **Criação de Tensores**:
   - Converta as sequências tokenizadas e as etiquetas em tensores PyTorch.

```python
def tokenize_and_align_labels(texts, labels, tokenizer, label_map):
    tokenized_inputs = tokenizer(texts, truncation=True, is_split_into_words=True, padding=True)
    labels_aligned = []

    for i, label in enumerate(labels):
        word_ids = tokenized_inputs.word_ids(batch_index=i)
        aligned_labels = [-100 if word_id is None else label_map[label[word_id]] for word_id in word_ids]
        labels_aligned.append(aligned_labels)

    return tokenized_inputs, labels_aligned

# Supondo que texts e labels sejam listas de sentenças e suas respectivas etiquetas
tokenized_inputs, labels_aligned = tokenize_and_align_labels(texts, labels, tokenizer, label_map)

# Converta para tensores
input_ids = torch.tensor(tokenized_inputs['input_ids'])
attention_masks = torch.tensor(tokenized_inputs['attention_mask'])
labels = torch.tensor(labels_aligned)
```

#### 5. Treinamento do Modelo

1. **Definição da Função de Perda e Otimizador**:
   - Use `CrossEntropyLoss` ignorando a etiqueta `-100`.
   - Utilize AdamW como otimizador, que é adequado para modelos de linguagem.

2. **Treinamento**:
   - Realize o treinamento do modelo por várias épocas, alimentando o modelo com minibatches dos dados.

```python
from torch.utils.data import DataLoader, TensorDataset, RandomSampler
from transformers import AdamW, get_linear_schedule_with_warmup

# Crie DataLoader
dataset = TensorDataset(input_ids, attention_masks, labels)
dataloader = DataLoader(dataset, sampler=RandomSampler(dataset), batch_size=16)

# Defina a função de perda e otimizador
optimizer = AdamW(model.parameters(), lr=2e-5)
total_steps = len(dataloader) * epochs
scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=0, num_training_steps=total_steps)
loss_fn = torch.nn.CrossEntropyLoss(ignore_index=-100)

# Treinamento
model.train()
for epoch in range(epochs):
    for batch in dataloader:
        b_input_ids, b_attention_masks, b_labels = batch
        model.zero_grad()
        outputs = model(b_input_ids, attention_mask=b_attention_masks, labels=b_labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()
        scheduler.step()
```

#### 6. Avaliação e Ajuste do Modelo

1. **Avaliação**:
   - Utilize um conjunto de validação para avaliar a precisão, revocação e F1-score do modelo.

2. **Ajustes Finais**:
   - Ajuste os hiperparâmetros (taxa de aprendizado, tamanho do batch, número de épocas) com base nos resultados da avaliação.

#### 7. Inferência

Após o treinamento, o modelo pode ser utilizado para fazer previsões em novos dados.

```python
# Modo de avaliação
model.eval()
with torch.no_grad():
    for batch in test_dataloader:
        b_input_ids, b_attention_masks = batch
        outputs = model(b_input_ids, attention_mask=b_attention_masks)
        predictions = outputs.logits.argmax(dim=-1)
```

### Resumo

- **Preparação dos Dados**: Coleta, anotação e tokenização dos dados.
- **Carregamento do Modelo**: Uso de um modelo BERT pré-treinado com uma camada de classificação adicional.
- **Preparação dos Dados para Treinamento**: Alinhamento das etiquetas e criação de tensores.
- **Treinamento**: Definição da função de perda e otimizador, e treinamento do modelo.
- **Avaliação**: Uso de métricas de desempenho para ajustar o modelo.
- **Inferência**: Utilização do modelo treinado para fazer previsões em novos dados.

O uso de BERT para NER oferece resultados robustos devido à sua capacidade de entender o contexto bidirecional, o que é essencial para identificar e classificar entidades nomeadas de forma precisa.

## Computing Accuracy

### Computando a Acurácia de um Modelo NER

A acurácia de um modelo de reconhecimento de entidades nomeadas (NER) pode ser avaliada através de várias métricas, incluindo precisão, revocação e F1-score. Para computar a acurácia especificamente, você pode considerar a proporção de tokens corretamente classificados em relação ao total de tokens.

#### Passos para Computar a Acurácia de um Modelo NER

1. **Preparação dos Dados de Teste**: Utilize um conjunto de dados de teste anotado que não foi usado durante o treinamento do modelo.
2. **Inferência**: Faça previsões no conjunto de dados de teste usando o modelo treinado.
3. **Comparação de Etiquetas**: Compare as etiquetas preditas com as etiquetas verdadeiras.
4. **Cálculo da Acurácia**: Calcule a acurácia como a proporção de tokens corretamente classificados.

### Implementação em PyTorch Usando BERT

#### 1. Preparação dos Dados de Teste

```python
# Supondo que texts e labels sejam listas de sentenças e suas respectivas etiquetas para o conjunto de teste
tokenized_inputs, labels_aligned = tokenize_and_align_labels(test_texts, test_labels, tokenizer, label_map)

# Converta para tensores
test_input_ids = torch.tensor(tokenized_inputs['input_ids'])
test_attention_masks = torch.tensor(tokenized_inputs['attention_mask'])
test_labels = torch.tensor(labels_aligned)
```

#### 2. Inferência

```python
# Crie DataLoader para o conjunto de teste
test_dataset = TensorDataset(test_input_ids, test_attention_masks, test_labels)
test_dataloader = DataLoader(test_dataset, batch_size=16, shuffle=False)

# Modo de avaliação
model.eval()
all_predictions = []
all_true_labels = []

with torch.no_grad():
    for batch in test_dataloader:
        b_input_ids, b_attention_masks, b_labels = batch
        outputs = model(b_input_ids, attention_mask=b_attention_masks)
        predictions = outputs.logits.argmax(dim=-1)

        # Remova os índices de padding para comparação
        active_logits = predictions.view(-1)
        active_labels = b_labels.view(-1)
        active_attention_masks = b_attention_masks.view(-1)
        
        active_logits = active_logits[active_attention_masks == 1]
        active_labels = active_labels[active_attention_masks == 1]

        all_predictions.extend(active_logits.cpu().numpy())
        all_true_labels.extend(active_labels.cpu().numpy())
```

#### 3. Comparação de Etiquetas

```python
# Converta os arrays de numpy para listas para facilitar a manipulação
all_predictions = list(all_predictions)
all_true_labels = list(all_true_labels)
```

#### 4. Cálculo da Acurácia

```python
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(all_true_labels, all_predictions)
print(f"Acurácia do modelo NER: {accuracy:.2f}")
```

### Resumo

- **Preparação dos Dados de Teste**: Tokenização e conversão para tensores.
- **Inferência**: Uso do modelo para fazer previsões no conjunto de teste.
- **Comparação de Etiquetas**: Comparação das etiquetas preditas com as etiquetas verdadeiras, ignorando os tokens de padding.
- **Cálculo da Acurácia**: Proporção de tokens corretamente classificados sobre o total de tokens.

### Exemplo Completo de Computação da Acurácia

```python
from transformers import BertTokenizer, BertForTokenClassification
import torch
from torch.utils.data import DataLoader, TensorDataset
from sklearn.metrics import accuracy_score

# Função para tokenizar e alinhar etiquetas
def tokenize_and_align_labels(texts, labels, tokenizer, label_map):
    tokenized_inputs = tokenizer(texts, truncation=True, is_split_into_words=True, padding=True)
    labels_aligned = []

    for i, label in enumerate(labels):
        word_ids = tokenized_inputs.word_ids(batch_index=i)
        aligned_labels = [-100 if word_id is None else label_map[label[word_id]] for word_id in word_ids]
        labels_aligned.append(aligned_labels)

    return tokenized_inputs, labels_aligned

# Carregar o tokenizer e o modelo BERT pré-treinado
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
model = BertForTokenClassification.from_pretrained('bert-base-cased', num_labels=num_labels)

# Supondo que test_texts e test_labels sejam listas de sentenças e suas respectivas etiquetas para o conjunto de teste
tokenized_inputs, labels_aligned = tokenize_and_align_labels(test_texts, test_labels, tokenizer, label_map)

# Converta para tensores
test_input_ids = torch.tensor(tokenized_inputs['input_ids'])
test_attention_masks = torch.tensor(tokenized_inputs['attention_mask'])
test_labels = torch.tensor(labels_aligned)

# Crie DataLoader para o conjunto de teste
test_dataset = TensorDataset(test_input_ids, test_attention_masks, test_labels)
test_dataloader = DataLoader(test_dataset, batch_size=16, shuffle=False)

# Modo de avaliação
model.eval()
all_predictions = []
all_true_labels = []

with torch.no_grad():
    for batch in test_dataloader:
        b_input_ids, b_attention_masks, b_labels = batch
        outputs = model(b_input_ids, attention_mask=b_attention_masks)
        predictions = outputs.logits.argmax(dim=-1)

        # Remova os índices de padding para comparação
        active_logits = predictions.view(-1)
        active_labels = b_labels.view(-1)
        active_attention_masks = b_attention_masks.view(-1)
        
        active_logits = active_logits[active_attention_masks == 1]
        active_labels = active_labels[active_attention_masks == 1]

        all_predictions.extend(active_logits.cpu().numpy())
        all_true_labels.extend(active_labels.cpu().numpy())

# Cálculo da acurácia
accuracy = accuracy_score(all_true_labels, all_predictions)
print(f"Acurácia do modelo NER: {accuracy:.2f}")
```

Este código cobre todo o processo de preparação dos dados, inferência e cálculo da acurácia para um modelo BERT treinado para a tarefa de NER.

# Week 3

## Siamese Networks

Redes Siamesas são uma arquitetura de redes neurais que consistem em duas ou mais redes gêmeas, ou idênticas, que compartilham os mesmos pesos e parâmetros. Essas redes são usadas para aprender representações que permitem comparar pares de entradas. 

Observe que no primeiro exemplo abaixo, as duas frases significam a mesma coisa, mas possuem palavras completamente diferentes. Já no segundo caso, as duas frases significam coisas completamente diferentes, mas têm palavras muito semelhantes. Enquanto que os algoritmos de classificação aprendem o que torna um input o que ele é, as **redes siamesas** aprendem o que torna **dois** inputs o que eles são.

<img src="./imgs/phrases_ex.png">


### Estrutura das Redes Siamesas

A estrutura básica de uma rede siamesa inclui:

1. **Redes Idênticas**: As redes idênticas têm a mesma arquitetura e compartilham os mesmos pesos. Isso significa que as mesmas transformações são aplicadas em ambas as entradas.

2. **Camada de Comparação**: Após passar pelas redes idênticas, as representações geradas são comparadas usando uma função de distância, como a distância Euclidiana ou Cosine.

3. **Função de Perda**: A função de perda é projetada para minimizar a distância entre representações de entradas semelhantes e maximizar a distância entre representações de entradas diferentes.

### Aplicações das Redes Siamesas

1. **Reconhecimento Facial**: Comparar imagens de rostos para verificar se são da mesma pessoa.

2. **Verificação de Assinaturas**: Comparar assinaturas manuscritas para verificar sua autenticidade.

3. **Detecção de Plágio**: Comparar documentos para detectar similaridade de conteúdo.

4. **Correspondência de Documentos**: Comparar documentos para encontrar correspondências ou duplicatas.

### Funcionamento das Redes Siamesas

1. **Entrada de Pares**: Dois exemplos de assinatura (A e B) são dados como entrada ao sistema.

2. **Processamento pelas Redes Gêmeas**: As duas assinaturas passam por duas redes idênticas que compartilham os mesmos pesos. Cada rede transforma a entrada em uma representação vetorial (embedding).

3. **Cálculo da Distância**: As representações vetoriais das duas assinaturas são comparadas usando uma função de distância, como a distância Euclidiana.

4. **Função de Perda**: A função de perda é configurada para minimizar a distância entre representações de assinaturas da mesma pessoa e maximizar a distância entre representações de assinaturas de pessoas diferentes.

### Exemplo de Implementação

Vamos considerar um exemplo simples usando PyTorch para ilustrar uma rede siamesa.

#### 1. Definição da Rede Neural

```python
import torch
import torch.nn as nn
import torch.nn.functional as F

class SiameseNetwork(nn.Module):
    def __init__(self):
        super(SiameseNetwork, self).__init__()
        # Primeira camada convolucional (entrada com 1 canal, saída com 64 canais, kernel 10x10)
        self.conv1 = nn.Conv2d(1, 64, kernel_size=10)
        self.conv2 = nn.Conv2d(64, 128, kernel_size=7)
        self.conv3 = nn.Conv2d(128, 128, kernel_size=4)
        self.conv4 = nn.Conv2d(128, 256, kernel_size=4)
        # Primeira camada totalmente conectada (entrada com 256*6*6 neurônios, saída com 4096 neurônios)
        self.fc1 = nn.Linear(256*6*6, 4096)
        # Segunda camada totalmente conectada (entrada com 4096 neurônios, saída com 1 neurônio)
        self.fc2 = nn.Linear(4096, 1)
    
    def forward_once(self, x):
        # Passa a entrada pela primeira camada convolucional seguida por ReLU e max pooling
        x = F.relu(self.conv1(x))
        x = F.max_pool2d(x, (2, 2))
        x = F.relu(self.conv2(x))
        x = F.max_pool2d(x, (2, 2))
        x = F.relu(self.conv3(x))
        x = F.max_pool2d(x, (2, 2))
        x = F.relu(self.conv4(x))
        # Achata a saída para um vetor
        x = x.view(x.size()[0], -1)
        # Passa a entrada pela primeira camada totalmente conectada seguida por ReLU
        x = F.relu(self.fc1(x))
        return x
    
    def forward(self, input1, input2):
        # Passa os dois inputs pelas redes idênticas
        output1 = self.forward_once(input1)
        output2 = self.forward_once(input2)
        return output1, output2
```

#### 2. Função de Distância e Perda

```python
class ContrastiveLoss(nn.Module):
    def __init__(self, margin=1.0):
        super(ContrastiveLoss, self).__init__()
        self.margin = margin
    
    def forward(self, output1, output2, label):
        euclidean_distance = F.pairwise_distance(output1, output2)
        loss = torch.mean((1-label) * torch.pow(euclidean_distance, 2) +
                          (label) * torch.pow(torch.clamp(self.margin - euclidean_distance, min=0.0), 2))
        return loss
```

#### 3. Treinamento da Rede Siamesa

```python
# Exemplo de treinamento
model = SiameseNetwork()
criterion = ContrastiveLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

# Suponha que `train_loader` seja um DataLoader que fornece pares de imagens e seus rótulos
for epoch in range(num_epochs):
    for i, data in enumerate(train_loader, 0):
        img0, img1, label = data
        optimizer.zero_grad()
        output1, output2 = model(img0, img1)
        loss = criterion(output1, output2, label)
        loss.backward()
        optimizer.step()
```

Em resumo

- **Arquitetura**: Redes Siamesas consistem em duas redes idênticas que compartilham os mesmos pesos e são usadas para aprender representações comparáveis.
- **Aplicações**: São usadas em várias tarefas de comparação e verificação, como reconhecimento facial, verificação de assinaturas e detecção de plágio.
- **Funcionamento**: As entradas são processadas pelas redes gêmeas, comparadas usando uma função de distância, e treinadas para minimizar uma função de perda específica.

Redes Siamesas são poderosas para tarefas que envolvem comparação e verificação, aproveitando a capacidade de aprender representações discriminativas através de treinamento supervisionado.

## Architecture

A arquitetura do modelo de uma rede siamesa típica poderia ser a seguinte:

<img src="./imgs/siamese_architecture.png">

Essas duas sub-redes são redes irmãs que se unem para produzir uma pontuação de similaridade. Nem todas as redes siamesas serão projetadas para conter LSTMs. Uma coisa a lembrar é que as sub-redes compartilham parâmetros idênticos. Isso significa que você só precisa treinar **um** conjunto de pesos e não dois. As sub-redes idênticas compartilham os mesmos pesos, ou seja, **as mesmas camadas** como as convolucionais, totalmente conectadas, etc., **são aplicadas a ambas as entradas**. Isso significa que **as atualizações de pesos durante o treinamento são aplicadas igualmente a ambas as sub-redes**.

A saída de cada sub-rede é um vetor. Podemos então executar a saída por meio de uma **função de similaridade de cosseno** para obter a pontuação de similaridade.

## Cost Function

Podemos computar a função de custo com o **triplet loss** para redes siamesas. O triplet utiliza busca e três exemplos: Anchor, Positive e Negative. Os pesos do modelo devem ser ajustados de uma forma que o Anchor e o Positivo tenham similaridade de cosseno próximo de 1, enquanto que o Anchor e o Negative devem ter a similaridade próximo de -1. **Minimizar a diferença entre A e N e A e P é equivalente a maximizar a similaridade entre A e P, enquanto minimiza A e P**, já que quanto maior similaridade de A e P e quanto menor a similaridade de A e N, mais próximo de zero essa diferença será. A equação que se busca minimizar é a seguinte:

<img src="./imgs/triplet1.png">

Note que se o $cos(A, P) = 1$ e $cos(A, N) = -1$, então a equação é menor que zero. Mas se o cos(A, P) desvia de 1 e cos(A, N) desvia de -1, podemos acabar com um custo que é maior que zero.

<img src="./imgs/triplet2.png">

A triplet loss é uma função de perda usada para treinar modelos de aprendizado de máquina, especialmente em tarefas de reconhecimento facial, verificação de identidade, e outras tarefas de comparação. Ela funciona selecionando três exemplos (um triplet) a cada passo do treinamento: um âncora (anchor), um exemplo positivo (positive) e um exemplo negativo (negative). O objetivo é fazer com que a distância entre a âncora e o exemplo positivo seja menor do que a distância entre a âncora e o exemplo negativo, por pelo menos uma margem especificada.

Componentes do Triplet Loss:

1. **Anchor (A)**: Um exemplo de entrada.
2. **Positive (P)**: Um exemplo que é similar ao anchor (da mesma classe).
3. **Negative (N)**: Um exemplo que é dissimilar ao anchor (de uma classe diferente).

A função de perda triplet é definida como:

$$ \text{loss} = \max(0, \| f(A) - f(P) \|^2 - \| f(A) - f(N) \|^2 + \text{margin}) $$

Onde:
- $ f(\cdot) $ representa a função de transformação (ou embeddagem) do modelo.
- $ \| f(A) - f(P) \|^2 $ é a distância entre o embedding da âncora e o embedding do exemplo positivo.
- $ \| f(A) - f(N) \|^2 $ é a distância entre o embedding da âncora e o embedding do exemplo negativo.
- $ \text{margin} $ é um valor que define o quanto a distância entre a âncora e o exemplo negativo deve ser maior que a distância entre a âncora e o exemplo positivo.

O objetivo da triplet loss é garantir que:

- As representações (embeddings) de exemplos da mesma classe estejam próximas no espaço de embeddings.
- As representações de exemplos de classes diferentes estejam distantes no espaço de embeddings.

A margem é um hiperparâmetro que define o quanto a distância entre a âncora e o exemplo negativo deve ser maior do que a distância entre a âncora e o exemplo positivo. Isso ajuda a criar um "espaço" entre classes diferentes. Como Funciona:

1. **Forward Pass**: Passe o anchor, o positive, e o negative pela rede para obter seus embeddings.
2. **Cálculo das Distâncias**: Calcule a distância entre o embedding do anchor e do positive. Calcule a distância entre o embedding do anchor e do negative.
3. **Cálculo da Perda**: Calcule a triplet loss usando a fórmula acima. A perda será zero se a distância entre o anchor e o negative for maior que a distância entre o anchor e o positive por pelo menos a margem.
4. **Backward Pass e Atualização dos Pesos**: Calcule os gradientes e atualize os pesos da rede.

Exemplo de Implementação em PyTorch

```python
import torch
import torch.nn as nn
import torch.nn.functional as F

class TripletLoss(nn.Module):
    def __init__(self, margin=1.0):
        super(TripletLoss, self).__init__()
        self.margin = margin
    
    def forward(self, anchor, positive, negative):
        positive_distance = F.pairwise_distance(anchor, positive)
        negative_distance = F.pairwise_distance(anchor, negative)
        loss = torch.mean(torch.relu(positive_distance - negative_distance + self.margin))
        return loss

# Exemplo de uso
anchor = torch.randn(10, 128)   # 10 exemplos, dimensão do embedding 128
positive = torch.randn(10, 128) # 10 exemplos, dimensão do embedding 128
negative = torch.randn(10, 128) # 10 exemplos, dimensão do embedding 128

criterion = TripletLoss(margin=1.0)
loss = criterion(anchor, positive, negative)

print("Triplet Loss:", loss.item())
```

A triplet loss é uma poderosa função de perda que ajuda a treinar modelos para aprender embeddings discriminativos, garantindo que exemplos da mesma classe estejam próximos uns dos outros no espaço de embeddings e exemplos de classes diferentes estejam distantes. Isso é especialmente útil em tarefas de verificação e identificação, como reconhecimento facial e verificação de assinaturas.

## Triplets

A seleção de hard triplets durante o treinamento com triplet loss ajuda a focar o modelo nos exemplos mais desafiadores. Isso força o modelo a ajustar seus pesos de forma mais precisa, resultando em uma melhor capacidade de distinguir entre exemplos positivos e negativos, mesmo quando as similaridades são muito próximas. Essa abordagem otimiza o treinamento, permitindo que o modelo aprenda de forma mais robusta e eficaz.

## Computing The Cost

Para computar o custo, podemos preparar o batch da seguinte forma

<img src="./imgs/computing_cost1.png">

Note que cada exemplo da esquerda tem um exemplo similar a direita (significam o mesmo), mas nenhum em nenhuma das colunas os exemplos são similares entre si. Podemos calcular a matriz de similaridade entre cada par possível nas colunas esquerda e direita.

<img src="./imgs/computing_cost2.png">

A linha diagonal corresponde a pontuações de sentenças semelhantes (normalmente deveriam ser positivas). As fora-diagonais correspondem às pontuações de cosseno entre a **âncora e os exemplos negativos**.

Agora que temos a matrix scores de similaridade de cossenos, que é o produto de duas matrizes, podemos seguir com a computação do custo.

<img src="./imgs/computing_cost3.png">

- O **mean_neg** é simplesmente a média dos valores **off-diagonal** de cada linha (sem o valor diagonal). 
- Já o **closest_neg** é o valor off-diagonal mais alto (mas menor que) o valor da diagonal.

$$ \text{Cost} = \max(- cos(A, P) + cos(A, N) + \alpha, 0)$$

Agora, teremos dois custos:

$$ \text{Cost1} = \max(- cos(A, P) + \text{mean_neg} + \alpha, 0)$$

$$ \text{Cost2} = \max(- cos(A, P) + \text{closest_neg} + \alpha, 0)$$

O custo total é definido como **Cost1 + Cost2**

## One Shot Learning

One Shot Learning é uma técnica de aprendizado de máquina que visa ensinar um modelo a reconhecer ou classificar novos objetos a partir de apenas um ou poucos exemplos. Isso contrasta com as abordagens tradicionais de aprendizado de máquina, que geralmente requerem grandes quantidades de dados de treinamento para alcançar um bom desempenho. O One Shot Learning é particularmente útil em situações onde **a coleta de muitos exemplos de treinamento é difícil, custosa ou impraticável**.

Imagine que voce trabalha em um banco e precisa verificar a assinatura em documentos. Poderíamos construir um modelo para classificar as assinaturas com K possíveis assinaturas como outputs, ou poderíamos simplesmente classificar que as duas assinaturas (real e input) são diferentes. Em vez de treinar novamente seu modelo para cada assinatura, você pode **simplesmente aprender uma pontuação de similaridade** da seguinte forma:

<img src="./imgs/osl1.png">
<img src="./imgs/osl2.png">

## Training / Testing

(implementa usando o quora duplicate dataset)

# Referência
- Natural Language Processing with Sequence Models, disponível em https://www.coursera.org/learn/sequence-models-in-nlp

# Licença
- CC BY-SA 2.0 LEGAL CODE. Attribution-ShareAlike 2.0 Generic
- Para detalhes sobre a licença, verifique https://creativecommons.org/licenses/by-sa/2.0/legalcode