# Natural Language Processing with Attention Models

Notas sobre o curso Natural Language Processing with Attention Models da DeeplearninigAI. O notebook é composto majoritariamente de material original, salvo as figuras, que foram criadas pela **Deep Learning AI** e disponibilizadas em seu curso.

# Week 1 - Neural Machine Translation

## Seq2seq

Os modelos Seq2Seq (Sequence-to-Sequence) são amplamente utilizados em tarefas de tradução automática (machine translation) e outras tarefas de NLP que envolvem a conversão de uma sequência de entrada em uma sequência de saída. Eles foram inicialmente propostos para tarefas como tradução automática, onde uma sequência de palavras em uma língua (entrada) é convertida em uma sequência de palavras em outra língua (saída). A arquitetura básica é composta por dois componentes principais:

- **Encoder**: Transforma a sequência de entrada em um vetor de contexto.
- **Decoder**: Utiliza o vetor de contexto para gerar a sequência de saída.

<img src="./imgs/seq2seq.png">

### Arquitetura Seq2Seq

#### Encoder

O encoder é tipicamente uma rede recorrente (RNN, LSTM, GRU) que lê a sequência de entrada token por token e gera um vetor de contexto que representa a informação da sequência inteira.

- **Inputs**: Sequência de entrada $X = (x_1, x_2, ..., x_n)$.
- **Outputs**: Vetor de contexto $C$ e estado oculto $h_t$ em cada passo de tempo.

<img src="./imgs/seq2seq_encoder.png">

#### Decoder

O decoder é outra rede recorrente que gera a sequência de saída um token por vez, **usando o vetor de contexto do encoder** e o **estado oculto anterior do decoder**. A sequencia de entrada no decoder inicia com token $\text{<SOS>}$ (Start of Sequence)

- **Inputs**: O vetor de contexto do encoder, o estado oculto anterior e o token de entrada anterior.
- **Outputs**: Token de saída e novo estado oculto.

<img src="./imgs/seq2seq_decoder.png">

#### Attention

O mecanismo de atenção foi introduzido para melhorar a performance dos modelos Seq2Seq, permitindo que o modelo foque em diferentes partes da entrada enquanto gera cada token da saída.

- **Atenção Básica**: Calcula um conjunto de pesos de atenção que indicam a importância de cada token da sequência de entrada para a geração do próximo token da saída.
- **Context Vector**: Um vetor de contexto ponderado é calculado como uma combinação linear dos estados ocultos do encoder, ponderado pelos pesos de atenção.

Matematicamente, a atenção pode ser descrita da seguinte maneira:
$$ \alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k=1}^{T_x} \exp(e_{ik})} $$
onde $e_{ij} = a(s_{i-1}, h_j)$ é a função de alinhamento que pode ser um simples perceptron.

<img src="./imgs/seq2seq_attention.png">

### Aplicação em Machine Translation

Na tradução automática, o processo funciona da seguinte maneira:

1. **Encoding**: O encoder lê a sequência de entrada (frase na língua de origem) e gera um vetor de contexto.
2. **Attention**: Durante a decodificação, o mecanismo de atenção calcula os pesos de atenção que focam nas partes relevantes da sequência de entrada.
3. **Decoding**: O decoder gera a sequência de saída (frase na língua de destino), token por token, utilizando o vetor de contexto ponderado pela atenção.

### Exemplo Simplificado

1. **Entrada**: "I love NLP"
2. **Encoding**: O encoder gera vetores de estado oculto para cada token e um vetor de contexto geral.
3. **Attention**: Para cada token gerado na saída, calcula-se a importância de cada token da entrada.
4. **Decoding**: Gera a saída "Yo amo PLN" utilizando os vetores de contexto e atenção.

### Benefícios do Mecanismo de Atenção

- **Melhora a Tradução**: Permite que o modelo foque nas partes mais relevantes da entrada.
- **Mitiga Problemas de Longas Sequências**: Ajuda a manter a informação relevante mesmo em sequências longas.

Os modelos Seq2Seq com atenção são fundamentais para muitas tarefas de NLP, especialmente a tradução automática. A arquitetura básica de encoder-decoder, aprimorada com o mecanismo de atenção, permite que esses modelos lidem eficazmente com a complexidade das sequências de linguagem natural.

## Queries, Keys, Values, and Attention

A camada de atenção calcula um **vetor de atenção que pondera a importância de cada token da sequência de entrada para a geração de cada token da sequência de saída**. 

#### Inputs da Camada de Atenção

A camada de atenção recebe três inputs principais:
- **Queries (Q)**: Vetores de consulta que representam os tokens da **sequência de saída** atual.
- **Keys (K)**: Vetores de chave que representam os tokens da **sequência de entrada**.
- **Values (V)**: Vetores de valor que também representam os tokens da **sequência de entrada**.

<img src="./imgs/qkv.png">

Em um modelo Seq2Seq com atenção, **os estados ocultos do decoder são usados como Queries**, enquanto **os estados ocultos do encoder são usados como Keys e Values**.

#### Cálculo das Similaridades (Scores)

Primeiro, calculamos uma pontuação (score) ou alinhamento que mede a **similaridade entre cada par de query e key**. Uma função de similaridade comum é o produto escalar (dot product):

$$ \text{score}(Q, K) = QK^T $$

Outra opção é o produto escalar escalado (scaled dot product), que é comum em Transformers:

$$ \text{score}(Q, K) = \frac{QK^T}{\sqrt{d_k}} $$

onde $ d_k $ é a dimensão dos vetores de chave.

#### Normalização dos scores

As pontuações escaladas são então normalizadas usando a função softmax para obter os pesos de atenção:

$$ \alpha = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) $$

Isso transforma as pontuações escaladas em um conjunto de pesos que somam 1, facilitando a interpretação como probabilidades.

#### Cálculo dos Pesos de Atenção

As pontuações são então normalizadas usando uma função softmax para obter os pesos de atenção, que representam a importância relativa de cada token de entrada para cada token de saída:

$$ \alpha_{ij} = \frac{\exp(\text{score}(q_i, k_j))}{\sum_{k=1}^{n} \exp(\text{score}(q_i, k_k))} $$

onde $ \alpha_{ij} $ é o peso de atenção para o $ i $-ésimo token de saída e o $ j $-ésimo token de entrada.

#### Cálculo do Vetor de Contexto

Finalmente, os pesos de atenção são usados para calcular uma combinação ponderada dos vetores de valor:

$$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$

O resultado é uma matriz que representa a combinação ponderada dos valores, ajustada de acordo com a relevância calculada pelas pontuações de atenção.

Os pesos de atenção são então usados para calcular uma **combinação ponderada dos vetores de valor**, resultando em um vetor de contexto para cada token de saída:

$$ \text{context}_i = \sum_{j=1}^{n} \alpha_{ij} v_j $$

#### Atenção Multi-cabeça (Multi-head Attention)

Em arquiteturas como Transformers, é comum usar várias cabeças de atenção para capturar diferentes tipos de relações entre tokens. Cada cabeça de atenção realiza o processo descrito acima de forma independente, e os resultados são concatenados e transformados:

$$ \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \text{head}_2, ..., \text{head}_h)W^O $$

onde cada cabeça de atenção $ \text{head}_i $ é calculada como:

$$ \text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V) $$

### Tipos de Atenção

Existem diferentes variações do mecanismo de atenção, incluindo:

1. **Self-attention**: Quando Queries, Keys e Values vêm da mesma sequência. Utilizado principalmente em Transformers.
2. **Cross-attention**: Quando Queries vêm de uma sequência (ex. saída) e Keys/Values vêm de outra (ex. entrada). Utilizado em modelos Seq2Seq com atenção.

### Implementação Simplificada

Aqui está um exemplo de implementação simplificada de uma camada de atenção em pseudo-código:

```python
def attention(Q, K, V):
    # Cálculo das pontuações
    scores = dot_product(Q, K.T) / sqrt(d_k)
    
    # Normalização das pontuações
    attention_weights = softmax(scores, axis=-1)
    
    # Cálculo do vetor de contexto
    context = dot_product(attention_weights, V)
    
    return context, attention_weights
```

### Benefícios da Camada de Atenção

- **Foco Dinâmico**: Permite que o modelo se concentre nas partes mais relevantes da entrada.
- **Eficiência Computacional**: Self-attention, especialmente em Transformers, é altamente paralelizável.
- **Flexibilidade**: Pode ser adaptada para várias tarefas de NLP, como tradução, resumo e resposta a perguntas.

### Conclusão

A camada de atenção é um componente poderoso que melhora a capacidade dos modelos de NLP em capturar dependências complexas dentro das sequências de entrada. Ao permitir que o modelo foque dinamicamente nas partes mais relevantes da entrada, a atenção desempenha um papel crucial em muitos dos avanços recentes em NLP.

## Material complementar
- [Visualizando a atenção, o coração de um transformador](https://www.youtube.com/watch?v=eMlx5fFNoYc)
- [Atenção para Redes Neurais, Claramente Explicadas!!!](https://www.youtube.com/watch?v=PSs6nxngL6k)
- [The math behind Attention: Keys, Queries, and Values matrices](https://www.youtube.com/watch?v=UPtG_38Oq8o&t=669s)
- [The Transformer neural network architecture EXPLAINED. “Attention is all you need”](https://www.youtube.com/watch?v=FWFA4DGuzSc)

## Teacher Forcing

Teacher forcing é uma técnica utilizada durante o treinamento de modelos de sequência para sequência (Seq2Seq), como aqueles usados em tradução automática, síntese de texto e outras tarefas de processamento de linguagem natural. 

Teacher forcing refere-se ao **uso da sequência de saída real (ground truth) como entrada para o próximo passo do decodificador**, em vez de usar a saída gerada pelo próprio modelo na etapa anterior. Isso ajuda o modelo a aprender mais rapidamente e de maneira mais estável.

1. **Treinamento Sem Teacher Forcing**:
   - No treinamento sem teacher forcing, o modelo gera uma palavra na sequência de saída com base nas palavras anteriores que ele próprio gerou.
   - Esse método pode levar a problemas se o modelo fizer um erro, pois erros podem se propagar ao longo da sequência, causando previsões cada vez menos precisas.

2. **Treinamento Com Teacher Forcing**:
   - No treinamento com teacher forcing, **o modelo usa a palavra correta da sequência de treinamento como entrada para o próximo passo, independentemente de sua própria previsão**.
   - Isso fornece ao modelo informações corretas em cada etapa, ajudando-o a aprender a sequência de forma mais eficiente e evitando a propagação de erros.

<img src="./imgs/teacher_forcing.png">


### Benefícios do Teacher Forcing

- **Aprendizagem Mais Rápida**: Fornecendo entradas corretas em cada passo, o modelo pode aprender a sequência-alvo de maneira mais eficiente.
- **Estabilidade no Treinamento**: Reduz o impacto de erros na geração de sequência, o que pode ajudar na convergência mais estável do modelo.

### Desvantagens do Teacher Forcing

- **Diferença entre Treinamento e Inferência**: Durante a inferência (teste), o modelo não terá acesso às sequências de saída reais e terá que confiar em suas próprias previsões. Isso pode levar a uma discrepância entre o desempenho de treinamento e de inferência, conhecida como "exposição ao viés".
- **Dependência do Ground Truth**: O modelo pode se tornar excessivamente dependente das sequências de saída corretas fornecidas durante o treinamento, o que pode prejudicar seu desempenho em cenários reais onde tais dados não estão disponíveis.

### Mitigação de Desvantagens

Para mitigar as desvantagens do teacher forcing, técnicas como **scheduled sampling** podem ser utilizadas. No scheduled sampling, o modelo é treinado usando uma mistura de suas próprias previsões e das saídas corretas (ground truth). Com o tempo, a proporção de saídas do modelo aumenta, ajudando-o a aprender a corrigir seus próprios erros e a se tornar mais robusto durante a inferência.

### Exemplo de Teacher Forcing

Vamos considerar um exemplo de tradução automática:

- **Entrada**: "I love NLP"
- **Saída Esperada**: "Eu amo PLN"

Sem teacher forcing, o decodificador geraria a tradução palavra por palavra, usando suas próprias previsões anteriores para prever a próxima palavra.

Com teacher forcing, durante o treinamento, mesmo que o modelo preveja incorretamente "Eu amo" como "Eu gostar", o próximo passo ainda usaria "amo" (a palavra correta) como entrada para prever a próxima palavra ("PLN").

Por fim, o teacher forcing é uma técnica poderosa no treinamento de modelos Seq2Seq que ajuda a melhorar a eficiência e a estabilidade do treinamento ao fornecer a sequência de saída correta em cada passo. No entanto, deve ser usado com cautela devido às possíveis diferenças entre os ambientes de treinamento e de inferência.

## BLEU Score

O Bilingual Evaluation Understudy ou **BLEU score** é uma métrica popular para avaliar a qualidade de traduções automáticas. Ela compara uma frase traduzida por um modelo (tradução automática) com uma ou mais traduções de referência (traduções humanas) e calcula uma pontuação baseada na precisão de n-gramas. O BLEU é **focado na precisão** e não considera a estrutura da sentença ou semântica.

1. **N-gram Precision**:
   - O BLEU calcula a precisão dos n-gramas da tradução gerada pelo modelo em relação às traduções de referência.
   - Um n-gram é uma sequência de n palavras.
   - Por exemplo, para bigramas (n=2), as sequências são pares de palavras consecutivas.

2. **Clipping**:
   - Para evitar a inflação da precisão devido à repetição de n-gramas na tradução gerada, o BLEU aplica um "clipping". Isso limita o número de vezes que um n-gram pode ser contado com base na frequência máxima desse n-gram nas referências.

3. **Brevity Penalty**:
   - O BLEU penaliza traduções que são significativamente mais curtas do que as referências. Isso é feito para evitar que traduções muito curtas (que podem ter alta precisão de n-gramas) recebam pontuações altas.

### Cálculo do BLEU Score

1. **Calcular Precisões de N-gramas**:
   - Para cada n-grama (por exemplo, unigramas, bigramas, trigramas, etc.), a precisão é calculada como a **razão entre o número de n-gramas corretos na tradução gerada e o número total de n-gramas na tradução gerada**.

2. **Aplicar Clipping**:
   - Para cada n-grama, limite a contagem ao máximo que ocorre nas referências.

3. **Combinar Precisões**:
   - Combine as precisões de n-gramas de diferentes tamanhos usando uma média geométrica ponderada.

4. **Aplicar Brevity Penalty**:
   - Quando a tradução gerada for mais curta que a referência, é aplicado uma penalidade para ajustar a pontuação final.

A fórmula do BLEU score é:
$$
\text{BLEU} = BP \cdot \exp \left( \sum_{n=1}^{N} w_n \log p_n \right)
$$
Onde:
- $BP$ é a brevity penalty.
- $p_n$ é a precisão dos n-gramas.
- $w_n$ são os pesos (geralmente iguais) para as precisões de n-gramas.

### Avaliação do Modelo com BLEU Score

Para avaliar um modelo de tradução utilizando o BLEU score, podemos seguir esses passos:

1. **Obter Traduções Geradas pelo Modelo**: Traduzir um conjunto de frases de teste utilizando o modelo treinado.
2. **Obter Traduções de Referência**: Utilizar traduções humanas como referências para cada frase de teste.
3. **Calcular o BLEU Score**: Utilizar uma biblioteca de NLP, como `nltk` ou `sacrebleu`, para calcular o BLEU score comparando as traduções geradas com as referências.

### Exemplo em Python usando NLTK

```python
import nltk
from nltk.translate.bleu_score import sentence_bleu, corpus_bleu

# Traduções de referência (humanas)
references = [
    ["this is a test".split(), "this is a trial".split()],
    ["another test sentence".split()]
]

# Traduções geradas pelo modelo
candidates = [
    "this is a test".split(),
    "another test sentence".split()
]

# BLEU score para cada frase
for i in range(len(candidates)):
    print(f"Sentence {i+1} BLEU score: {sentence_bleu(references[i], candidates[i])}")

# BLEU score para o corpus
print(f"Corpus BLEU score: {corpus_bleu(references, candidates)}")
```

O BLEU score é uma métrica poderosa para avaliar traduções automáticas, fornecendo uma maneira quantitativa de comparar traduções geradas com traduções de referência. No entanto, ele tem limitações, como não capturar bem a fluência ou a adequação semântica das traduções, motivo pelo qual é frequentemente utilizado em conjunto com outras métricas e avaliações qualitativas.

## ROUGE-N Score

O Recall-Oriented Understudy for Gisting Evaluation ou ROUGE é um conjunto de métricas utilizadas para avaliar a qualidade de resumos e traduções automáticas, comparando-os com um ou mais resumos de referência (resumos humanos). Entre as variantes do ROUGE, o **ROUGE-N** é um dos mais comuns, onde **N** representa o tamanho dos n-gramas. O ROUGE é focado no **recall**, a métrica busca identificar o quanto da referencia aparece na tradução candidata, e também não considera a estrutura da sentença ou semântica..

O ROUGE-N **calcula a sobreposição de n-gramas entre um resumo gerado automaticamente e um ou mais resumos de referência**. Especificamente, ROUGE-N considera n-gramas comuns entre a saída do modelo e as referências, medindo tanto a precisão quanto o recall, mas frequentemente focando no recall.

#### Fórmulas do ROUGE-N

- **ROUGE-N (Recall)**:
  $$
  \text{ROUGE-N} = \frac{\sum_{\text{ref} \in \text{References}} \sum_{\text{n-gram} \in \text{ref}} \min(\text{Count}_{\text{n-gram}}^{\text{model}}, \text{Count}_{\text{n-gram}}^{\text{ref}})}{\sum_{\text{ref} \in \text{References}} \sum_{\text{n-gram} \in \text{ref}} \text{Count}_{\text{n-gram}}^{\text{ref}}}
  $$

Onde:
- $\text{Count}_{\text{n-gram}}^{\text{model}}$ é a contagem de um n-gram específico no resumo gerado pelo modelo.
- $\text{Count}_{\text{n-gram}}^{\text{ref}}$ é a contagem do mesmo n-gram em uma das referências.

### Passos para Calcular o ROUGE-N

1. **Tokenização**: Divida tanto a saída do modelo quanto as referências em tokens.
2. **Contagem de N-gramas**: Calcule a frequência de cada n-grama em ambas as saídas.
3. **Sobreposição de N-gramas**: Encontre a sobreposição de n-gramas entre a saída do modelo e as referências.
4. **Cálculo do ROUGE-N**: Use a fórmula do ROUGE-N para calcular a métrica.

### Exemplo de Avaliação usando ROUGE-N com Python

Para calcular o ROUGE-N, você pode usar a biblioteca `rouge-score` do Google ou outras implementações, como `py-rouge`.

#### Usando `rouge-score`

Primeiro, instale a biblioteca:
```bash
pip install rouge-score
```

Em seguida, utilize o seguinte código para calcular o ROUGE-N:

```python
from rouge_score import rouge_scorer

# Traduções de referência (humanas)
references = [
    "this is a test",
    "another test sentence"
]

# Traduções geradas pelo modelo
candidates = [
    "this is a test",
    "a different test sentence"
]

# Inicialize o avaliador ROUGE-N
scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2'], use_stemmer=True)

# Calcule o ROUGE-N para cada par de resumo gerado e de referência
for ref, cand in zip(references, candidates):
    scores = scorer.score(ref, cand)
    print(f"Reference: {ref}")
    print(f"Candidate: {cand}")
    print(f"ROUGE-1: {scores['rouge1']}")
    print(f"ROUGE-2: {scores['rouge2']}")
    print("---")
```

#### Saída Esperada:
```plaintext
Reference: this is a test
Candidate: this is a test
ROUGE-1: Score(precision=1.0, recall=1.0, fmeasure=1.0)
ROUGE-2: Score(precision=1.0, recall=1.0, fmeasure=1.0)
---
Reference: another test sentence
Candidate: a different test sentence
ROUGE-1: Score(precision=0.6, recall=0.6, fmeasure=0.6)
ROUGE-2: Score(precision=0.5, recall=0.5, fmeasure=0.5)
---
```

O ROUGE-N score é uma métrica eficiente e amplamente utilizada para avaliar a qualidade de resumos e traduções automáticas, medindo a sobreposição de n-gramas entre as saídas geradas pelo modelo e as referências humanas. Ele é particularmente útil para tarefas onde a correspondência exata de n-gramas é importante, como a sumarização e tradução de textos. A implementação do ROUGE-N é direta e pode ser facilmente realizada utilizando bibliotecas disponíveis em Python.

## F1 Score

Como o BLEU é focado em precisão e o ROUGE-N é focado no recall, podemos combinar ambos e ter o F1 Score

<img src="./imgs/f1_score.png">

## Sampling and Decoding

O Beam Search é uma técnica de **busca heurística** utilizada em modelos de tradução automática, sumarização, e outras tarefas de processamento de linguagem natural que envolvem a geração de sequências. Ele é especialmente útil para encontrar a sequência mais provável de palavras (ou tokens) que o modelo pode gerar, dado um estado inicial.

O Beam Search expande a ideia de busca em largura, mantendo um número fixo de caminhos candidatos (ou hipóteses) em cada etapa da geração da sequência. Esse número é chamado de **beam width**. Em vez de explorar todas as possíveis expansões de cada estado, o Beam Search mantém apenas os melhores caminhos, reduzindo a complexidade computacional.

### Etapas do Beam Search

1. **Inicialização**:
   - Começa com o estado inicial (geralmente o token `<sos>` ou um estado oculto inicial).
   - Atribui uma pontuação (log-probabilidade) inicial a este estado.

2. **Expansão**:
   - Para cada estado atual no conjunto de caminhos candidatos, expande todas as possíveis próximas palavras (ou tokens).
   - Calcula as pontuações dessas novas sequências, geralmente somando a log-probabilidade da nova palavra à pontuação do caminho até o momento.

3. **Seleção**:
   - Entre todas as novas sequências geradas, seleciona as `beam width` melhores com base nas suas pontuações.
   - Descartam-se os caminhos com pontuações mais baixas.

4. **Repetição**:
   - Repete os passos de expansão e seleção até que se atinja um critério de parada, como gerar um token de parada (`<eos>`) ou atingir um número máximo de etapas.

5. **Decodificação Final**:
   - Após a última etapa, seleciona o caminho com a maior pontuação entre os caminhos candidatos restantes como a sequência gerada final.

### Exemplo Simples

Imagine um modelo de tradução onde queremos traduzir a frase "I am" para outra língua. Vamos utilizar o Beam Search com `beam width` de 2.

**Passo 1: Inicialização**
- Estado inicial: `<sos>`
- Caminhos candidatos: [(`<sos>`, 0)]

**Passo 2: Expansão e Seleção (Primeira Iteração)**
- Expande `<sos>` para todas as palavras possíveis: "Je", "Tu", "Il", ...
- Calcula as pontuações dessas expansões.
- Seleciona os 2 melhores: [("Je", -1.2), ("Tu", -1.5)]

**Passo 3: Expansão e Seleção (Segunda Iteração)**
- Expande cada um dos melhores candidatos: "Je suis", "Je vais", "Tu es", "Tu vas", ...
- Calcula as pontuações acumuladas dessas expansões.
- Seleciona os 2 melhores: [("Je suis", -2.0), ("Je vais", -2.3)]

**Passo 4: Repetição**
- Continua expandindo e selecionando até atingir o critério de parada (número máximo de tokens ou token de parada).

### Vantagens do Beam Search

1. **Equilíbrio entre Exploration e Exploitation**: Mantém múltiplos caminhos candidatos, evitando prender-se a escolhas subótimas iniciais.
2. **Melhoria da Qualidade da Sequência Gerada**: Aumenta a probabilidade de encontrar sequências mais naturais e coerentes em comparação com a busca gulosa (greedy search).
3. **Controle de Complexidade**: O parâmetro `beam width` controla diretamente a quantidade de memória e tempo de computação necessários.

### Desvantagens do Beam Search

1. **Custo Computacional**: Mesmo com `beam width` moderado, pode ser computacionalmente intensivo.
2. **Hipóteses Subótimas**: Ainda pode manter caminhos que eventualmente se tornam subótimos em comparação com a busca exaustiva.

### Implementação em Python com PyTorch

Aqui está um exemplo simplificado de implementação de Beam Search com um modelo seq2seq com atenção:

```python
import torch

def beam_search(model, src, beam_width=3, max_len=20):
    # Inicialização
    src = src.unsqueeze(0)  # Adicionar dimensão de batch
    encoder_outputs, hidden, cell = model.encoder(src)
    
    # Inicializar o beam com o estado inicial
    beams = [([], hidden, cell, 0)]  # Cada beam é (seq, hidden, cell, score)

    for _ in range(max_len):
        new_beams = []
        for seq, hidden, cell, score in beams:
            # Se o token de parada foi gerado, mantenha o caminho
            if seq and seq[-1] == model.eos_token:
                new_beams.append((seq, hidden, cell, score))
                continue

            # Expansão
            trg_input = torch.LongTensor([model.sos_token] if not seq else [seq[-1]]).unsqueeze(0)
            output, hidden, cell = model.decoder(trg_input, hidden, cell, encoder_outputs)
            topk = output.topk(beam_width)

            # Adicionar novos caminhos ao beam
            for i in range(beam_width):
                next_seq = seq + [topk[1][0][i].item()]
                next_score = score + topk[0][0][i].item()
                new_beams.append((next_seq, hidden, cell, next_score))

        # Selecionar os beam_width melhores caminhos
        beams = sorted(new_beams, key=lambda x: x[-1], reverse=True)[:beam_width]

    # Retornar o melhor caminho
    return beams[0][0]
```

O Beam Search é uma técnica poderosa para a geração de sequências, melhorando a qualidade das saídas de modelos em tarefas de tradução e sumarização ao explorar múltiplos caminhos possíveis. Ele equilibra a eficiência computacional com a qualidade das sequências geradas, tornando-se uma escolha popular em muitos sistemas de NLP.

## Beam Search

## Minimum Bayes Risk

## Ungraded Lab: Stack Semantics

## Neural Machine Translation

## NMT with Attention

# Week 2

# Week 3

# Week 4

# Referência
- Natural Language Processing with Attention Models, disponível em https://www.coursera.org/learn/probabilistic-models-in-nlp

# Licença
- CC BY-SA 2.0 LEGAL CODE. Attribution-ShareAlike 2.0 Generic
- Para detalhes sobre a licença, verifique https://creativecommons.org/licenses/by-sa/2.0/legalcode