# Natural Language Processing with Probabilistic Models

Notas sobre o curso Natural Language Processing with Classification and Vector Spaces da DeeplearninigAI. O notebook é composto majoritariamente de material original, salvo as figuras, que foram criadas pela **Deep Learning AI** e disponibilizadas em seu curso.

# Week 1 - Autocorrect

## Learning Objectives
- Word probabilities
- Dynamic programming
- Minimum edit distance
- Autocorrect

## Autocorrect

A autocorreção em NLP é uma técnica que corrige automaticamente erros ortográficos ou de digitação em texto. Ela é amplamente utilizada em aplicativos de mensagens, processadores de texto e mecanismos de busca para melhorar a experiência do usuário. Ela é geralmente implementada usando modelos de **linguagem probabilísticos**, como os modelos de N-gramas. Esses modelos calculam a probabilidade de uma sequência de palavras e sugerem a sequência mais provável, dada uma palavra mal digitada. Eles são treinados em grandes corpora de texto para aprender padrões comuns na linguagem.

<img src="./imgs/autocorrect_phone.png">


Para implementar um sistema de autocorreção, precisamos seguir as seguintes etapas:

1. **Identificação do Erro:**
   - O primeiro passo é identificar que uma palavra pode estar incorreta. Isso é feito comparando a palavra digitada com um dicionário ou usando técnicas mais avançadas, como distância de edição/edit distance (Levenshtein), que mede a diferença entre duas palavras com base nas operações necessárias para transformar uma na outra (inserção, exclusão, substituição).

2. **Sugestão de Correção:**
   - Uma vez identificado o erro, o sistema de autocorreção sugere uma ou mais correções com base na probabilidade das palavras no contexto. Isso pode ser feito usando modelos de N-gramas, onde a probabilidade de uma palavra é calculada com base nas palavras anteriores.

3. **Escolha da Melhor Correção:**
   - A sugestão de correção é escolhida com base em critérios como a probabilidade da palavra correta no contexto, a distância de edição mínima da palavra digitada e outras heurísticas.

4. **Aplicação da Correção:**
   - A correção é então aplicada ao texto, substituindo a palavra mal digitada pela palavra correta.

**Exemplos**

1. **Erro de Digitação Simples:**
   - **Texto Digitado:** "Eu gosto de mangaa."
   - **Correção Proposta:** "Eu gosto de manga."
   - **Explicação:** O sistema identifica que "mangaa" pode ser um erro de digitação para "manga" com base na proximidade no teclado e sugere a correção.

2. **Inversão de Letras:**
   - **Texto Digitado:** "Estarmos esperndo por você."
   - **Correção Proposta:** "Estaremos esperando por você."
   - **Explicação:** O sistema percebe que "esperndo" pode ser um erro de inversão de letras em "esperando" e sugere a correção.

3. **Erros de Espaçamento:**
   - **Texto Digitado:** "Nãoseinada"
   - **Correção Proposta:** "Não sei nada"
   - **Explicação:** O sistema identifica que "Nãoseinada" pode ser uma combinação de palavras e sugere a separação correta.

**Limitações**
- **Palavras Fora do Vocabulário:** Se uma palavra está muito fora do vocabulário do modelo, a autocorreção pode falhar em sugerir a correção correta.
- **Ambiguidade:** Em casos de ambiguidade, onde várias correções são possíveis, a autocorreção pode sugerir uma correção incorreta.
- **Contexto Limitado:** Modelos de N-gramas têm um contexto limitado, então a autocorreção pode não capturar nuances mais complexas da linguagem.

## Building the model

### Métodos de Identificação de Palavras Erradas

Identificar palavras erradas é o primeiro passo crucial no processo de autocorreção em NLP. Isso envolve a detecção de erros ortográficos, de digitação, e até erros gramaticais. Vamos explorar os métodos mais comuns para identificar palavras erradas, com explicações e exemplos.


1. **Comparação com um Dicionário:**
   - **Descrição:** Um método básico é comparar cada palavra do texto com um dicionário de palavras válidas. Se uma palavra não estiver no dicionário, é marcada como errada.
   - **Exemplo:** Se o texto contiver "applle", a palavra "applle" não será encontrada no dicionário e será marcada como incorreta.


2. **Distância de Edição (Levenshtein):**
   - **Descrição:** A distância de edição mede quantas operações (inserção, deleção, substituição) são necessárias para transformar uma palavra em outra. Palavras com uma pequena distância de edição em relação a palavras do dicionário são consideradas erradas.
   - **Exemplo:** A palavra "bok" tem uma distância de edição de 1 em relação a "book" (substituição de 'k' por 'o'), indicando um possível erro de digitação.


3. **Modelos de N-gramas:**
   - **Descrição:** Modelos de N-gramas podem identificar palavras erradas com base na improbabilidade de uma sequência de palavras. Se uma palavra resulta em uma sequência de N-gramas que raramente ocorre no corpus de treinamento, pode ser considerada errada.
   - **Exemplo:** Em "I have a blak cat", a sequência "a blak cat" pode ser menos provável que "a black cat", indicando que "blak" pode estar errado.


4. **Redes Neurais e Modelos de Linguagem:**
   - **Descrição:** Modelos de linguagem avançados, como BERT ou GPT, podem identificar palavras erradas ao avaliar a coerência do contexto. Eles são treinados em grandes quantidades de texto e podem detectar palavras que não fazem sentido no contexto dado.
   - **Exemplo:** Em "She drived the car", um modelo de linguagem pode identificar que "drived" é incorreto no contexto e sugerir "drove".

#### Exemplos Práticos de Identificação de Palavras Erradas

1. **Exemplo com Dicionário:**
   - **Texto:** "I am lerning NLP."
   - **Identificação:** A palavra "lerning" não está no dicionário.
   - **Correção Proposta:** "I am learning NLP."

2. **Exemplo com Distância de Edição:**
   - **Texto:** "He went to the shcool."
   - **Identificação:** A palavra "shcool" tem uma distância de edição de 1 em relação a "school".
   - **Correção Proposta:** "He went to the school."

3. **Exemplo com Modelos de N-gramas:**
   - **Texto:** "The quick brown fox jmps over the lazy dog."
   - **Identificação:** A sequência "fox jmps" é muito improvável.
   - **Correção Proposta:** "The quick brown fox jumps over the lazy dog."

4. **Exemplo com Modelos de Linguagem:**
   - **Texto:** "He gived her a gift."
   - **Identificação:** O modelo de linguagem identifica que "gived" não faz sentido no contexto e sugere "gave".
   - **Correção Proposta:** "He gave her a gift."

#### Considerações

- **Palavras Novas ou Jargões:** Palavras que são novas, jargões ou nomes próprios podem não estar em um dicionário, levando a falsos positivos.
- **Erros Contextuais:** Alguns erros só podem ser identificados corretamente no contexto adequado, o que modelos de linguagem mais avançados fazem melhor.
- **Desempenho:** Métodos mais avançados, como modelos de linguagem, geralmente têm melhor desempenho, mas requerem mais poder computacional e dados para treinamento.


Identificar palavras erradas é um processo que pode ser feito de várias maneiras, desde métodos simples como comparação com um dicionário até técnicas avançadas envolvendo modelos de linguagem. Cada método tem seus prós e contras, e a escolha do método adequado depende do contexto e dos requisitos específicos da aplicação.

### Cálculo da Distância de Edição

A distância de edição, ou distância de Levenshtein, é uma métrica que mede o quão diferentes duas strings são, calculando o número mínimo de operações necessárias para transformar uma string em outra. As operações permitidas são inserção, deleção e substituição de caracteres.

O algoritmo de Levenshtein usa uma abordagem de programação dinâmica para calcular a distância de edição entre duas strings. Aqui está uma descrição do algoritmo:

1. **Inicialização:**
   - Crie uma matriz $d$ de tamanho $(m+1) \times (n+1)$, onde $m$ é o comprimento da primeira string $s$ e $n$ é o comprimento da segunda string $t$.
   - Inicialize $d[i][0] = i$ para $i = 0, 1, ..., m$.
   - Inicialize $d[0][j] = j$ para $j = 0, 1, ..., n$.

2. **Recorrência:**
   - Para cada $i = 1, ..., m$ e $j = 1, ..., n$:
     - Se $s[i-1] = t[j-1]$, então $custo = 0$; caso contrário, $custo = 1$.
     - $d[i][j] = \min(d[i-1][j] + 1, d[i][j-1] + 1, d[i-1][j-1] + custo)$.

3. **Resultado:**
   - A distância de edição é encontrada em $d[m][n]$.

#### Implementação em Python

Aqui está uma implementação do cálculo da distância de edição em Python:

```python
def distancia_de_edicao(s, t):
    m = len(s)
    n = len(t)
    
    # Criação da matriz
    d = [[0 for _ in range(n + 1)] for _ in range(m + 1)]
    
    # Inicialização da matriz
    for i in range(m + 1):
        d[i][0] = i
    for j in range(n + 1):
        d[0][j] = j
    
    # Preenchimento da matriz com os valores de distância
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if s[i - 1] == t[j - 1]:
                custo = 0
            else:
                custo = 1
            d[i][j] = min(d[i - 1][j] + 1,  # Deleção
                          d[i][j - 1] + 1,  # Inserção
                          d[i - 1][j - 1] + custo)  # Substituição
    
    # Distância de edição é encontrada na última célula da matriz
    return d[m][n]

# Exemplos
s1 = "kitten"
s2 = "sitting"
print(f"Distância de edição entre '{s1}' e '{s2}': {distancia_de_edicao(s1, s2)}")

s3 = "flaw"
s4 = "lawn"
print(f"Distância de edição entre '{s3}' e '{s4}': {distancia_de_edicao(s3, s4)}")
```

#### Exemplos Práticos

1. **Exemplo 1:**
   - **Strings:** "kitten" e "sitting"
   - **Cálculo:** Transformar "kitten" em "sitting" envolve as operações:
     - Substituir 'k' por 's': "sitten"
     - Substituir 'e' por 'i': "sittin"
     - Inserir 'g' no final: "sitting"
   - **Distância de Edição:** 3

2. **Exemplo 2:**
   - **Strings:** "flaw" e "lawn"
   - **Cálculo:** Transformar "flaw" em "lawn" envolve as operações:
     - Substituir 'f' por 'l': "law"
     - Inserir 'n' no final: "lawn"
   - **Distância de Edição:** 2

#### Visualização da Matriz

Para ilustrar como a matriz $d$ é preenchida, vejamos o exemplo das strings "kitten" e "sitting":

```
     '' s i t t i n g
  '' 0  1 2 3 4 5 6 7
  k  1  1 2 3 4 5 6 7
  i  2  2 1 2 3 4 5 6
  t  3  3 2 1 2 3 4 5
  t  4  4 3 2 1 2 3 4
  e  5  5 4 3 2 2 3 4
  n  6  6 5 4 3 3 2 3
```

A distância de edição é uma métrica poderosa para comparar a similaridade entre duas strings, sendo amplamente utilizada em tarefas de NLP, como correção ortográfica e reconhecimento de padrões. O algoritmo de Levenshtein é eficiente e fácil de implementar, fornecendo uma base sólida para muitas aplicações de processamento de texto.

[Vídeo](https://www.youtube.com/watch?v=kyeyjPlKzJM) com explicação intuitiva

### Métodos para Filtrar Palavras Candidatas

Filtrar palavras candidatas é um passo crucial após identificar palavras erradas para fornecer sugestões de correção. Este processo envolve gerar uma lista de possíveis correções para uma palavra mal escrita e, em seguida, classificar ou selecionar as melhores opções com base em vários critérios. Aqui estão os principais métodos para filtrar palavras candidatas, com explicações e exemplos.


1. **Distância de Edição:**
   - **Descrição:** Calcular a distância de edição entre a palavra errada e cada palavra do dicionário. As palavras com a menor distância de edição são consideradas as melhores candidatas.
   - **Exemplo:** Para a palavra "speling", palavras como "spelling" (distância 1) e "spieling" (distância 2) seriam consideradas, com "spelling" sendo a melhor candidata devido à menor distância de edição.

2. **N-gramas e Modelos de Linguagem:**
   - **Descrição:** Utilizar modelos de N-gramas ou modelos de linguagem para avaliar a probabilidade das palavras candidatas no contexto da frase.
   - **Exemplo:** Em "I have a blak cat", o modelo pode sugerir "black" como correção para "blak" porque "a black cat" é uma sequência mais comum e provável do que "a blak cat".

3. **Frequência no Corpus:**
   - **Descrição:** As palavras candidatas são classificadas com base na sua frequência em um corpus de texto. Palavras mais comuns são mais prováveis de serem correções corretas.
   - **Exemplo:** Se "hte" foi digitado incorretamente e "the" é muito mais frequente no corpus do que outras combinações possíveis, "the" será a principal sugestão.

4. **Contexto Semântico:**
   - **Descrição:** Analisar o contexto semântico utilizando embeddings de palavras ou modelos contextuais (como BERT) para selecionar palavras que façam sentido no contexto da frase.
   - **Exemplo:** Em "I visited the captial city", o modelo pode sugerir "capital" em vez de "captial" porque "visited the capital city" faz sentido semanticamente.

#### Implementação em Python

Vamos ver como esses métodos podem ser combinados para filtrar palavras candidatas. Para simplificação, usaremos apenas a distância de edição e a frequência no corpus neste exemplo.

1. Calcular a distância de edição para cada palavra do dicionário.
2. Classificar palavras por distância de edição.
3. Utilizar frequência no corpus para ordenar palavras com a mesma distância.

```python
def distancia_de_edicao(s, t):
    m = len(s)  # Comprimento da primeira string
    n = len(t)  # Comprimento da segunda string

    # Inicializa uma matriz (m+1) x (n+1) com zeros
    d = [[0 for _ in range(n + 1)] for _ in range(m + 1)]

    # Inicializa a primeira coluna da matriz
    for i in range(m + 1):
        d[i][0] = i

    # Inicializa a primeira linha da matriz
    for j in range(n + 1):
        d[0][j] = j

    # Preenche a matriz com os valores de distância de edição
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if s[i - 1] == t[j - 1]:
                custo = 0  # Nenhum custo se os caracteres são iguais
            else:
                custo = 1  # Custo de substituição se os caracteres são diferentes
            d[i][j] = min(d[i - 1][j] + 1,    # Custo de deleção
                          d[i][j - 1] + 1,    # Custo de inserção
                          d[i - 1][j - 1] + custo)  # Custo de substituição

    return d[m][n]  # Retorna a distância de edição entre as duas strings

def filtrar_candidatos(palavra_errada, dicionario, frequencia_corpus):
    candidatos = []
    # Calcula a distância de edição para cada palavra do dicionário
    for palavra in dicionario:
        dist = distancia_de_edicao(palavra_errada, palavra)
        candidatos.append((palavra, dist))  # Adiciona a palavra e sua distância à lista de candidatos

    # Ordena os candidatos primeiro pela distância de edição e depois pela frequência no corpus (em ordem decrescente)
    candidatos.sort(key=lambda x: (x[1], -frequencia_corpus.get(x[0], 0)))

    # Retorna apenas as palavras candidatas, sem as distâncias
    return [candidato[0] for candidato in candidatos]

# Exemplo de dicionário e frequências
dicionario = ["spelling", "spieling", "selling", "smiling"]
frequencia_corpus = {"spelling": 500, "spieling": 5, "selling": 300, "smiling": 150}

# Palavra errada
palavra_errada = "speling"

# Filtrar palavras candidatas
candidatos = filtrar_candidatos(palavra_errada, dicionario, frequencia_corpus)
print(f"Candidatos para '{palavra_errada}': {candidatos}")

```

#### Exemplos Práticos

1. **Exemplo 1:**
   - **Palavra Errada:** "speling"
   - **Dicionário:** ["spelling", "spieling", "selling", "smiling"]
   - **Frequência no Corpus:** {"spelling": 500, "spieling": 5, "selling": 300, "smiling": 150}
   - **Candidatos:** ["spelling", "selling", "smiling", "spieling"]

2. **Exemplo 2:**
   - **Palavra Errada:** "recieve"
   - **Dicionário:** ["receive", "recipe", "recite"]
   - **Frequência no Corpus:** {"receive": 1000, "recipe": 400, "recite": 50}
   - **Candidatos:** ["receive", "recipe", "recite"]

#### Considerações

- **Balanceamento entre Precisão e Performance:** Calcular a distância de edição para um grande dicionário pode ser computacionalmente caro. Técnicas como truncagem de dicionário ou uso de índices podem melhorar a performance.
- **Combinação de Critérios:** Usar múltiplos critérios (distância de edição, frequência no corpus, contexto semântico) pode aumentar a precisão das sugestões.
- **Personalização:** Ajustar a frequência do corpus com base no domínio específico (por exemplo, termos médicos para um dicionário médico) pode melhorar os resultados.


Filtrar palavras candidatas é um processo multifacetado que combina técnicas de comparação de strings, análise de frequência e compreensão contextual. Implementar uma abordagem robusta pode significativamente melhorar a precisão das sugestões de correção em sistemas de autocorreção e outras aplicações de NLP.

### Métodos para Calcular as Probabilidades das Palavras

Calcular as probabilidades das palavras é um passo importante para melhorar a precisão de sugestões em tarefas como correção ortográfica. Esse processo envolve a utilização de modelos de linguagem que atribuem uma probabilidade a cada palavra candidata com base em diferentes critérios, como frequência no corpus, contexto e modelos de n-gramas.


1. **Frequência no Corpus:**
   - **Descrição:** As palavras mais frequentes em um grande corpus de texto são consideradas mais prováveis.
   - **Exemplo:** Se a palavra "the" aparece 5000 vezes em um corpus, sua probabilidade é maior do que a de uma palavra que aparece apenas 5 vezes.

<img src="./imgs/calculating_word_prob.png">

2. **Modelos de N-gramas:**
   - **Descrição:** Usar a frequência de sequências de palavras (n-gramas) para calcular a probabilidade de uma palavra em um dado contexto.
   - **Exemplo:** Em um modelo de bigrama, a probabilidade de "cat" seguir "the" pode ser calculada como $(P(cat|the) = \frac{C(the\ cat)}{C(the)} $, onde $C$ denota contagens no corpus.


3. **Modelos de Linguagem Baseados em Redes Neurais:**
   - **Descrição:** Modelos como Word2Vec, GloVe, BERT, ou GPT podem gerar probabilidades para palavras com base em embeddings de palavras e contexto.
   - **Exemplo:** Dado o contexto "I have a bl__ cat", um modelo de linguagem pode calcular a probabilidade de várias palavras preencherem o espaço em branco, como "black", "blue", etc.

#### Implementação em Python

Vamos ver como podemos implementar o cálculo de probabilidades de palavras usando frequências no corpus e um simples modelo de bigrama. Para isso precisamos seguir os seguintes passos:

1. **Frequência no Corpus:** Calcular a probabilidade baseada na frequência relativa da palavra no corpus.
2. **Modelo de Bigramas:** Calcular a probabilidade de uma palavra dado seu contexto anterior usando bigramas.


```python
from collections import Counter, defaultdict

# Corpus de exemplo
corpus = [
    "the cat sat on the mat",
    "the dog sat on the log",
    "the cat chased the dog",
    "the dog barked at the cat"
]

# Função para calcular frequências unigrama e bigrama
def calcular_frequencias(corpus):
    unigramas = Counter()
    bigramas = defaultdict(Counter)
    
    for frase in corpus:
        palavras = frase.split()
        for i in range(len(palavras)):
            unigramas[palavras[i]] += 1
            if i > 0:
                bigramas[palavras[i-1]][palavras[i]] += 1
    
    total_palavras = sum(unigramas.values())
    return unigramas, bigramas, total_palavras

# Calcular frequências no corpus
unigramas, bigramas, total_palavras = calcular_frequencias(corpus)

# Função para calcular probabilidade unigrama
def probabilidade_unigrama(palavra):
    return unigramas[palavra] / total_palavras

# Função para calcular probabilidade bigrama
def probabilidade_bigrama(palavra_anterior, palavra):
    if palavra_anterior in bigramas and palavra in bigramas[palavra_anterior]:
        return bigramas[palavra_anterior][palavra] / unigramas[palavra_anterior]
    else:
        return 0

# Exemplo de cálculo de probabilidades
palavra = "cat"
palavra_anterior = "the"

print(f"Probabilidade unigrama de '{palavra}': {probabilidade_unigrama(palavra)}")
print(f"Probabilidade bigrama de '{palavra}' dado '{palavra_anterior}': {probabilidade_bigrama(palavra_anterior, palavra)}")

output:
Probabilidade unigrama de 'cat': 0.13043478260869565
Probabilidade bigrama de 'cat' dado 'the': 0.375
```

#### Exemplos Práticos

1. **Exemplo 1:**
   - **Palavra:** "cat"
   - **Probabilidade Unigrama:** Calculada como a frequência da palavra "cat" dividida pelo total de palavras no corpus.
   - **Probabilidade Bigrama:** Calculada como a frequência da sequência "the cat" dividida pela frequência de "the".

2. **Exemplo 2:**
   - **Palavra:** "dog"
   - **Probabilidade Unigrama:** Calculada como a frequência da palavra "dog" dividida pelo total de palavras no corpus.
   - **Probabilidade Bigrama:** Calculada como a frequência da sequência "the dog" dividida pela frequência de "the".

#### Considerações

- **Balanceamento de Dados:** Um corpus pequeno ou desequilibrado pode levar a estimativas de probabilidade imprecisas. É importante utilizar um corpus representativo e suficientemente grande.
- **Suavização:** Técnicas de suavização, como Laplace ou Good-Turing, são usadas para lidar com bigramas ou n-gramas que não aparecem no corpus.
- **Modelos Avançados:** Modelos de linguagem baseados em redes neurais (como BERT ou GPT) podem fornecer probabilidades mais precisas ao considerar o contexto completo de uma frase.

Calcular as probabilidades das palavras é um componente essencial em muitas aplicações de NLP, incluindo correção ortográfica e autocompletar. Usando frequências no corpus e modelos de n-gramas, podemos estimar essas probabilidades de forma eficaz. Em aplicações mais avançadas, modelos de linguagem baseados em redes neurais podem proporcionar uma compreensão mais profunda e precisa do contexto, resultando em sugestões de palavras ainda mais acertadas.

## Minimum edit distance

### Operações de Distância Mínima de Edição

A distância mínima de edição (ou distância de Levenshtein) é uma métrica que mede o número mínimo de operações necessárias para transformar uma string em outra. As operações permitidas são inserção, deleção e substituição de caracteres. Vamos detalhar cada operação e como elas são usadas para calcular a distância mínima de edição, seguido de exemplos práticos.


1. **Inserção (Insert):** Adicionar um caractere à string. Exemplo: Transformar "cat" em "cats" requer uma inserção de 's' no final. A operação é `Insert('s')`.

2. **Deleção (Delete):** Remover um caractere da string. Exemplo: Transformar "cats" em "cat" requer uma deleção de 's'. A operação é `Delete('s')`.

3. **Substituição (Replace):** Substituir um caractere por outro. Exemplo: Transformar "cat" em "cut" requer uma substituição de 'a' por 'u'. A operação é `Replace('a', 'u')`.

Podemos atribuir pesos diferentes para cada operação, para assim, buscar otimizar a menor distancia. Por exemplo, atribuir os pesos de 1, 1 e 2 para insert, delete e replace. Para buscar a menor distancia utilizamos o algoritmod e Levenshtein.

<img src="./imgs/edit_distance_w.png">

O algoritmo de Levenshtein usa programação dinâmica para calcular a distância mínima de edição entre duas strings. Como já citado acima, segue os seguintes passos:

1. **Inicialização:**
   - Crie uma matriz `d` de tamanho `(m+1) x (n+1)`, onde `m` é o comprimento da primeira string `s` e `n` é o comprimento da segunda string `t`.
   - Inicialize `d[i][0] = i` para `i = 0, 1, ..., m`.
   - Inicialize `d[0][j] = j` para `j = 0, 1, ..., n`.

2. **Preenchimento da Matriz:**
   - Para cada `i = 1, ..., m` e `j = 1, ..., n`:
     - Se `s[i-1] == t[j-1]`, então `custo = 0`; caso contrário, `custo = 1`.
     - `d[i][j] = min(d[i-1][j] + 1, d[i][j-1] + 1, d[i-1][j-1] + custo)`.

3. **Resultado:**
   - A distância de edição é encontrada em `d[m][n]`.

(Ver #2.3.2.1 a implementação e exemplos)

## Minimum edit distance algorithm

Quando estamos computando a distancia mínima de edição, começamos com a palavra fonte e temos que transformá-la na palavra alvo. 

<img src="./imgs/minimum_edit_target.png">
     
Partindo de # para #, teremos um custo de 0. Partindo de p para #, teremos um custo de 1, porque faremos uma deleção. De p para s, teremos um custo de 2, porque esse é o custo mínimo que se poderia ter para ir de p a s. Podemos continuar assim preenchendo um elemento por vez.

Para preencher a seguinte tabela:

<img src="./imgs/minimum_edit1.png">


Existem três equações:

- $D[i,j] = D[i-1, j] + \text{del_cost}$: indica que você deseja preencher a célula atual (i,j) usando o custo na célula encontrada diretamente acima.

- $D[i,j] = D[i, j-1] + \text{ins_cost}$: indica que você deseja preencher a célula atual (i,j) usando o custo na célula localizada diretamente à sua esquerda.

- $D[i,j] = D[i-1, j-1] + \text{rep_cost}$: o custo rep pode ser 2 ou 0 dependendo se você vai realmente substituí-lo ou não.

A cada passo você verifica os três caminhos possíveis de onde pode vir e seleciona o menos caro. Quando terminar, você obterá o seguinte:

<img src="./imgs/minimum_edit2.png">

# Week 2 - Part of Speech Tagging and Hidden Markov Models

## Part of Speech Tagging (POS Tagging)

**Part of Speech Tagging** (ou marcação de partes do discurso) é o processo de atribuir uma etiqueta a cada palavra de um texto, indicando a sua função gramatical. As etiquetas típicas incluem categorias como substantivo, verbo, adjetivo, advérbio, pronome, preposição, conjunção, entre outros.

O processo de POS Tagging envolve várias etapas:

1. **Tokenização:** Dividir o texto em unidades menores, chamadas tokens (geralmente palavras).
2. **Análise Contextual:** Avaliar o contexto em que cada palavra aparece para determinar a sua função gramatical.
3. **Aplicação de Regras e Modelos Estatísticos:** Utilizar regras linguísticas e/ou modelos treinados em grandes corpora de textos anotados para prever a etiqueta correta.

**Exemplos de POS Tagging**

Considere a frase: 
- ``"The quick brown fox jumps over the lazy dog."``

Após a tokenização e POS Tagging, a frase pode ser anotada da seguinte forma:
- ``The/DT quick/JJ brown/JJ fox/NN jumps/VBZ over/IN the/DT lazy/JJ dog/NN``

Onde:
- DT: Determinante
- JJ: Adjetivo
- NN: Substantivo
- VBZ: Verbo, 3ª pessoa do singular presente
- IN: Preposição

POS tagging possui diversas aplicações, como:

### 1. Named Entity Recognition (NER)

**Named Entity Recognition** é a tarefa de identificar e classificar entidades mencionadas no texto em categorias predefinidas, como nomes de pessoas, organizações, localizações, datas, etc. O POS Tagging é uma etapa importante no NER, pois ajuda a identificar as entidades com base na função gramatical das palavras.

**Exemplo:**
- Texto: "Barack Obama was born in Hawaii."
- NER Resultado: [Barack Obama/PERSON, Hawaii/LOCATION]

### 2. Coreference Resolution

**Coreference Resolution** refere-se à tarefa de identificar quando diferentes expressões no texto referem-se à mesma entidade. O POS Tagging é essencial aqui para identificar pronomes e outras referências que podem apontar para entidades mencionadas anteriormente no texto.

**Exemplo:**
- Texto: "John said he would come. He is very reliable."
- Coreference Resultado: [John -> he]

### 3. Speech Recognition

**Speech Recognition** é o processo de converter áudio em texto. O POS Tagging pode ser usado para melhorar a precisão do reconhecimento, fornecendo pistas contextuais sobre a estrutura gramatical esperada das frases.

**Exemplo:**
- Áudio: "I can see the sea."
- Reconhecimento com POS: "I/PRP can/MD see/VB the/DT sea/NN."

### Como Implementar POS Tagging

Existem várias bibliotecas e ferramentas para realizar POS Tagging. Um exemplo popular é a biblioteca `nltk` (Natural Language Toolkit) em Python.

**Exemplo com `nltk`:**

```python
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

# Texto a ser analisado
texto = "The quick brown fox jumps over the lazy dog."

# Tokenização
tokens = nltk.word_tokenize(texto)

# POS Tagging
tags = nltk.pos_tag(tokens)

# Exibição dos resultados
print(tags)
```

**Saída esperada:**
```
[('The', 'DT'), ('quick', 'JJ'), ('brown', 'JJ'), ('fox', 'NN'), ('jumps', 'VBZ'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'JJ'), ('dog', 'NN')]
```

O POS Tagging é uma ferramenta fundamental em NLP, fornecendo informações gramaticais cruciais que são usadas em várias aplicações avançadas, como NER, Coreference Resolution e Speech Recognition. Ele permite uma análise mais profunda e precisa do texto, facilitando a construção de sistemas que compreendem e processam a linguagem natural de forma mais eficaz.

## Markov Chains

Markov Chains é um tipo de modelo estocástico que descreve a sequência de possíveis eventos. Nele, a probabilidade do evento seguinte, depende apenas do estado do evento anterior. Um estado é a representação da condição no momento presente, e, esse modelo pode ser representado como a estrutura de dados DAG/grafo. Nessa DAG/grafo, cada círculo representa o estado do modelo e as flechas representam a direção. Cada caminho de cada estado possui uma probabilidade.

**Cadeias de Markov** são modelos probabilísticos que descrevem uma sequência de possíveis eventos, onde a probabilidade de cada evento depende apenas do estado atual e não dos eventos anteriores **(propriedade de Markov)**. Em outras palavras, uma cadeia de Markov é um sistema que transita de um estado para outro com base em probabilidades fixas. Esses modelos possuem os seguintes conceitos básicos:

1. **Estados:** Conjunto de todos os possíveis estados do sistema.
2. **Transições:** Mudanças de um estado para outro.
3. **Probabilidades de Transição:** Probabilidades associadas a cada transição entre estados.


Imagine um clima que pode ser "ensolarado", "nublado" ou "chuvoso". As probabilidades de transição entre esses estados podem ser representadas por uma matriz de transição:

|        | Ensolarado | Nublado | Chuvoso |
|--------|-------------|---------|---------|
| **Ensolarado** | 0.8         | 0.15    | 0.05    |
| **Nublado**    | 0.2         | 0.6     | 0.2     |
| **Chuvoso**    | 0.25        | 0.25    | 0.5     |

Se hoje está ensolarado, a probabilidade de estar ensolarado novamente amanhã é 0.8, nublado 0.15 e chuvoso 0.05.

## Markov Chains and POS Tagging

No contexto de **Part of Speech Tagging**, as cadeias de Markov são usadas para modelar as sequências de etiquetas gramaticais (tags). A ideia é que a etiqueta de uma palavra depende da etiqueta da palavra anterior.

<img src="./imgs/markov_chain_words.png">
<img src="./imgs/markov_chain_dag.png">

<img src="./imgs/markov_chain_words_dag.png">
<img src="./imgs/markov_chain_transition_matrix.png">

Na matriz de transição acima, temos 40% de probabilidade da frase iniciar com NN (noun = substantivo), 10% de começar com um verbo e 50% de iniciar com outro POS.

Para encontrar a sequência mais provável de etiquetas em POS Tagging, comummente é utilizado o Algoritmo de Viterbi, usando um modelo de **Cadeia de Markov Oculta (HMM)**.

**Passos do Algoritmo:**

1. **Inicialização:** Definir as probabilidades iniciais para o primeiro estado (etiqueta da primeira palavra).
2. **Recursão:** Para cada palavra subsequente, calcular a probabilidade de cada etiqueta baseada nas etiquetas anteriores e na probabilidade de transição.
3. **Terminação:** Selecionar a sequência de etiquetas com a maior probabilidade.

**Exemplo:**

Considere uma frase "The cat sleeps".

1. **Probabilidades de Emissão:** Probabilidade de uma palavra ser uma certa etiqueta (e.g., P("The"|DT) = 0.9).
2. **Probabilidades de Transição:** Probabilidade de uma etiqueta seguir outra (e.g., P(DT -> NN) = 0.8).

Aplicando o algoritmo de Viterbi, podemos calcular a sequência mais provável de etiquetas: "The/DT cat/NN sleeps/VBZ".

### Código Exemplo de POS Tagging com HMM

Aqui está um exemplo simplificado de como um HMM pode ser usado para POS tagging em Python:

```python
import nltk
from nltk.tag import hmm

# Treinamento de dados de exemplo
train_data = [
    [('The', 'DT'), ('cat', 'NN'), ('sleeps', 'VBZ')],
    [('A', 'DT'), ('dog', 'NN'), ('barks', 'VBZ')],
]

# Criação e treino do modelo HMM
trainer = hmm.HiddenMarkovModelTrainer()
hmm_tagger = trainer.train(train_data)

# Teste com uma nova sentença
test_sentence = ['The', 'dog', 'sleeps']
tagged_sentence = hmm_tagger.tag(test_sentence)
print(tagged_sentence)
```

**Saída esperada:**
```
[('The', 'DT'), ('dog', 'NN'), ('sleeps', 'VBZ')]
```

Este exemplo treina um HMM simples para POS tagging e usa o modelo para etiquetar uma nova sentença.

In [1]:
import nltk
from nltk.tag import hmm

import warnings
warnings.filterwarnings('ignore')
#warnings.filterwarnings('ignore', category=RuntimeWarning)
#%config Application.verbose_crash=False

# Treinamento de dados de exemplo
train_data = [
    [('The', 'DT'), ('cat', 'NN'), ('sleeps', 'VBZ')],
    [('A', 'DT'), ('dog', 'NN'), ('barks', 'VBZ')],
]

# Criação e treino do modelo HMM
trainer = hmm.HiddenMarkovModelTrainer()
hmm_tagger = trainer.train(train_data)

# Teste com uma nova sentença
test_sentence = ['The', 'dog', 'sleeps']
tagged_sentence = hmm_tagger.tag(test_sentence)
print(tagged_sentence)

[('The', 'DT'), ('dog', 'NN'), ('sleeps', 'VBZ')]


### Markov Chains in Speech Recognition

No **Reconhecimento de Fala**, as cadeias de Markov são usadas para modelar a sequência de fonemas ou palavras. Um exemplo comum é o uso de **Modelos de Markov Ocultos (HMMs)** para representar a relação entre o áudio (observações) e as sequências de palavras ou fonemas (estados ocultos).

**Passos no Reconhecimento de Fala:**

1. **Treinamento:** Usar dados de áudio etiquetados para treinar o modelo HMM, ajustando as probabilidades de transição entre fonemas e as probabilidades de emissão de observações (características do áudio).
2. **Decodificação:** Dado um novo trecho de áudio, usar o algoritmo de Viterbi para encontrar a sequência mais provável de fonemas ou palavras que correspondem ao áudio.

**Exemplo:**

Para a frase falada "Hello world":

1. **Probabilidades de Emissão:** Probabilidades de um segmento de áudio ser emitido por um determinado fonema.
2. **Probabilidades de Transição:** Probabilidades de um fonema seguir outro fonema.

Usando HMMs, o sistema pode decodificar o áudio para determinar a sequência de palavras "Hello world".

As Cadeias de Markov, particularmente os Modelos de Markov Ocultos, são ferramentas poderosas em NLP e reconhecimento de fala, permitindo modelar dependências sequenciais em dados. Em POS Tagging, elas ajudam a prever a sequência de etiquetas gramaticais baseadas no contexto, enquanto no reconhecimento de fala, elas facilitam a interpretação de sequências de áudio em texto significativo.

## Hidden Markov Models

**Hidden Markov Model** (HMM) é uma extensão das Cadeias de Markov, onde os estados não são diretamente observáveis (ocultos). Em vez disso, observamos sinais ou evidências que são probabilisticamente dependentes dos estados ocultos. HMM é amplamente utilizado em tarefas como reconhecimento de fala, POS tagging, entre outras. Conceitos Básicos do HMM:

1. **Estados Ocultos:** Conjunto de estados que não são diretamente observáveis.
2. **Observações:** Conjunto de observações que são visíveis e dependem dos estados ocultos.
3. **Probabilidades de Transição:** Probabilidades de transitar de um estado oculto para outro.
4. **Probabilidades de Emissão:** Probabilidades de um estado oculto gerar uma determinada observação.
5. **Probabilidades Iniciais:** Probabilidades de começar em cada estado oculto.

Um HMM é definido por:
- Um conjunto de estados ocultos $ S = \{s_1, s_2, \ldots, s_N\} $ ou $ Q = \{q_1, q_2, \ldots, s_N\} $.
- Um conjunto de observações $ O = \{o_1, o_2, \ldots, o_M\} $.
- Uma matriz de transição $ A $, onde $ A_{ij} $ é a probabilidade de transitar de $ s_i $ para $ s_j $.
- Uma matriz de emissão $ B $, onde $ B_{jk} $ é a probabilidade de observar $ o_k $ dado o estado $ s_j $.
- Um vetor de probabilidades iniciais $ \pi $, onde $ \pi_i $ é a probabilidade inicial de estar no estado $ s_i $.

As **probabilidades de transição** permitiram identificar a probabilidade de transição de um POS para outro. Já nos **modelos de Markov ocultos**, usamos **probabilidades de emissão** que dão a probabilidade de passar de um estado (tag POS) **para uma palavra específica**.

<img src="./imgs/hmm_states.png">


Por exemplo, dado que você está em um estado verb, podemos passar para outras palavras com certas probabilidades. Esta matriz de emissão B será usada com sua matriz de transição A, para ajudar a identificar a classe gramatical de uma palavra em uma frase. Para preencher sua matriz B, podemos simplesmente ter um conjunto de dados rotulado e calcular as probabilidades de ir de um POS para cada palavra do seu vocabulário. 

<img src="./imgs/hmm_matrix.png">

### Aplicações do HMM

No **POS Tagging**, as palavras em uma sentença são as observações e as etiquetas gramaticais (partes do discurso) são os estados ocultos.

Considere a frase "The cat sleeps".

- Observações: ["The", "cat", "sleeps"]
- Estados Ocultos: ["DT", "NN", "VBZ"]

**Passos:**

1. **Inicialização:** Definir probabilidades iniciais para cada etiqueta gramatical (estado oculto).
2. **Transição:** Definir probabilidades de transição entre etiquetas gramaticais.
3. **Emissão:** Definir probabilidades de emissão das palavras dado cada etiqueta gramatical.

No **reconhecimento de fala**, os sinais de áudio (características extraídas do áudio) são as observações e as sequências de palavras ou fonemas são os estados ocultos.

**Exemplo:**

Considere a sequência de áudio correspondente a "Hello world".

- Observações: [características do áudio]
- Estados Ocultos: ["H", "e", "l", "l", "o", " ", "w", "o", "r", "l", "d"]

### Exemplo Prático em Python

Vamos implementar um exemplo simples de HMM para POS tagging usando a biblioteca `hmmlearn`.

```python
import numpy as np
from hmmlearn import hmm

# Definir os estados (etiquetas gramaticais)
states = ["DT", "NN", "VBZ"]
n_states = len(states)

# Definir as observações (palavras)
observations = ["The", "cat", "sleeps"]
n_observations = len(observations)

# Definir as sequências observadas em números
obs_map = {word: idx for idx, word in enumerate(observations)}
obs_seq = [obs_map[word] for word in observations]

# Inicializar o modelo HMM
model = hmm.MultinomialHMM(n_components=n_states, n_iter=100)

# Probabilidades iniciais
model.startprob_ = np.array([0.6, 0.3, 0.1])

# Probabilidades de transição
model.transmat_ = np.array([
    [0.1, 0.8, 0.1],
    [0.3, 0.4, 0.3],
    [0.5, 0.2, 0.3]
])

# Probabilidades de emissão
model.emissionprob_ = np.array([
    [0.6, 0.3, 0.1],
    [0.1, 0.7, 0.2],
    [0.0, 0.0, 1.0]
])

# Ajustar o modelo com a sequência de observação
obs_seq = np.array(obs_seq).reshape(-1, 1)
logprob, state_seq = model.decode(obs_seq, algorithm="viterbi")

# Mapeando os estados de volta para as etiquetas gramaticais
state_map = {idx: state for idx, state in enumerate(states)}
tagged_seq = [state_map[state] for state in state_seq]

print("Observações:", observations)
print("Estados preditos:", tagged_seq)
```

**Saída esperada:**
```
Observações: ['The', 'cat', 'sleeps']
Estados preditos: ['DT', 'NN', 'VBZ']
```

Neste exemplo, usamos um HMM simples para etiquetar uma frase. O HMM é treinado com probabilidades de transição e emissão predefinidas e, em seguida, decodificamos a sequência de observações para encontrar a sequência mais provável de estados ocultos (etiquetas gramaticais).

## Markov Chain vs Hidden Markov Models

Saiba mais em:
https://stackoverflow.com/questions/10748426/what-is-the-difference-between-markov-chains-and-hidden-markov-model

Embora as **Cadeias de Markov** e os **Modelos de Markov Ocultos (HMMs)** compartilhem conceitos fundamentais, como estados e probabilidades de transição, eles são aplicados em diferentes contextos e têm diferenças importantes em termos de visibilidade dos estados e aplicação prática.

### Cadeia de Markov - Definição
Uma **Cadeia de Markov** é um modelo matemático que descreve um processo onde a probabilidade de transição para o próximo estado depende apenas do estado atual, e não dos estados anteriores (propriedade de Markov).

1. **Estados Visíveis:** Todos os estados são diretamente observáveis.
2. **Probabilidades de Transição:** Matriz de transição que define a probabilidade de passar de um estado para outro.
3. **Propriedade de Markov:** A transição para o próximo estado depende apenas do estado atual.

Imagine um sistema climático simplificado com três estados: ensolarado, nublado e chuvoso. A matriz de transição pode ser:

|        | Ensolarado | Nublado | Chuvoso |
|--------|------------|---------|---------|
| **Ensolarado** | 0.8        | 0.15    | 0.05    |
| **Nublado**    | 0.2        | 0.6     | 0.2     |
| **Chuvoso**    | 0.25       | 0.25    | 0.5     |

Se hoje está ensolarado, a probabilidade de amanhã também estar ensolarado é 0.8, nublado é 0.15, e chuvoso é 0.05.

### Modelos de Markov Ocultos (Hidden Markov Models - HMMs) -  Definição
Um **Modelo de Markov Oculto** é uma extensão das Cadeias de Markov, onde os estados não são diretamente observáveis. Em vez disso, observamos sinais ou evidências que são probabilisticamente dependentes dos estados ocultos.

1. **Estados Ocultos:** Os estados não são diretamente observáveis.
2. **Observações Visíveis:** O que observamos são sinais ou evidências que dependem dos estados ocultos.
3. **Probabilidades de Transição:** Matriz de transição que define a probabilidade de passar de um estado oculto para outro.
4. **Probabilidades de Emissão:** Matriz de emissão que define a probabilidade de uma observação ser gerada a partir de um estado oculto.

No contexto de reconhecimento de fala, os estados ocultos podem ser fonemas, enquanto as observações são características extraídas do sinal de áudio.

### Comparação Direta

| Aspecto                   | Cadeia de Markov                  | Modelo de Markov Oculto (HMM)         |
|---------------------------|-----------------------------------|---------------------------------------|
| **Estados**               | Visíveis                          | Ocultos                               |
| **Observações**           | Estados                           | Dependem probabilisticamente dos estados ocultos |
| **Aplicação**             | Modelagem de processos observáveis diretamente | Modelagem de processos onde a sequência de estados não é diretamente observável |
| **Exemplo**               | Clima (ensolarado, nublado, chuvoso) | Reconhecimento de fala (fonemas e áudio)           |

### Aplicações em NLP - Cadeias de Markov
As Cadeias de Markov podem ser usadas em tarefas onde a sequência de estados é observável e a propriedade de Markov (dependência do estado atual) se mantém. Por exemplo:
- **Modelo de Texto:** Gerar texto baseado em bigramas ou trigrama onde cada estado é uma palavra.

#### HMMs
Os HMMs são aplicados em tarefas onde os estados são ocultos e apenas as observações estão disponíveis. Exemplos incluem:
- **Part of Speech Tagging (POS Tagging):** Os estados ocultos são as etiquetas gramaticais, e as observações são as palavras.
- **Reconhecimento de Fala:** Os estados ocultos são os fonemas ou palavras, e as observações são características do áudio.

### Exemplos Práticos - Cadeia de Markov - Modelo de Texto

```python
import random

# Exemplo simples de Cadeia de Markov para geração de texto
def generate_text(model, start_word, length=10):
    current_word = start_word
    result = [current_word]
    
    for _ in range(length - 1):
        current_word = random.choices(list(model[current_word].keys()), list(model[current_word].values()))[0]
        result.append(current_word)
    
    return ' '.join(result)

# Modelo de transição (simplificado)
markov_model = {
    "I": {"am": 1.0},
    "am": {"a": 0.5, "happy": 0.5},
    "a": {"student": 1.0},
    "happy": {"student": 1.0},
    "student": {"I": 1.0}
}

# Gerar texto
print(generate_text(markov_model, "I"))
```

#### HMM - POS Tagging com `hmmlearn`

```python
import numpy as np
from hmmlearn import hmm

# Definir os estados (etiquetas gramaticais)
states = ["DT", "NN", "VBZ"]
n_states = len(states)

# Definir as observações (palavras)
observations = ["The", "cat", "sleeps"]
n_observations = len(observations)

# Definir as sequências observadas em números
obs_map = {word: idx for idx, word in enumerate(observations)}
obs_seq = [obs_map[word] for word in observations]

# Inicializar o modelo HMM
model = hmm.MultinomialHMM(n_components=n_states, n_iter=100)

# Probabilidades iniciais
model.startprob_ = np.array([0.6, 0.3, 0.1])

# Probabilidades de transição
model.transmat_ = np.array([
    [0.1, 0.8, 0.1],
    [0.3, 0.4, 0.3],
    [0.5, 0.2, 0.3]
])

# Probabilidades de emissão
model.emissionprob_ = np.array([
    [0.6, 0.3, 0.1],
    [0.1, 0.7, 0.2],
    [0.0, 0.0, 1.0]
])

# Ajustar o modelo com a sequência de observação
obs_seq = np.array(obs_seq).reshape(-1, 1)
logprob, state_seq = model.decode(obs_seq, algorithm="viterbi")

# Mapeando os estados de volta para as etiquetas gramaticais
state_map = {idx: state for idx, state in enumerate(states)}
tagged_seq = [state_map[state] for state in state_seq]

print("Observações:", observations)
print("Estados preditos:", tagged_seq)
```

Embora as Cadeias de Markov e os Modelos de Markov Ocultos compartilhem uma base teórica comum, eles diferem significativamente em suas aplicações e complexidade. As Cadeias de Markov são mais simples e usadas quando os estados são diretamente observáveis. Os HMMs são mais complexos e poderosos, permitindo modelar processos onde os estados não são diretamente observáveis, como em tarefas de NLP e reconhecimento de fala.

## Calculating Probabilities

<img src="./imgs/calculating_prob1.png">

O número de vezes que o quadrado azul e roxo ocorrem juntos é 2/3. Usaremos a mesma lógica para popular as matrizes de transição e emissão. Numa matriz de transição, contaremos o número de vezes que a tag $t_{(i-1)}, t_{(i)}$ ocorrem juntos e dividiremos pelo total de vezes que $t_{(i-1)}$ ocorre (que é igual ao número de vezes que aparece seguido por qualquer outra coisa).

<img src="./imgs/calculating_prob1.png">

$C(t_{(i-1)}, t_{(i)}$ é a quantidade de vezes que a tag $(i-1)$ ocorreu antes da $\text{tag i}$. A partir disso podemos computar a probabilidade que a tag ocorre antes de outra.

## Populating the Trasition and Emission Matrix

Para popular a **matriz de transição**, temos que trackear a quantidade de vezes que uma tag aparece antes da outra tag.

<img src="./imgs/transition_matrix1.png">

Na tabela acima, cada cor representa uma tag, e as linhas são os estados atuais e as colunas são so estado seguintes, sendo o laranja o estado inicial. O números na matriz correspondem a quantidade de vezes que a tag ocorre antes da outra.

Para ir de O para NN, ou seja, para calcular $P(NN|O)$, temos que computar o seguinte:

<img src="./imgs/transition_matrix2.png">

Para generalizar:

$$ P(t_{i}|t_{i-1}) = \frac{C(t_{i-1}, t_{i})}{\sum^{N}_{j=1}C(t_{i-1}, t_{i})} $$

Por vezes vai correr do estado atual e o seguinte ser zero, dando uma probabilidade de 0. Para resolver isso esse problema, podemos utilizar uma **suavização (smoothing)**, como a seguir.


<img src="./imgs/transition_matrix3.png">

O $\epsilon$ permite que não tenhamos nenhuma probabilidade zero. Mas, em aplicações reais, não aplicaríamos a suavização na primeira linha, por que, ao aplicar, iriamos per da frase começar com qualquer TAG de POS, incluindo pontuações.

Para popular uma **matriz de emissão**, faremos de forma semelhante. Mas iremos quantificar as palavras associadas com suas tags POS.

<img src="./imgs/emission_matrix1.png">

Para popular a matriz, também iremos usar a suavização, sendo:

$$ P(w_{i}|t_{i}) = \frac{C(t_{i}, w_{i}) + \epsilon}{\sum^{V}_{j=1} C(t_{i}, w_{j} + N * \epsilon}$$

$$ = \frac{C(t_{i}, w_{i}) + \epsilon}{C(t_{i}) + N * \epsilon}$$

Onde $C(t_{i}, w_{i})$ é a contagem associada a quantas vezes a tag $t_{i}$ está associada a palavra $w_{i}$. O epsilon acima é o caractere de suavização.

## Calculating the Trasition and Emission Matrix

Para treinar um Hidden Markov Model (HMM) para tarefas como Part of Speech (POS) tagging, precisamos calcular as probabilidades das matrizes de transição e emissão com base em um corpus de texto anotado com etiquetas POS. Aqui estão os passos e exemplos detalhados para calcular essas probabilidades.

### 1. Preparação do Corpus

Primeiro, precisamos de um corpus anotado com etiquetas POS. Suponha que temos o seguinte corpus simples:

```python
corpus = [
    [("The", "DT"), ("cat", "NN"), ("sleeps", "VBZ")],
    [("A", "DT"), ("dog", "NN"), ("barks", "VBZ")],
    [("The", "DT"), ("dog", "NN"), ("runs", "VBZ")]
]
```

### 2. Contagem de Transições e Emissões

#### a. Contagem de Transições entre Tags POS

Contamos como as etiquetas de POS transicionam de uma palavra para outra. Adicionamos um estado inicial fictício (`<s>`) para representar o início de uma frase.

```python
from collections import defaultdict

# Contadores de transições e emissões
transition_counts = defaultdict(lambda: defaultdict(int))
emission_counts = defaultdict(lambda: defaultdict(int))
tag_counts = defaultdict(int)

for sentence in corpus:
    previous_tag = "<s>"
    tag_counts[previous_tag] += 1
    for word, tag in sentence:
        # Contagem de transições
        transition_counts[previous_tag][tag] += 1
        
        # Contagem de emissões
        emission_counts[tag][word] += 1
        
        # Contagem de tags
        tag_counts[tag] += 1
        previous_tag = tag
    transition_counts[previous_tag]["</s>"] += 1
    tag_counts["</s>"] += 1
```

#### b. Contagem de Emissões (palavra dada a tag)

Cada vez que uma palavra ocorre com uma determinada etiqueta POS, incrementamos a contagem de emissão correspondente.

### 3. Calculando as Probabilidades

#### a. Probabilidades de Transição

A probabilidade de transição de um estado $ s_i $ para um estado $ s_j $ é calculada como:

$$ P(s_j \mid s_i) = \frac{\text{contagem}(s_i \rightarrow s_j)}{\text{contagem}(s_i)} $$

```python
# Probabilidades de transição
transition_prob = defaultdict(lambda: defaultdict(float))

for previous_tag in transition_counts:
    total_transitions = sum(transition_counts[previous_tag].values())
    for tag in transition_counts[previous_tag]:
        transition_prob[previous_tag][tag] = transition_counts[previous_tag][tag] / total_transitions
```

#### b. Probabilidades de Emissão

A probabilidade de emissão de uma palavra $ w $ dado um estado $ s $ é calculada como:

$$ P(w \mid s) = \frac{\text{contagem}(s \rightarrow w)}{\text{contagem}(s)} $$

```python
# Probabilidades de emissão
emission_prob = defaultdict(lambda: defaultdict(float))

for tag in emission_counts:
    total_emissions = sum(emission_counts[tag].values())
    for word in emission_counts[tag]:
        emission_prob[tag][word] = emission_counts[tag][word] / total_emissions
```

### 4. Exemplos Práticos

Vamos calcular as matrizes de transição e emissão usando os dados do corpus fornecido:

#### Contagens

Para o corpus fornecido, as contagens seriam:

**Transições:**
- $"<s>", "DT"$: 3
- $"DT", "NN"$: 3
- $"NN", "VBZ"$: 3
- $"VBZ", "</s>"$: 3

**Emissões:**
- $"DT", "The"$: 2
- $"DT", "A"$: 1
- $"NN", "cat"$: 1
- $"NN", "dog"$: 2
- $"VBZ", "sleeps"$: 1
- $"VBZ", "barks"$: 1
- $"VBZ", "runs"$: 1

#### Probabilidades de Transição

```python
# Exemplo de cálculo de probabilidades de transição
transition_prob = {
    "<s>": {"DT": 1.0},
    "DT": {"NN": 1.0},
    "NN": {"VBZ": 1.0},
    "VBZ": {"</s>": 1.0}
}
```

#### Probabilidades de Emissão

```python
# Exemplo de cálculo de probabilidades de emissão
emission_prob = {
    "DT": {"The": 2/3, "A": 1/3},
    "NN": {"cat": 1/3, "dog": 2/3},
    "VBZ": {"sleeps": 1/3, "barks": 1/3, "runs": 1/3}
}
```

Este método de contagem e cálculo das probabilidades a partir de um corpus etiquetado é fundamental para treinar um HMM para tarefas de NLP, como POS tagging. Calculando as probabilidades de transição e emissão, podemos criar modelos que probabilisticamente decodificam sequências de observações em sequências de estados ocultos, fornecendo insights valiosos sobre a estrutura linguística dos dados.

## The Viterbi Algorithm

O Algoritmo de Viterbi é usado para encontrar a sequência mais provável de estados ocultos (etiquetas) dada uma sequência de observações (palavras ou sinais de áudio). Ele faz uso das probabilidades de transição e de emissão da seguinte forma:

<img src="./imgs/viterbi1.png">

Para ir de $\pi$ para $O$, precisamos multiplicar a probabilidade de transição correspondente (0.3) com a probabilidade de emissão correspondente (0.5), que resultará em 0.15. Isso é feito para todas as palavras da sequência, até termos a probabilidade da sequencia completa.

<img src="./imgs/viterbi2.png">

O algoritmo Viterbi possiu os seguintes passos:

1. **Inicialização:**
   $$
    V_1(i) = \pi_i \cdot B_i(O_1)
   $$
   
    onde $ V_1(i) $ é a probabilidade do estado $ s_i $ ser o primeiro estado e $ O_1 $ é a primeira observação.

2. **Recursão (Forward Pass):**
   $$
    V_t(j) = \max_i (V_{t-1}(i) \cdot A_{ij}) \cdot B_j(O_t)
   $$
   
    onde $ V_t(j) $ é a probabilidade máxima da sequência até o estado $ s_j $ no tempo $ t $.

3. **Terminação (Backward Pass):**
   $$
    \max_i V_T(i)
   $$
   
    onde $ T $ é o tempo final.

4. **Retropropagação:** Rastrear os estados que levaram à sequência de maior probabilidade.

## Viterbi: Initialization

Para inicializar utlizamos duas matrizes auxiliares, C e D, a C é uma matriz da **Probabilidade de Emissão**, enquanto que a D representa a **Probabilidade de Transição**. Começando com a C, iremos popular essa matriz de dimensão (num_tags, num_words), esta matriz terá as probabilidades que lhe dirão a que parte do discurso cada palavra pertence.

<img src="./imgs/viterbi3.png">

Agora, para popular a primeira coluna, iremos multiplicar o estado inicial $\pi$, para cada tag, vezes $b_{i, \text{cindex}(w1})$. Aqui o i corresponde a tag da distriguição inicial, e o $\text{cindex}()w1$ é o índice da palavra 1 na matriz de emissão. Agora precisamos acompanhar de qual parte do discurso estamos vindo. Para isso, utilizamos a matrix auxiliar D, que permite armazenar os rótulos que representam os diferentes estados pelos quais você está passando ao encontrar a sequência mais provável de tags POS para uma determinada sequência de palavras $w1, ..., wk$. A princípio a primeira coluna é definida como 0, pois não vem de nenhuma tag POS.

<img src="./imgs/viterbi4.png">

## Viterbi: Forward Pass

A etapa forward pass pode ser representada da seguinte forma:

<img src="./imgs/viterbi5.png">

Começando do ultimo termo:
- $b_{1, \text{cindex(w2)}}$: Representa simplesmente a probabilidade de emissão da tag t1 para a palavra w2.
- $a_{k, 1}$: É a probabilidade de transição da tag POS para a tag atual t1.
- $c_{k,1}$: que representa a probabilidade do caminho anterior percorrido.
- Escolhemos o k que maximiza a fórmula completa. Como ele não é um estado inicial, pode ser 1, 2 ou 3

Para popular a célula 1,2 da imagem acima, devemos pegar o máximo de k-ésimas células na coluna anterior, vezes a probabilidade de transição correspondente do k-ésimo POS para o primeiro POS vezes a probabilidade de emissão do primeiro POS e a palavra atual que você está vendo. Podemos faz isso para todas as células. 

A regra geral é 

$$ c_{i,j} = \max_k c_{k,j-1} * a_{k,i} * b_{i, \text{cindex(wj)}} $$

onde:
- **$c_{i,j}$:** A probabilidade máxima da sequência de estados (etiquetas) que termina no estado $i$ na posição $j$. Representa a melhor pontuação (probabilidade) para alcançar o estado $i$ na posição $j$ da sequência de observações.
- **$\max_k$:** A operação de maximização sobre todos os possíveis estados $k$ na posição anterior $j-1$. Para encontrar a melhor sequência, o algoritmo de Viterbi considera todas as possíveis transições dos estados na posição anterior e escolhe a que maximiza a probabilidade.
- **$c_{k,j-1}$:** A probabilidade máxima da sequência de estados que termina no estado $k$ na posição $j-1$. Esta é a pontuação (probabilidade) acumulada até o estado $k$ na posição $j-1$. Ela representa o caminho mais provável até aquele ponto na sequência.
- **$a_{k,i}$:** A probabilidade de transição do estado $k$ para o estado $i$. Esta é a probabilidade de que a sequência de estados transite do estado $k$ na posição $j-1$ para o estado $i$ na posição $j$.
- **$b_{i, \text{cindex}(w_j)}$:** A probabilidade de emissão do estado $i$ observando a palavra $w_j$.  Esta é a probabilidade de que o estado $i$ emita a palavra $w_j$ na posição $j$. A função $\text{cindex}(w_j)$ mapeia a palavra $w_j$ para o índice apropriado na matriz de emissões.
- **$\text{cindex}(w_j)$:** Um mapeamento da palavra $w_j$ para um índice usado na matriz de emissões. Essa função converte a palavra observada $w_j$ para um índice que pode ser usado para acessar a matriz de emissões $b_{i,\text{cindex}(w_j)}$.

O objetivo é encontrar a sequência de estados que maximiza a probabilidade de observar a sequência dada. Para fazer isso, calculamos a probabilidade máxima de terminar em cada estado em cada posição da sequência, considerando todas as possíveis transições e emissões.

Imagine que temos uma sequência de palavras "o gato mia" e queremos encontrar a sequência de etiquetas de POS mais provável usando Viterbi.

- **Posição 1: "o"**
  - Possíveis estados: $ DT $ (determinante)
  - $ c_{\text{DT}, 1} = a_{\text{start}, \text{DT}} \cdot b_{\text{DT}, \text{cindex}("o")} $
  - Inicialmente, $ c_{\text{DT}, 1} $ seria a probabilidade de começar com $ DT $ vezes a probabilidade de $ DT $ emitir "o".

- **Posição 2: "gato"**
  - Possíveis estados: $ NN $ (substantivo)
  - Consideramos todas as transições possíveis de etiquetas anteriores para $ NN $:
    - $ c_{\text{NN}, 2} = \max \left( c_{\text{DT}, 1} \cdot a_{\text{DT}, \text{NN}} \cdot b_{\text{NN}, \text{cindex}("gato")} \right) $
  - Para calcular $ c_{\text{NN}, 2} $, verificamos a probabilidade acumulada de estar em $ DT $ na posição 1 ($ c_{\text{DT}, 1} $), a probabilidade de transição de $ DT $ para $ NN $ ($ a_{\text{DT}, \text{NN}} $) e a probabilidade de $ NN $ emitir "gato" ($ b_{\text{NN}, \text{cindex}("gato")} $).

- **Posição 3: "mia"**
  - Possíveis estados: $ VBZ $ (verbo presente)
  - Consideramos todas as transições possíveis de etiquetas anteriores para $ VBZ $:
    - $ c_{\text{VBZ}, 3} = \max \left( c_{\text{NN}, 2} \cdot a_{\text{NN}, \text{VBZ}} \cdot b_{\text{VBZ}, \text{cindex}("mia")} \right) $
  - Para calcular $ c_{\text{VBZ}, 3} $, verificamos a probabilidade acumulada de estar em $ NN $ na posição 2 ($ c_{\text{NN}, 2} $), a probabilidade de transição de $ NN $ para $ VBZ $ ($ a_{\text{NN}, \text{VBZ}} $) e a probabilidade de $ VBZ $ emitir "mia" ($ b_{\text{VBZ}, \text{cindex}("mia")} $).

A fórmula $ c_{i,j} = \max_k \left( c_{k,j-1} \cdot a_{k,i} \cdot b_{i, \text{cindex}(w_j)} \right) $ captura a ideia de encontrar a sequência de estados mais provável, acumulando as melhores pontuações (probabilidades) de transições e emissões em cada passo. Em cada posição $j$, ela considera todas as possíveis transições dos estados na posição anterior $j-1$, escolhe a melhor e multiplica pelas probabilidades relevantes para obter a maior pontuação possível para estar no estado $i$ na posição $j$.

Agora, para preencher a matriz D, você acompanhará o argmax de onde você veio da seguinte maneira:

<img src="./imgs/viterbi6.png">

Para o $d_{i, j}$, temos que:

$$ d_{i,j} = \text{argmax}_{k} c_{k,j-1} * a_{k,i} * b_{i, \text{cindex(wj)}} $$

Em cada di,j, você simplesmente salvamos o k que maximiza a entrada e ci,j. Aqui, existem três estados que não são o estado inicial. Então, k é um, dois ou três. Nessa função argmax, retorna o k que maximiza as funções do argumento em vez do valor máximo.

**A matriz $D$ (ou matriz de rastreamento) é usada para armazenar os índices dos estados predecessores que maximizaram as probabilidades acumuladas durante o forward pass. Isso é essencial para reconstruir a sequência de estados ótima durante o backward pass.**

Observe que a única diferença entre $c_ij$ e $d_ij$, é que no primeiro você calcula a probabilidade e no último  acompanhamos o índice da linha de onde essa probabilidade veio. Então acompanhamos qual k foi usado para obter essa probabilidade máxima.

## Viterbi: Backward Pass

Agora, podemos agrupar tudo e construir o path que nos trará a POS tag da sentença.

<img src="./imgs/viterbi7.png">

A equação acima fornece apenas o índice da linha mais alta na última coluna de C. Depois de fazer isso, podemos prosseguir e começar a usar a matriz D da seguinte maneira:

<img src="./imgs/viterbi8.png">

Observe que, como começamos no índice um, a última palavra $(w5​)$ é $t1$​ . Então vamos para a primeira linha de D e qualquer que seja esse número, ele indica a linha da próxima tag de classe gramatical. Em seguida, a tag da próxima classe gramatical indica a linha da próxima e assim por diante. Isso nos permite reconstruir as tags POS da sua frase.

**Inicialização:** Começa pelo estado final da sequência (última posição de palavras observadas).
Encontra o estado (tag de POS) que tem a maior probabilidade final.

**Rastreamento Retroativo:** A partir do estado final (última posição j), usa-se a matriz D para retroceder até o estado inicial (primeira posição j). Para cada posição j, D nos diz qual foi o estado predecessor que levou ao estado atual naquela posição.

In [2]:
# Exemplo simplificado para ilustração
def viterbi_backward_pass(C, D):
    num_states, num_positions = C.shape
    best_sequence = []

    # Encontra o estado com a maior pontuação na última posição
    best_last_state = np.argmax(C[:, -1])
    best_sequence.append(best_last_state)

    # Retrocede usando a matriz D para reconstruir a sequência ótima
    for j in range(num_positions - 1, 0, -1):
        predecessor_state = D[best_last_state, j]
        best_sequence.append(predecessor_state)
        best_last_state = predecessor_state

    # Inverte a sequência para obter a ordem correta (do início ao fim)
    best_sequence.reverse()

    return best_sequence

# Exemplo de uso
C = np.array([[0.1, 0.3, 0.4],
              [0.2, 0.5, 0.7],
              [0.4, 0.6, 0.8]])

D = np.array([[-1, 0, 1],
              [-1, 0, 1],
              [-1, 1, 2]])

best_sequence = viterbi_backward_pass(C, D)
print("Sequência ótima de estados:", best_sequence)

Sequência ótima de estados: [1, 2, 2]


# Week 3 - Autocomplete and Language Models

## N-grams overview

**N-grams** são sequências contínuas de $ n $ itens (ou palavras) extraídas de um dado texto ou fala. Eles são usados em processamento de linguagem natural (NLP) e outras áreas para modelar a probabilidade de uma palavra dada a sequência de palavras anteriores.

N-grams são amplamente utilizados em modelos de linguagens. Modelos de linguagem são uma ferramenta que **estima a probabilidade de uma sequência de palavras**. Ao utilizar N-grams, podemos modelar a probabilidade de de certas palavras ocorrerem em uma sequencia espececífica. Algumas aplicações do uso de n-grams incluem sistemas de autocomplete, speech recognition, spelling correction, augmentative communication, entre outros.

- **N**: O número de itens na sequência.
  - **Unigrama (1-gram)**: Sequência de 1 item.
  - **Bigramas (2-gram)**: Sequência de 2 itens.
  - **Trigramas (3-gram)**: Sequência de 3 itens.
  - E assim por diante.
  
<img src="./imgs/n-grams.png">  
  

Considere a frase: "Eu gosto de aprender".

- **Unigrama (1-gram)**:
  - "Eu", "gosto", "de", "aprender"

- **Bigramas (2-gram)**:
  - "Eu gosto", "gosto de", "de aprender"

- **Trigramas (3-gram)**:
  - "Eu gosto de", "gosto de aprender"

## N-grams Probabilities

Para um modelo baseado em unigrams, a probabilidade se dá por:

$$ P(w) = \frac{C(w)}{m} $$

Onde:
- C = Contagem
- m: Tamanho do corpus
- w: Frequencia de ocorrencia da palavra

Para um modelo baseado em bigramas, a probabilidade de uma palavra $ w_n $ dado $ w_{n-1} $ é calculada como:

$$
P(w_n | w_{n-1}) = \frac{\text{C}(w_{n-1}, w_n)}{\text{C}(w_{n-1})}
$$

Podemos generalizar a expressão para:

$$ P(y|x) = \frac{C(x, y)}{\sum_{w} C(x, w)} = \frac{C(x, y)}{C(x)}$$

Para um modelo baseado em trigramas:

$$
P(w_3 | w^{2}_{1}) = \frac{\text{C}(w^{2}_{1}, w_3)}{\text{C}(w^{2}_{1})}
$$

Enfim, podemos generalizar para tamanhos maiores que trigramas, sendo:

$$
P(w_N | w^{N-1}_{1}) = \frac{\text{C}(w^{N-1}_{1}, w_N)}{\text{C}(w^{N-1}_{1})}
$$


Vamos supor que temos o seguinte corpus: "Eu gosto de aprender, gosto de ensinar".

- Contagem de bigramas:
  - "Eu gosto": 1
  - "gosto de": 2
  - "de aprender": 1
  - "de ensinar": 1

- Contagem de unigramas:
  - "Eu": 1
  - "gosto": 2
  - "de": 2
  - "aprender": 1
  - "ensinar": 1

Para calcular a probabilidade do bigrama "gosto de":
$$
P(\text{de} | \text{gosto}) = \frac{\text{C}(\text{gosto de})}{\text{C}(\text{gosto})} = \frac{2}{2} = 1
$$

Esses modelos possuem algumas vantagens e limitações, como:

**Vantagens**:
- **Simples de Implementar**: Fácil de construir e entender.
- **Eficiência Computacional**: Menos complexo que modelos mais avançados.

**Limitações**
- **Dependência de Contexto**: Os N-grams limitam-se ao contexto imediato e podem não capturar dependências de longo alcance.
- **Explosão Combinatória**: O número de N-grams cresce rapidamente com o aumento de $ n $, tornando difícil a modelagem para grandes valores de $ n $.

## Sequence Probabilities

Para calcular a probabilidade de uma sentença, precisamos calcular a probabilidade de todas as palavras da sequencia, como:

$$ P(B \mid A) = \frac{P(A, B)}{P(A)} \implies P(A, B) = P(A) P(B \mid A) $$

$$ P(A, B, C, D) = P(A) P(B \mid A) P(C \mid A, B) P(D \mid A, B, C) $$

Para calcular a probabilidade de uma sequência, podemos calcular o seguinte:

$$ P(\text{the teacher drinks tea}) = P(\text{the}) P(\text{teacher} \mid \text{the}) P(\text{drinks} \mid \text{the teacher}) P(\text{tea} \mid \text{the teacher drinks}) $$

Um dos principais problemas com o cálculo das probabilidades acima é que **o corpus raramente contém exatamente as mesmas frases nas quais você calculou suas probabilidades**. Conseqüentemente, podemos facilmente obter uma probabilidade de 0. A **suposição de Markov** indica que **apenas a última palavra importa**, assim, estamos criando uma aproximação da probabilidade da sequência. Por isso:

$$ Bigram: P(w_n \mid w_1^{n-1}) \approx P(w_n \mid w_{n-1}) $$

$$ N-gram: P(w_n \mid w_1^{n-1}) \approx P(w_n \mid w_{n-N+1}^{n-1}) $$

Podemos modelar a frase inteira da seguinte maneira:

$$ P(w_1^n) \approx \prod_{i=1}^{n} P(w_i \mid w_{i-1}) $$
$$ = $$
$$ P(w_1^n) \approx P(w_1) P(w_2 \mid w_1) \cdots P(w_n \mid w_{n-1}) $$

## Starting and Ending Sentences

### Utilizando N-grams com Caracteres Especiais `<s>` e `</s>`

Os caracteres especiais `<s>` e `</s>` são frequentemente usados em modelos de N-grams para indicar o início e o fim de uma frase, respectivamente. Isso ajuda a capturar contextos específicos do início e do fim das frases, melhorando a modelagem de linguagem.

Adicionar esses caracteres especiais permite que o modelo aprenda a transição de "nada" para a primeira palavra e da última palavra para "nada", o que é útil para prever o início e o fim das frases corretamente.

Vamos considerar a frase "eu gosto de aprender". 

Simplesmente as palavras incluindo os marcadores:

`<s>, eu, gosto, de, aprender, </s>`

Inclui pares de palavras adjacentes:

`<s> eu, eu gosto, gosto de, de aprender, aprender </s>`

Inclui trios de palavras adjacentes:

`<s> eu gosto, eu gosto de, gosto de aprender, de aprender </s>`

<img src="./imgs/start_end_sentence.png">

Exemplo:

```python
def generate_ngrams(sentence, n):
    # Adicionar os caracteres especiais
    tokens = ['<s>'] + sentence.split() + ['</s>']
    
    # Gerar N-grams
    ngrams = [tuple(tokens[i:i+n]) for i in range(len(tokens)-n+1)]
    
    return ngrams

# Exemplo de frase
sentence = "eu gosto de aprender"

# Gerar bigramas (2-grams)
bigrams = generate_ngrams(sentence, 2)
print("Bigramas:", bigrams)

# Gerar trigramas (3-grams)
trigrams = generate_ngrams(sentence, 3)
print("Trigramas:", trigrams)
```

Saída Esperada para a frase "eu gosto de aprender":

- **Bigramas:**

`[('<s>', 'eu'), ('eu', 'gosto'), ('gosto', 'de'), ('de', 'aprender'), ('aprender', '</s>')]`

- **Trigramas:**

`[('<s>', 'eu', 'gosto'), ('eu', 'gosto', 'de'), ('gosto', 'de', 'aprender'), ('de', 'aprender', '</s>')]`

**Aplicações*:*
1. **Modelagem de Linguagem**: Melhorar a predição de palavras no início e fim das frases.
2. **Reconhecimento de Fala**: Ajuda a identificar corretamente o começo e o fim de frases faladas.
3. **Tradução Automática**: Captura a estrutura completa das frases para melhor tradução.
4. **Análise de Textos**: Melhora a segmentação e a análise de sentenças.

O uso de caracteres especiais `<s>` e `</s>` em N-grams é uma técnica poderosa para capturar a estrutura das frases, especialmente no início e no fim. Isso melhora a precisão dos modelos de linguagem e tem ampla aplicação em várias áreas de processamento de linguagem natural.

## N-gram Language Model

Para criar um modelo de linguagem utilizando n-gram, precisamos processar o corpus para criar uma **matriz de contagem** e uma **matriz de probabilidade**. A matriz de probabilidade terá a informação sobre a probabilidade condicional dos n-grams, e, com ela, vamos relacionar a matriz de probabilidade ao modelo de linguagem.

Na matriz de contagem as linhas correspondem ao corpus único N-1 grams. E as colunas correspondem a unica palavra do corpus. Vide o exemplo abaixo:

<img src="./imgs/n_gram_cmatrix.png">

Para criar a matriz de probabilidade, podemos utilizar a seguinte fórmula

$$
P(w_n | w^{n-1}_{n-N+1}) = \frac{\text{C}(w^{n-1}_{n-N+1}, w_n)}{\text{C}(w^{n-1}_{n-N+1})}
$$

$$ \text{sum(row)} = \sum_{w\in{V}}\text{C}(w^{n-1}_{1}, w) = \text{C}(w^{n-1}_{n-N+1})$$

Agora, dado a matriz de probabilidade, podemos gerar o modelo de linguagem. Podemos computar a probabilidade da sentença e a previsão da palavra seguinte. PAra computar a probabilidade da sequência, precisamos aplicar a seguinte fórmula:

$$ P(w_1^n) \approx \prod_{i=1}^n P(w_i \mid w_{i-1}) $$

Para evitar _underflow_, já que estamos multiplicando vários números pequenos, podemos multiplicar pelo log:

$$ \log(P(w_1^n)) \approx \sum_{i=1}^n \log(P(w_i \mid w_{i-1})) $$

E, então criando o modelo generativo:

<img src="./imgs/n_gram_model.png">

## Language Model Evaluation

Para avaliar um modelo, utilizamos a divisão treino, validação e teste. Para corporas menores a proporção geralmente é de 80%, 10% e 10%. Já para corporas maiores é de 98%, 1% e 1%. Podemos dividir de forma contínua ou aleatória.

<img src="./imgs/splitting_text.png">

**Perplexity** é a métrica utilizada para avaliação, e que mensura a complexicidade em uma amostra de texto. Um texto escrito por humanos é mais provável de ter um score de perplexity menor, logo, quanto menor o score melhor o desempenho. Ela se dá por:

$$ PP(W) = P(S_1, S_2, .., S_m)^{-\frac{1}{m}}$$
onde:
- W: É o conjunto de teste contendo m sentences s
- Si: É a iésima sentença no conjunto de teste, cada uma acabando com $</s>$
- m: É a quantidade de todas as palavras em todo o conjunto de teste W, incluindo $</s>$, mas não inclui $<s>$

$$ PP(W) = \sqrt[m]{\prod_{i=1}^m \prod_{j=1}^{|s_i|} \frac{1}{P(w_j^{(i)} \mid w_{j-1}^{(i)})}} $$

onde:
- **Perplexidade (PP)**: Representa a perplexidade da sequência de palavras $W$. A perplexidade é uma métrica usada para avaliar a qualidade de um modelo de linguagem. Quanto menor a perplexidade, melhor o modelo em prever uma sequência de palavras.

- **Raiz m-ésima ($\sqrt[m]{\cdot}$)**: A raiz m-ésima normaliza o produto total para o número de sentenças no conjunto $W$. Aqui, $m$ é o número total de sentenças em $W$.

- **Produto Externo ($\prod_{i=1}^m$)**: Este produto externo itera sobre todas as sentenças no conjunto $W$. $i$ varia de 1 a $m$, onde $m$ é o número total de sentenças.

- **Produto Interno ($\prod_{j=1}^{|s_i|}$)**: Este produto interno itera sobre todas as palavras em uma sentença específica $s_i$. $j$ varia de 1 a $|s_i|$, onde $|s_i|$ é o número de palavras na sentença $s_i$.

- **Probabilidade Condicional ($P(w_j^{(i)} \mid w_{j-1}^{(i)})$)**: Representa a probabilidade de uma palavra $w_j^{(i)}$ dada a palavra anterior $w_{j-1}^{(i)}$ na mesma sentença $s_i$. Esta probabilidade é fornecida pelo modelo de linguagem.

- **Recíproco da Probabilidade ($\frac{1}{P(w_j^{(i)} \mid w_{j-1}^{(i)})}$)**: O recíproco da probabilidade é usado aqui porque a perplexidade é uma medida inversa da probabilidade. Alta probabilidade implica baixa perplexidade, e vice-versa. Ao tomar o produto dos recíprocos, estamos essencialmente medindo a "dificuldade" do modelo em prever a sequência.

- $w^{(i)}_j$: O j corresponde a j-ésima palavra da i-ésima sentença. Se concatenarmos todas as sentenças, então $w_i$ é a i-ésima palavra no conjunto de teste.

A perplexidade é basicamente a probabilidade inversa do conjunto de testes normalizada pelo número de palavras no conjunto de testes. Portanto, quanto maior o modelo de linguagem estimar a probabilidade do seu conjunto de testes, menor será a perplexidade. 

Para calcular o log perplexity, utilizamos:

$$ PP(W) = \frac{-1}{m} \sum^{m}_{i=1}\log_2 (P(w_i | wi-1))$$

Um bom modelo possui o score entre 16 e 20, já o log perplexity entre 4.3 e 5.9



### Intuição por Trás da Fórmula

A perplexidade mede o quão bem um modelo de linguagem prevê uma sequência de palavras. Aqui está a interpretação intuitiva dos passos:

1. **Produto Interno**: Para cada sentença $s_i$, calcule o produto dos recíprocos das probabilidades condicionais das palavras. Isso mede a "dificuldade" do modelo em prever cada palavra na sentença.
2. **Produto Externo**: Multiplique esses produtos para todas as sentenças. Isso agrega a "dificuldade" de todas as sentenças.
3. **Raiz m-ésima**: Normalize o produto total pelo número de sentenças $m$. Isso garante que a perplexidade não dependa do número de sentenças.

Considere um conjunto $W$ com duas sentenças:

1. Sentença 1: "eu gosto"
2. Sentença 2: "de aprender"

Suponha que o modelo de linguagem forneça as seguintes probabilidades condicionais:

- $P(\text{eu} \mid \text{<s>}) = 0.5$
- $P(\text{gosto} \mid \text{eu}) = 0.4$
- $P(\text{de} \mid \text{<s>}) = 0.3$
- $P(\text{aprender} \mid \text{de}) = 0.6$

A perplexidade seria calculada como:

$$ PP(W) = \sqrt[2]{\left( \frac{1}{0.5} \cdot \frac{1}{0.4} \right) \times \left( \frac{1}{0.3} \cdot \frac{1}{0.6} \right)} = \sqrt[2]{(2 \times 2.5) \times (3.33 \times 1.67)} $$

O resultado da fórmula dará uma medida de perplexidade que indica quão bem o modelo de linguagem está prevendo o conjunto de sentenças $W$.


### Intuição por Trás da Fórmula Perplexidade Logarítmica

A fórmula da perplexidade logarítmica é:

Vamos criar um exemplo usando a Fórmula 1 para calcular a perplexidade de uma sequência de palavras. 

$$ PP(W) = \frac{-1}{m} \sum_{i=1}^m \log_2 (P(w_i \mid w_{i-1})) $$


Suponha que temos uma sequência de palavras: "the cat sat".

Probabilidades condicionais fornecidas pelo modelo:
- $P(\text{the} \mid <s>) = 0.5$
- $P(\text{cat} \mid \text{the}) = 0.3$
- $P(\text{sat} \mid \text{cat}) = 0.4$

Aqui, $m$ é o número de palavras na sequência, que é 3 ("the", "cat", "sat").

Calculando o valor de cada termo:
1. $\log_2(P(\text{the} \mid <s>)) = \log_2(0.5)$
2. $\log_2(P(\text{cat} \mid \text{the})) = \log_2(0.3)$
3. $\log_2(P(\text{sat} \mid \text{cat})) = \log_2(0.4)$

Vamos calcular cada um desses logaritmos:

$$
\log_2(0.5) = -1
$$
$$
\log_2(0.3) \approx -1.737
$$
$$
\log_2(0.4) \approx -1.322
$$

Soma dos logaritmos:
$$
\sum_{i=1}^3 \log_2(P(w_i \mid w_{i-1})) = -1 + (-1.737) + (-1.322) = -4.059
$$

Média dos logaritmos:
$$
\frac{-1}{3} (-4.059) = 1.353
$$

A perplexidade é dada pela exponenciação com base 2 do valor encontrado:

$$
PP(W) = 2^{1.353} \approx 2.55
$$

Portanto, a perplexidade da sequência "the cat sat" é aproximadamente 2.55.

Este valor significa que, em média, o modelo de linguagem é tão "surpreso" por cada palavra na sequência como se houvesse cerca de 2.55 palavras possíveis em cada ponto. Uma perplexidade mais baixa indica um modelo melhor, pois implica que o modelo é menos "surpreso" pelas palavras da sequência.

### Intuição por Trás da Fórmula

A perplexidade mede o quão bem um modelo de linguagem prevê uma sequência de palavras. Aqui está a interpretação intuitiva dos passos:

1. **Produto Interno**: Para cada sentença $s_i$, calcule o produto dos recíprocos das probabilidades condicionais das palavras. Isso mede a "dificuldade" do modelo em prever cada palavra na sentença.
2. **Produto Externo**: Multiplique esses produtos para todas as sentenças. Isso agrega a "dificuldade" de todas as sentenças.
3. **Raiz m-ésima**: Normalize o produto total pelo número de sentenças $m$. Isso garante que a perplexidade não dependa do número de sentenças.

Considere um conjunto $W$ com duas sentenças:

1. Sentença 1: $\text{"<s> eu gosto </s>"}$
2. Sentença 2: $\text{"<s> de aprender </s>"}$

Suponha que o modelo de linguagem forneça as seguintes probabilidades condicionais:

- $P(\text{eu} \mid \text{<s>}) = 0.5$
- $P(\text{gosto} \mid \text{eu}) = 0.4$
- $P(\text{</s>} \mid \text{gosto}) = 0.8$
- $P(\text{de} \mid \text{<s>}) = 0.3$
- $P(\text{aprender} \mid \text{de}) = 0.6$
- $P(\text{</s>} \mid \text{aprender}) = 0.7$

A perplexidade seria calculada como:

$$ PP(W) = \sqrt[2]{\left( \frac{1}{0.5} \cdot \frac{1}{0.4} \cdot \frac{1}{0.8} \right) \times \left( \frac{1}{0.3} \cdot \frac{1}{0.6} \cdot \frac{1}{0.7} \right)} = \sqrt[2]{(2 \cdot 2.5 \cdot 1.25) \times (3.33 \cdot 1.67 \cdot 1.43)} $$

O resultado da fórmula dará uma medida de perplexidade que indica quão bem o modelo de linguagem está prevendo o conjunto de sentenças $W$.

### Intuição por Trás da Fórmula Perplexidade Logarítmica

A fórmula da perplexidade logarítmica é:

Vamos criar um exemplo usando a nova fórmula para calcular a perplexidade de uma sequência de palavras.

$$ PP(W) = \frac{-1}{m} \sum_{i=1}^m \log_2 (P(w_i \mid w_{i-1})) $$

Suponha que temos a sequência de palavras: $"<s> the cat sat </s>"$

Probabilidades condicionais fornecidas pelo modelo:
- $P(\text{the} \mid \text{<s>}) = 0.5$
- $P(\text{cat} \mid \text{the}) = 0.3$
- $P(\text{sat} \mid \text{cat}) = 0.4$
- $P(\text{</s>} \mid \text{sat}) = 0.7$

Aqui, $m$ é o número de palavras na sequência, que é 4 ($"<s>", "the", "cat", "sat", "</s>"$).

Calculando o valor de cada termo:
1. $\log_2(P(\text{the} \mid \text{<s>})) = \log_2(0.5)$
2. $\log_2(P(\text{cat} \mid \text{the})) = \log_2(0.3)$
3. $\log_2(P(\text{sat} \mid \text{cat})) = \log_2(0.4)$
4. $\log_2(P(\text{</s>} \mid \text{sat})) = \log_2(0.7)$

Vamos calcular cada um desses logaritmos:

$$
\log_2(0.5) \approx -1
$$
$$
\log_2(0.3) \approx -1.737
$$
$$
\log_2(0.4) \approx -1.322
$$
$$
\log_2(0.7) \approx -0.357
$$

Soma dos logaritmos:
$$
\sum_{i=1}^4 \log_2(P(w_i \mid w_{i-1})) = -1 + (-1.737) + (-1.322) + (-0.357) = -4.416
$$

Média dos logaritmos:
$$
\frac{-1}{4} (-4.416) = 1.104
$$

Portanto, a perplexidade da sequência $\text{"<s> the cat sat </s>"}$ é aproximadamente 1.104.

Este valor significa que, em média, o modelo de linguagem é tão "surpreso" por cada palavra na sequência como se houvesse cerca de 2^1.104 ≈ 2.17 palavras possíveis em cada ponto. Uma perplexidade mais baixa indica um modelo melhor, pois implica que o modelo é menos "surpreso" pelas palavras da sequência.

In [3]:
# todo: pesquisar sobre perplexity e confimar

outro exemplo ....

### Intuição por Trás da Fórmula Perplexidade Logarítmica

A fórmula da perplexidade logarítmica é:

$$ \log(PP(W)) = \frac{1}{m} \sum_{i=1}^m \sum_{j=1}^{|s_i|} -\log(P(w_j^{(i)} \mid w_{j-1}^{(i)})) $$

onde:
- **$\log(PP(W))$**: Logaritmo da perplexidade da sequência de palavras $W$.
- **$m$**: Número total de sentenças no conjunto $W$.
- **$\sum_{i=1}^m$**: Soma sobre todas as sentenças no conjunto $W$.
- **$\sum_{j=1}^{|s_i|}$**: Soma sobre todas as palavras na sentença $s_i$.
- **$P(w_j^{(i)} \mid w_{j-1}^{(i)})$**: Probabilidade de uma palavra $w_j^{(i)}$ dada a palavra anterior $w_{j-1}^{(i)}$ na sentença $s_i$.

Considere um conjunto $W$ com duas sentenças:

1. Sentença 1: "eu gosto"
2. Sentença 2: "de aprender"

Suponha que o modelo de linguagem forneça as seguintes probabilidades condicionais:

- $P(\text{eu} \mid \text{<s>}) = 0.5$
- $P(\text{gosto} \mid \text{eu}) = 0.4$
- $P(\text{de} \mid \text{<s>}) = 0.3$
- $P(\text{aprender} \mid \text{de}) = 0.6$

Primeiro, calculamos os logaritmos das probabilidades:

- $\log(P(\text{eu} \mid \text{<s>})) = \log(0.5) = -0.693$
- $\log(P(\text{gosto} \mid \text{eu})) = \log(0.4) = -0.916$
- $\log(P(\text{de} \mid \text{<s>})) = \log(0.3) = -1.204$
- $\log(P(\text{aprender} \mid \text{de})) = \log(0.6) = -0.511$

Agora, somamos os logaritmos das probabilidades para cada sentença:

- Sentença 1: $ \log(P(\text{eu} \mid \text{<s>})) + \log(P(\text{gosto} \mid \text{eu})) = -0.693 + -0.916 = -1.609 $
- Sentença 2: $ \log(P(\text{de} \mid \text{<s>})) + \log(P(\text{aprender} \mid \text{de})) = -1.204 + -0.511 = -1.715 $

Em seguida, somamos essas somas:

$$ \text{Soma total} = -1.609 + -1.715 = -3.324 $$

Finalmente, calculamos a perplexidade logarítmica média dividindo pela quantidade de sentenças:

$$ \log(PP(W)) = \frac{1}{2} \times (-3.324) = -1.662 $$

Para encontrar a perplexidade $PP(W)$, calculamos a exponencial do valor encontrado:

$$ PP(W) = e^{-1.662} \approx 0.19 $$


A perplexidade logarítmica fornece uma medida de quão bem o modelo prevê a sequência de palavras, mas faz isso em uma escala logarítmica. Isso ajuda a evitar problemas numéricos com multiplicação de pequenas probabilidades. Quanto menor a perplexidade, melhor é o modelo em prever a sequência.

Usar o logaritmo das probabilidades facilita o cálculo e a interpretação da perplexidade, evitando problemas com a multiplicação de números pequenos e proporcionando uma métrica mais estável para avaliar a qualidade de modelos de linguagem.

As duas fórmulas apresentadas calculam a perplexidade de uma sequência de palavras, mas utilizam diferentes abordagens. Vamos detalhar as diferenças e as nuances de cada fórmula.

### Fórmula 1:

$$ PP(W) = \frac{-1}{m} \sum^{m}_{i=1}\log_2 (P(w_i \mid w_{i-1})) $$

### Fórmula 2:

$$ \log(PP(W)) = \frac{1}{m} \sum_{i=1}^m \sum_{j=1}^{|s_i|} -\log(P(w_j^{(i)} \mid w_{j-1}^{(i)})) $$

### Elementos Comuns:

- Ambas as fórmulas visam calcular a perplexidade de um modelo de linguagem.
- Ambas utilizam probabilidades condicionais $P(w_i \mid w_{i-1})$, que representam a probabilidade de uma palavra $w_i$ dada a palavra anterior $w_{i-1}$.
- Ambas envolvem o logaritmo dessas probabilidades.

### Diferenças Principais:

1. **Base do Logaritmo**:
   - **Fórmula 1**: Usa logaritmo na base 2 ($\log_2$).
   - **Fórmula 2**: Usa logaritmo natural ($\log$).

2. **Tratamento da Média**:
   - **Fórmula 1**: Toma a média dos logaritmos das probabilidades condicionais para todas as palavras em todas as sentenças.
   - **Fórmula 2**: Toma a média dos logaritmos das probabilidades condicionais para todas as palavras em todas as sentenças, mas com uma estrutura mais detalhada de dupla soma.

3. **Negatividade do Logaritmo**:
   - **Fórmula 1**: Multiplica por $-1$ explicitamente no cálculo da média.
   - **Fórmula 2**: O sinal negativo é incluído dentro da soma através do termo $-\log(P(w_j^{(i)} \mid w_{j-1}^{(i)}))$.

4. **Forma da Perplexidade**:
   - **Fórmula 1**: Dá diretamente a perplexidade média ($PP(W)$).
   - **Fórmula 2**: Dá o logaritmo da perplexidade média ($\log(PP(W))$).

5. **Granularidade da Soma**:
   - **Fórmula 1**: A soma é feita diretamente sobre todas as palavras, presumivelmente em uma única sequência.
   - **Fórmula 2**: A soma é feita primeiro sobre todas as palavras em cada sentença, e depois sobre todas as sentenças. Isso permite lidar explicitamente com um conjunto de múltiplas sentenças.

### Interpretação Intuitiva:

- **Fórmula 1**: É uma versão simplificada e direta que calcula a média dos logaritmos das probabilidades condicionais para todas as palavras em uma sequência, usando logaritmo na base 2. Isso é útil para medir a perplexidade em termos de bits.

- **Fórmula 2**: Fornece uma abordagem mais detalhada e robusta para calcular a perplexidade quando se lida com múltiplas sentenças. A saída da fórmula é o logaritmo natural da perplexidade, o que ajuda a evitar problemas numéricos ao lidar com pequenas probabilidades.

### Exemplo Prático:

Suponha que temos um conjunto $W$ com duas sentenças:
1. Sentença 1: "a b"
2. Sentença 2: "c d"

Probabilidades condicionais fornecidas pelo modelo:
- $P(a \mid <s>) = 0.5$
- $P(b \mid a) = 0.4$
- $P(c \mid <s>) = 0.3$
- $P(d \mid c) = 0.6$

Para a **Fórmula 1**:
$$ PP(W) = \frac{-1}{4} (\log_2(0.5) + \log_2(0.4) + \log_2(0.3) + \log_2(0.6)) $$

Para a **Fórmula 2**:
$$ \log(PP(W)) = \frac{1}{2} \left( (-\log(0.5) - \log(0.4)) + (-\log(0.3) - \log(0.6)) \right) $$

Ambas as fórmulas resultam em uma medida de perplexidade, mas diferem na base do logaritmo e na forma de agregação dos termos.

## Out of Vocabulary Words

Um vocabulário é um conjunto de palavras únicas suportadas pelo seu modelo de linguagem. Em algumas tarefas, como reconhecimento de fala ou resposta a perguntas, encontraremos e geraremos palavras apenas a partir de um conjunto fixo de palavras. Portanto, um **vocabulário fechado**.

**Vocabulário aberto** significa que você pode encontrar palavras fora do vocabulário, como o nome de uma nova cidade no conjunto de treinamento. Com ele, podemos lidar com palavras desconhecidas.

- Crie vocabulário V
- Substitua qualquer palavra em corpus e não em V por <snk>
- Conte a probabilidade de <UNK> asim como qualquer palavra
    
<img src="./imgs/oov.png">
    
O exemplo acima mostra como podemos usar min_frequency e substituir todas as palavras que aparecem menos vezes que min_frequency por UNK. Podemos então tratar UNK como uma palavra normal.

Critérios para criar o vocabulário:
- Frequência mínima de palavras f
- Max |V|, inclui palavras por frequência
- Use <UNK> com moderação
- Perplexidade - compare apenas LMs com o mesmo V

## Smoothing

Aqui está a mensagem reescrita com as fórmulas em LaTeX:

Os três principais conceitos abordados aqui são lidar com n-grams ausentes, suavização, e Backoff e interpolação.

A probabilidade condicional de um n-grama é dada por:

$$ P(w_n \mid w_{n-N+1}^{n-1}) = \frac{C(w_{n-N+1}^{n-1}, w_n)}{C(w_{n-N+1}^{n-1})} \text{ O resultado pode ser 0}$$

Aqui, $ C(w_{n-N+1}^{n-1}, w_n) $ é o número de vezes que o n-grama $ w_{n-N+1}^{n-1} $ seguido por $ w_n $ aparece no corpus, e $ C(w_{n-N+1}^{n-1}) $ é o número de vezes que o n-grama $ w_{n-N+1}^{n-1} $ aparece.

Se $ C(w_{n-N+1}^{n-1}, w_n) $ pode ser zero, então podemos corrigir este problema adicionando suavização ao adicionar +1:

$$ P(w_n \mid w_{n-1}) = \frac{C(w_{n-1}, w_n) + 1}{\sum_{w \in V} (C(w_{n-1}, w) + 1)} = \frac{C(w_{n-1}, w_n) + 1}{C(w_{n-1}) + V} $$

A suavização Add-k é muito semelhante:

$$ P(w_n \mid w_{n-1}) = \frac{C(w_{n-1}, w_n) + k}{\sum_{w \in V} (C(w_{n-1}, w) + k)} = \frac{C(w_{n-1}, w_n) + k}{C(w_{n-1}) + k \cdot V} $$

Quando usar Backoff:
- Se o n-grama de ordem N estiver ausente, usamos o n-grama de ordem (N-1), e assim por diante. Isso distorce a distribuição de probabilidade. Especialmente para corpora menores, alguma probabilidade precisa ser descontada dos n-gramas de ordem superior para ser usada nos n-gramas de ordem inferior.
- O desconto de probabilidade, por exemplo, o Backoff de Katz, faz uso desses descontos.
- Backoff "Stupid": Se a probabilidade do n-grama de ordem superior estiver ausente, a probabilidade do n-grama de ordem inferior é usada, simplesmente multiplicada por uma constante. Uma constante de aproximadamente 0,4 mostrou-se experimentalmente eficaz.

<img src="./imgs/smoothing.png">

Também é possível usar interpolação ao calcular probabilidades da seguinte forma:

$$ \hat{P}(w_n \mid w_{n-2} w_{n-1}) = \lambda_1 \times P(w_n \mid w_{n-2} w_{n-1}) + \lambda_2 \times P(w_n \mid w_{n-1}) + \lambda_3 \times P(w_n) $$

Onde 
$$ \lambda_1 + \lambda_2 + \lambda_3 = 1 $$
$$ = $$
$$ \sum_i\lambda_i = 1$$

# Week 4 - Word Embedding with Neural Networks

## Basic Word Representations

As representações de palavras pode ser classificadas como **inteiros, one-hot vectors e word embeddings**.

<img src="./imgs/basic_word_representation.png">

Na imagem acima, temos um exemplo em que utilizamos inteniros para representar palavras. O problama com essa abordagem é que não temos motivo para dar mais pesos certas a palavras. E, para resolver esse problema, foram introduzidos os vetores one hot. Para implementar, um vetor de zeros é inicializado com dimensão V e então é atribuído o valor de 1 ao indice correspondente a palavra que está sendo representadada. Esse método também possui pontos positivos e negativos, sendo os positivos a sua **simplicidade e não necessidade de ordenação de palavras**, e como pontos negativos temos o **tamanho do vetor e a não codificação de "sentido"** (já que é verificado somente a presença da palavra)

## Word Embeddings

Word embedding nada mais é que uma representação numérica de palavras utilizando vetores. Existem representações de 2 a centenas de dimensões. Essa abordagem de representação de palavras lida com os pontos negativos da representação one hot, já que o tamanho do vetor terá um tamanho fixo e o "sentido" da palavra vai ser codificado de **forma contextual**, frequentemente chamado de "semântica" (apesar de não ser exatamente semântica).

<img src="./imgs/word_embedding.png">

Na imagem acima podemos ver no plot em 2d que palavras que intuitivamente classificaríamos como representando coisas próximas (como filhote e gatinho, ou _rage_ e _anger_) estão próximas graças a representação através de embedding. Nela, talvez a primeira coordenada represente se uma palavra é positiva ou negativa. A segunda coordenada informa se a palavra é abstrata ou concreta. Este é apenas um exemplo, no mundo real os embeddings terão centenas de dimensões como falado anteriormente. Podemos pensar em cada coordenada como um número que lhe diz algo sobre a palavra. Mas, quanto mais dimensões o embedding tem, mais difícil atribuir um sentido ao número da coordenada, ou as palavras agrupadas nessa coordenada.

O termo "word vector" representa os vetores one hot e também word embedding, mas é mais utilizado para se referir aos word embeddings.

## How to Create Word Embeddings

Para criar **word embeddings**, você sempre precisa de um corpus de texto e de um método de incorporação.

O contexto de uma palavra informa que tipo de palavras tendem a ocorrer perto dessa palavra específica. O contexto é importante porque é o que dará sentido à incorporação de cada palavra.

Existem muitos tipos de métodos possíveis que permitem aprender a palavra embeddings. O modelo de aprendizado de máquina executa uma tarefa de aprendizado, e os principais subprodutos dessa tarefa são os embeddings de palavras. A tarefa poderia ser aprender a prever uma palavra com base nas palavras circundantes em uma frase do corpus, como no caso do **continous bag of words (CBOW)**.

A tarefa é **auto-supervisionada**: é não-supervisionada, no sentido de que os dados de entrada — o corpus — não são rotulados, e supervisionada, no sentido de que os próprios dados fornecem o contexto necessário que normalmente constituiria os rótulos.

Ao treinar vetores de palavras, existem alguns parâmetros que você precisa ajustar. (ou seja, a dimensão do vetor de palavras)

<img src="./imgs/word_embedding_process.png">

## Word Embedding Methods

Existem diversos métodos de word embeddings, podendo ser agrupados em **métodos classicos** e de **deep learning** ou **contextual embeddings**.

**Métodos Clásscicos**:
- **word2vec (Google, 2013)**: Aprende representações vetoriais de palavras utilizando shallow neural networks, onde palavras que ocorrem em contextos semelhantes têm vetores próximos no espaço vetorial. Ele possui duas abordagens principais: Continuous Bag-of-Words (CBOW) e Continuous Skip-gram
  - **Continuous bag-of-words (CBOW)**: Aprende a prever a palavra central dadas algumas palavras de contexto.
  - **Continuous skip-gram / Skip-gram with negative sampling (SGNS)**: o modelo aprende a prever as palavras que cercam uma determinada palavra de entrada.
- **Global Vectors (GloVe) (Stanford, 2014)**: fatora o logaritmo da matriz de coocorrência de palavras do corpus, semelhante à matriz de contagem.
- **fastText (Facebook, 2016)**: baseado no modelo skip-gram e leva em consideração a estrutura das palavras, representando as palavras como um n-grama de caracteres. Ele suporta palavras fora do vocabulário (OOV).

**Deep learning, contextual embeddings**:

Nestes modelos mais avançados, as palavras têm diferentes embeddings dependendo do seu contexto e usam deep neural networks.

- **BERT (Google, 2018)**: Aprende a prever palavras mascaradas em uma frase e a relação entre frases, utilizando a técnica de atenção para capturar o contexto bidirecional completo de uma palavra em uma frase.
- **ELMo (Allen Institute for AI, 2018)**: Aprende representações de palavras sensíveis ao contexto usando modelos de linguagem bidirecionais empilhados, permitindo que o significado de uma palavra varie com base em seu contexto na frase.
- **GPT-2 (OpenAI, 2018)**: Aprende a prever a próxima palavra em uma sequência de texto, utilizando modelos de linguagem unidirecionais (da esquerda para a direita) para gerar texto coerente e contextualizado.

## Continuous Bag-of-Words Model (CBOW)

Para criar embeddings de palavras, precisamos de um corpus e de um algoritmo de aprendizagem. O subproduto desta tarefa seria um conjunto de embedding de palavras. No caso do **continous bag of words (CBOW)**, o objetivo da tarefa é prever uma palavra faltante com base nas palavras circundantes.

<img src="./imgs/cbow1.png">

Aqui está uma visualização que mostra como os modelos funcionam.

<img src="./imgs/cbow2.png">          
          
Note que o tamanho da janela na imagem acima é 5. O tamanho do contexto, C, é 2. C geralmente informa **quantas palavras antes ou depois da palavra central o modelo usará para fazer a previsão**. Aqui está outra visualização que mostra uma visão geral do modelo.

<img src="./imgs/cbow3.png">

## Cleaning and Tokenization

Antes de implementar qualquer algoritmo de processamento de linguagem natural, podemos querer limpar os dados e tokenizá-los.

<img src="./imgs/cleaning1.png">

Podemos implementar esse tratamento utilizando python de várias formas, como:

<img src="./imgs/cleaning2.png">

Além disos, podemos adicionar quantas condições forem necessárias nas linhas correspondentes ao retângulo verde acima.

## Sliding Window of Words in Python

<img src="./imgs/sliding_window.png">

O código acima mostra uma função que recebe dois parâmetros:
- Words: uma lista de palavras
- C: o tamanho do contexto.

Primeiro _settamos_ i para C. Em seguida, destacamos center_word e context_words. Em então, produzimos esses valores e incrementamos i.

In [4]:
def get_windows(words, C):
    i = C
    while i < len(words) - C:
        center_word = words[i]
        context_words = words[(i - C):i] + words[(i+1):(i+C+1)]
        print(context_words, center_word)
        yield context_words, center_word
        i += 1
        #print(i)
                
# words = ["<s>", "i", "am", "happy", "because", "i", "am", "learning", "</s>"]
words = ["i", "am", "happy", "because", "i", "am", "learning"]

for x, y in get_windows(words, 2):
    print(f"{x}\t{y}")

['i', 'am', 'because', 'i'] happy
['i', 'am', 'because', 'i']	happy
['am', 'happy', 'i', 'am'] because
['am', 'happy', 'i', 'am']	because
['happy', 'because', 'am', 'learning'] i
['happy', 'because', 'am', 'learning']	i


## Transforming Words into Vectors

Para transformar os vetores de contexto em um único vetor, podemos usar o seguinte.

<img src="./imgs/transform_word_into_vector.png">
<img src="./imgs/transform_word_into_vector2.png">

Note que começamos com vetores únicos one-hot para as palavras de contexto e os transformamos em um único vetor calculando uma média. Como resultado acabamos tendo os seguintes vetores que podem usados no treinamento.

## Architecture of the CBOW Model

A arquitetura do modelo CBOW pode ser descrita da seguinte forma

<img src="./imgs/cbow_architecture.png">

Dado uma entrada, $X$, que é a média de todos os vetores de contexto. Em seguida, multiplicamos por $W_1$ e adiciona $b_1$. O resultado passa por uma função ReLU para fornecer sua camada oculta. Essa camada é então multiplicada por $W_2$ e então adicionamos $b_2$. O resultado passa por um softmax que fornece uma distribuição sobre $V$, palavras do vocabulário. Por fim, escolhemos a palavra do vocabulário que corresponde ao arg-max da saída.

## Architecture of the CBOW Model: Dimensions

As equações para o modelo acima são:

$$ z_1 = W_1x + b_1$$
$$ h = \text{ReLU}(z_1)$$
$$ z_2 = W_2 h + b_2$$
$$ \hat{y} = \text{softmax}(z_2)$$

Aqui, podemos ver as dimensões

<img src="./imgs/cbow_architecture2.png">

**1. Entrada (Contexto)**: A entrada do CBOW é composta pelas palavras de contexto ao redor da palavra-alvo. Se temos uma janela de contexto de tamanho `2c`, então para cada palavra-alvo, consideramos `c` palavras à esquerda e `c` palavras à direita. Suponha que a janela de contexto seja de tamanho 2 (ou seja, `c=1`), e a frase seja "the quick brown fox". Para a palavra-alvo "quick", as palavras de contexto são ["the", "brown"].

**2. Vetores de Entrada**: Cada palavra de contexto é representada como um vetor one-hot de dimensão igual ao tamanho do vocabulário `V`. Em vez de usar diretamente os vetores one-hot, eles são transformados em embeddings de dimensão `D` através de uma matriz de embeddings `W`. Portanto, cada palavra de contexto é um vetor de dimensão `D`.

**3. Representação Média**: Os vetores de embeddings das palavras de contexto são combinados (geralmente através da média) para formar uma única representação de dimensão `D`.

**4. Projeção para o Espaço do Vocabulário**: A representação média é então projetada de volta para o espaço do vocabulário através de uma segunda matriz de pesos `W'` de dimensão `V x D`. Isso resulta em um vetor de dimensão `V` que contém pontuações para cada palavra no vocabulário.

**5. Probabilidades de Saída**: Finalmente, a função softmax é aplicada ao vetor de pontuações para obter as probabilidades de previsão para cada palavra no vocabulário. A palavra com a maior probabilidade é a previsão do modelo para a palavra-alvo.

**Resumo das Dimensões**:

1. **Tamanho do Vocabulário (V)**: Número total de palavras no vocabulário.
2. **Dimensão dos Embeddings (D)**: Dimensão dos vetores de embeddings para cada palavra.
3. **Tamanho da Janela de Contexto (c)**: Número de palavras de contexto à esquerda e à direita da palavra-alvo.

**Exemplo com Dimensões**

Suponha que:
- O vocabulário tem tamanho `V = 10,000`.
- A dimensão dos embeddings é `D = 300`.
- A janela de contexto é de tamanho 2 (c = 1).

Então, para a palavra-alvo "quick" com as palavras de contexto ["the", "brown"]:

1. Cada palavra de contexto é um vetor one-hot de dimensão `10,000`.
2. Esses vetores one-hot são transformados em embeddings de dimensão `300` através de uma matriz de embeddings `W` de dimensão `10,000 x 300`.
3. Os embeddings das palavras de contexto são combinados (media) para formar um único vetor de dimensão `300`.
4. Esse vetor de dimensão `300` é projetado de volta para o espaço do vocabulário através de uma matriz `W'` de dimensão `10,000 x 300`, resultando em um vetor de dimensão `10,000`.
5. A função softmax é aplicada para obter as probabilidades de previsão para cada palavra no vocabulário.

Portanto, o CBOW utiliza essas dimensões para transformar o contexto em uma previsão para a palavra-alvo, aprendendo representações de palavras eficazes ao longo do processo.

Para lidar com inputs batchs, podemos empilhar oe exemplos como colunas. Depois, podemos processeguir multiplicando as matrizes da seguinte forma:

<img src="./imgs/cbow_architecture3.png">

Noa diagrama acima, podemos ver as dimensões de cada matriz. Note que $\hat{Y}$ possui dimensão V por m. Cada coluna é a predição da coluna correspondente as palavras de contexto. Então, a primeira coluna $\hat{Y}$ é a predição correspondente a primeira coluna de $X$

## Architecture of the CBOW Model: Activation Functions

A arquitetura CBOW possui duas funções de ativação, a **ReLU** e a **Softmax**.

**Função ReLU**:

A rectified linear unit (Relu), é uma das funções de ativaçao mais populares. Ao passar um vetor x na função ReLU, teremos $x = \text{max}(0, x)$. Ela zera valores negativos e mantêm o valores positivos.

<img src="./imgs/cbow_relu.png">

**Função Softmax**:

Já  afunção softmax recebe um vetor e o transforma numa distribuição de probabilidade. Por exemplo, dado o vetor z, podemos transformá-lo na seguite distribuição de probabilidade:

<img src="./imgs/cbow_softmax.png">

## Training a CBOW Model: Cost Function

A função de custo para o CBOW é a **cross-entropy loss** definida como:

$$ J = -\sum^{V}_{k = 1} y_k \log\hat{y}_k$$

<img src="./imgs/cbow_cost_function.png">

## Training a CBOW Model: Forward Propagation

Para calcular o loss do batch, precisamos computar o seguinte

$$ J_{\text{batch}} = -\frac{1}{m} \sum^{m}_{i=1} \sum^{V}_{j=1} y_j^{(i)} \log\hat{y}_j^{(i)}$$

As imagens abaixo descrevem o processo de propagação da esquerda para a direita. Dado a palavra central predita no word matrix e a palavra real, podemos computar o loss.

<img src="./imgs/cbow_forward1.png">
<img src="./imgs/cbow_forward2.png">


O processo de forward propagation no modelo Continuous Bag-of-Words (CBOW) é a etapa onde as palavras de contexto são usadas para prever a palavra alvo. Aqui está uma explicação passo a passo desse processo:

1. **Entrada: Palavras de Contexto**
   - Suponha que queremos prever a palavra alvo $ w_t $ usando as palavras de contexto $ w_{t-m}, \ldots, w_{t-1}, w_{t+1}, \ldots, w_{t+m} $, onde $ 2m $ é o tamanho da janela de contexto.

2. **Representação de Palavras: Vetores de Embedding**
   - Cada palavra de contexto é representada por um vetor de embedding. Esses vetores são extraídos da matriz de embeddings $ W $, onde cada linha corresponde ao vetor de embedding de uma palavra no vocabulário.
   - Se $ V $ é o tamanho do vocabulário e $ d $ é a dimensão dos vetores de embedding, então $ W $ é uma matriz $ V \times d $.

3. **Cálculo da Média dos Vetores de Embedding**
   - Os vetores de embedding das palavras de contexto são somados e a média desses vetores é calculada. Isso resulta em um vetor de embedding médio $ \mathbf{v} $ de dimensão $ d $.
     $$
     \mathbf{v} = \frac{1}{2m} \sum_{i=1}^{2m} \mathbf{v}_{w_{t-i}}
     $$

4. **Camada Oculta (Opcional)**
   - Em algumas variantes, este vetor médio é passado por uma camada oculta, mas no CBOW clássico, o vetor médio $ \mathbf{v} $ é diretamente utilizado na próxima etapa.

5. **Cálculo das Probabilidades das Palavras Alvo**
   - O vetor médio $ \mathbf{v} $ é multiplicado pela matriz de pesos $ W' $ para gerar uma pontuação para cada palavra no vocabulário.
     $$
     \mathbf{u} = W' \mathbf{v}
     $$
   - $ W' $ é uma matriz de pesos de dimensão $ d \times V $.

6. **Softmax**
   - A pontuação $ \mathbf{u} $ é passada por uma função softmax para converter essas pontuações em probabilidades.
     $$
     P(w_t | w_{t-m}, \ldots, w_{t+m}) = \frac{\exp(u_j)}{\sum_{k=1}^{V} \exp(u_k)}
     $$

No forward propagation do CBOW:
1. Extraímos os vetores de embedding das palavras de contexto.
2. Calculamos a média desses vetores.
3. Multiplicamos o vetor médio pela matriz de pesos para obter as pontuações das palavras do vocabulário.
4. Usamos a função softmax para converter essas pontuações em probabilidades preditas para a palavra alvo.

Este processo permite que o modelo preveja a palavra alvo com base nas palavras de contexto fornecidas.

## Training a CBOW Model: Backpropagation and Gradient Descent

Para realizar a **retropropagação (backpropagation)** precisamos calcular as derivadsa parciais do custo em relação aos pesos e bias.

Quando computamos a backpropagation nesse modelo, computamos o seguinte:

$$
\frac{\partial J_{\text{batch}}}{\partial W_1}, \quad \frac{\partial J_{\text{batch}}}{\partial W_2}, \quad \frac{\partial J_{\text{batch}}}{\partial b_1}, \quad \frac{\partial J_{\text{batch}}}{\partial b_2}
$$

Já o **gradient descent** atualiza os pesos e bias. E, para atualizar os pesos precisamos iterar o seguinte:

$$
W_1 := W_1 - \alpha \frac{\partial J_{\text{batch}}}{\partial W_1}
$$

$$
W_2 := W_2 - \alpha \frac{\partial J_{\text{batch}}}{\partial W_2}
$$

$$
b_1 := b_1 - \alpha \frac{\partial J_{\text{batch}}}{\partial b_1}
$$

$$
b_2 := b_2 - \alpha \frac{\partial J_{\text{batch}}}{\partial b_2}
$$


Um alfa menor permite atualizações mais graduais dos pesos e tendências, enquanto um número maior permite uma atualização mais rápida dos pesos. Se $\alpha$ for muito grande, você podemos não aprender nada; se for muito pequeno, o modelo levará uma eternidade para treinar.





## Extracting Word Embedding Vectors

Os vetores de embedding são **os pesos da camada de embedding**.Existem duas opções para extrair embeddings de palavras após treinar o CBOW. Podemos usar $W_1$ da seguinte maneira:

<img src="./imgs/extracting_embedding_vectors1.png">

Se usarmos $W_1$, cada coluna corresponderá aos embeddings de uma palavra específica. Também podemos usar $W_2$ da seguinte maneira:

<img src="./imgs/extracting_embedding_vectors2.png">

A opção final é calcular a média de ambas as matrizes da seguinte forma:

<img src="./imgs/extracting_embedding_vectors3.png">

In [28]:
import torch
import torch.nn as nn

# Suponha que você tenha uma classe CBOW definida
class CBOW(nn.Module):
    def __init__(self, vocab_size, embedding_dim):
        super(CBOW, self).__init__()
        self.embeddings = nn.Embedding(vocab_size, embedding_dim)
        self.linear1 = nn.Linear(embedding_dim, vocab_size)

    def forward(self, inputs):
        embeds = self.embeddings(inputs).mean(dim=0)
        out = self.linear1(embeds)
        return out

# Suponha que você tenha treinado o modelo CBOW
vocab_size = 5 #10000  # exemplo de tamanho do vocabulário
embedding_dim = 5 #100  # exemplo de dimensão do embedding
model = CBOW(vocab_size, embedding_dim)

# Após o treinamento, extraia os vetores de embedding
word_embeddings = model.embeddings.weight.data

# Se você tiver um dicionário de mapeamento de palavras para índices
word_to_index = {'i': 0, 'm': 1, 'happy':2, 'because':3, 'learning':4}  # exemplo de mapeamento

# Para obter o vetor de embedding de uma palavra específica
word = 'happy'
word_index = word_to_index[word]
word_vector = word_embeddings[word_index]

print(f"Vector de embedding para {word}: {word_vector}")

Vector de embedding para happy: tensor([ 1.6582, -0.4397,  0.6625, -1.0784, -0.4663])


In [22]:
# # Passos para Treinamento do CBOW:
# # 1. Preparação dos Dados

# import torch
# import torch.nn as nn
# import torch.optim as optim
# from torch.utils.data import Dataset, DataLoader

# # Dados de exemplo
# corpus = [
#     ['i', 'am', 'happy', 'because', 'i', 'am', 'learning'],
#     ['he', 'is', 'happy', 'because', 'he', 'is', 'learning']
# ]

# # Construindo o vocabulário e o mapeamento de palavras para índices
# word_to_index = {'<pad>': 0}  # adicionamos um padding token
# for sentence in corpus:
#     for word in sentence:
#         if word not in word_to_index:
#             word_to_index[word] = len(word_to_index)

# index_to_word = {index: word for word, index in word_to_index.items()}

# # Função para converter uma frase em índices de palavras
# def sentence_to_indices(sentence, word_to_index):
#     return [word_to_index[word] for word in sentence]

# # Convertendo o corpus para índices
# indexed_corpus = [sentence_to_indices(sentence, word_to_index) for sentence in corpus]

# # Exemplo de como fica o corpus indexado
# print("Corpus indexado:")
# for indexed_sentence in indexed_corpus:
#     print(indexed_sentence)

In [21]:
# # # 2. Definição do Dataset e Dataloader

# # class CBOWDataset(Dataset):
# #     def __init__(self, corpus, window_size):
# #         self.corpus = corpus
# #         self.window_size = window_size

# #     def __len__(self):
# #         return len(self.corpus)

# #     def __getitem__(self, idx):
# #         context = []
# #         target = []
# #         sentence = self.corpus[idx]
        
# #         for i, word in enumerate(sentence):
# #             start = max(0, i - self.window_size)
# #             end = min(len(sentence), i + self.window_size + 1)
            
# #             context.append([sentence[j] for j in range(start, end) if j != i])
# #             target.append(word)
        
# #         return torch.tensor(context), torch.tensor(target)

# # # Exemplo de uso do Dataset
# # window_size = 2
# # cbow_dataset = CBOWDataset(indexed_corpus, window_size)
# # cbow_dataloader = DataLoader(cbow_dataset, batch_size=1, shuffle=True)

# class CBOWDataset(Dataset):
#     def __init__(self, corpus, window_size):
#         self.corpus = corpus
#         self.window_size = window_size

#     def __len__(self):
#         return len(self.corpus)

#     def __getitem__(self, idx):
#         context = []
#         target = []
#         sentence = self.corpus[idx]
        
#         for i, word in enumerate(sentence):
#             start = max(0, i - self.window_size)
#             end = min(len(sentence), i + self.window_size + 1)
            
#             context.extend([sentence[j] for j in range(start, end) if j != i])
#             target.append(word)
        
#         return torch.tensor(context), torch.tensor(target)

# # Exemplo de uso do Dataset
# window_size = 2
# cbow_dataset = CBOWDataset(indexed_corpus, window_size)
# cbow_dataloader = DataLoader(cbow_dataset, batch_size=1, shuffle=True)

In [19]:
# #3. Definição do Modelo CBOW e Treinamento

# class CBOW(nn.Module):
#     def __init__(self, vocab_size, embedding_dim):
#         super(CBOW, self).__init__()
#         self.embeddings = nn.Embedding(vocab_size, embedding_dim)
#         self.linear1 = nn.Linear(embedding_dim, vocab_size)

#     def forward(self, inputs):
#         embeds = self.embeddings(inputs).mean(dim=1)  # média ao longo da dimensão 1
#         out = self.linear1(embeds)
#         return out

# # Parâmetros de treinamento
# vocab_size = len(word_to_index)
# embedding_dim = 10  # dimensão do embedding
# learning_rate = 0.001
# num_epochs = 100

# # Inicialização do modelo
# model = CBOW(vocab_size, embedding_dim)
# criterion = nn.CrossEntropyLoss()
# optimizer = optim.Adam(model.parameters(), lr=learning_rate)

# # Função de treinamento
# def train_model(model, dataloader, criterion, optimizer, num_epochs):
#     model.train()
#     for epoch in range(num_epochs):
#         total_loss = 0
#         for contexts, targets in dataloader:
#             optimizer.zero_grad()
#             outputs = model(contexts)
#             loss = criterion(outputs.view(-1, vocab_size), targets)
#             loss.backward()
#             optimizer.step()
#             total_loss += loss.item()
#         print(f'Epoch {epoch+1}/{num_epochs}, Loss: {total_loss/len(dataloader)}')

# # Treinamento do modelo
# train_model(model, cbow_dataloader, criterion, optimizer, num_epochs)

In [20]:
# #4. Extração dos Vetores de Embedding

# # Obtendo os vetores de embedding
# word_embeddings = model.embeddings.weight.data

# # Exemplo de uso: vetor de embedding da palavra 'happy'
# word = 'happy'
# word_index = word_to_index[word]
# word_vector = word_embeddings[word_index]

# print(f"Vetor de embedding para '{word}': {word_vector}")

## Evaluating Word Embeddings: Intrinsic Evaluation

A **avaliação intrínseca** permite testar relações entre palavras. Ele permite capturar analogias semânticas como “França” está para “Paris” assim como “Itália” está para $<?>$ e também analogias sintáticas como “visto” está para “viu” assim como “sido” está para $<?>$.

Casos ambíguos podem ser muito mais difíceis de rastrear:

<img src="./imgs/intrinsic_eval1.png">

Aqui estão algumas maneiras que permitem usar a avaliação intrínseca.

<img src="./imgs/intrinsic_eval2.png">

## Evaluating Word Embeddings: Extrinsic Evaluation

A **avaliação extrínseca** testa o embedding de palavras em tarefas externas, como reconhecimento de entidade nomeada (NER), marcação de classes gramaticais (Part-of-speech tagging), etc. A utilizade dos embeddings é avaliada a partir de métricas como acurácia ou F1 score. O desempenho do classificador na métrica de avaliação representa o desempenho combinado das tarefas de incorporação e classificação. Os métodos de avaliação extrínseca são os testes finais para garantir que os embeddings de palavras sejam realmente úteis. No entanto, as suas principais **desvantagens** são que a avaliação consumirá mais tempo do que a avaliação intrínseca e que, se o desempenho for fraco, as métricas de desempenho não fornecem informações sobre quais partes específicas do processo de ponta a ponta são responsáveis, o próprio word embedding ou a tarefa externa usada para testá-la.

# Referência
- Natural Language Processing with Classification and Vector Spaces, disponível em https://www.coursera.org/learn/probabilistic-models-in-nlp

# Licença
- CC BY-SA 2.0 LEGAL CODE. Attribution-ShareAlike 2.0 Generic
- Para detalhes sobre a licença, verifique https://creativecommons.org/licenses/by-sa/2.0/legalcode