# Natural Language Processing with Probabilistic Models

Notas sobre o curso Natural Language Processing with Classification and Vector Spaces da DeeplearninigAI. O notebook é composto majoritariamente de material original, salvo as figuras, que foram criadas pela **Deep Learning AI** e disponibilizadas em seu curso.

# Week 1 - Autocorrect

## Learning Objectives
- Word probabilities
- Dynamic programming
- Minimum edit distance
- Autocorrect

## Autocorrect

A autocorreção em NLP é uma técnica que corrige automaticamente erros ortográficos ou de digitação em texto. Ela é amplamente utilizada em aplicativos de mensagens, processadores de texto e mecanismos de busca para melhorar a experiência do usuário. Ela é geralmente implementada usando modelos de **linguagem probabilísticos**, como os modelos de N-gramas. Esses modelos calculam a probabilidade de uma sequência de palavras e sugerem a sequência mais provável, dada uma palavra mal digitada. Eles são treinados em grandes corpora de texto para aprender padrões comuns na linguagem.

<img src="./imgs/autocorrect_phone.png">


Para implementar um sistema de autocorreção, precisamos seguir as seguintes etapas:

1. **Identificação do Erro:**
   - O primeiro passo é identificar que uma palavra pode estar incorreta. Isso é feito comparando a palavra digitada com um dicionário ou usando técnicas mais avançadas, como distância de edição/edit distance (Levenshtein), que mede a diferença entre duas palavras com base nas operações necessárias para transformar uma na outra (inserção, exclusão, substituição).

2. **Sugestão de Correção:**
   - Uma vez identificado o erro, o sistema de autocorreção sugere uma ou mais correções com base na probabilidade das palavras no contexto. Isso pode ser feito usando modelos de N-gramas, onde a probabilidade de uma palavra é calculada com base nas palavras anteriores.

3. **Escolha da Melhor Correção:**
   - A sugestão de correção é escolhida com base em critérios como a probabilidade da palavra correta no contexto, a distância de edição mínima da palavra digitada e outras heurísticas.

4. **Aplicação da Correção:**
   - A correção é então aplicada ao texto, substituindo a palavra mal digitada pela palavra correta.

**Exemplos**

1. **Erro de Digitação Simples:**
   - **Texto Digitado:** "Eu gosto de mangaa."
   - **Correção Proposta:** "Eu gosto de manga."
   - **Explicação:** O sistema identifica que "mangaa" pode ser um erro de digitação para "manga" com base na proximidade no teclado e sugere a correção.

2. **Inversão de Letras:**
   - **Texto Digitado:** "Estarmos esperndo por você."
   - **Correção Proposta:** "Estaremos esperando por você."
   - **Explicação:** O sistema percebe que "esperndo" pode ser um erro de inversão de letras em "esperando" e sugere a correção.

3. **Erros de Espaçamento:**
   - **Texto Digitado:** "Nãoseinada"
   - **Correção Proposta:** "Não sei nada"
   - **Explicação:** O sistema identifica que "Nãoseinada" pode ser uma combinação de palavras e sugere a separação correta.

**Limitações**
- **Palavras Fora do Vocabulário:** Se uma palavra está muito fora do vocabulário do modelo, a autocorreção pode falhar em sugerir a correção correta.
- **Ambiguidade:** Em casos de ambiguidade, onde várias correções são possíveis, a autocorreção pode sugerir uma correção incorreta.
- **Contexto Limitado:** Modelos de N-gramas têm um contexto limitado, então a autocorreção pode não capturar nuances mais complexas da linguagem.

## Building the model

### Métodos de Identificação de Palavras Erradas**

Identificar palavras erradas é o primeiro passo crucial no processo de autocorreção em NLP. Isso envolve a detecção de erros ortográficos, de digitação, e até erros gramaticais. Vamos explorar os métodos mais comuns para identificar palavras erradas, com explicações e exemplos.


1. **Comparação com um Dicionário:**
   - **Descrição:** Um método básico é comparar cada palavra do texto com um dicionário de palavras válidas. Se uma palavra não estiver no dicionário, é marcada como errada.
   - **Exemplo:** Se o texto contiver "applle", a palavra "applle" não será encontrada no dicionário e será marcada como incorreta.


2. **Distância de Edição (Levenshtein):**
   - **Descrição:** A distância de edição mede quantas operações (inserção, deleção, substituição) são necessárias para transformar uma palavra em outra. Palavras com uma pequena distância de edição em relação a palavras do dicionário são consideradas erradas.
   - **Exemplo:** A palavra "bok" tem uma distância de edição de 1 em relação a "book" (substituição de 'k' por 'o'), indicando um possível erro de digitação.


3. **Modelos de N-gramas:**
   - **Descrição:** Modelos de N-gramas podem identificar palavras erradas com base na improbabilidade de uma sequência de palavras. Se uma palavra resulta em uma sequência de N-gramas que raramente ocorre no corpus de treinamento, pode ser considerada errada.
   - **Exemplo:** Em "I have a blak cat", a sequência "a blak cat" pode ser menos provável que "a black cat", indicando que "blak" pode estar errado.


4. **Redes Neurais e Modelos de Linguagem:**
   - **Descrição:** Modelos de linguagem avançados, como BERT ou GPT, podem identificar palavras erradas ao avaliar a coerência do contexto. Eles são treinados em grandes quantidades de texto e podem detectar palavras que não fazem sentido no contexto dado.
   - **Exemplo:** Em "She drived the car", um modelo de linguagem pode identificar que "drived" é incorreto no contexto e sugerir "drove".

#### Exemplos Práticos de Identificação de Palavras Erradas

1. **Exemplo com Dicionário:**
   - **Texto:** "I am lerning NLP."
   - **Identificação:** A palavra "lerning" não está no dicionário.
   - **Correção Proposta:** "I am learning NLP."

2. **Exemplo com Distância de Edição:**
   - **Texto:** "He went to the shcool."
   - **Identificação:** A palavra "shcool" tem uma distância de edição de 1 em relação a "school".
   - **Correção Proposta:** "He went to the school."

3. **Exemplo com Modelos de N-gramas:**
   - **Texto:** "The quick brown fox jmps over the lazy dog."
   - **Identificação:** A sequência "fox jmps" é muito improvável.
   - **Correção Proposta:** "The quick brown fox jumps over the lazy dog."

4. **Exemplo com Modelos de Linguagem:**
   - **Texto:** "He gived her a gift."
   - **Identificação:** O modelo de linguagem identifica que "gived" não faz sentido no contexto e sugere "gave".
   - **Correção Proposta:** "He gave her a gift."

#### Considerações

- **Palavras Novas ou Jargões:** Palavras que são novas, jargões ou nomes próprios podem não estar em um dicionário, levando a falsos positivos.
- **Erros Contextuais:** Alguns erros só podem ser identificados corretamente no contexto adequado, o que modelos de linguagem mais avançados fazem melhor.
- **Desempenho:** Métodos mais avançados, como modelos de linguagem, geralmente têm melhor desempenho, mas requerem mais poder computacional e dados para treinamento.


Identificar palavras erradas é um processo que pode ser feito de várias maneiras, desde métodos simples como comparação com um dicionário até técnicas avançadas envolvendo modelos de linguagem. Cada método tem seus prós e contras, e a escolha do método adequado depende do contexto e dos requisitos específicos da aplicação.

### Cálculo da Distância de Edição

A distância de edição, ou distância de Levenshtein, é uma métrica que mede o quão diferentes duas strings são, calculando o número mínimo de operações necessárias para transformar uma string em outra. As operações permitidas são inserção, deleção e substituição de caracteres.

O algoritmo de Levenshtein usa uma abordagem de programação dinâmica para calcular a distância de edição entre duas strings. Aqui está uma descrição do algoritmo:

1. **Inicialização:**
   - Crie uma matriz $d$ de tamanho $(m+1) \times (n+1)$, onde $m$ é o comprimento da primeira string $s$ e $n$ é o comprimento da segunda string $t$.
   - Inicialize $d[i][0] = i$ para $i = 0, 1, ..., m$.
   - Inicialize $d[0][j] = j$ para $j = 0, 1, ..., n$.

2. **Recorrência:**
   - Para cada $i = 1, ..., m$ e $j = 1, ..., n$:
     - Se $s[i-1] = t[j-1]$, então $custo = 0$; caso contrário, $custo = 1$.
     - $d[i][j] = \min(d[i-1][j] + 1, d[i][j-1] + 1, d[i-1][j-1] + custo)$.

3. **Resultado:**
   - A distância de edição é encontrada em $d[m][n]$.

#### Implementação em Python

Aqui está uma implementação do cálculo da distância de edição em Python:

```python
def distancia_de_edicao(s, t):
    m = len(s)
    n = len(t)
    
    # Criação da matriz
    d = [[0 for _ in range(n + 1)] for _ in range(m + 1)]
    
    # Inicialização da matriz
    for i in range(m + 1):
        d[i][0] = i
    for j in range(n + 1):
        d[0][j] = j
    
    # Preenchimento da matriz com os valores de distância
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if s[i - 1] == t[j - 1]:
                custo = 0
            else:
                custo = 1
            d[i][j] = min(d[i - 1][j] + 1,  # Deleção
                          d[i][j - 1] + 1,  # Inserção
                          d[i - 1][j - 1] + custo)  # Substituição
    
    # Distância de edição é encontrada na última célula da matriz
    return d[m][n]

# Exemplos
s1 = "kitten"
s2 = "sitting"
print(f"Distância de edição entre '{s1}' e '{s2}': {distancia_de_edicao(s1, s2)}")

s3 = "flaw"
s4 = "lawn"
print(f"Distância de edição entre '{s3}' e '{s4}': {distancia_de_edicao(s3, s4)}")
```

#### Exemplos Práticos

1. **Exemplo 1:**
   - **Strings:** "kitten" e "sitting"
   - **Cálculo:** Transformar "kitten" em "sitting" envolve as operações:
     - Substituir 'k' por 's': "sitten"
     - Substituir 'e' por 'i': "sittin"
     - Inserir 'g' no final: "sitting"
   - **Distância de Edição:** 3

2. **Exemplo 2:**
   - **Strings:** "flaw" e "lawn"
   - **Cálculo:** Transformar "flaw" em "lawn" envolve as operações:
     - Substituir 'f' por 'l': "law"
     - Inserir 'n' no final: "lawn"
   - **Distância de Edição:** 2

#### Visualização da Matriz

Para ilustrar como a matriz $d$ é preenchida, vejamos o exemplo das strings "kitten" e "sitting":

```
     '' s i t t i n g
  '' 0  1 2 3 4 5 6 7
  k  1  1 2 3 4 5 6 7
  i  2  2 1 2 3 4 5 6
  t  3  3 2 1 2 3 4 5
  t  4  4 3 2 1 2 3 4
  e  5  5 4 3 2 2 3 4
  n  6  6 5 4 3 3 2 3
```

A distância de edição é uma métrica poderosa para comparar a similaridade entre duas strings, sendo amplamente utilizada em tarefas de NLP, como correção ortográfica e reconhecimento de padrões. O algoritmo de Levenshtein é eficiente e fácil de implementar, fornecendo uma base sólida para muitas aplicações de processamento de texto.

### Métodos para Filtrar Palavras Candidatas

Filtrar palavras candidatas é um passo crucial após identificar palavras erradas para fornecer sugestões de correção. Este processo envolve gerar uma lista de possíveis correções para uma palavra mal escrita e, em seguida, classificar ou selecionar as melhores opções com base em vários critérios. Aqui estão os principais métodos para filtrar palavras candidatas, com explicações e exemplos.


1. **Distância de Edição:**
   - **Descrição:** Calcular a distância de edição entre a palavra errada e cada palavra do dicionário. As palavras com a menor distância de edição são consideradas as melhores candidatas.
   - **Exemplo:** Para a palavra "speling", palavras como "spelling" (distância 1) e "spieling" (distância 2) seriam consideradas, com "spelling" sendo a melhor candidata devido à menor distância de edição.

2. **N-gramas e Modelos de Linguagem:**
   - **Descrição:** Utilizar modelos de N-gramas ou modelos de linguagem para avaliar a probabilidade das palavras candidatas no contexto da frase.
   - **Exemplo:** Em "I have a blak cat", o modelo pode sugerir "black" como correção para "blak" porque "a black cat" é uma sequência mais comum e provável do que "a blak cat".

3. **Frequência no Corpus:**
   - **Descrição:** As palavras candidatas são classificadas com base na sua frequência em um corpus de texto. Palavras mais comuns são mais prováveis de serem correções corretas.
   - **Exemplo:** Se "hte" foi digitado incorretamente e "the" é muito mais frequente no corpus do que outras combinações possíveis, "the" será a principal sugestão.

4. **Contexto Semântico:**
   - **Descrição:** Analisar o contexto semântico utilizando embeddings de palavras ou modelos contextuais (como BERT) para selecionar palavras que façam sentido no contexto da frase.
   - **Exemplo:** Em "I visited the captial city", o modelo pode sugerir "capital" em vez de "captial" porque "visited the capital city" faz sentido semanticamente.

#### Implementação em Python

Vamos ver como esses métodos podem ser combinados para filtrar palavras candidatas. Para simplificação, usaremos apenas a distância de edição e a frequência no corpus neste exemplo.

1. Calcular a distância de edição para cada palavra do dicionário.
2. Classificar palavras por distância de edição.
3. Utilizar frequência no corpus para ordenar palavras com a mesma distância.

```python
def distancia_de_edicao(s, t):
    m = len(s)  # Comprimento da primeira string
    n = len(t)  # Comprimento da segunda string

    # Inicializa uma matriz (m+1) x (n+1) com zeros
    d = [[0 for _ in range(n + 1)] for _ in range(m + 1)]

    # Inicializa a primeira coluna da matriz
    for i in range(m + 1):
        d[i][0] = i

    # Inicializa a primeira linha da matriz
    for j in range(n + 1):
        d[0][j] = j

    # Preenche a matriz com os valores de distância de edição
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if s[i - 1] == t[j - 1]:
                custo = 0  # Nenhum custo se os caracteres são iguais
            else:
                custo = 1  # Custo de substituição se os caracteres são diferentes
            d[i][j] = min(d[i - 1][j] + 1,    # Custo de deleção
                          d[i][j - 1] + 1,    # Custo de inserção
                          d[i - 1][j - 1] + custo)  # Custo de substituição

    return d[m][n]  # Retorna a distância de edição entre as duas strings

def filtrar_candidatos(palavra_errada, dicionario, frequencia_corpus):
    candidatos = []
    # Calcula a distância de edição para cada palavra do dicionário
    for palavra in dicionario:
        dist = distancia_de_edicao(palavra_errada, palavra)
        candidatos.append((palavra, dist))  # Adiciona a palavra e sua distância à lista de candidatos

    # Ordena os candidatos primeiro pela distância de edição e depois pela frequência no corpus (em ordem decrescente)
    candidatos.sort(key=lambda x: (x[1], -frequencia_corpus.get(x[0], 0)))

    # Retorna apenas as palavras candidatas, sem as distâncias
    return [candidato[0] for candidato in candidatos]

# Exemplo de dicionário e frequências
dicionario = ["spelling", "spieling", "selling", "smiling"]
frequencia_corpus = {"spelling": 500, "spieling": 5, "selling": 300, "smiling": 150}

# Palavra errada
palavra_errada = "speling"

# Filtrar palavras candidatas
candidatos = filtrar_candidatos(palavra_errada, dicionario, frequencia_corpus)
print(f"Candidatos para '{palavra_errada}': {candidatos}")

```

#### Exemplos Práticos

1. **Exemplo 1:**
   - **Palavra Errada:** "speling"
   - **Dicionário:** ["spelling", "spieling", "selling", "smiling"]
   - **Frequência no Corpus:** {"spelling": 500, "spieling": 5, "selling": 300, "smiling": 150}
   - **Candidatos:** ["spelling", "selling", "smiling", "spieling"]

2. **Exemplo 2:**
   - **Palavra Errada:** "recieve"
   - **Dicionário:** ["receive", "recipe", "recite"]
   - **Frequência no Corpus:** {"receive": 1000, "recipe": 400, "recite": 50}
   - **Candidatos:** ["receive", "recipe", "recite"]

#### Considerações

- **Balanceamento entre Precisão e Performance:** Calcular a distância de edição para um grande dicionário pode ser computacionalmente caro. Técnicas como truncagem de dicionário ou uso de índices podem melhorar a performance.
- **Combinação de Critérios:** Usar múltiplos critérios (distância de edição, frequência no corpus, contexto semântico) pode aumentar a precisão das sugestões.
- **Personalização:** Ajustar a frequência do corpus com base no domínio específico (por exemplo, termos médicos para um dicionário médico) pode melhorar os resultados.


Filtrar palavras candidatas é um processo multifacetado que combina técnicas de comparação de strings, análise de frequência e compreensão contextual. Implementar uma abordagem robusta pode significativamente melhorar a precisão das sugestões de correção em sistemas de autocorreção e outras aplicações de NLP.

### Métodos para Calcular as Probabilidades das Palavras

Calcular as probabilidades das palavras é um passo importante para melhorar a precisão de sugestões em tarefas como correção ortográfica. Esse processo envolve a utilização de modelos de linguagem que atribuem uma probabilidade a cada palavra candidata com base em diferentes critérios, como frequência no corpus, contexto e modelos de n-gramas.


1. **Frequência no Corpus:**
   - **Descrição:** As palavras mais frequentes em um grande corpus de texto são consideradas mais prováveis.
   - **Exemplo:** Se a palavra "the" aparece 5000 vezes em um corpus, sua probabilidade é maior do que a de uma palavra que aparece apenas 5 vezes.

<img src="./imgs/calculating_word_prob.png">

2. **Modelos de N-gramas:**
   - **Descrição:** Usar a frequência de sequências de palavras (n-gramas) para calcular a probabilidade de uma palavra em um dado contexto.
   - **Exemplo:** Em um modelo de bigrama, a probabilidade de "cat" seguir "the" pode ser calculada como $(P(cat|the) = \frac{C(the\ cat)}{C(the)} $, onde $C$ denota contagens no corpus.


3. **Modelos de Linguagem Baseados em Redes Neurais:**
   - **Descrição:** Modelos como Word2Vec, GloVe, BERT, ou GPT podem gerar probabilidades para palavras com base em embeddings de palavras e contexto.
   - **Exemplo:** Dado o contexto "I have a bl__ cat", um modelo de linguagem pode calcular a probabilidade de várias palavras preencherem o espaço em branco, como "black", "blue", etc.

#### Implementação em Python

Vamos ver como podemos implementar o cálculo de probabilidades de palavras usando frequências no corpus e um simples modelo de bigrama. Para isso precisamos seguir os seguintes passos:

1. **Frequência no Corpus:** Calcular a probabilidade baseada na frequência relativa da palavra no corpus.
2. **Modelo de Bigramas:** Calcular a probabilidade de uma palavra dado seu contexto anterior usando bigramas.


```python
from collections import Counter, defaultdict

# Corpus de exemplo
corpus = [
    "the cat sat on the mat",
    "the dog sat on the log",
    "the cat chased the dog",
    "the dog barked at the cat"
]

# Função para calcular frequências unigrama e bigrama
def calcular_frequencias(corpus):
    unigramas = Counter()
    bigramas = defaultdict(Counter)
    
    for frase in corpus:
        palavras = frase.split()
        for i in range(len(palavras)):
            unigramas[palavras[i]] += 1
            if i > 0:
                bigramas[palavras[i-1]][palavras[i]] += 1
    
    total_palavras = sum(unigramas.values())
    return unigramas, bigramas, total_palavras

# Calcular frequências no corpus
unigramas, bigramas, total_palavras = calcular_frequencias(corpus)

# Função para calcular probabilidade unigrama
def probabilidade_unigrama(palavra):
    return unigramas[palavra] / total_palavras

# Função para calcular probabilidade bigrama
def probabilidade_bigrama(palavra_anterior, palavra):
    if palavra_anterior in bigramas and palavra in bigramas[palavra_anterior]:
        return bigramas[palavra_anterior][palavra] / unigramas[palavra_anterior]
    else:
        return 0

# Exemplo de cálculo de probabilidades
palavra = "cat"
palavra_anterior = "the"

print(f"Probabilidade unigrama de '{palavra}': {probabilidade_unigrama(palavra)}")
print(f"Probabilidade bigrama de '{palavra}' dado '{palavra_anterior}': {probabilidade_bigrama(palavra_anterior, palavra)}")

output:
Probabilidade unigrama de 'cat': 0.13043478260869565
Probabilidade bigrama de 'cat' dado 'the': 0.375
```

#### Exemplos Práticos

1. **Exemplo 1:**
   - **Palavra:** "cat"
   - **Probabilidade Unigrama:** Calculada como a frequência da palavra "cat" dividida pelo total de palavras no corpus.
   - **Probabilidade Bigrama:** Calculada como a frequência da sequência "the cat" dividida pela frequência de "the".

2. **Exemplo 2:**
   - **Palavra:** "dog"
   - **Probabilidade Unigrama:** Calculada como a frequência da palavra "dog" dividida pelo total de palavras no corpus.
   - **Probabilidade Bigrama:** Calculada como a frequência da sequência "the dog" dividida pela frequência de "the".

#### Considerações

- **Balanceamento de Dados:** Um corpus pequeno ou desequilibrado pode levar a estimativas de probabilidade imprecisas. É importante utilizar um corpus representativo e suficientemente grande.
- **Suavização:** Técnicas de suavização, como Laplace ou Good-Turing, são usadas para lidar com bigramas ou n-gramas que não aparecem no corpus.
- **Modelos Avançados:** Modelos de linguagem baseados em redes neurais (como BERT ou GPT) podem fornecer probabilidades mais precisas ao considerar o contexto completo de uma frase.

Calcular as probabilidades das palavras é um componente essencial em muitas aplicações de NLP, incluindo correção ortográfica e autocompletar. Usando frequências no corpus e modelos de n-gramas, podemos estimar essas probabilidades de forma eficaz. Em aplicações mais avançadas, modelos de linguagem baseados em redes neurais podem proporcionar uma compreensão mais profunda e precisa do contexto, resultando em sugestões de palavras ainda mais acertadas.

## Minimum edit distance

### Operações de Distância Mínima de Edição

A distância mínima de edição (ou distância de Levenshtein) é uma métrica que mede o número mínimo de operações necessárias para transformar uma string em outra. As operações permitidas são inserção, deleção e substituição de caracteres. Vamos detalhar cada operação e como elas são usadas para calcular a distância mínima de edição, seguido de exemplos práticos.


1. **Inserção (Insert):** Adicionar um caractere à string. Exemplo: Transformar "cat" em "cats" requer uma inserção de 's' no final. A operação é `Insert('s')`.

2. **Deleção (Delete):** Remover um caractere da string. Exemplo: Transformar "cats" em "cat" requer uma deleção de 's'. A operação é `Delete('s')`.

3. **Substituição (Replace):** Substituir um caractere por outro. Exemplo: Transformar "cat" em "cut" requer uma substituição de 'a' por 'u'. A operação é `Replace('a', 'u')`.

Podemos atribuir pesos diferentes para cada operação, para assim, buscar otimizar a menor distancia. Por exemplo, atribuir os pesos de 1, 1 e 2 para insert, delete e replace. Para buscar a menor distancia utilizamos o algoritmod e Levenshtein.

<img src="./imgs/edit_distance_w.png">

O algoritmo de Levenshtein usa programação dinâmica para calcular a distância mínima de edição entre duas strings. Como já citado acima, segue os seguintes passos:

1. **Inicialização:**
   - Crie uma matriz `d` de tamanho `(m+1) x (n+1)`, onde `m` é o comprimento da primeira string `s` e `n` é o comprimento da segunda string `t`.
   - Inicialize `d[i][0] = i` para `i = 0, 1, ..., m`.
   - Inicialize `d[0][j] = j` para `j = 0, 1, ..., n`.

2. **Preenchimento da Matriz:**
   - Para cada `i = 1, ..., m` e `j = 1, ..., n`:
     - Se `s[i-1] == t[j-1]`, então `custo = 0`; caso contrário, `custo = 1`.
     - `d[i][j] = min(d[i-1][j] + 1, d[i][j-1] + 1, d[i-1][j-1] + custo)`.

3. **Resultado:**
   - A distância de edição é encontrada em `d[m][n]`.

(Ver #2.3.2.1 a implementação e exemplos)

## Minimum edit distance algorithm

Quando estamos computando a distancia mínima de edição, começamos com a palavra fonte e temos que transformá-la na palavra alvo. 

<img src="./imgs/minimum_edit_target.png">
     
Partindo de # para #, teremos um custo de 0. Partindo de p para #, teremos um custo de 1, porque faremos uma deleção. De p para s, teremos um custo de 2, porque esse é o custo mínimo que se poderia ter para ir de p a s. Podemos continuar assim preenchendo um elemento por vez.

Para preencher a seguinte tabela:

<img src="./imgs/minimum_edit1.png">


Existem três equações:

- $D[i,j] = D[i-1, j] + \text{del_cost}$: indica que você deseja preencher a célula atual (i,j) usando o custo na célula encontrada diretamente acima.

- $D[i,j] = D[i, j-1] + \text{ins_cost}$: indica que você deseja preencher a célula atual (i,j) usando o custo na célula localizada diretamente à sua esquerda.

- $D[i,j] = D[i-1, j-1] + \text{rep_cost}$: o custo rep pode ser 2 ou 0 dependendo se você vai realmente substituí-lo ou não.

A cada passo você verifica os três caminhos possíveis de onde pode vir e seleciona o menos caro. Quando terminar, você obterá o seguinte:

<img src="./imgs/minimum_edit2.png">

## Minimum edit distance algorithm II

In [None]:



Explique, descreva e dê exemplos de mispelled words e additive words em autocorrects em NLP
Explique, descreva e dê exemplos de como calcular probabilidades de palavras corretas em autocorrects em NLP

## SUBTITULO

## SUBTITULO

## SUBTITULO

## SUBTITULO

## SUBTITULO

## SUBTITULO

## SUBTITULO

## SUBTITULO

## SUBTITULO

# Week 2 - Part of Speech Tagging and Hidden Markov Models

# Week 3 - Autocomplete and Language Models

# Week 4 - Word Embedding with Neural Networks

# Referência
- Natural Language Processing with Classification and Vector Spaces, disponível em https://www.coursera.org/learn/probabilistic-models-in-nlp

# Licença
- CC BY-SA 2.0 LEGAL CODE. Attribution-ShareAlike 2.0 Generic
- Para detalhes sobre a licença, verifique https://creativecommons.org/licenses/by-sa/2.0/legalcode