<a href="https://colab.research.google.com/github/adsLopess/Linguistica_Computacional/blob/main/lc_modelos_de_linguagem_estatisticos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# **Introduzindo o Processamento de Linguagem Natural (NLP) com Modelo de Linguagem baseado em N-gramas**

## **Introdução**

**As máquinas estão aprendendo a linguagem humana!** ***Imagine um futuro onde as máquinas compreendem e geram linguagem como humanos***. Essa é a promessa empolgante dos modelos de linguagem, sistemas de inteligência artificial que aprendem a complexidade do mundo das palavras.

**Mas como isso funciona?**

Exploraremos o conceito de modelos de linguagem e como eles podem ser usados para processar linguagem natural (NLP). Começaremos definindo as etapas para construção de um modelo de linguagem (coleta, pré-processamento, treinamento, etc). Em seguida, mostraremos como os modelos de linguagem podem ser usados para gerar texto automaticamente. Finalmente, abordaremos como os computadores podem calcular as chances de uma palavra ou sequência de palavras ocorrerem em um texto.

Para pessoas que cairam de paraquedas nesse mundo, incluímos uma imagem explicativa aprofundar sua compreensão do NLP:

<img src="https://files.tecnoblog.net/wp-content/uploads/2022/01/o-que-e-processamento-de-linguagem-natural.png" width=550 height=300>



# **Conteúdo que será abordado neste caderno:**

**Modelos de Linguagem estatísticos:**
* Conceito e construção.
* Implementação usando n-gramas.

**Geração de texto:**
* Como gerar texto automaticamente com modelos de linguagem.
* Fornecimento de contexto e especificação do número de palavras.

**Cálculo de probabilidades:**
* Como os computadores calculam as chances de uma palavra ou sequência de palavras ocorrerem em um texto.
* Utilização de um corpus de texto para calcular as probabilidades.

# Modelos de Linguagem com N-gramas


Baixando a versão 3.5 do NLTK

In [None]:
!pip install nltk==3.5

Collecting nltk==3.5
  Downloading nltk-3.5.zip (1.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.4/1.4 MB[0m [31m10.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: nltk
  Building wheel for nltk (setup.py) ... [?25l[?25hdone
  Created wheel for nltk: filename=nltk-3.5-py3-none-any.whl size=1434677 sha256=10fae1fabb5499cd00832a9ae5f2f15b4eba55365b76b0611051516300425083
  Stored in directory: /root/.cache/pip/wheels/35/ab/82/f9667f6f884d272670a15382599a9c753a1dfdc83f7412e37d
Successfully built nltk
Installing collected packages: nltk
  Attempting uninstall: nltk
    Found existing installation: nltk 3.8.1
    Uninstalling nltk-3.8.1:
      Successfully uninstalled nltk-3.8.1
Successfully installed nltk-3.5


In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

### Passo 1: Carregando o Córpus

In [None]:
texto = """No meio do caminho tinha uma pedra
Tinha uma pedra no meio do caminho
Tinha uma pedra
No meio do caminho tinha uma pedra"""

texto = texto.lower().split('\n')
texto

['no meio do caminho tinha uma pedra',
 'tinha uma pedra no meio do caminho',
 'tinha uma pedra',
 'no meio do caminho tinha uma pedra']

### Passo 2: Tokenizando as Sentenças do Córpus

Segmentação e Padronização de Textos

In [None]:
texto_tok = []
for verso in texto:
  tokens = nltk.word_tokenize(verso, language='portuguese')
  texto_tok.append(tokens)

texto_tok

[['no', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra'],
 ['tinha', 'uma', 'pedra', 'no', 'meio', 'do', 'caminho'],
 ['tinha', 'uma', 'pedra'],
 ['no', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra']]

## Pré-processando as Sentenças

### Passo 3: Inserindo Marcadores de Início e Fim de Sentença
Suponha que queiramos definir um modelo de linguagem com bigramas, ou seja, calcular as chances de uma palavra com base na anterior (e.g., $P(pedra | uma)$, temos que marcar o início e fim da sentença para poder prever as changes da primeira palavra (e.g., $P(no | \langle s \rangle)$) e o fim da sentença ((e.g., $P(\langle/ s \rangle)$ | pedra)). Este processo é conhecido como *padding*.

Podemos fazer o *padding* de uma sentença utilizando o método **nltk.lm.preprocessing.pad_both_ends**:

In [None]:
from nltk.lm.preprocessing import pad_both_ends

ngramas = 2 # definindo o número de n-gramas (no caso, 2 -> bigramas)

texto_tok_pad = []
for verso in texto_tok:
  padded = pad_both_ends(verso, n=ngramas)
  texto_tok_pad.append(list(padded))

texto_tok_pad

[['<s>', 'no', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra', '</s>'],
 ['<s>', 'tinha', 'uma', 'pedra', 'no', 'meio', 'do', 'caminho', '</s>'],
 ['<s>', 'tinha', 'uma', 'pedra', '</s>'],
 ['<s>', 'no', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra', '</s>']]

### Passo 4: Calculando os N-Gramas

Uma vez que as sentenças do nosso córpus foram pré-processadas, podemos calcular os n-gramas (neste caso, os bigramas), utilizando o método **nltk.ngrams**:

In [None]:
ngramas = 2

bigramas_pad = []
for verso in texto_tok_pad:
  bigramas = nltk.ngrams(verso, ngramas)
  bigramas_pad.append(list(bigramas))

bigramas_pad

[[('<s>', 'no'),
  ('no', 'meio'),
  ('meio', 'do'),
  ('do', 'caminho'),
  ('caminho', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', '</s>')],
 [('<s>', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', 'no'),
  ('no', 'meio'),
  ('meio', 'do'),
  ('do', 'caminho'),
  ('caminho', '</s>')],
 [('<s>', 'tinha'), ('tinha', 'uma'), ('uma', 'pedra'), ('pedra', '</s>')],
 [('<s>', 'no'),
  ('no', 'meio'),
  ('meio', 'do'),
  ('do', 'caminho'),
  ('caminho', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', '</s>')]]

Contudo, para deixar nosso modelo de linguagem mais robusto, vamos calcular os **unigramas** além dos **bigramas** utilizando o comando **nltk.util.everygrams**:

In [None]:
from nltk.util import everygrams
ngramas = 2

ngramas_pad = []
for verso in texto_tok_pad:
  bigramas = everygrams(verso, max_len=ngramas)
  ngramas_pad.append(list(bigramas))

ngramas_pad

[[('<s>',),
  ('no',),
  ('meio',),
  ('do',),
  ('caminho',),
  ('tinha',),
  ('uma',),
  ('pedra',),
  ('</s>',),
  ('<s>', 'no'),
  ('no', 'meio'),
  ('meio', 'do'),
  ('do', 'caminho'),
  ('caminho', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', '</s>')],
 [('<s>',),
  ('tinha',),
  ('uma',),
  ('pedra',),
  ('no',),
  ('meio',),
  ('do',),
  ('caminho',),
  ('</s>',),
  ('<s>', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', 'no'),
  ('no', 'meio'),
  ('meio', 'do'),
  ('do', 'caminho'),
  ('caminho', '</s>')],
 [('<s>',),
  ('tinha',),
  ('uma',),
  ('pedra',),
  ('</s>',),
  ('<s>', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', '</s>')],
 [('<s>',),
  ('no',),
  ('meio',),
  ('do',),
  ('caminho',),
  ('tinha',),
  ('uma',),
  ('pedra',),
  ('</s>',),
  ('<s>', 'no'),
  ('no', 'meio'),
  ('meio', 'do'),
  ('do', 'caminho'),
  ('caminho', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', '</s>')]]

### Passo 5: Colocando todos os tokens do córpus numa única lista
**nltk.lm.preprocessing.flatten**:

Este método converte junta os elementos de sublistas em uma única lista. Por exemplo:

```python
>>> lista = [[1, 2], [3, 4]]
>>> flatten(lista)
[1, 2, 3, 4]
```

Como pode ser visto abaixo, nós o utilizamos para juntar todas os tokens das sentenças de nosso corpus numa única lista.

In [None]:
from nltk.lm.preprocessing import flatten

tokens = list(flatten(texto_tok_pad)) # juntando as palavras do nosso córpus

tokens

['<s>',
 'no',
 'meio',
 'do',
 'caminho',
 'tinha',
 'uma',
 'pedra',
 '</s>',
 '<s>',
 'tinha',
 'uma',
 'pedra',
 'no',
 'meio',
 'do',
 'caminho',
 '</s>',
 '<s>',
 'tinha',
 'uma',
 'pedra',
 '</s>',
 '<s>',
 'no',
 'meio',
 'do',
 'caminho',
 'tinha',
 'uma',
 'pedra',
 '</s>']

### Passo 6: Definindo o Vocabulário

**nltk.lm.Vocabulary**

Utilizado para definir o vocabulário do nosso córpus. Recebe dois parâmetros como entrada: uma lista com todos os tokens do nosso córpus e a variável *unk_cutoff*, a qual passa a considerar palavras abaixo de um limiar de frequência como palavras fora do vocabuário.

In [None]:
from nltk.lm import Vocabulary

vocab = Vocabulary(tokens, unk_cutoff=1) # definindo o vocabulário do nosso córpus

Obtendo as frequências das palavras do córpus com o comando *counts*

In [None]:
vocab.counts

Counter({'<s>': 4,
         'no': 3,
         'meio': 3,
         'do': 3,
         'caminho': 3,
         'tinha': 4,
         'uma': 4,
         'pedra': 4,
         '</s>': 4})

procurando uma palavra no vocabulário. Caso não encontrada, o token de palavra fora do vocabulário será retornada (\<UNK>)

In [None]:
vocab.lookup("tinha"), vocab.lookup("homem")

('tinha', '<UNK>')

## Simplificando o Pré-processamento

Agora que você sabe cada passo do pré-processamento (inserir marcadores de início e fim de sentença, calcular os n-gramas, juntar todos os tokens do corpus numa lista e definir o vocabulário), este processo pode ser simplificado pela funcionalidade **nltk.lm.preprocessing.padded_everygram_pipeline**:

In [None]:
from nltk.lm.preprocessing import padded_everygram_pipeline

ngramas = 2

ngramas_pad, vocab = padded_everygram_pipeline(ngramas, texto_tok)

ngramas_pad = [list(w) for w in ngramas_pad]
ngramas_pad

[[('<s>',),
  ('no',),
  ('meio',),
  ('do',),
  ('caminho',),
  ('tinha',),
  ('uma',),
  ('pedra',),
  ('</s>',),
  ('<s>', 'no'),
  ('no', 'meio'),
  ('meio', 'do'),
  ('do', 'caminho'),
  ('caminho', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', '</s>')],
 [('<s>',),
  ('tinha',),
  ('uma',),
  ('pedra',),
  ('no',),
  ('meio',),
  ('do',),
  ('caminho',),
  ('</s>',),
  ('<s>', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', 'no'),
  ('no', 'meio'),
  ('meio', 'do'),
  ('do', 'caminho'),
  ('caminho', '</s>')],
 [('<s>',),
  ('tinha',),
  ('uma',),
  ('pedra',),
  ('</s>',),
  ('<s>', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', '</s>')],
 [('<s>',),
  ('no',),
  ('meio',),
  ('do',),
  ('caminho',),
  ('tinha',),
  ('uma',),
  ('pedra',),
  ('</s>',),
  ('<s>', 'no'),
  ('no', 'meio'),
  ('meio', 'do'),
  ('do', 'caminho'),
  ('caminho', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', '</s>')]]

## Passo 7: Treinando um modelo de linguagem

Um modelo de linguagem pode ser treinado utilizando a funcionalidade **nltk.lm.MLE**

In [None]:
from nltk.lm.preprocessing import padded_everygram_pipeline, flatten
from nltk.lm import MLE

ngramas = 2
ngramas_pad, vocab = padded_everygram_pipeline(ngramas, texto_tok)
lm = MLE(ngramas)
lm.fit(ngramas_pad, vocab)

Dado o token **\<s>**, gerando um texto de 5 tokens com o modelo de linguagem treinado.

In [None]:
lm.generate(5, text_seed=["<s>"])

['no', 'meio', 'do', 'caminho', 'tinha']

Probabilidade da palavra *no*:

In [None]:
print("Probabilidade comum: ", lm.score("no"))
print("Probabilidade logarítmica: ", lm.logscore("no"))

Probabilidade comum:  0.09375
Probabilidade logarítmica:  -3.415037499278844


Probabilidade da palavra *tinha* dado a palavra *caminho*:

In [None]:
print("Probabilidade comum: ", lm.score("tinha", context=["caminho"]))
print("Probabilidade logarítmica: ", lm.logscore("tinha", context=["caminho"]))

Probabilidade comum:  0.6666666666666666
Probabilidade logarítmica:  -0.5849625007211563


## Avaliação Perplexidade

In [None]:
teste = """Tinha uma pedra
No meio do caminho
Tinha uma pedra"""

# pré-processamento
teste = teste.lower().split('\n')
teste_tok = []
for verso in teste:
  tokens = nltk.word_tokenize(verso, language='portuguese')
  teste_tok.append(tokens)

ngramas = 1
teste_ngramas, _ = padded_everygram_pipeline(ngramas, teste_tok)
teste_ngramas = flatten([list(w) for w in teste_ngramas])
print("Perplexidade do Unigrama: ", lm.perplexity(teste_ngramas))

ngramas = 2
teste_ngramas, _ = padded_everygram_pipeline(ngramas, teste_tok)
teste_ngramas = flatten([list(w) for w in teste_ngramas])
print("Perplexidade do Bigrama: ", lm.perplexity(teste_ngramas))

Perplexidade do Unigrama:  8.975641163569597
Perplexidade do Bigrama:  3.7299192471355798


## Add-1 Smoothing

In [None]:
from nltk.lm.preprocessing import padded_everygram_pipeline
from nltk.lm import Laplace

ngramas = 2
ngramas_pad, vocab = padded_everygram_pipeline(ngramas, texto_tok)
lm = Laplace(ngramas)
lm.fit(ngramas_pad, vocab)

In [None]:
round(lm.score("tinha", context=["caminho"]), 2)

0.23

## Add-k Smoothing

In [None]:
from nltk.lm.preprocessing import padded_everygram_pipeline
from nltk.lm import Lidstone

ngramas = 2
k=0.1
ngramas_pad, vocab = padded_everygram_pipeline(ngramas, texto_tok)
lm = Lidstone(order=ngramas, gamma=k)
lm.fit(ngramas_pad, vocab)

In [None]:
round(lm.score("tinha", context=["caminho"]), 2) # dado a palavra 'caminho' a probabilidade da proxima palavra ser 'tinha', é de 0.53 de acordo com nosso corpus

0.53

O Lidstone é um modelo de linguagem probabilístico que utiliza o k-smoothing. O k-smoothing adiciona k a cada conta de frequência observada.