**Baixando a versão 3.5 do NLTK**

In [None]:
!pip3 install nltk==3.5

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting nltk==3.5
  Downloading nltk-3.5.zip (1.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.4/1.4 MB[0m [31m13.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: nltk
  Building wheel for nltk (setup.py) ... [?25l[?25hdone
  Created wheel for nltk: filename=nltk-3.5-py3-none-any.whl size=1434693 sha256=e1fd6cc2fa43213839e10b85f97fd781d0a3e55b6270535d8649d0228e09fc26
  Stored in directory: /root/.cache/pip/wheels/ff/d5/7b/f1fb4e1e1603b2f01c2424dd60fbcc50c12ef918bafc44b155
Successfully built nltk
Installing collected packages: nltk
  Attempting uninstall: nltk
    Found existing installation: nltk 3.7
    Uninstalling nltk-3.7:
      Successfully uninstalled nltk-3.7
Successfully installed nltk-3.5


**Importando Dependências**

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

**Passo 1: Carregando o Córpus**

In [None]:
texto = """No meio do caminho tinha uma pedra
Tinha uma pedra no meio do caminho
Tinha uma pedra
No meio do caminho tinha uma pedra"""

texto = texto.lower().split('\n')
texto

['no meio do caminho tinha uma pedra',
 'tinha uma pedra no meio do caminho',
 'tinha uma pedra',
 'no meio do caminho tinha uma pedra']

**Passo 2: Tokenizando as Sentenças do Córpus**

In [None]:
texto_tok = []
for verso in texto:
  tokens = nltk.word_tokenize(verso, language='portuguese')
  texto_tok.append(tokens)

texto_tok

[['no', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra'],
 ['tinha', 'uma', 'pedra', 'no', 'meio', 'do', 'caminho'],
 ['tinha', 'uma', 'pedra'],
 ['no', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra']]

**Pré-processando as Sentenças**

**Passo 3: Inserindo Marcadores de Início e Fim de Sentença**

In [None]:
from nltk.lm.preprocessing import pad_both_ends

ngramas = 2

texto_tok_pad = []
for verso in texto_tok:
  padded = list(pad_both_ends(verso, n=ngramas))
  texto_tok_pad.append(padded)

texto_tok_pad

[['<s>', 'no', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra', '</s>'],
 ['<s>', 'tinha', 'uma', 'pedra', 'no', 'meio', 'do', 'caminho', '</s>'],
 ['<s>', 'tinha', 'uma', 'pedra', '</s>'],
 ['<s>', 'no', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra', '</s>']]

**Passo 4: Calculando os N-Gramas**

In [None]:
ngramas = 2

bigramas_pad = []
for verso in texto_tok_pad:
  bigramas = list(nltk.ngrams(verso, n=ngramas))
  bigramas_pad.append(bigramas)

bigramas_pad

[[('<s>', 'no'),
  ('no', 'meio'),
  ('meio', 'do'),
  ('do', 'caminho'),
  ('caminho', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', '</s>')],
 [('<s>', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', 'no'),
  ('no', 'meio'),
  ('meio', 'do'),
  ('do', 'caminho'),
  ('caminho', '</s>')],
 [('<s>', 'tinha'), ('tinha', 'uma'), ('uma', 'pedra'), ('pedra', '</s>')],
 [('<s>', 'no'),
  ('no', 'meio'),
  ('meio', 'do'),
  ('do', 'caminho'),
  ('caminho', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', '</s>')]]

In [None]:
from nltk.util import everygrams

ngramas = 2
ngramas_pad = []
for verso in texto_tok_pad:
  bigramas = list(everygrams(verso, max_len=ngramas))
  ngramas_pad.append(bigramas)

ngramas_pad

[[('<s>',),
  ('no',),
  ('meio',),
  ('do',),
  ('caminho',),
  ('tinha',),
  ('uma',),
  ('pedra',),
  ('</s>',),
  ('<s>', 'no'),
  ('no', 'meio'),
  ('meio', 'do'),
  ('do', 'caminho'),
  ('caminho', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', '</s>')],
 [('<s>',),
  ('tinha',),
  ('uma',),
  ('pedra',),
  ('no',),
  ('meio',),
  ('do',),
  ('caminho',),
  ('</s>',),
  ('<s>', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', 'no'),
  ('no', 'meio'),
  ('meio', 'do'),
  ('do', 'caminho'),
  ('caminho', '</s>')],
 [('<s>',),
  ('tinha',),
  ('uma',),
  ('pedra',),
  ('</s>',),
  ('<s>', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', '</s>')],
 [('<s>',),
  ('no',),
  ('meio',),
  ('do',),
  ('caminho',),
  ('tinha',),
  ('uma',),
  ('pedra',),
  ('</s>',),
  ('<s>', 'no'),
  ('no', 'meio'),
  ('meio', 'do'),
  ('do', 'caminho'),
  ('caminho', 'tinha'),
  ('tinha', 'uma'),
  ('uma', 'pedra'),
  ('pedra', '</s>')]]

**Passo 5: Colocando todos os tokens do córpus numa única lista**

In [None]:
from nltk.lm.preprocessing import flatten

tokens = list(flatten(texto_tok_pad))
tokens

['<s>',
 'no',
 'meio',
 'do',
 'caminho',
 'tinha',
 'uma',
 'pedra',
 '</s>',
 '<s>',
 'tinha',
 'uma',
 'pedra',
 'no',
 'meio',
 'do',
 'caminho',
 '</s>',
 '<s>',
 'tinha',
 'uma',
 'pedra',
 '</s>',
 '<s>',
 'no',
 'meio',
 'do',
 'caminho',
 'tinha',
 'uma',
 'pedra',
 '</s>']

**Passo 6: Definindo o Vocabulário**

In [None]:
from nltk.lm import Vocabulary

vocab = Vocabulary(tokens, unk_cutoff=1)

In [None]:
vocab.counts

Counter({'<s>': 4,
         'no': 3,
         'meio': 3,
         'do': 3,
         'caminho': 3,
         'tinha': 4,
         'uma': 4,
         'pedra': 4,
         '</s>': 4})

In [None]:
vocab.lookup('caminho')

'caminho'

In [None]:
vocab.lookup('rocha')

'<UNK>'

**Simplificanto o Pré-Processamento**

In [None]:
from nltk.lm.preprocessing import padded_everygram_pipeline

ngramas = 2

ngramas_pad, vocab = padded_everygram_pipeline(ngramas, texto_tok)

**Passo 7: Treinando um modelo de linguagem**

In [None]:
from nltk.lm import MLE

ngramas = 2
lm = MLE(ngramas)
lm.fit(ngramas_pad, vocab)

In [None]:
lm.generate(4, text_seed=['<s>'])

['tinha', 'uma', 'pedra', '</s>']

In [None]:
lm.score('no'), lm.logscore('no')

(0.09375, -3.415037499278844)

In [None]:
lm.score('tinha', context=['caminho']), lm.logscore('tinha', context=['caminho'])

(0.6666666666666666, -0.5849625007211563)

**Avaliação Perplexidade**

In [None]:
from nltk.lm.preprocessing import padded_everygram_pipeline

teste = """Tinha uma pedra
No meio do caminho
Tinha uma pedra"""

teste = teste.lower().split('\n')
teste_tok = []
for verso in teste:
  tokens = nltk.word_tokenize(verso, language='portuguese')
  teste_tok.append(tokens)

ngramas = 1
teste_ngramas, _ = padded_everygram_pipeline(ngramas, teste_tok)
teste_ngramas = flatten(list(w) for w in teste_ngramas)
print('Unigramas: ', lm.perplexity(teste_ngramas))

ngramas = 2
teste_ngramas, _ = padded_everygram_pipeline(ngramas, teste_tok)
teste_ngramas = flatten(list(w) for w in teste_ngramas)
print('Bigramas: ', lm.perplexity(teste_ngramas))

Unigramas:  8.975641163569597
Bigramas:  3.7299192471355798


**Laplace(Add-1 Smoothing)**

In [None]:
from nltk.lm import Laplace

ngramas = 2
ngramas_pad, vocab = padded_everygram_pipeline(ngramas, texto_tok)
lm = Laplace(ngramas)
lm.fit(ngramas_pad, vocab)

In [None]:
lm.score('rocha')

0.023809523809523808

**Lidstone(Add-k Smoothing)**

In [None]:
from nltk.lm import Lidstone

ngramas = 2
ngramas_pad, vocab = padded_everygram_pipeline(ngramas, texto_tok)
lm = Lidstone(order = ngramas, gamma = 0.1)
lm.fit(ngramas_pad, vocab)

In [None]:
lm.score('rocha')

0.0030303030303030303