# Exemplo de treinamento de modelo linguístico

In [111]:
# Passo 1: ter uma coleção de documentos
colecao = ["uma frase da minha coleção".split(), "outra frase da minha coleção".split(), "uma frase nada a ver com as outras".split()]
print(colecao)

[['uma', 'frase', 'da', 'minha', 'coleção'], ['outra', 'frase', 'da', 'minha', 'coleção'], ['uma', 'frase', 'nada', 'a', 'ver', 'com', 'as', 'outras']]


In [112]:
# Passo 2: separar minha colecao em n-gramas de tamanho inferior a n
from nltk import everygrams
from nltk.lm.preprocessing import pad_both_ends
n = 2

# a - encontrar todos os n-gramas de tamanho igual ou menor que N
ngramas = [everygrams(c, max_len=n) for c in colecao]
print([list (c) for c in ngramas])
print("-----")

# b - padding para lidar com início e fim de sequências
colecao_pad = [pad_both_ends(c, n) for c in colecao]
print([list(c) for c in colecao_pad])
print("-----")

# c- juntar padding com encontrar n-gramas
colecao_pad = [pad_both_ends(c, n) for c in colecao]
ngramas = [everygrams(c, max_len=n) for c in colecao_pad]
print([list (c) for c in ngramas])


[[('uma',), ('uma', 'frase'), ('frase',), ('frase', 'da'), ('da',), ('da', 'minha'), ('minha',), ('minha', 'coleção'), ('coleção',)], [('outra',), ('outra', 'frase'), ('frase',), ('frase', 'da'), ('da',), ('da', 'minha'), ('minha',), ('minha', 'coleção'), ('coleção',)], [('uma',), ('uma', 'frase'), ('frase',), ('frase', 'nada'), ('nada',), ('nada', 'a'), ('a',), ('a', 'ver'), ('ver',), ('ver', 'com'), ('com',), ('com', 'as'), ('as',), ('as', 'outras'), ('outras',)]]
-----
[['<s>', 'uma', 'frase', 'da', 'minha', 'coleção', '</s>'], ['<s>', 'outra', 'frase', 'da', 'minha', 'coleção', '</s>'], ['<s>', 'uma', 'frase', 'nada', 'a', 'ver', 'com', 'as', 'outras', '</s>']]
-----
[[('<s>',), ('<s>', 'uma'), ('uma',), ('uma', 'frase'), ('frase',), ('frase', 'da'), ('da',), ('da', 'minha'), ('minha',), ('minha', 'coleção'), ('coleção',), ('coleção', '</s>'), ('</s>',)], [('<s>',), ('<s>', 'outra'), ('outra',), ('outra', 'frase'), ('frase',), ('frase', 'da'), ('da',), ('da', 'minha'), ('minha',), 

In [89]:
# Passo 3 - encontrar o vocabulário de n-gramas
from nltk.lm.preprocessing import flatten

colecao_pad = [pad_both_ends(c, n) for c in colecao]
ngramas = [everygrams(c, max_len=n) for c in colecao_pad]
vocab = flatten(pad_both_ends(c, n) for c in colecao)
print(list(vocab))

['<s>', 'uma', 'frase', 'da', 'minha', 'coleção', '</s>', '<s>', 'outra', 'frase', 'da', 'minha', 'coleção', '</s>', '<s>', 'uma', 'frase', 'nada', 'a', 'ver', 'com', 'as', 'outras', '</s>']


In [90]:
# Passo 4 - treinar nosso modelo
from nltk.lm import MLE 

lm = MLE(n)
colecao_pad = [pad_both_ends(c, n) for c in colecao]
ngramas = [everygrams(c, max_len=n) for c in colecao_pad]
vocab = flatten(pad_both_ends(c, n) for c in colecao)
lm.fit(ngramas, vocab)

In [102]:
# Passo 5 - visualizar propriedades do modelo
print (len(lm.vocab)) # Quantas palavras tem no meu vocabulario
print("---")
print(list(lm.vocab)) # Quais sao as palavras do meu vocabulario
print("---")
print(lm.vocab.lookup("uma frase".split())) # Este ngrama faz parte do vocabulario?
print("---")
print(lm.score("frase")) # Qual é a probabilidade de encontrar esta palavra?
print("---")
print(lm.score("frase", "uma".split())) # Qual é a probabilidade de encontrar esta palavra dado este contexto?

15
---
['<s>', 'uma', 'frase', 'da', 'minha', 'coleção', '</s>', 'outra', 'nada', 'a', 'ver', 'com', 'as', 'outras', '<UNK>']
---
('uma', 'frase')
---
0.125
---
1.0


In [104]:
# Passo 6 - Usar uma API mais condensada para treinar o modelo
from nltk.lm.preprocessing import padded_everygram_pipeline
train_data, vocab = padded_everygram_pipeline(n, colecao)
lm = MLE(n)
lm.fit(train_data, vocab)

print (len(lm.vocab)) # Quantas palavras tem no meu vocabulario
print("---")
print(list(lm.vocab)) # Quais sao as palavras do meu vocabulario
print("---")
print(lm.vocab.lookup("uma frase".split())) # Este ngrama faz parte do vocabulario?
print("---")
print(lm.score("frase")) # Qual é a probabilidade de encontrar esta palavra?
print("---")
print(lm.score("frase", "uma".split())) # Qual é a probabilidade de encontrar esta palavra dado este contexto?


15
---
['<s>', 'uma', 'frase', 'da', 'minha', 'coleção', '</s>', 'outra', 'nada', 'a', 'ver', 'com', 'as', 'outras', '<UNK>']
---
('uma', 'frase')
---
0.125
---
1.0


In [110]:
# Passo 7 - Gerar textos com nosso modelo!
texto_ = lm.generate(20, random_seed=27)
texto_ = " ".join(texto_)
print(texto_)

frase nada a ver com as outras </s> outra frase nada a ver com as outras </s> nada a ver
