#Aluno: Max Pinheiro matrícula: 1831143046

# Exercício 2 - N-Gramas

Neste exercício, vamos construir um modelo linguístico baseados em n-gramas. Para criarmos esse modelo, usaremos a frequência relativa para calcular a probabilidade de uma palavra aparecer dado uma sequência de palavras. Com o modelo, vamos gerar um texto baseado no corpus de treinamento.

In [3]:
from nltk.corpus import machado
from nltk.util import bigrams, trigrams, ngrams
from collections import Counter
import pandas as pd
import random

Vamos utilizar um corpus em português para gerar nosso modelo. Vamos carregar, a partir do corpus Machado do NLTK, o texto Memórias Póstumas de Brás Cubas. Vamos carregar uma lista de sentenças tokenizadas.

corpus instalado via conda: python -m nltk downloader.machado

In [5]:
corpus = machado.sents('romance/marm05.txt')
corpus[:100]

[['Romance', ',', 'Memórias', 'Póstumas', 'de', 'Brás', 'Cubas', ',', '1880'], ['Memórias', 'Póstumas', 'de', 'Brás', 'Cubas'], ...]

In [6]:
type(corpus)

nltk.corpus.reader.util.StreamBackedCorpusView

Para gerar o modelo corretamente, precisamos demarcar onde a sentença começa e onde termina. Vamos adicionar tokens de início e fim de sentença. Vamos criar um modelo de trigrama, assim, o primeiro trigrama precisa desmarcar a primeira palavra da sentença. Por isso, adicionamos dois tokens de início em cada sentença e um de fim no final. Aqui também convertemos a nossa lista de sentenças em uma lista de palavras.

In [9]:
words = []
for sent in corpus:
    sent.insert(0, '<s>')#insere token no início da sentença
    sent.insert(0, '<s>')
    sent.append('</s>')
    words.extend(sent)

In [10]:
words[0:20]

['<s>',
 '<s>',
 'Romance',
 ',',
 'Memórias',
 'Póstumas',
 'de',
 'Brás',
 'Cubas',
 ',',
 '1880',
 '</s>',
 '<s>',
 '<s>',
 'Memórias',
 'Póstumas',
 'de',
 'Brás',
 'Cubas',
 '</s>']

In [11]:
type(words)

list

In [12]:
words[0]

'<s>'

Vamos agora gerar as trigramas e bigramas necessárias para o modelo. Para isso, usamos a função bigrams e trigrams do pacote NLTK que facilita nosso trabalho. A função funciona a partir de listas de palavras previamente segmentadas.

In [13]:
words_bigram = bigrams(words)
words_trigram = trigrams(words)

In [14]:
words_bigram

<generator object bigrams at 0x000002B66ECBD048>

In [15]:
print(words_bigram)

<generator object bigrams at 0x000002B66ECBD048>


In [17]:
type(words_bigram)

generator

Vamos contar os bigramas, para isso vamos usar o Counter.

In [16]:
count_bigram = Counter(words_bigram)
count_bigram

Counter({('<s>', '<s>'): 3822,
         ('<s>', 'Romance'): 1,
         ('Romance', ','): 1,
         (',', 'Memórias'): 1,
         ('Memórias', 'Póstumas'): 5,
         ('Póstumas', 'de'): 4,
         ('de', 'Brás'): 6,
         ('Brás', 'Cubas'): 29,
         ('Cubas', ','): 16,
         (',', '1880'): 1,
         ('1880', '</s>'): 1,
         ('</s>', '<s>'): 3821,
         ('<s>', 'Memórias'): 1,
         ('Cubas', '</s>'): 1,
         ('<s>', 'Texto'): 1,
         ('Texto', '-'): 1,
         ('-', 'fonte'): 1,
         ('fonte', ':'): 1,
         (':', 'Obra'): 1,
         ('Obra', 'Completa'): 1,
         ('Completa', ','): 1,
         (',', 'Machado'): 1,
         ('Machado', 'de'): 2,
         ('de', 'Assis'): 2,
         ('Assis', ','): 1,
         (',', 'Rio'): 1,
         ('Rio', 'de'): 8,
         ('de', 'Janeiro'): 8,
         ('Janeiro', ':'): 1,
         (':', 'Editora'): 1,
         ('Editora', 'Nova'): 1,
         ('Nova', 'Aguilar'): 1,
         ('Aguilar', ','): 1,


Precisamos também contar os trigramas, assim, use o Counter nos trigramas na linha abaixo.

In [10]:
count_trigram = Counter(words_trigram)

Criaremos uma lista de bigramas e trigramas únicos para podermos gerar nosso modelo. Utilizaremos essa lista como chave do nosso dicionário de contagem.

In [12]:
bigram_key = list(count_bigram.keys())
trigram_key = list(count_trigram.keys())

In [13]:
trigram_key

[('<s>', '<s>', 'Romance'),
 ('<s>', 'Romance', ','),
 ('Romance', ',', 'Memórias'),
 (',', 'Memórias', 'Póstumas'),
 ('Memórias', 'Póstumas', 'de'),
 ('Póstumas', 'de', 'Brás'),
 ('de', 'Brás', 'Cubas'),
 ('Brás', 'Cubas', ','),
 ('Cubas', ',', '1880'),
 (',', '1880', '</s>'),
 ('1880', '</s>', '<s>'),
 ('</s>', '<s>', '<s>'),
 ('<s>', '<s>', 'Memórias'),
 ('<s>', 'Memórias', 'Póstumas'),
 ('Brás', 'Cubas', '</s>'),
 ('Cubas', '</s>', '<s>'),
 ('<s>', '<s>', 'Texto'),
 ('<s>', 'Texto', '-'),
 ('Texto', '-', 'fonte'),
 ('-', 'fonte', ':'),
 ('fonte', ':', 'Obra'),
 (':', 'Obra', 'Completa'),
 ('Obra', 'Completa', ','),
 ('Completa', ',', 'Machado'),
 (',', 'Machado', 'de'),
 ('Machado', 'de', 'Assis'),
 ('de', 'Assis', ','),
 ('Assis', ',', 'Rio'),
 (',', 'Rio', 'de'),
 ('Rio', 'de', 'Janeiro'),
 ('de', 'Janeiro', ':'),
 ('Janeiro', ':', 'Editora'),
 (':', 'Editora', 'Nova'),
 ('Editora', 'Nova', 'Aguilar'),
 ('Nova', 'Aguilar', ','),
 ('Aguilar', ',', '1994'),
 (',', '1994', '.'),
 ('

Para o cálculo da frequência relativa de trigramas, precisamos, para cada trigrama, pegar o bigrama formado pelas primeiras duas palavras do trigrama. Assim, calculamos a probabilidade da última palavra do trigrama surgir no corpus, dado a aparição das duas primeiras palavras no trigrama:

<center>$P(w_{3} | w_{1},w_{2}) = \frac{c(w_{1}, w_{2}, w_{3})}{c(w_{1}, w_{2})}$</center>

Assim, para cada trigrama único, pegamos o bigrama correspondente e calculamos a probabilidade acima. Vamos colocar todos esses dados em um dataframe pandas, por isso, vamos criar listas com os bigramas correspondentes para cada trigrama (primeira e segunda palavra no trigrama) e a última palavra do trigrama, formando uma tabela.

In [14]:
list_bigram = []
list_lastword = []
list_probs = []

for t in trigram_key:
    key_bigram = (t[0], t[1])
    prob = count_trigram[t] / count_bigram[key_bigram]
    list_bigram.append(key_bigram)
    list_lastword.append(t[2])
    list_probs.append(prob)

A partir das listas criadas acima, vamos criar um dataframe pandas. Esse dataframe será nosso modelo linguístico.

In [15]:
model_df = pd.DataFrame({'bigram': list_bigram, 'lastword': list_lastword, 'prob': list_probs})
model_df

Unnamed: 0,bigram,lastword,prob
0,"(<s>, <s>)",Romance,0.000262
1,"(<s>, Romance)",",",1.000000
2,"(Romance, ,)",Memórias,1.000000
3,"(,, Memórias)",Póstumas,1.000000
4,"(Memórias, Póstumas)",de,0.800000
5,"(Póstumas, de)",Brás,1.000000
6,"(de, Brás)",Cubas,0.833333
7,"(Brás, Cubas)",",",0.482759
8,"(Cubas, ,)",1880,0.062500
9,"(,, 1880)",</s>,1.000000


Vamos testar nosso dataframe. Crie um dataframe contendo apenas o bigrama ('Brás', 'Cubas').

In [16]:
bigram_df = model_df.loc[model_df['bigram'] == ('Brás', 'Cubas')]
bigram_df

Unnamed: 0,bigram,lastword,prob
7,"(Brás, Cubas)",",",0.482759
14,"(Brás, Cubas)",</s>,0.034483
92,"(Brás, Cubas)",foi,0.034483
179,"(Brás, Cubas)",são,0.034483
211,"(Brás, Cubas)",(,0.034483
320,"(Brás, Cubas)",se,0.034483
338,"(Brás, Cubas)",um,0.034483
716,"(Brás, Cubas)",.,0.206897
27329,"(Brás, Cubas)",;,0.068966
39094,"(Brás, Cubas)",não,0.034483


Agora mostre que temos um modelo probabilístico. Para que um modelo seja probabilístico, precisamos que todas as probablidades de um dado bigrama somem 1. Complete a linha abaixo somando as probabilidades do dataframe criado acima. A soma deve ser aproximadamente 1.

In [20]:
calc_prob = sum(bigram_df['prob'])
calc_prob

0.9999999999999998

Com o nosso modelo criado, vamos usá-lo para gerar texto. Para gerar texto temos que iniciar com o bigrama de início de sentença, pegar todos os trigramas que iniciam com esse bigrama e tomar a próxima palavra de acordo com sua probabilidade. O próximo bigrama será as duas últimas palavras do trigrama escolhido, isto é, pego a última palavra do bigrama atual e junto com a próxima palavra escolhida de acordo com a probabilidade. Complete o código abaixo para gerar o texto.

In [21]:
num_sents = 50
current_bigram = ('<s>', '<s>')
i = 0
while i < num_sents:
    df = model_df.loc[model_df['bigram'] == current_bigram]
    words = df['lastword'].values
    probs = df['prob'].values
    last_word = random.choices(words, probs)[0]
    
    current_bigram = (current_bigram[1], last_word)
    
    if last_word == '</s>':
        i+=1
    
    if last_word != '<s>' and last_word != '</s>':
        print(last_word, end=' ')

 Que você quis casar com Iaiá , que deviam ser tão seculares como eles . O barão dizia ontem , como era de boca ou do centro , e achou meio de fechar o livro do poeta , por inquietas , por todos os elementos de uma obra difusa , na manhã seguinte , 1806 ; batizei - me a aceitar o diploma era uma espécie de lei da equivalência das janelas , e moveu a cabeça nas mãos , disse - me : Era preciso arejar a consciência e resguardar o decoro . Sentia - me e fechou - se ficar a olhar para as andorinhas . Esta é a minha nomeação à do Lobo Neves , que me disseram depois . Indaguei de Virgília , calada , fazia - me do espírito os pensamentos maus ; preferi dormir , que valia mais , é sacudi - lo . Saí desatinado ; gastei duas mortais horas em vaguear pelos bairros mais excêntricos e desertos , onde eu ficava irresoluto e inquieto , desejoso de a obter não pertence ao faquir somente : é teu orgulho ; mas era tarde ; a expansiva , mais depressa serias deputado . Vamos ao terraço ? Pobre Romualdo ! 

Agora é a sua vez! Vamos criar um modelo mais performático para o corpus. Para isso, vamos usar 5-gramas. Usando a função ngrams, crie um modelo de 5-gramas e gere texto a partir dele.

Lembre-se que precisamos do seguinte para criar o modelo:

* Inserir tokens de inicio e fim de sentença adequados ao modelo, isto é, 4 tokens no início da sentença
* Criar listas de 4-gramas e 5-gramas usando o ngrams
* Contar os ngramas de cada lista
* Calcular a probabilidade adequadamente
* Criar o modelo em forma de dataframe
* Usar o modelo para gerar texto

Use o código acima como exemplo e crie o seu próprio modelo.

In [60]:
corpus = machado.sents('romance/marm05.txt')
corpus[0]#essa é uma sentença

['Romance', ',', 'Memórias', 'Póstumas', 'de', 'Brás', 'Cubas', ',', '1880']

Inserir token de início e fim de sentença com 5-gramas

In [61]:
words = []
for sent in corpus:
    sent.insert(0, '<s>')#insere token no início da sentença
    sent.insert(0, '<s>')#insere token no início da sentença
    sent.insert(0, '<s>')#insere token no início da sentença
    sent.insert(0, '<s>')#insere token no início da sentença
    sent.append('</s>')
    words.extend(sent)

In [62]:
words[:9]

['<s>', '<s>', '<s>', '<s>', 'Romance', ',', 'Memórias', 'Póstumas', 'de']

Criar lista de 4 e 5-gramas

In [63]:
words_fourgram = ngrams(words,4)
words_fivegram = ngrams(words,5)

In [64]:
words_fourgram

<generator object ngrams at 0x000001FDB24EC390>

Contar o ngrams de cada lista

In [65]:
count_fourgram = Counter(words_fourgram)
count_fivegram = Counter(words_fivegram)

In [66]:
count_fourgram

Counter({('<s>', '<s>', '<s>', '<s>'): 3822,
         ('<s>', '<s>', '<s>', 'Romance'): 1,
         ('<s>', '<s>', 'Romance', ','): 1,
         ('<s>', 'Romance', ',', 'Memórias'): 1,
         ('Romance', ',', 'Memórias', 'Póstumas'): 1,
         (',', 'Memórias', 'Póstumas', 'de'): 1,
         ('Memórias', 'Póstumas', 'de', 'Brás'): 4,
         ('Póstumas', 'de', 'Brás', 'Cubas'): 4,
         ('de', 'Brás', 'Cubas', ','): 1,
         ('Brás', 'Cubas', ',', '1880'): 1,
         ('Cubas', ',', '1880', '</s>'): 1,
         (',', '1880', '</s>', '<s>'): 1,
         ('1880', '</s>', '<s>', '<s>'): 1,
         ('</s>', '<s>', '<s>', '<s>'): 3821,
         ('<s>', '<s>', '<s>', 'Memórias'): 1,
         ('<s>', '<s>', 'Memórias', 'Póstumas'): 1,
         ('<s>', 'Memórias', 'Póstumas', 'de'): 1,
         ('de', 'Brás', 'Cubas', '</s>'): 1,
         ('Brás', 'Cubas', '</s>', '<s>'): 1,
         ('Cubas', '</s>', '<s>', '<s>'): 1,
         ('<s>', '<s>', '<s>', 'Texto'): 1,
         ('<s>', '<s

In [67]:
fourgram_key = list(count_fourgram.keys())
fivegram_key = list(count_fivegram.keys())

In [68]:
type(fourgram_key)

list

In [71]:
len(count_fourgram)


76676

In [72]:
len(count_fivegram)

81719

Calcular a probabilidade

In [73]:
list_fourgram = []
list_lastwordfour = []
list_probsfour = []

for t in fivegram_key:
    key_fourgram = (t[0], t[1],t[2], t[3])
    prob = count_fivegram[t] / count_fourgram[key_fourgram]
    list_fourgram.append(key_fourgram)
    list_lastwordfour.append(t[4])
    list_probsfour.append(prob)

In [75]:
model_df2 = pd.DataFrame({'fourgram': list_fourgram, 'lastword': list_lastwordfour, 'prob': list_probsfour})
model_df2[0:2]

Unnamed: 0,fourgram,lastword,prob
0,"(<s>, <s>, <s>, <s>)",Romance,0.000262
1,"(<s>, <s>, <s>, Romance)",",",1.0


In [77]:
fourgram_df = model_df2.loc[model_df2['fourgram'] == ('Romance', ',', 'Memórias', 'Póstumas')]
fourgram_df

Unnamed: 0,fourgram,lastword,prob
4,"(Romance, ,, Memórias, Póstumas)",de,1.0


In [78]:
calc_probfour = sum(fourgram_df['prob'])
calc_probfour

1.0

In [84]:
num_sents = 50
current_fourgram = ('<s>', '<s>', '<s>', '<s>')
i = 0
while i < num_sents:
    df2 = model_df2.loc[model_df2['fourgram'] == current_fourgram]
    words = df2['lastword'].values
    probs = df2['prob'].values
    last_word = random.choices(words, probs)[0]
    
    current_fourgram = (current_fourgram[1], current_fourgram[2],current_fourgram[3], last_word)
    
    if last_word == '</s>':
        i+=1
    
    if last_word != '<s>' and last_word != '</s>':
        print(last_word, end=' ')

 Você é das Arábias , dizia - me a mucama . Assim , este frango , que eu almocei agora mesmo , é o resultado de uma multidão de esforços e lutas , executados com o único fim de acudir à paixão do lucro , que era o seu ofício , remexendo a alma e a vida dos outros .  Meu senhor ! A história do homem e da Terra tinha assim uma intensidade que lhe não podiam dar nem a imaginação nem a ciência , porque a ciência é mais lenta e a imaginação mais vaga , enquanto que o que eu ali via era a condensação viva de todos os tempos . Entretanto , ele suportava com firmeza o meu espanto .  Onde estamos ? Pudera não ! Havia ainda o primo de Virgília , o Luís Dutra , que eu agora desarmava à força de lhe falar nos versos e prosas , e de o apresentar aos conhecidos . Corro ; era minha irmã Sabina .  Virgília ? Agora até daqui a ... Quanto à censura de ingratidão , Quincas Borba rejeitou - a inteiramente , não como improvável , mas como absurda , por não obedecer às conclusões de uma boa filosofia hu