# Divisão de sequências em n-gramas: método manual

In [None]:
# Apresentação da função zip()
alfa = ['a', 'b', 'c', 'd']
num = [1, 2, 3, 4]

list(zip(alfa, num))

[('a', 1), ('b', 2), ('c', 3), ('d', 4)]

In [None]:
# Uso da função zip() para formar bigramas de uma mesma lista
list(zip(alfa, alfa[1:]))

[('a', 'b'), ('b', 'c'), ('c', 'd')]

In [None]:
# Como formar trigramas (ou n-gramas de qualquer ordem?)
list(zip(alfa, alfa[1:], alfa[2:]))

[('a', 'b', 'c'), ('b', 'c', 'd')]

# Leitura do corpus, tokenização e limpeza


In [None]:
# Poema "No Meio do Caminho" (1928) de Carlos Drummond de Andrade

corpus = '''No meio do caminho tinha uma pedra
tinha uma pedra no meio do caminho
tinha uma pedra
no meio do caminho tinha uma pedra.

Nunca me esquecerei desse acontecimento
na vida de minhas retinas tão fatigadas.
Nunca me esquecerei que no meio do caminho
tinha uma pedra
tinha uma pedra no meio do caminho
no meio do caminho tinha uma pedra.'''

In [None]:
import nltk
nltk.download('punkt')
from nltk import tokenize
sent_tokenizer = nltk.data.load('tokenizers/punkt/portuguese.pickle')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [None]:
# Tokenização de sentenças
# Atenção! A tokenização precisa ser diferente a cada corpus utilizado. 
# Confira sempre o resultado.
sents = sent_tokenizer.tokenize(corpus)
print(sents)
sents = [i.split('\n') for i in sents]
print(sents)

# Achatamento de listas aninhadas
def achatar(lista):
    return [i for sublista in lista for i in sublista]

sents = achatar(sents)
print(sents)

['No meio do caminho tinha uma pedra\ntinha uma pedra no meio do caminho\ntinha uma pedra\nno meio do caminho tinha uma pedra.', 'Nunca me esquecerei desse acontecimento\nna vida de minhas retinas tão fatigadas.', 'Nunca me esquecerei que no meio do caminho\ntinha uma pedra\ntinha uma pedra no meio do caminho\nno meio do caminho tinha uma pedra.']
[['No meio do caminho tinha uma pedra', 'tinha uma pedra no meio do caminho', 'tinha uma pedra', 'no meio do caminho tinha uma pedra.'], ['Nunca me esquecerei desse acontecimento', 'na vida de minhas retinas tão fatigadas.'], ['Nunca me esquecerei que no meio do caminho', 'tinha uma pedra', 'tinha uma pedra no meio do caminho', 'no meio do caminho tinha uma pedra.']]
['No meio do caminho tinha uma pedra', 'tinha uma pedra no meio do caminho', 'tinha uma pedra', 'no meio do caminho tinha uma pedra.', 'Nunca me esquecerei desse acontecimento', 'na vida de minhas retinas tão fatigadas.', 'Nunca me esquecerei que no meio do caminho', 'tinha uma p

In [None]:
def tokenizar(s):
    return tokenize.word_tokenize(s, language='portuguese')

def limpar(lista):
    return [i.lower() for i in lista if i.isalpha()]

print(sents[3])
print(limpar(tokenizar(sents[3])))

tinha uma pedra
['tinha', 'uma', 'pedra']


# Geração de n-gramas usando NLTK

In [None]:
# Geração de n-gramas usando NLTK - Exemplos da documentação do módulo
from nltk.util import ngrams

print(list(ngrams([1,2,3,4,5], 3)))
print(list(ngrams([1,2,3,4,5], 2, pad_left=True, pad_right=True, left_pad_symbol='<s>', right_pad_symbol='</s>')))

[(1, 2, 3), (2, 3, 4), (3, 4, 5)]
[('<s>', 1), (1, 2), (2, 3), (3, 4), (4, 5), (5, '</s>')]


In [None]:
def unigramas(lst_tokens):
    return achatar([['<s>'] + limpar(tokenizar(i)) + ['</s>'] for i in lst_tokens])

unigr = unigramas(sents)
unigr

['<s>',
 'no',
 'meio',
 'do',
 'caminho',
 'tinha',
 'uma',
 'pedra',
 '</s>',
 '<s>',
 'tinha',
 'uma',
 'pedra',
 'no',
 'meio',
 'do',
 'caminho',
 '</s>',
 '<s>',
 'tinha',
 'uma',
 'pedra',
 '</s>',
 '<s>',
 'no',
 'meio',
 'do',
 'caminho',
 'tinha',
 'uma',
 'pedra',
 '</s>',
 '<s>',
 'nunca',
 'me',
 'esquecerei',
 'desse',
 'acontecimento',
 '</s>',
 '<s>',
 'na',
 'vida',
 'de',
 'minhas',
 'retinas',
 'tão',
 'fatigadas',
 '</s>',
 '<s>',
 'nunca',
 'me',
 'esquecerei',
 'que',
 'no',
 'meio',
 'do',
 'caminho',
 '</s>',
 '<s>',
 'tinha',
 'uma',
 'pedra',
 '</s>',
 '<s>',
 'tinha',
 'uma',
 'pedra',
 'no',
 'meio',
 'do',
 'caminho',
 '</s>',
 '<s>',
 'no',
 'meio',
 'do',
 'caminho',
 'tinha',
 'uma',
 'pedra',
 '</s>']

In [None]:
print(sents[0])
t = limpar(tokenizar(sents[0]))
print(list(ngrams(t, 2)))

No meio do caminho tinha uma pedra
[('no', 'meio'), ('meio', 'do'), ('do', 'caminho'), ('caminho', 'tinha'), ('tinha', 'uma'), ('uma', 'pedra')]


In [None]:
def bigramas(lst_tokens):
    return list(ngrams(lst_tokens, 2, pad_left=True, pad_right=True, left_pad_symbol='<s>', right_pad_symbol='</s>'))

In [None]:
bigr = achatar([bigramas(limpar(tokenizar(i))) for i in sents])
bigr

[('<s>', 'no'),
 ('no', 'meio'),
 ('meio', 'do'),
 ('do', 'caminho'),
 ('caminho', 'tinha'),
 ('tinha', 'uma'),
 ('uma', 'pedra'),
 ('pedra', '</s>'),
 ('<s>', 'tinha'),
 ('tinha', 'uma'),
 ('uma', 'pedra'),
 ('pedra', 'no'),
 ('no', 'meio'),
 ('meio', 'do'),
 ('do', 'caminho'),
 ('caminho', '</s>'),
 ('<s>', 'tinha'),
 ('tinha', 'uma'),
 ('uma', 'pedra'),
 ('pedra', '</s>'),
 ('<s>', 'no'),
 ('no', 'meio'),
 ('meio', 'do'),
 ('do', 'caminho'),
 ('caminho', 'tinha'),
 ('tinha', 'uma'),
 ('uma', 'pedra'),
 ('pedra', '</s>'),
 ('<s>', 'nunca'),
 ('nunca', 'me'),
 ('me', 'esquecerei'),
 ('esquecerei', 'desse'),
 ('desse', 'acontecimento'),
 ('acontecimento', '</s>'),
 ('<s>', 'na'),
 ('na', 'vida'),
 ('vida', 'de'),
 ('de', 'minhas'),
 ('minhas', 'retinas'),
 ('retinas', 'tão'),
 ('tão', 'fatigadas'),
 ('fatigadas', '</s>'),
 ('<s>', 'nunca'),
 ('nunca', 'me'),
 ('me', 'esquecerei'),
 ('esquecerei', 'que'),
 ('que', 'no'),
 ('no', 'meio'),
 ('meio', 'do'),
 ('do', 'caminho'),
 ('caminho',

# Cálculo das probabilidades

In [None]:
from collections import Counter

# Contagens dos unigramas
c_unigr = Counter(unigr)
c_unigr

Counter({'</s>': 10,
         '<s>': 10,
         'acontecimento': 1,
         'caminho': 6,
         'de': 1,
         'desse': 1,
         'do': 6,
         'esquecerei': 2,
         'fatigadas': 1,
         'me': 2,
         'meio': 6,
         'minhas': 1,
         'na': 1,
         'no': 6,
         'nunca': 2,
         'pedra': 7,
         'que': 1,
         'retinas': 1,
         'tinha': 7,
         'tão': 1,
         'uma': 7,
         'vida': 1})

In [None]:
# Contagens dos bigramas 
c_bigr = Counter(bigr)
c_bigr

Counter({('<s>', 'na'): 1,
         ('<s>', 'no'): 3,
         ('<s>', 'nunca'): 2,
         ('<s>', 'tinha'): 4,
         ('acontecimento', '</s>'): 1,
         ('caminho', '</s>'): 3,
         ('caminho', 'tinha'): 3,
         ('de', 'minhas'): 1,
         ('desse', 'acontecimento'): 1,
         ('do', 'caminho'): 6,
         ('esquecerei', 'desse'): 1,
         ('esquecerei', 'que'): 1,
         ('fatigadas', '</s>'): 1,
         ('me', 'esquecerei'): 2,
         ('meio', 'do'): 6,
         ('minhas', 'retinas'): 1,
         ('na', 'vida'): 1,
         ('no', 'meio'): 6,
         ('nunca', 'me'): 2,
         ('pedra', '</s>'): 5,
         ('pedra', 'no'): 2,
         ('que', 'no'): 1,
         ('retinas', 'tão'): 1,
         ('tinha', 'uma'): 7,
         ('tão', 'fatigadas'): 1,
         ('uma', 'pedra'): 7,
         ('vida', 'de'): 1})

In [None]:
# Probabilidades dos unigramas
def p_unigr(p):
    return c_unigr[p] / sum(c_unigr.values())


{c: p_unigr(c) for c in c_unigr}

{'</s>': 0.12345679012345678,
 '<s>': 0.12345679012345678,
 'acontecimento': 0.012345679012345678,
 'caminho': 0.07407407407407407,
 'de': 0.012345679012345678,
 'desse': 0.012345679012345678,
 'do': 0.07407407407407407,
 'esquecerei': 0.024691358024691357,
 'fatigadas': 0.012345679012345678,
 'me': 0.024691358024691357,
 'meio': 0.07407407407407407,
 'minhas': 0.012345679012345678,
 'na': 0.012345679012345678,
 'no': 0.07407407407407407,
 'nunca': 0.024691358024691357,
 'pedra': 0.08641975308641975,
 'que': 0.012345679012345678,
 'retinas': 0.012345679012345678,
 'tinha': 0.08641975308641975,
 'tão': 0.012345679012345678,
 'uma': 0.08641975308641975,
 'vida': 0.012345679012345678}

In [None]:
# Probabilidades dos bigramas
def p_bigr(p1, p2):
    return c_bigr[(p1, p2)] / c_unigr[p1]


{t: p_bigr(t[0], t[1]) for t in c_bigr}

{('<s>', 'na'): 0.1,
 ('<s>', 'no'): 0.3,
 ('<s>', 'nunca'): 0.2,
 ('<s>', 'tinha'): 0.4,
 ('acontecimento', '</s>'): 1.0,
 ('caminho', '</s>'): 0.5,
 ('caminho', 'tinha'): 0.5,
 ('de', 'minhas'): 1.0,
 ('desse', 'acontecimento'): 1.0,
 ('do', 'caminho'): 1.0,
 ('esquecerei', 'desse'): 0.5,
 ('esquecerei', 'que'): 0.5,
 ('fatigadas', '</s>'): 1.0,
 ('me', 'esquecerei'): 1.0,
 ('meio', 'do'): 1.0,
 ('minhas', 'retinas'): 1.0,
 ('na', 'vida'): 1.0,
 ('no', 'meio'): 1.0,
 ('nunca', 'me'): 1.0,
 ('pedra', '</s>'): 0.7142857142857143,
 ('pedra', 'no'): 0.2857142857142857,
 ('que', 'no'): 1.0,
 ('retinas', 'tão'): 1.0,
 ('tinha', 'uma'): 1.0,
 ('tão', 'fatigadas'): 1.0,
 ('uma', 'pedra'): 1.0,
 ('vida', 'de'): 1.0}

In [None]:
# Para consultar a probabilidade de um bigrama:
print(p_bigr('uma', 'pedra'))
print(p_bigr('caminho', 'tinha'))

# p_bigr('não', 'tem')  # Erro: bigrama inexistente

1.0
0.5


In [None]:
# Probabilidade de sentenças
from numpy import prod  # Permite calular o produto de listas

# Com unigramas
def uniprob(s):
    return prod([p_unigr(i) for i in limpar(tokenizar(s))])


print(uniprob('No meio pedra caminho'))


# Com bigramas
def biprob(s):
    tokens = limpar(tokenizar(s))
    b = list(ngrams(tokens, 2))
    return prod([p_bigr(i[0], i[1]) for i in b])


print(biprob('No meio do caminho'))
print(biprob('No meio do caminho tinha'))

3.5124626565633176e-05
1.0
0.5


In [None]:
# Palavras e sequências desconhecidas
from collections import defaultdict

# Conversão dos dicionários p/ defaultdict, evitando erros de chaves inexistentes
c_unigr = defaultdict(int, c_unigr)
c_bigr = defaultdict(int, c_bigr)

c_unigr['inexistente']


0

In [None]:
# Suavização de Laplace

def p_lap_unigr(p):
    return (c_unigr[p] + 1) / (sum(c_unigr.values()) + len(c_unigr))

print(p_lap_unigr('inédito'))

def p_lap_bigr(p1, p2):
    return (c_bigr[(p1, p2)] + 1) / (c_unigr[p1] + len(c_unigr))

print(p_lap_bigr('caminho', 'inédito'))

0.009523809523809525
0.03333333333333333


# Uso dos modelos para previsão

In [None]:
def prever(palavra):
    lista = [k for k in c_bigr.items() if k[0][0] == palavra]
    ordem = sorted(lista, key=lambda x: x[1], reverse=True)
    return ordem


print(prever('pedra'))

[(('pedra', '</s>'), 5), (('pedra', 'no'), 2)]


# Exercício

Crie um previsor de palavras como este que acaba de ser feito mas baseado no corpus Mac-Morpho.

# Solução proposta

In [None]:
import nltk
nltk.download('mac_morpho')

corpus = nltk.corpus.mac_morpho.words()
corpus = [p.lower() for p in corpus if p.isalpha()]

In [None]:
def bigramas(lst_tokens):
    return list(zip(lst_tokens, lst_tokens[1:]))

unigr = corpus
bigr = bigramas(unigr)

In [None]:
unigr[:10]  # Conferindo...

['jersei', 'atinge', 'média', 'de', 'milhão', 'em', 'a', 'venda', 'de', 'a']

In [None]:
# Contagens dos unigramas 
c_unigr = Counter(unigr)
c_unigr.most_common(10)

[('de', 88320),
 ('a', 68966),
 ('o', 61303),
 ('em', 34383),
 ('e', 22551),
 ('que', 20666),
 ('os', 16989),
 ('para', 11122),
 ('as', 10720),
 ('por', 10311)]

In [None]:
# Contagens dos bigramas 
c_bigr = Counter(bigr)
c_bigr.most_common(10)

[(('de', 'o'), 16124),
 (('de', 'a'), 15232),
 (('em', 'o'), 8903),
 (('em', 'a'), 7478),
 (('de', 'os'), 4947),
 (('a', 'o'), 3505),
 (('de', 'as'), 3044),
 (('a', 'a'), 2984),
 (('por', 'a'), 2256),
 (('por', 'o'), 1957)]

In [None]:
# Palavras e sequências desconhecidas
from collections import defaultdict

# Conversão dos dicionários p/ defaultdict, evitando erros de chaves inexistentes
c_unigr = defaultdict(int, c_unigr)
c_bigr = defaultdict(int, c_bigr)


In [None]:
# Previsão
def prever(palavra):
    lista = [k for k in c_bigr.items() if k[0][0] == palavra]
    ordem = sorted(lista, key=lambda x: x[1], reverse=True)
    previsao = [p[0][1] for p in ordem[:3]]
    return previsao


print(prever('governador'))

['de', 'luiz', 'eleito']


# Tarefa: Geração de texto por modelos de n-gramas

Para facilitar um pouco as coisas, apresento uma sugestão de pré-processamento dos dados.

**Pré-processamento**

In [None]:
from google.colab import files
files.upload()

Saving DomCasmurro.txt to DomCasmurro.txt


{'DomCasmurro.txt': b'\xef\xbb\xbfThe Project Gutenberg EBook of Dom Casmurro, by Machado de Assis\r\n\r\nThis eBook is for the use of anyone anywhere in the United States and most\r\nother parts of the world at no cost and with almost no restrictions\r\nwhatsoever.  You may copy it, give it away or re-use it under the terms of\r\nthe Project Gutenberg License included with this eBook or online at\r\nwww.gutenberg.org.  If you are not located in the United States, you\'ll have\r\nto check the laws of the country where you are located before using this ebook.\r\n\r\nTitle: Dom Casmurro\r\n\r\nAuthor: Machado de Assis\r\n\r\nRelease Date: October 15, 2017 [EBook #55752]\r\n\r\nLanguage: Portuguese\r\n\r\n\r\n*** START OF THIS PROJECT GUTENBERG EBOOK DOM CASMURRO ***\r\n\r\n\r\n\r\n\r\nProduced by Laura Natal Rodriguez & Marc D\'Hooghe at Free\r\nLiterature (online soon in an extended version,also linking\r\nto free sources for education worldwide ... MOOC\'s,\r\neducational materials,...

In [None]:
# Abertura e leitura dos arquivos de texto

arq = open('DomCasmurro.txt', 'r')
str_livro = arq.read()
arq.close()

In [None]:
# Importação do módulo e do modelo de língua

import nltk
nltk.download('punkt')
from nltk import tokenize
sent_tokenizer = nltk.data.load('tokenizers/punkt/portuguese.pickle')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [None]:
pontos = ['...', ':', ';', '!', '?']

for i in pontos:
    str_livro = str_livro.replace(i, '.')

str_livro = str_livro.replace('\n', ' ')
str_livro[:200]

'\ufeffThe Project Gutenberg EBook of Dom Casmurro, by Machado de Assis  This eBook is for the use of anyone anywhere in the United States and most other parts of the world at no cost and with almost no res'

In [None]:
# Tokenização de sentenças
# Atenção! A tokenização precisa ser diferente a cada corpus utilizado. 
# Confira sempre o resultado.
sents = sent_tokenizer.tokenize(str_livro)
print(sents)

# Achatamento de listas aninhadas
def achatar(lista):
    return [i for sublista in lista for i in sublista]


['\ufeffThe Project Gutenberg EBook of Dom Casmurro, by Machado de Assis  This eBook is for the use of anyone anywhere in the United States and most other parts of the world at no cost and with almost no restrictions whatsoever.', 'You may copy it, give it away or re-use it under the terms of the Project Gutenberg License included with this eBook or online at www.gutenberg.org.', "If you are not located in the United States, you'll have to check the laws of the country where you are located before using this ebook.", 'Title.', 'Dom Casmurro  Author.', 'Machado de Assis  Release Date.', 'October 15, 2017 [EBook #55752]  Language.', "Portuguese   *** START OF THIS PROJECT GUTENBERG EBOOK DOM CASMURRO ***     Produced by Laura Natal Rodriguez & Marc D'Hooghe at Free Literature (online soon in an extended version,also linking to free sources for education worldwide .", "MOOC's, educational materials,.)", '(Images generously made available by the Bibliotheca Nacional Digital Brasil.)', 'DOM

In [None]:
# Tokenização e limpeza de palavras
def tokenizar(s):
    return tokenize.word_tokenize(s, language='portuguese')

def limpar(lista):
    return [i.lower() for i in lista if i.isalpha()]

lst_sents = [limpar(tokenizar(i)) for i in sents if len(i) > 0]  # >0 porque tem muitas "sentenças vazias"
lst_sents = [['<s>'] + i + ['</s>'] for i in lst_sents]
lst_sents[:20]

[['<s>',
  'project',
  'gutenberg',
  'ebook',
  'of',
  'dom',
  'casmurro',
  'by',
  'machado',
  'de',
  'assis',
  'this',
  'ebook',
  'is',
  'for',
  'the',
  'use',
  'of',
  'anyone',
  'anywhere',
  'in',
  'the',
  'united',
  'states',
  'and',
  'most',
  'other',
  'parts',
  'of',
  'the',
  'world',
  'at',
  'no',
  'cost',
  'and',
  'with',
  'almost',
  'no',
  'restrictions',
  'whatsoever',
  '</s>'],
 ['<s>',
  'you',
  'may',
  'copy',
  'it',
  'give',
  'it',
  'away',
  'or',
  'it',
  'under',
  'the',
  'terms',
  'of',
  'the',
  'project',
  'gutenberg',
  'license',
  'included',
  'with',
  'this',
  'ebook',
  'or',
  'online',
  'at',
  '</s>'],
 ['<s>',
  'if',
  'you',
  'are',
  'not',
  'located',
  'in',
  'the',
  'united',
  'states',
  'you',
  'have',
  'to',
  'check',
  'the',
  'laws',
  'of',
  'the',
  'country',
  'where',
  'you',
  'are',
  'located',
  'before',
  'using',
  'this',
  'ebook',
  '</s>'],
 ['<s>', 'title', '</s>'],


**Geração dos modelos**

In [None]:
unigr = achatar(lst_sents)
unigr

['<s>',
 'project',
 'gutenberg',
 'ebook',
 'of',
 'dom',
 'casmurro',
 'by',
 'machado',
 'de',
 'assis',
 'this',
 'ebook',
 'is',
 'for',
 'the',
 'use',
 'of',
 'anyone',
 'anywhere',
 'in',
 'the',
 'united',
 'states',
 'and',
 'most',
 'other',
 'parts',
 'of',
 'the',
 'world',
 'at',
 'no',
 'cost',
 'and',
 'with',
 'almost',
 'no',
 'restrictions',
 'whatsoever',
 '</s>',
 '<s>',
 'you',
 'may',
 'copy',
 'it',
 'give',
 'it',
 'away',
 'or',
 'it',
 'under',
 'the',
 'terms',
 'of',
 'the',
 'project',
 'gutenberg',
 'license',
 'included',
 'with',
 'this',
 'ebook',
 'or',
 'online',
 'at',
 '</s>',
 '<s>',
 'if',
 'you',
 'are',
 'not',
 'located',
 'in',
 'the',
 'united',
 'states',
 'you',
 'have',
 'to',
 'check',
 'the',
 'laws',
 'of',
 'the',
 'country',
 'where',
 'you',
 'are',
 'located',
 'before',
 'using',
 'this',
 'ebook',
 '</s>',
 '<s>',
 'title',
 '</s>',
 '<s>',
 'dom',
 'casmurro',
 'author',
 '</s>',
 '<s>',
 'machado',
 'de',
 'assis',
 'release',


In [None]:
bigr = list(zip(unigr, unigr[1:]))
bigr

[('<s>', 'project'),
 ('project', 'gutenberg'),
 ('gutenberg', 'ebook'),
 ('ebook', 'of'),
 ('of', 'dom'),
 ('dom', 'casmurro'),
 ('casmurro', 'by'),
 ('by', 'machado'),
 ('machado', 'de'),
 ('de', 'assis'),
 ('assis', 'this'),
 ('this', 'ebook'),
 ('ebook', 'is'),
 ('is', 'for'),
 ('for', 'the'),
 ('the', 'use'),
 ('use', 'of'),
 ('of', 'anyone'),
 ('anyone', 'anywhere'),
 ('anywhere', 'in'),
 ('in', 'the'),
 ('the', 'united'),
 ('united', 'states'),
 ('states', 'and'),
 ('and', 'most'),
 ('most', 'other'),
 ('other', 'parts'),
 ('parts', 'of'),
 ('of', 'the'),
 ('the', 'world'),
 ('world', 'at'),
 ('at', 'no'),
 ('no', 'cost'),
 ('cost', 'and'),
 ('and', 'with'),
 ('with', 'almost'),
 ('almost', 'no'),
 ('no', 'restrictions'),
 ('restrictions', 'whatsoever'),
 ('whatsoever', '</s>'),
 ('</s>', '<s>'),
 ('<s>', 'you'),
 ('you', 'may'),
 ('may', 'copy'),
 ('copy', 'it'),
 ('it', 'give'),
 ('give', 'it'),
 ('it', 'away'),
 ('away', 'or'),
 ('or', 'it'),
 ('it', 'under'),
 ('under', 'the

In [None]:
trigr = list(zip(unigr, unigr[1:], unigr[2:]))
trigr

[('<s>', 'project', 'gutenberg'),
 ('project', 'gutenberg', 'ebook'),
 ('gutenberg', 'ebook', 'of'),
 ('ebook', 'of', 'dom'),
 ('of', 'dom', 'casmurro'),
 ('dom', 'casmurro', 'by'),
 ('casmurro', 'by', 'machado'),
 ('by', 'machado', 'de'),
 ('machado', 'de', 'assis'),
 ('de', 'assis', 'this'),
 ('assis', 'this', 'ebook'),
 ('this', 'ebook', 'is'),
 ('ebook', 'is', 'for'),
 ('is', 'for', 'the'),
 ('for', 'the', 'use'),
 ('the', 'use', 'of'),
 ('use', 'of', 'anyone'),
 ('of', 'anyone', 'anywhere'),
 ('anyone', 'anywhere', 'in'),
 ('anywhere', 'in', 'the'),
 ('in', 'the', 'united'),
 ('the', 'united', 'states'),
 ('united', 'states', 'and'),
 ('states', 'and', 'most'),
 ('and', 'most', 'other'),
 ('most', 'other', 'parts'),
 ('other', 'parts', 'of'),
 ('parts', 'of', 'the'),
 ('of', 'the', 'world'),
 ('the', 'world', 'at'),
 ('world', 'at', 'no'),
 ('at', 'no', 'cost'),
 ('no', 'cost', 'and'),
 ('cost', 'and', 'with'),
 ('and', 'with', 'almost'),
 ('with', 'almost', 'no'),
 ('almost', 'no