# Modelo saco de palavras (bag-of-words) com o NLTK

In [1]:
# certifique-se que você tem o corpus tentando fazer o download. Chamamos de corpus um conjunto de textos 
# escritos com um objetivo em particular. Em NLP cada conjunto de dados pode se chamar corpus e mais de um conjunto
# se chama corpora
import nltk
nltk.download("machado")

[nltk_data] Downloading package machado to
[nltk_data]     /Users/evelin.amorim/nltk_data...
[nltk_data]   Package machado is already up-to-date!


True

In [2]:
from nltk.corpus import machado # importando o corpus machado de livros do Machado de Assis
from nltk import word_tokenize

In [3]:
conto01 = machado.raw(machado.fileids()[0]) 
# vamos pegar o conteudo do texto "cru" deste primeiro texto, mas para um melhor modelo podemos usar todos os textos
# deste corpus

In [4]:
palavraCont = {}
palavras_lista = word_tokenize(conto01)

for palavra in palavras_lista:
    if palavra in palavraCont:
        palavraCont[palavra] += 1
    else:
        palavraCont[palavra] = 1

In [5]:
# agora vamos colocar o conto 02 como um vetor de palavras do 01
conto02_tokens = word_tokenize(machado.raw(machado.fileids()[1]))
conto02_tokens = conto02_tokens[:10] # vamos pegar so os 10 primeiros tokens para ilustrar a ideia

vector02 = [] 
for palavra in palavras_lista: 
    if palavra in conto02_tokens: 
        vector02.append(1) 
    else: 
        vector02.append(0) 
    

In [6]:
print(vector02)

[1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 

# Fazendo saco-de-palavras/bag-of-words(bow) no gensim

In [7]:
import gensim
from gensim import corpora
from gensim.utils import simple_preprocess

In [8]:
dicionario = corpora.Dictionary() # modulo que lida com dicionario e suas funcionalidades

In [9]:
# outra forma de tokenizar documento no gensim, alem de outras funcionalides
doc_tokenizado = simple_preprocess(conto01) 

In [10]:
# aqui vamos contruir nosso dicionario e ao mesmo tempo colocar o nosso dado no formato bow
bow_corpus = dicionario.doc2bow(doc_tokenizado, allow_update=True)

In [11]:
# o formato aqui do documento sera um pouco diferente do que vimos no nltk
# teremos uma lista de tuplas, onde cada uma tem o formato (indice_palavra, frequencia da palavra no documento)
# o gensim lida com esse tipo de entrada em suas diversas funções, portanto caso o use, não se preocupe
print(bow_corpus)

[(0, 8), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 3), (7, 1), (8, 1), (9, 1), (10, 3), (11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1), (17, 1), (18, 2), (19, 1), (20, 2), (21, 2), (22, 1), (23, 2), (24, 1), (25, 2), (26, 1), (27, 1), (28, 4), (29, 1), (30, 2), (31, 8), (32, 1), (33, 4), (34, 2), (35, 6), (36, 1), (37, 2), (38, 1), (39, 2), (40, 4), (41, 1), (42, 1), (43, 1), (44, 1), (45, 1), (46, 3), (47, 1), (48, 7), (49, 8), (50, 3), (51, 1), (52, 1), (53, 1), (54, 2), (55, 7), (56, 2), (57, 13), (58, 1), (59, 2), (60, 1), (61, 1), (62, 2), (63, 1), (64, 1), (65, 2), (66, 1), (67, 1), (68, 1), (69, 6), (70, 6), (71, 2), (72, 7), (73, 1), (74, 1), (75, 1), (76, 1), (77, 2), (78, 2), (79, 10), (80, 1), (81, 4), (82, 12), (83, 1), (84, 2), (85, 1), (86, 1), (87, 1), (88, 1), (89, 1), (90, 1), (91, 4), (92, 1), (93, 1), (94, 1), (95, 5), (96, 6), (97, 1), (98, 1), (99, 1), (100, 1), (101, 1), (102, 1), (103, 9), (104, 6), (105, 2), (106, 1), (107, 1), (108, 2), (109, 1), (110, 

In [12]:
# caso queira visualizar as palavras, para entender melhor o que está acontecendo, vc pode fazer o mapeamento 
# do id de cada palavra para a palavra em si, como a seguir
id_corpus = [(dicionario[id_palavra],cont) for id_palavra,cont in bow_corpus]

In [13]:
print(id_corpus)

[('abade', 8), ('abafado', 1), ('abafar', 1), ('abafava', 1), ('abaixando', 1), ('abaixar', 1), ('abaixo', 3), ('abaixou', 1), ('abalada', 1), ('abalasse', 1), ('abalo', 3), ('abalou', 1), ('abanando', 1), ('abandonado', 1), ('abandonando', 1), ('abandonar', 1), ('abandonava', 1), ('abandonou', 1), ('abanou', 2), ('abastança', 1), ('abater', 2), ('abati', 2), ('abatida', 1), ('abatido', 2), ('abatimento', 1), ('abatê', 2), ('abdômen', 1), ('abençoar', 1), ('aberta', 4), ('abertamente', 1), ('aberto', 2), ('abismo', 8), ('aboletada', 1), ('aborrece', 4), ('aborrecem', 2), ('aborrecer', 6), ('aborrecesse', 1), ('aborreceu', 2), ('aborrecida', 1), ('aborrecidas', 2), ('aborrecido', 4), ('aborrecimento', 1), ('aborreço', 1), ('abortar', 1), ('abracei', 1), ('abraçando', 1), ('abraçar', 3), ('abraçava', 1), ('abraço', 7), ('abraçou', 8), ('abraçá', 3), ('abre', 1), ('abrem', 1), ('abrevias', 1), ('abrindo', 2), ('abrir', 7), ('abrisse', 2), ('abriu', 13), ('abro', 1), ('absolutamente', 2), 

# Usando o gensim para bigramas

In [42]:
# Computar bigramas
from gensim.models import Phrases

In [59]:
# Adicionar bigramas e trigramas ao documento tokenizado (apenas aquels que aparecem 20 vezes ou mais).
bigram = Phrases([doc_tokenizado], min_count=20)

In [60]:
for token in bigram[doc_tokenizado]:
    if '_' in token:
       # Token é um bigrama, entao adicione ao documento.
       doc_tokenizado.append(token)



In [61]:
print(doc_tokenizado)

['conto', 'contos', 'fluminenses', 'contos', 'fluminenses', 'texto', 'fonte', 'obra', 'completa', 'machado', 'de', 'assis', 'vol', 'ii', 'rio', 'de', 'janeiro', 'nova', 'aguilar', 'publicado', 'originalmente', 'pela', 'editora', 'garnier', 'rio', 'de', 'janeiro', 'em', 'índice', 'miss', 'dollar', 'luís', 'soares', 'mulher', 'de', 'preto', 'segredo', 'de', 'augusta', 'confissões', 'de', 'uma', 'viúva', 'moça', 'linha', 'reta', 'linha', 'curva', 'frei', 'simão', 'miss', 'dollar', 'índice', 'capítulo', 'primeiro', 'capítulo', 'ii', 'capítulo', 'iii', 'capítulo', 'iv', 'capítulo', 'capítulo', 'vi', 'capítulo', 'vii', 'capítulo', 'viii', 'capítulo', 'primeiro', 'era', 'conveniente', 'ao', 'romance', 'que', 'leitor', 'ficasse', 'muito', 'tempo', 'sem', 'saber', 'quem', 'era', 'miss', 'dollar', 'mas', 'por', 'outro', 'lado', 'sem', 'apresentação', 'de', 'miss', 'dollar', 'seria', 'autor', 'obrigado', 'longas', 'digressões', 'que', 'encheriam', 'papel', 'sem', 'adiantar', 'ação', 'não', 'há', 

In [62]:
# Precisamos agora criar um dicionario para criar a representacao dos documentos
dicionario_bigrama = corpora.Dictionary([doc_tokenizado])

In [64]:
# representacao bow de bigramas do conto
doc_bow = dicionario_bigrama.doc2bow(doc_tokenizado)

In [66]:
print(doc_bow)

[(0, 8), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 3), (7, 1), (8, 1), (9, 1), (10, 3), (11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1), (17, 1), (18, 2), (19, 1), (20, 2), (21, 2), (22, 1), (23, 2), (24, 1), (25, 2), (26, 1), (27, 1), (28, 4), (29, 1), (30, 2), (31, 8), (32, 1), (33, 4), (34, 2), (35, 6), (36, 1), (37, 2), (38, 1), (39, 2), (40, 4), (41, 1), (42, 1), (43, 1), (44, 1), (45, 1), (46, 3), (47, 1), (48, 7), (49, 8), (50, 3), (51, 1), (52, 1), (53, 1), (54, 2), (55, 7), (56, 2), (57, 13), (58, 1), (59, 2), (60, 1), (61, 1), (62, 2), (63, 1), (64, 1), (65, 2), (66, 1), (67, 1), (68, 1), (69, 6), (70, 6), (71, 2), (72, 7), (73, 1), (74, 1), (75, 1), (76, 1), (77, 2), (78, 2), (79, 10), (80, 1), (81, 4), (82, 12), (83, 1), (84, 2), (85, 1), (86, 1), (87, 1), (88, 1), (89, 1), (90, 1), (91, 4), (92, 1), (93, 1), (94, 1), (95, 5), (96, 6), (97, 1), (98, 1), (99, 1), (100, 1), (101, 1), (102, 1), (103, 9), (104, 6), (105, 2), (106, 1), (107, 1), (108, 2), (109, 1), (110, 