# Treinando um modelo word2vec usando o gensim

In [2]:
# Esse notebook foi baseado no seguinte tutorial https://www.kaggle.com/pierremegret/gensim-word2vec-tutorial 

import nltk
# nltk.download("machado") # certifique-se que o corpus machado existe no seu computador
from nltk import sent_tokenize
from nltk.corpus import machado # importando o corpus machado de livros do Machado de Assis
from gensim.utils import simple_preprocess

In [4]:
# o algoritmo word2vec processa as palavras por sentença. Então precisamos dividir os textos
# como sentenças para alimentar o nosso modelo. A função sent_tokenize do ntlk faz isso.
corpus_machado = []
for f_id in machado.fileids():
    sent_lst = sent_tokenize(machado.raw(f_id))
    for s in sent_lst:
        corpus_machado.append(simple_preprocess(s))

In [5]:
from gensim.models import Word2Vec

In [6]:
# parametros
# min_count = Ignora todas as palavras com frequencia absoluta total
# menor que isso
# window = A distância máxima entre a palavra corrente e palavra predita em uma sentença. Aqui, duas palavras
# palavras anteriores e duas palavras anteriores a palavra corrente.
# size = Dimensão dos vetores densos ou word embeddings. 
w2v_model = Word2Vec(window=2,
                     size=50)

In [7]:
# o word2vec demanda a construção de uma tabela representando o vocabulário do nosso corpus.
# Ou seja, simplesmente "digerir" todas as palavras e filtrar as palavras únicas, e fazer uma
# contagem básica delas.
w2v_model.build_vocab(corpus_machado, progress_per=10000)

In [8]:
# parametros
# total_examples = Contagem de sentenças
# epochs = Número de iterações (épocas) sobre o corpus

w2v_model.train(corpus_machado, total_examples=w2v_model.corpus_count, epochs=5)

(8815665, 11281480)

In [9]:
# salvando o nosso modelo. Podemos carregar o modelo novamente, em outro código, 
# com o seguinte comando:  model = Word2Vec.load("word2vec.model")
w2v_model.save("w2v_machado.model")

  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL


In [10]:
w2v_model.wv['abade']

array([ 0.06168859,  0.00802544,  0.0021128 , -0.07074621, -0.06244523,
        0.0096143 , -0.12688795,  0.09584288,  0.06395809,  0.26928422,
        0.01020958, -0.07030839,  0.16444029,  0.00537581, -0.08293233,
       -0.13409011, -0.04957008, -0.03570518, -0.05825284, -0.10404382,
        0.19081631,  0.02699185, -0.1579889 , -0.16260406,  0.03763396,
        0.03231732,  0.0945655 , -0.00065857,  0.1299227 ,  0.15360348,
        0.07988261,  0.0178228 ,  0.15269141, -0.07695309, -0.0381519 ,
       -0.02446295, -0.07362824,  0.05914355,  0.03226122,  0.08915292,
        0.07149906, -0.04814176, -0.00824675, -0.06472199, -0.04262403,
        0.18127804,  0.00960096,  0.07953376, -0.09608218, -0.01583127],
      dtype=float32)

In [13]:
# em outras aula veremos como é calculada a similaridade, mas veja so já a capacidade 
# do word2vec
# repare que como temos um corpus pequeno, os resultados não são tão bons assim
w2v_model.most_similar(positive=['abade'])

  after removing the cwd from sys.path.


[('escrevente', 0.9208676815032959),
 ('encargo', 0.9198858737945557),
 ('alaúde', 0.9143734574317932),
 ('art', 0.9119309186935425),
 ('lixo', 0.9088165163993835),
 ('folhetinista', 0.9082868695259094),
 ('tapamento', 0.9078084230422974),
 ('vencedor', 0.9069023132324219),
 ('amazonas', 0.9067910313606262),
 ('ótimo', 0.9067627787590027)]

In [14]:
# Vamos tentar outra palavra? Essa palavra já está mais parecida com o que achamos intuitiva
# devido ao dominio. 
w2v_model.most_similar(positive=['livro'])

  


[('artigo', 0.8474695682525635),
 ('volume', 0.843697726726532),
 ('papel', 0.8359150886535645),
 ('romance', 0.8116697669029236),
 ('processo', 0.8042157292366028),
 ('discurso', 0.7978098392486572),
 ('cantinho', 0.7912461757659912),
 ('programa', 0.782477855682373),
 ('testamento', 0.7818537950515747),
 ('lance', 0.7812900543212891)]