# Treinando um modelo word2vec usando o gensim

In [1]:
# Esse notebook foi baseado no seguinte tutorial https://www.kaggle.com/pierremegret/gensim-word2vec-tutorial 

import nltk
# nltk.download("machado") # certifique-se que o corpus machado existe no seu computador
from nltk import sent_tokenize
from nltk.corpus import machado # importando o corpus machado de livros do Machado de Assis
from gensim.utils import simple_preprocess

In [2]:
# o algoritmo word2vec processa as palavras por sentença. Então precisamos dividir os textos
# como sentenças para alimentar o nosso modelo. A função sent_tokenize do ntlk faz isso.
corpus_machado = []
for f_id in machado.fileids():
    sent_lst = sent_tokenize(machado.raw(f_id))
    for s in sent_lst:
        corpus_machado.append(simple_preprocess(s))

In [3]:
from gensim.models import Word2Vec

In [4]:
?Word2Vec

In [5]:
# parametros
# min_count = Ignora todas as palavras com frequencia absoluta total
# menor que isso
# window = A distância máxima entre a palavra corrente e palavra predita em uma sentença. Aqui, duas palavras
# palavras anteriores e duas palavras anteriores a palavra corrente.
# size = Dimensão dos vetores densos ou word embeddings. 
w2v_model = Word2Vec(window=2,
                     size=50)

In [6]:
# o word2vec demanda a construção de uma tabela representando o vocabulário do nosso corpus.
# Ou seja, simplesmente "digerir" todas as palavras e filtrar as palavras únicas, e fazer uma
# contagem básica delas.
w2v_model.build_vocab(corpus_machado, progress_per=10000)

In [7]:
# parametros
# total_examples = Contagem de sentenças
# epochs = Número de iterações (épocas) sobre o corpus

w2v_model.train(corpus_machado, total_examples=w2v_model.corpus_count, epochs=5)

(8814882, 11281480)

In [8]:
# salvando o nosso modelo. Podemos carregar o modelo novamente, em outro código, 
# com o seguinte comando:  model = Word2Vec.load("word2vec.model")
w2v_model.save("w2v_machado.model")

  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL


In [9]:
w2v_model.wv['abade']

array([ 8.92593414e-02,  1.31771877e-01,  4.48515154e-02,  8.47302899e-02,
        3.78798991e-02, -2.57400218e-02,  2.05448419e-01,  1.56519830e-01,
       -1.64173111e-01, -1.86527580e-01,  4.09031054e-05, -1.24075547e-01,
        1.02953665e-01, -5.89828342e-02,  4.72443085e-03,  3.43566872e-02,
        2.23607570e-02,  5.77332973e-02, -8.34645629e-02, -1.36044323e-01,
       -1.13016851e-01, -1.73382610e-01,  2.21255794e-02,  1.32813945e-01,
       -1.57010689e-01, -1.23014189e-02, -8.41050297e-02,  1.00408830e-01,
        3.25426310e-02,  2.56101161e-01, -1.35826707e-01,  5.53228371e-02,
        1.01597339e-01, -1.85509399e-01, -4.70196158e-02,  1.79038793e-02,
        1.64710701e-01, -1.27321318e-01,  3.51031646e-02, -3.16539668e-02,
       -1.58153161e-01,  1.57938022e-02,  1.93707217e-02,  4.22717333e-02,
       -1.09671682e-01, -6.54515252e-02, -4.31269594e-02, -8.35784152e-02,
       -4.55602072e-02,  6.81395009e-02], dtype=float32)

In [10]:
# em outras aula veremos como é calculada a similaridade, mas veja so já a capacidade 
# do word2vec
# repare que como temos um corpus pequeno, os resultados não são tão bons assim
w2v_model.most_similar(positive=['abade'])

  after removing the cwd from sys.path.


[('nazareno', 0.9229908585548401),
 ('tamberlick', 0.9227847456932068),
 ('preparo', 0.9224293828010559),
 ('curvo', 0.9187761545181274),
 ('vantajoso', 0.9139015078544617),
 ('distribuídas', 0.9121423959732056),
 ('trepava', 0.9119361042976379),
 ('tradutor', 0.9108816385269165),
 ('regulamento', 0.9093484282493591),
 ('vulgo', 0.9088119864463806)]

In [11]:
# Vamos tentar outra palavra? Essa palavra já está mais parecida com o que achamos intuitiva
# devido ao dominio. 
w2v_model.most_similar(positive=['livro'])

  This is separate from the ipykernel package so we can avoid doing imports until


[('volume', 0.8653653264045715),
 ('artigo', 0.8411762714385986),
 ('papel', 0.8111696839332581),
 ('romance', 0.8100449442863464),
 ('processo', 0.8073450326919556),
 ('trecho', 0.8013126850128174),
 ('lance', 0.8012651205062866),
 ('discurso', 0.8000654578208923),
 ('quadro', 0.7929193377494812),
 ('anúncio', 0.7926133871078491)]

In [12]:
# se uma palavra nao existir no nosso modelo, o que acontece? 
w2v_model["abades"]

  


KeyError: "word 'abades' not in vocabulary"