In [1]:
# Importa as bibliotecas
from gensim.models import Word2Vec
from sklearn.decomposition import PCA
from matplotlib import pyplot

In [2]:
# Cria os dados de treino. Note que as sentencas ja entao separadas em tokens.
sentences = [
    ['this', 'is', 'the', 'first', 'sentence', 'for', 'word2vec'],
    ['this', 'is', 'the', 'second', 'sentence'],
    ['yet', 'another', 'sentence'],
    ['one', 'more', 'sentence'],
    ['and', 'the', 'final', 'sentence']
]

In [7]:
# Treina o modelo. Note que estamos setando o parametro sd = 0, ou seja, o algoritmo utilizado sera o CBOW
# Outro ponto de destaque é que quando setamos o parametro min_count para 1 estamos forcando o uso de todas as palavras.

model = Word2Vec(sentences, size=100, min_count=1, sg=1)

In [8]:
# Exibe os parametros do meodelo treinado
print(model)

Word2Vec(vocab=14, size=100, alpha=0.025)


In [9]:
# Exibe o vocabulario do modelo treinado
words = list(model.wv.vocab)
print(words)

['this', 'is', 'the', 'first', 'sentence', 'for', 'word2vec', 'second', 'yet', 'another', 'one', 'more', 'and', 'final']


In [10]:
# Acesso o vetor da palavra "sentence"
print(model['sentence'])

[-1.6470940e-04  4.9301521e-03  7.5455179e-04 -5.3011288e-04
 -2.4613196e-03  2.9665576e-03 -1.7253578e-03 -9.5032970e-04
  2.0618308e-03  1.9421929e-03  3.3472003e-03  1.8789346e-03
  3.5447346e-03 -7.6705479e-04  1.3845407e-03  1.8027367e-03
  1.2348316e-03 -4.6784850e-03 -4.7376682e-03  3.0694252e-03
  4.2866077e-03  3.1496620e-05 -2.0588622e-03 -4.3346505e-03
  3.1636469e-03 -2.7192526e-03  2.6917290e-03 -2.7376388e-03
 -2.1027839e-03 -3.6995877e-03 -3.6955867e-03  3.2027447e-04
  3.3230826e-03  3.4943535e-03 -4.9421629e-03  4.9811197e-03
  3.8277148e-03  3.1060232e-03  2.8369261e-03 -4.8165033e-03
 -1.8343912e-03  2.1972337e-03  1.2570077e-03  2.3124251e-03
 -3.6973711e-03  9.2852925e-04  1.0617559e-03  2.1654745e-03
 -2.4344116e-03  3.0411617e-04 -3.6191158e-03 -6.8049558e-04
  2.4296192e-03 -5.4453599e-04  9.1978320e-04 -8.5888657e-04
  1.6755227e-03 -1.1106315e-03 -5.6149915e-04  2.4366722e-04
 -2.3129880e-03 -4.6850820e-03  3.5197032e-03 -4.3059713e-03
  2.1993883e-03  3.19646

  


In [7]:
# Salva o modelo
model.save('model.bin')

In [8]:
# Carrega o modelo
new_model = Word2Vec.load('model.bin')
print(new_model)

Word2Vec(vocab=14, size=100, alpha=0.025)


In [44]:
# Nesta etapa vamos usar PCA (Principal Component Analysis) para visualizar o modelo embedding que criamos.
# Selecionares os dois principais componentes da PCA e os mosraremos em um scatter plot.

X = model[model.wv.vocab]
pca = PCA(n_components=2)
result = pca.fit_transform(X)

# create a scatter plot of the projection
pyplot.scatter(result[:, 0], result[:, 1])
words = list(model.wv.vocab)
for i, word in enumerate(words):
    pyplot.annotate(word, xy=(result[i, 0], result[i, 1]))
pyplot.show()



In [None]:
# Como dito, não necessariamente precisamos criar o nosso próprio embedding word. Podemos utilizar um modelo já treinado.
# Neste exemplo vamos usar o modelo disponibilizado pelo Google, treinado no dataset do Google News que originalmente possui
# em torno de 100 bilhões de palavras. O modelo final possui 3 milhões de palavras representadas em um vetor de 300 dimensões.

# Fazer download do dataset em https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM/edit?usp=sharing

from gensim.models import KeyedVectors
# load the google word2vec model
filename = 'GoogleNews-vectors-negative300.bin'
model = KeyedVectors.load_word2vec_format(filename, binary=True)
# calculate: (king - man) + woman = ?
result = model.most_similar(positive=['woman', 'king'], negative=['man'], topn=1)
print(result)