# Treinando um modelo do Paragraph Vector

In [1]:
import gensim
from nltk.corpus import machado
from nltk import sent_tokenize
from gensim.utils import simple_preprocess

In [2]:
model = gensim.models.doc2vec.Doc2Vec(vector_size=50, min_count=2, epochs=5)

In [3]:
# o algoritmo doc2vec processa as palavras por sentença. Então precisamos dividir os textos
# como sentenças para alimentar o nosso modelo. A função sent_tokenize do ntlk faz isso.
corpus_machado = []
i = 0
for f_id in machado.fileids():
    sent_lst = sent_tokenize(machado.raw(f_id))
    for s in sent_lst:
        corpus_machado.append(gensim.models.doc2vec.TaggedDocument(simple_preprocess(s),[i]))
        i += 1

In [4]:
# contrucao do vocabulario do modelo a partir das sentenças do nosso corpus, 
# neste caso temos a representação dos documentos
model.build_vocab(corpus_machado)

In [5]:
# treinamento do modelo
model.train(corpus_machado, total_examples=model.corpus_count, epochs=model.epochs)

# Inferindo uma representação de um trecho qualquer de texto

In [6]:
vector = model.infer_vector(["abade","doutor","livro","assassino"])

In [7]:
print(vector)

[ 0.01354391 -0.07428131 -0.02832872 -0.01191393 -0.03184336  0.01969732
  0.01903455  0.02498594  0.05272284  0.03581441  0.00846596 -0.01475284
  0.04046239  0.02317912 -0.0908125   0.03821414  0.00310028 -0.04845076
 -0.01047413 -0.02948614  0.09222609 -0.02829869 -0.00688945 -0.02065181
  0.01184211  0.0217641   0.00400338 -0.02091907 -0.02373834  0.00785763
 -0.06468531 -0.01814467 -0.07609721  0.01571541 -0.039366   -0.04766297
  0.01616565  0.03436644  0.04673313 -0.07510643  0.0091365   0.03365703
 -0.00626832 -0.0067878  -0.00651612  0.00697726 -0.05325504 -0.02000935
 -0.08964141 -0.07047554]


# Similaridade

In [8]:
model.docvecs.most_similar([vector])

[(13088, 0.7003483176231384),
 (35670, 0.6798233389854431),
 (110047, 0.6714412569999695),
 (40156, 0.6596086621284485),
 (150237, 0.6592286825180054),
 (126713, 0.6579917669296265),
 (32968, 0.6559262871742249),
 (92861, 0.6532794237136841),
 (129357, 0.6520761251449585),
 (72710, 0.6506253480911255)]

In [9]:
corpus_machado[13088]

TaggedDocument(words=['não', 'senhor', 'dê', 'cá', 'livro'], tags=[13088])

In [10]:
corpus_machado[35670]

TaggedDocument(words=['mulher', 'dizia', 'ele', 'um', 'livro', 'pé', 'índice', 'do', 'livro'], tags=[35670])