# Criando um modelo Word Embedding

Criamos um modelo word embedding para obter uma maior relação semântica das palavras. O corpus utilizado para o treino da rede neural, foram os artigos de 2008 até 2018 dos Doutores da Ciência da Computação.

Foram treinados quatro modelos distintos, para realização de futuros testes. Usando o corpus como os artigos com e sem stemming, e variando os modelos também descobrir bigramas.

## Imports

In [1]:
from gensim.models import Word2Vec
from gensim.models import Phrases
import pandas as pd

# Criação do corpus

In [2]:
timeslice = []
timeslice_stem = []
corpus = ''
corpus_stem = ''
for ano in range(2008,2019):
    df = pd.read_csv('dataset_without_stem/artigosPre_'+str(ano)+'.csv', sep="|")
    df_stem = pd.read_csv('dataset/artigosPre_'+str(ano)+'.csv', sep="|")
    artigos = df['titulo'].values
    artigos_stem = df_stem['titulo'].values
    size = len(artigos)
    size_stem = len(artigos_stem)
    artigos = "".join(artigos+'\n')
    artigos_stem = "".join(artigos_stem+'\n')
    timeslice.append(size)
    timeslice_stem.append(size_stem)
    corpus += artigos
    corpus_stem += artigos_stem
open('new_corpus.txt','w').write(corpus)
open('new_corpus_stem.txt','w').write(corpus_stem)

992975

In [3]:
corpus = [i.split() for i in corpus.split('\n')]

In [4]:
corpus_stem = [i.split() for i in corpus_stem.split('\n')]

# Treinando o modelo W2V

## Modelo padrão (sem bigramas)

In [5]:
model_default = Word2Vec(corpus, size=150, window=10, min_count=2, workers=4)
model_default.train(corpus,total_examples=len(corpus),epochs=10)

(1271865, 1414400)

In [6]:
model_default_stem = Word2Vec(corpus_stem, size=150, window=10, min_count=2, workers=4)
model_default_stem.train(corpus_stem,total_examples=len(corpus_stem),epochs=10)

(1241475, 1414450)

In [7]:
model_default.save("models/model_default.model")
model_default_stem.save('models/model_default_stem.model')
#model_default = Word2Vec.load("model_default.model")

In [8]:
model_default.wv.save_word2vec_format('wordvectors/l2v_default.vec')
model_default_stem.wv.save_word2vec_format('wordvectors/l2v_default_stem.vec')

### Testes

In [9]:
w1 = 'image'
model_default.wv.most_similar (positive=w1,topn=6)

[('segmentation', 0.8910067677497864),
 ('hue', 0.8887063264846802),
 ('images', 0.8824281096458435),
 ('foresting', 0.8818085193634033),
 ('descriptors', 0.8817914128303528),
 ('pattern', 0.8708274364471436)]

In [10]:
w1 = 'network'
model_default_stem.wv.most_similar (positive=w1,topn=6)

[('wireless', 0.7993072271347046),
 ('node', 0.7601819038391113),
 ('actuat', 0.7105311155319214),
 ('sink', 0.7096534967422485),
 ('exploit', 0.6863954067230225),
 ('radio', 0.6852746605873108)]

## Modelo Bigrama

In [11]:
bigram = Phrases(corpus)
bigram_stem = Phrases(corpus_stem)

In [12]:
model_bigram = Word2Vec(bigram[corpus], size=150, window=10, min_count=2, workers=4)
model_bigram.train(bigram[corpus],total_examples=len(corpus),epochs=10)

(1191576, 1313890)

In [13]:
model_bigram_stem = Word2Vec(bigram[corpus_stem], size=150, window=10, min_count=2, workers=4)
model_bigram_stem.train(bigram[corpus_stem],total_examples=len(corpus_stem),epochs=10)

(1220367, 1388350)

In [14]:
model_bigram.save("models/model_bigram.model")
model_bigram_stem.save('models/model_bigram_stem.model')
#model_bigram = Word2Vec.load("model_bigram.model")

In [15]:
model_bigram.wv.save_word2vec_format('wordvectors/l2v_bigram.vec')
model_bigram_stem.wv.save_word2vec_format('wordvectors/l2v_bigram_stem.vec')

### Testes

In [16]:
w1 = 'data_mining'
model_bigram.wv.most_similar (positive=w1,topn=6)

[('manipulation', 0.992890477180481),
 ('analyzer', 0.9913017153739929),
 ('comparing', 0.9901167154312134),
 ('computer_aided', 0.9896448254585266),
 ('categorizing', 0.9882591962814331),
 ('vision', 0.9870148301124573)]