# Word2Vec e Doc2Vec

In [2]:
import os
from normalib.lexical import Normalization
from gensim.models import Word2Vec, Doc2Vec
from gensim.models.doc2vec import TaggedDocument

#### Instânciando a biblioteca criada e buscando os textos de tecnologia e mercado

In [3]:
n = Normalization()

corpora_path = 'Crawler/data/corpora/'
files_tecnologia = os.listdir('{}/tecnologia/'.format(corpora_path))
files_tecnologia = ['{}/tecnologia/{}'.format(corpora_path,f) for f in files_tecnologia if f != '.DS_Store']
files_mercado = os.listdir('{}/mercado/'.format(corpora_path))
files_mercado = ['{}/mercado/{}'.format(corpora_path,f) for f in files_mercado if f != '.DS_Store']

# Word2Vec
#### Preparando a estrutura de dados da forma que o Word2Vec aceita

In [4]:
all_sentences_tecnologia = []
for file in files_tecnologia:
    with open(file, 'r') as text_file:
        lines = text_file.readlines()
        for line in lines:
            line = n.to_lower_case(line)
            sentences = n.tokenize_sentences(line)
            sentences = [n.tokenize_words(sent) for sent in sentences]
            all_sentences_tecnologia.extend(sentences)

print("Numero de sentenças corpus tecnologia: {}".format(len(all_sentences_tecnologia)))

Numero de sentenças corpus tecnologia: 3726


In [5]:
all_sentences_mercado = []
for file in files_mercado:
    with open(file, 'r') as text_file:
        lines = text_file.readlines()
        for line in lines:
            line = n.to_lower_case(line)
            sentences = n.tokenize_sentences(line)
            sentences = [n.tokenize_words(sent) for sent in sentences]
            all_sentences_mercado.extend(sentences)

print("Numero de sentenças corpus mercado: {}".format(len(all_sentences_mercado)))

Numero de sentenças corpus mercado: 7408


#### Calculando as 10 palavras mais similares em relação a uma outra nos corpus de tecnologia e mercado, respectivamente.
#### Será calculado 3 palavras para cada corpus

In [8]:
w2vmodel_tecnologia = Word2Vec(all_sentences_tecnologia, size=200, window=5, min_count=3, workers=4)
w2vmodel_tecnologia.wv.most_similar('linux')

[('mint', 0.9719254970550537),
 ('derivado.instalando', 0.9555950164794922),
 ('minto', 0.9533777236938477),
 ('ubuntu', 0.9506325721740723),
 ('kernel', 0.9497767686843872),
 ('derivados', 0.9452481269836426),
 ('kali', 0.944773256778717),
 ('redor', 0.9424254298210144),
 ('18.3', 0.9421452879905701),
 ('derivado', 0.9416871070861816)]

In [9]:
w2vmodel_tecnologia.wv.most_similar('computador')

[('celular', 0.9936665296554565),
 ('vídeo', 0.9934778213500977),
 ('game', 0.9930947422981262),
 ('stremio', 0.991606593132019),
 ('todo', 0.991492509841919),
 ('smartphone', 0.9912481307983398),
 ('chamou', 0.991230845451355),
 ('touchpad', 0.9911835193634033),
 ('material', 0.9911742210388184),
 ('dispositivo', 0.991145133972168)]

In [10]:
w2vmodel_tecnologia.wv.most_similar('windows')

[('macos', 0.9910445809364319),
 ('android', 0.9886826276779175),
 ('suporte', 0.9884665012359619),
 ('entanto', 0.9877304434776306),
 ('mac', 0.9873590469360352),
 ('launchpad', 0.9859412908554077),
 ('arch', 0.985488772392273),
 ('kernel', 0.9840272665023804),
 ('lts', 0.9840036630630493),
 ('dx11', 0.9836246371269226)]

In [19]:
w2vmodel_mercado = Word2Vec(all_sentences_mercado, size=200, window=5, min_count=3, workers=4)
w2vmodel_mercado.wv.most_similar('dinheiro')

[('senso', 0.9974635243415833),
 ('usado', 0.9952303171157837),
 ('negócio', 0.9950326085090637),
 ('assim', 0.9936304092407227),
 ('heineken', 0.9934155344963074),
 ('funcionar', 0.9927018880844116),
 ('mostra', 0.992699384689331),
 ('contribuinte', 0.9924260973930359),
 ('visto', 0.9919905662536621),
 ('tudo', 0.9918570518493652)]

In [14]:
w2vmodel_mercado.wv.most_similar('economia')

[('ministro', 0.9868409633636475),
 ('posteriormente', 0.9790926575660706),
 ('adiamento', 0.9770197868347168),
 ('apreciação', 0.9759272933006287),
 ('vinculada', 0.9744375348091125),
 ('aprovação', 0.9736068844795227),
 ('uniu', 0.9722857475280762),
 ('nacionalcâmara1', 0.9703745245933533),
 ('admissibilidade', 0.9700789451599121),
 ('relator', 0.9697054028511047)]

In [17]:
w2vmodel_mercado.wv.most_similar('governo')

[('congresso', 0.9667510986328125),
 ('partido', 0.9649776816368103),
 ('texto', 0.9611717462539673),
 ('encaminhada', 0.9588985443115234),
 ('telefonou', 0.9567490220069885),
 ('promulgação', 0.9564669728279114),
 ('constitucionalidade', 0.9538384079933167),
 ('bolsonaro', 0.9530772566795349),
 ('deferência', 0.951181173324585),
 ('líder', 0.9495497941970825)]

#### Para podermos melhorar o resultado da similaridade do Word2Vec, seria interessante utilizar também algo que entenda a semântica da palavra, para não usar somente vetores

#### Para compararmos 2 corpus diferentes usando Word2Vec, poderiamos gerar um estrutura de textos sem stopwords e executar o Word2Vec das duas estruturas de ambos corpus, somar os seus vetores e em seguida analisar a diferença entre os vetores.

# Doc2Vec
#### Preparando a estrutura de dados da forma que o Doc2Vec aceita

In [20]:
all_documents = []
all_files = files_tecnologia
all_files.extend(files_mercado)
for file in all_files:
    with open(file, 'r') as text_file:
        document = ' '.join(text_file.readlines())
        document = n.to_lower_case(document)
        document_tokens = n.tokenize_words(document)
        all_documents.append(document_tokens)
print("Number of documents: {}".format(len(all_documents)))
tagged_documents = [TaggedDocument(words=d, tags=[str(i)]) for i, d in enumerate(all_documents)]

Number of documents: 1095


In [21]:
d2vmodel = Doc2Vec(tagged_documents, vector_size=20, window=2, min_count=1, workers=4)

#### Vamos comparar alguns documentos, para isso precisamos usar a função infer_vector passando como argumentos a lista de tokens de um documento

In [24]:
vector_tec = d2vmodel.infer_vector(all_documents[0])
vector_merc = d2vmodel.infer_vector(all_documents[len(all_documents)-1])

vector_tec2 = d2vmodel.infer_vector(all_documents[1])
vector_merc2 = d2vmodel.infer_vector(all_documents[len(all_documents)-2])

vector_tec3 = d2vmodel.infer_vector(all_documents[2])
vector_merc3 = d2vmodel.infer_vector(all_documents[len(all_documents)-3])

#### Para compararmos os vetores vou utilizar o mesmo método que o Professor Erick utilizou em sala, a distância de coseno

In [26]:
from scipy import spatial

print(1 - spatial.distance.cosine(vector_tec, vector_merc))
print(1 - spatial.distance.cosine(vector_tec2, vector_merc2))
print(1 - spatial.distance.cosine(vector_tec3, vector_merc3))

0.6723589897155762
0.7398795485496521
0.6885780096054077


#### Quanto mais o resultado se aproximar de 1, mais similar são os documentos, como podemos ver os documentos não são tão iguais, mas também já era de se esperar, pois foram comparados documentos de tecnologia e mercado.
#### Vamos comparar documentos do mesmo assunto para ver a diferença

In [28]:
print(1 - spatial.distance.cosine(vector_tec, vector_tec3))

0.7478671073913574


#### Não foi uma grande diferença, mas teve uma pequena melhoria