# _Word Embeddings_

Neste notebook testaremos o modelo gerado em word2vec_train.ipynb em uma tarefa intrínseca de analogia semântica usando álgebra vetorial.

In [3]:
import gensim
import os

Caminho onde salvamos o modelo treinado.

In [4]:
#import data
#outp = "model/word2vec/wiki.pt-br.word2vec.model"
outp = os.path.join('model', 'word2vec', 'wiki.pt-br.word2vec.model')

Load do modelo treinado. Trata-se de arquivo .model gerado no momento do .save do notebook anterior.

In [5]:
#Load data
model = gensim.models.Word2Vec.load(outp)

## Inferências

A similaridade semântica entre duas palavras pode ser dada pelo cosseno entre seus vetores correspondentes. Em geral, o cosseno é definido como na equação abaixo, onde $\vec{x}$ e $\vec{y}$ são os vetores sendo comparados. Esse valor mede a distância entre os diferentes contextos de ocorrência das palavras que estão sendo comparadas.

$$ cos(\vec{x}|\vec{y}) = \frac{\vec{x}.\vec{y}}{|\vec{x}||\vec{y}|} $$

* **most_similar**: Calcula a similaridade de cosseno entre uma média simples dos vetores de peso das palavras dadas e os vetores de peso de cada uma.

In [6]:
model.wv.most_similar(positive=['rei', 'mulher'], negative=['homem'])

[('rainha', 0.5728097558021545),
 ('infanta', 0.5286685824394226),
 ('princesa', 0.5110589265823364),
 ('esposa', 0.504840612411499),
 ('concubina', 0.49223142862319946),
 ('herdeira', 0.4909839928150177),
 ('coroação', 0.4820205569267273),
 ('neta', 0.4780043959617615),
 ('sobrinha', 0.4748428463935852),
 ('consorte', 0.47434908151626587)]

In [7]:
model.wv.most_similar(positive=['lula', 'mulher'], negative=['homem'])

[('dilma', 0.6301570534706116),
 ('rousseff', 0.6011762619018555),
 ('presidenta', 0.5419915318489075),
 ('erundina', 0.5370290279388428),
 ('candidata', 0.5196089744567871),
 ('senadora', 0.5106953382492065),
 ('roussef', 0.5073909759521484),
 ('fhc', 0.502558171749115),
 ('petista', 0.5005642175674438),
 ('kirchner', 0.49782586097717285)]

In [8]:
model.wv.most_similar(positive=['advogado', 'mulher'], negative=['homem'])

[('advogada', 0.5967177748680115),
 ('secretária', 0.5743982791900635),
 ('professora', 0.5717214941978455),
 ('enfermeira', 0.5600820183753967),
 ('empresária', 0.5504055023193359),
 ('juíza', 0.5398902893066406),
 ('diretora', 0.5245388746261597),
 ('psicóloga', 0.5145259499549866),
 ('vereadora', 0.514488697052002),
 ('conselheira', 0.5137046575546265)]

In [9]:
model.wv.most_similar(positive=['médico', 'mulher'], negative=['homem'])

[('enfermeira', 0.5861247777938843),
 ('professora', 0.5441340804100037),
 ('maternidade', 0.49257519841194153),
 ('clínica', 0.47466084361076355),
 ('aluna', 0.46771949529647827),
 ('governanta', 0.46505677700042725),
 ('odontológico', 0.46411725878715515),
 ('freira', 0.4632118046283722),
 ('cirurgia', 0.46127355098724365),
 ('sanitarista', 0.45934125781059265)]

In [10]:
model.wv.most_similar(positive=['programador', 'mulher'], negative=['homem'])

[('programadora', 0.5180810689926147),
 ('desenvolvedora', 0.4670116901397705),
 ('desktop', 0.45217832922935486),
 ('blender', 0.4490089416503906),
 ('fotógrafa', 0.44877350330352783),
 ('margrit', 0.4431842565536499),
 ('empresária', 0.44247788190841675),
 ('driver', 0.43612128496170044),
 ('desenvolvedor', 0.43602490425109863),
 ('designer', 0.4357184171676636)]

In [11]:
model.wv.most_similar(positive=['frança', 'lisboa'], negative=['portugal'])

[('paris', 0.5455796718597412),
 ('normandia', 0.4577951431274414),
 ('estrasburgo', 0.44294026494026184),
 ('aquitânia', 0.41559627652168274),
 ('provença', 0.41353923082351685),
 ('lyon', 0.4129228889942169),
 ('flandres', 0.4041200280189514),
 ('toulouse', 0.40386873483657837),
 ('bordéus', 0.39926737546920776),
 ('marselha', 0.39725032448768616)]

In [12]:
model.wv.most_similar(positive=['insuportável', 'mulher'], negative=['homem'])

[('companheira', 0.5332030057907104),
 ('governanta', 0.5135449171066284),
 ('noiva', 0.5034705400466919),
 ('madrasta', 0.49818557500839233),
 ('neta', 0.49594759941101074),
 ('sogra', 0.4903968572616577),
 ('tia', 0.4804190993309021),
 ('prostituta', 0.4723840355873108),
 ('esposa', 0.4710380434989929),
 ('sobrinha', 0.46204090118408203)]

In [13]:
model.wv.most_similar(positive=['mickey', 'mulher'], negative=['homem'])

[('minnie', 0.549763560295105),
 ('carol', 0.5411068201065063),
 ('namorada', 0.5338138341903687),
 ('kelly', 0.521699070930481),
 ('donna', 0.5208052396774292),
 ('sitcom', 0.5154778957366943),
 ('lady', 0.5107433795928955),
 ('natasha', 0.5052558183670044),
 ('fotógrafa', 0.5045852661132812),
 ('barbie', 0.5028849840164185)]

In [14]:
model.wv.most_similar(positive=['samsung'])

[('industries', 0.8153011202812195),
 ('hyundai', 0.8119423985481262),
 ('panasonic', 0.7943166494369507),
 ('lg', 0.7743003964424133),
 ('aerospace', 0.7737675905227661),
 ('corp', 0.7616852521896362),
 ('corporation', 0.760970950126648),
 ('technologies', 0.7609294652938843),
 ('electronics', 0.7602411508560181),
 ('daewoo', 0.7590417861938477)]

In [15]:
model.wv.most_similar(positive=['capitalismo'], negative=['dinheiro'])

[('marxismo', 0.5598196983337402),
 ('anarquismo', 0.558821976184845),
 ('sindicalismo', 0.549271821975708),
 ('estruturalismo', 0.5447481870651245),
 ('racionalismo', 0.5446571111679077),
 ('positivismo', 0.5377087593078613),
 ('marxista', 0.5304422378540039),
 ('juche', 0.5302650332450867),
 ('humanismo', 0.5284522175788879),
 ('utópico', 0.5283548831939697)]

In [16]:
model.wv.most_similar(positive=['frança'], negative=['alemanha'])

[('francês', 0.3407854437828064),
 ('navarra', 0.32652896642684937),
 ('condestável', 0.32290512323379517),
 ('guesclin', 0.322375625371933),
 ('jean', 0.3216290771961212),
 ('armagnac', 0.3080698251724243),
 ('saint', 0.30327075719833374),
 ('haro', 0.2970321774482727),
 ('jacques', 0.2939528822898865),
 ('brézé', 0.29166901111602783)]