# _Word Embeddings_

Neste notebook testaremos o modelo gerado em word2vec_train.ipynb em uma tarefa intrínseca de analogia semântica usando álgebra vetorial.

In [1]:
import gensim

Caminho onde salvamos o modelo treinado.

In [2]:
#import data
outp = "model/word2vec/wiki.pt-br.word2vec.model"

Load do modelo treinado. Trata-se de arquivo .model gerado no momento do .save do notebook anterior.

In [3]:
#Load data
model = gensim.models.Word2Vec.load(outp)

## Inferências

A similaridade semântica entre duas palavras pode ser dada pelo cosseno entre seus vetores correspondentes. Em geral, o cosseno é definido como na equação abaixo, onde $\vec{x}$ e $\vec{y}$ são os vetores sendo comparados. Esse valor mede a distância entre os diferentes contextos de ocorrência das palavras que estão sendo comparadas.

$$ cos(\vec{x}|\vec{y}) = \frac{\vec{x}.\vec{y}}{|\vec{x}||\vec{y}|} $$

* **most_similar**: Calcula a similaridade de cosseno entre uma média simples dos vetores de peso das palavras dadas e os vetores de peso de cada uma.

In [4]:
model.wv.most_similar(positive=['rei', 'mulher'], negative=['homem'])

[('rainha', 0.563403844833374),
 ('esposa', 0.5476986765861511),
 ('concubina', 0.5263887643814087),
 ('consorte', 0.4897775650024414),
 ('infanta', 0.4890763759613037),
 ('madrasta', 0.4801637530326843),
 ('viúva', 0.47895339131355286),
 ('princesa', 0.4750368297100067),
 ('sobrinha', 0.4735983610153198),
 ('filha', 0.46588921546936035)]

In [5]:
model.wv.most_similar(positive=['lula', 'mulher'], negative=['homem'])

[('dilma', 0.5366573333740234),
 ('rousseff', 0.4682416617870331),
 ('senadora', 0.4520450830459595),
 ('roussef', 0.42890864610671997),
 ('presidenta', 0.4184250831604004),
 ('fhc', 0.4024085998535156),
 ('maisa', 0.4022766947746277),
 ('advogada', 0.3956421911716461),
 ('petista', 0.3870047330856323),
 ('enteada', 0.3752862811088562)]

In [6]:
model.wv.most_similar(positive=['advogado', 'mulher'], negative=['homem'])

[('advogada', 0.674094557762146),
 ('empresária', 0.5596073269844055),
 ('esposa', 0.5396914482116699),
 ('juíza', 0.5330030918121338),
 ('psicóloga', 0.5321911573410034),
 ('socialite', 0.5081355571746826),
 ('enteada', 0.49844270944595337),
 ('secretária', 0.4902417063713074),
 ('socióloga', 0.4889090657234192),
 ('enfermeira', 0.48639440536499023)]

In [7]:
model.wv.most_similar(positive=['médico', 'mulher'], negative=['homem'])

[('enfermeira', 0.5709562301635742),
 ('psicóloga', 0.5430200695991516),
 ('parteira', 0.5426148176193237),
 ('cirurgiã', 0.5260206460952759),
 ('pediatra', 0.5143420696258545),
 ('ginecologista', 0.5094795227050781),
 ('obstetra', 0.5006735920906067),
 ('esposa', 0.48979347944259644),
 ('advogada', 0.48630261421203613),
 ('psicoterapeuta', 0.4805002808570862)]

In [8]:
model.wv.most_similar(positive=['programador', 'mulher'], negative=['homem'])

[('programadora', 0.43346863985061646),
 ('empresária', 0.4250830113887787),
 ('designer', 0.424478143453598),
 ('desenvolvedor', 0.42184334993362427),
 ('fotógrafa', 0.42174917459487915),
 ('maquiadora', 0.39872074127197266),
 ('psicoterapeuta', 0.3951054811477661),
 ('musicista', 0.3945704698562622),
 ('interface', 0.3872838020324707),
 ('api', 0.3847675919532776)]

In [9]:
model.wv.most_similar(positive=['frança', 'lisboa'], negative=['portugal'])

[('paris', 0.549514889717102),
 ('marselha', 0.5035914778709412),
 ('picardia', 0.4949594736099243),
 ('aquitânia', 0.49078822135925293),
 ('bordéus', 0.4830194413661957),
 ('provença', 0.47275757789611816),
 ('alsácia', 0.4636075496673584),
 ('dijon', 0.4623123109340668),
 ('amiens', 0.46183884143829346),
 ('montpellier', 0.46097874641418457)]

In [10]:
model.wv.most_similar(positive=['insuportável', 'mulher'], negative=['homem'])

[('tutora', 0.4640021324157715),
 ('sogra', 0.462051659822464),
 ('enteada', 0.45133066177368164),
 ('esposa', 0.44530925154685974),
 ('prostituta', 0.43312495946884155),
 ('companheira', 0.43247896432876587),
 ('amargurada', 0.43100398778915405),
 ('orgulhosa', 0.43008291721343994),
 ('enfermeira', 0.4280928671360016),
 ('solteirona', 0.4227881133556366)]

In [11]:
model.wv.most_similar(positive=['mickey', 'mulher'], negative=['homem'])

[('minnie', 0.480533242225647),
 ('namorada', 0.4215421974658966),
 ('tia', 0.42032378911972046),
 ('patty', 0.4116852879524231),
 ('srta', 0.40983036160469055),
 ('enfermeira', 0.40937376022338867),
 ('mabel', 0.40793412923812866),
 ('garotinha', 0.4013059735298157),
 ('esposa', 0.40110117197036743),
 ('sally', 0.4004097580909729)]

In [12]:
model.wv.most_similar(positive=['samsung'])

[('lg', 0.7303698062896729),
 ('motorola', 0.6857724189758301),
 ('electronics', 0.6479246616363525),
 ('panasonic', 0.6459462642669678),
 ('lenovo', 0.6419277787208557),
 ('anycall', 0.6419171094894409),
 ('asus', 0.6349570155143738),
 ('daewoo', 0.6341103315353394),
 ('bluefangs', 0.6229230165481567),
 ('hyundai', 0.6224716901779175)]

In [13]:
model.wv.most_similar(positive=['capitalismo'], negative=['dinheiro'])

[('keynesianismo', 0.4925394654273987),
 ('neoliberalismo', 0.49050548672676086),
 ('marxismo', 0.48223426938056946),
 ('corporativismo', 0.4770309031009674),
 ('coletivismo', 0.4740025997161865),
 ('imperialismo', 0.47027409076690674),
 ('industrialismo', 0.4685702919960022),
 ('historicismo', 0.4652341604232788),
 ('socialismo', 0.46425700187683105),
 ('estruturalismo', 0.4628419578075409)]

In [14]:
model.wv.most_similar(positive=['frança'], negative=['alemanha'])

[('hérault', 0.4355013072490692),
 ('languedoc', 0.43341681361198425),
 ('périgord', 0.4287109673023224),
 ('albret', 0.4202360510826111),
 ('brissac', 0.4153077006340027),
 ('cotterêts', 0.41490107774734497),
 ('roussillon', 0.4148673117160797),
 ('albi', 0.41349804401397705),
 ('tonnay', 0.41253000497817993),
 ('coypel', 0.40943560004234314)]