# Gensim의 Word2Vec 사전학습모형 가져오기

[gensim 홈페이지 참고](https://radimrehurek.com/gensim/auto_examples/tutorials/run_word2vec.html#word2vec-demo)

In [None]:
!pip install --upgrade gensim

**사전 학습된 gensim 데이터 다운로드**

In [None]:
import gensim.downloader as api

wv = api.load('glove-wiki-gigaword-50')

In [3]:
# 타입 확인 -> 단어의 임베딩 벡터 간의 매핑을 저장한 사전과 다양한 유사도 함수들로 구성된 객체
type(wv)

gensim.models.keyedvectors.KeyedVectors

**각 단어에 대한 벡터 내용과 단어 간의 유사도**

In [4]:
# 'king'의 임베딩 벡터에 대한 크기와 내용
vec_king = wv['king']

print('Size of the vector:', len(vec_king))
print('Vector for king:', vec_king)

Size of the vector: 50
Vector for king: [ 0.50451   0.68607  -0.59517  -0.022801  0.60046  -0.13498  -0.08813
  0.47377  -0.61798  -0.31012  -0.076666  1.493    -0.034189 -0.98173
  0.68229   0.81722  -0.51874  -0.31503  -0.55809   0.66421   0.1961
 -0.13495  -0.11476  -0.30344   0.41177  -2.223    -1.0756   -1.0783
 -0.34354   0.33505   1.9927   -0.04234  -0.64319   0.71125   0.49159
  0.16754   0.34344  -0.25663  -0.8523    0.1661    0.40102   1.1685
 -1.0137   -0.21585  -0.15155   0.78321  -0.91241  -1.6106   -0.64426
 -0.51042 ]


In [5]:
# 단어 간의 유사도
print(wv.similarity('king', 'man'), 'vs', wv.similarity('king', 'woman'))
print(wv.similarity('queen', 'man'), 'vs', wv.similarity('queen', 'woman'))

0.53093773 vs 0.41133785
0.53667 vs 0.60031056


In [6]:
# 단어 간의 유사도를 기반으로 계산 (각 벡터당 거리 계산)
print('미니밴에 가까운 차:', wv.most_similar(positive=['car', 'minivan'], topn=3))
print('여성, 왕에는 가까우면서 남성과는 먼 단어:', 
      wv.most_similar(positive=['woman', 'king'], negative=['man'], topn=1))
print('breakfast cereal dinner lunch 중에서 다른 단어들과의 거리가 가장 먼 단어:', 
      wv.doesnt_match("breakfast cereal dinner lunch".split()))

미니밴에 가까운 차: [('truck', 0.9100273251533508), ('suv', 0.904007613658905), ('jeep', 0.8619828820228577)]
여성, 왕에는 가까우면서 남성과는 먼 단어: [('queen', 0.8523604273796082)]
breakfast cereal dinner lunch 중에서 다른 단어들과의 거리가 가장 먼 단어: cereal


In [7]:
print("distance between cat and dog: {:.2f}".format(wv.distance("cat", "dog")))
print("{:.4f}".format(wv.n_similarity(['bulgogi', 'shop'], ['japanese', 'restaurant'])))
print("{:.4f}".format(wv.n_similarity(['bulgogi', 'shop'], ['korean', 'restaurant'])))
print("{:.4f}".format(wv.n_similarity(['bulgogi', 'shop'], ['french', 'restaurant'])))

distance between cat and dog: 0.08
0.5375
0.5627
0.4377
