In [1]:
# 워드 임베딩과 관련한 대표적인 기법인 Word2Vec, ELMo, 워드가 아닌 직접 임베딩하는 Doc2Vec

# Word2Vec 기법에서 학습의 목적은 단어에 의미적인 정보를 함축함으로써 유사도를 계산하거나 연산을 수행하고, 더 나아가서 학습된 결과를 다른
# 작업에서도 사용할 수 있는 전이학습을 지원하는 것이다.
# 다음 단어 혹은 주변 단어에 대한 예측을 잘할 수 있도록 학습함으로써 문맥을 이해시키고, 밀집 벡터에 그러한 문맥 정보를 담으려는 시도
# CBOW, Skip-Gram의 두가지 학습 방식을 갖고 있다.
# CBOW : 주변의 단어를 이용해 중심단어를 예측하도록 학습을 수행
# 앞뒤 단어들을 몇 개씩 예측에 사용할지 결정하는 범위를 윈도우(window)라고 한다. 
# Skip-Gram : 중심의 한 단어를 이용해 주변의 단어를 예측한다.

# Word2Vec 활용
# 미리 학습된 gensim data를 다운로드
import gensim.downloader as api
wv = api.load('glove-wiki-gigaword-50')
type(wv)



gensim.models.keyedvectors.KeyedVectors

In [2]:
vec_king = wv['king']
print('#Size of the vector:', len(vec_king))
print('#Vector for king:', vec_king)

#Size of the vector: 50
#Vector for king: [ 0.50451   0.68607  -0.59517  -0.022801  0.60046  -0.13498  -0.08813
  0.47377  -0.61798  -0.31012  -0.076666  1.493    -0.034189 -0.98173
  0.68229   0.81722  -0.51874  -0.31503  -0.55809   0.66421   0.1961
 -0.13495  -0.11476  -0.30344   0.41177  -2.223    -1.0756   -1.0783
 -0.34354   0.33505   1.9927   -0.04234  -0.64319   0.71125   0.49159
  0.16754   0.34344  -0.25663  -0.8523    0.1661    0.40102   1.1685
 -1.0137   -0.21585  -0.15155   0.78321  -0.91241  -1.6106   -0.64426
 -0.51042 ]


In [4]:
print(wv.similarity('king','man'), 'vs', wv.similarity('king', 'woman'))
print(wv.similarity('queen', 'wan'), 'vs', wv.similarity('queen', 'woman'))
print('미니밴에 가까운 차:', wv.most_similar(positive=['car', 'minivan'], topn=3))
print('여성, 왕에는 가까우면서 남성과는 먼 단어:', wv.most_similar(positive=['woman', 'king'], negative=['man'], topn=1))
print('breakfast cereal dinner lunch 중에서 다른 단어들과의 거리가 가장 먼 단어:',
     wv.doesnt_match("breakfast cereal dinner lunch".split()))

0.53093773 vs 0.41133785
0.22956748 vs 0.60031056
미니밴에 가까운 차: [('truck', 0.9100273251533508), ('suv', 0.9040074944496155), ('jeep', 0.8619830012321472)]
여성, 왕에는 가까우면서 남성과는 먼 단어: [('queen', 0.8523604273796082)]
breakfast cereal dinner lunch 중에서 다른 단어들과의 거리가 가장 먼 단어: cereal


In [5]:
# distance 유사도의 반대 개념인 거리를 반환, n_similarity는 단어집합 간의 유사도 계산
print("distance between cat and dog:{:.2f}".format(wv.distance('cat','dog')))
print("{:.4f}".format(wv.n_similarity(['bulgogi', 'shop'], ['japanese', 'restaurant'])))
print("{:.4f}".format(wv.n_similarity(['bulgogi', 'shop'], ['korean', 'restaurant'])))
print("{:.4f}".format(wv.n_similarity(['bulgogi', 'shop'], ['french', 'restaurant'])))

distance between cat and dog:0.08
0.5375
0.5627
0.4377


In [None]:
# Word2Vec의 가장 큰 문제점은 동음이의어이다.
# Word2Vec에서는 임베딩 벡터가 고정돼 있지만 ELMo에서는 가변적이라는 것이다.