# Word Embedding의 이해

* 워드 임베딩은 단어를 컴퓨터가 이해하고, 효율적으로 처리할 수 있도록 단어를 벡터화하는 기술
* 워드 임베딩은 단어의 의미를 잘 표현해야만 하며, 현재까지도 많은 표현 방법이 연구
* 워드 임베딩을 거쳐 잘 표현된 단어 벡터들은 계산이 가능하며, 모델 투입도 가능


## 인코딩(Encoding)

* 기계는 자연어(영어, 한국어 등)을 이해할 수 없음
* 데이터를 기계가 이해할 수 있도록 숫자 등으로 변환해주는 작업이 필요
* 이러한 작업을 인코딩이라고 함

* 텍스트 처리에서는 주로 정수 인코딩, 원 핫 인코딩을 사용


### 정수 인코딩

  - dictionary를 이용한 정수 인코딩
    - 각 단어와 정수 인덱스를 연결하고, 토큰을 변환해주는 정수 인코딩

### 원 핫 인코딩(One-Hot Encoding)

* 원 핫 인코딩은 정수 인코딩한 결과를 벡터로 변환한 인코딩
* 원 핫 인코딩은 전체 단어 개수 만큼의 길이를 가진 배열에 해당 정수를 가진 위치는 1, 나머지는 0을 가진 벡터로 변환   

## Sparse Represention (희소 표현)

  - One-hot encoding 
    - 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되기에 희소 표현(sparse representation)이라고 합니다. 
    - 그러니까 원-핫 벡터는 희소 벡터(sparse vector)입니다.
    - 희소 벡터의 문제점은 단어의 개수가 늘어나면 벡터의 차원이 한없이 커진다는 점
    - 또한 원-핫 벡터는 단어의 의미 또는 단어 간 유사도를 담지 못한다는 단점



## Dense Representation (밀집표현) 

  - 밀집 표현은 벡터의 차원을 단어 집합의 크기로 상정하지 않습니다. 
  - 사용자가 설정한 값으로 모든 단어의 벡터 표현의 차원을 맞춥니다. 
  - 또한, 이 과정에서 더 이상 0과 1만 가진 값이 아니라 실수값을 가지게 됩니다. 
  - 벡터의 차원이 조밀해졌다고 하여 밀집 벡터(dense vector)라고 합니다.

  ```
  Ex) 10,000개의 단어를 가정
        희소 표현: 강아지 = [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 중략 ... 0] # 이 벡터의 차원은 10,000 
        밀집표현: 강아지 = [0.2 1.8 1.1 -2.1 1.1 2.8 ... 중략 ...] # 이 벡터의 차원은 128
  


## Distributed Representation (분산표현)

  - 원-핫 벡터는 단어의 의미 또는 단어 간 유사도를 담지 못한다는 단점을 개선하고자 고안된 방법
  - 분산 표현 방법은 기본적으로 분포 가설(distributional hypothesis)이라는 가정 하에 만들어진 표현 방법
      - 분포 가설: '비슷한 위치에서 등장하는 단어들은 비슷한 의미를 가진다'
      ```
      강아지란 단어는 귀엽다, 예쁘다, 애교 등의 단어가 주로 함께 등장하는데 분포 가설에 따라서 
      저런 내용을 가진 텍스트를 벡터화한다면 저 단어들은 의미적으로 가까운 단어가 됩니다. 
      ```
  - 분산 표현은 분포 가설을 이용하여 단어들의 셋을 학습하고, 벡터에 단어의 의미를 여러 차원에 분산하여 표현합니다.
  - 요약하면 희소 표현이 고차원에 각 차원이 분리된 표현 방법이었다면, 분산 표현은 저차원에 단어의 의미를 여러 차원에다가 분산하여 표현
  - 이런 표현 방법을 사용하면 단어 간 유사도를 계산할 수 있습니다.
  - 분산표현 방법의 대표적인 모형이 2013년 Google에서 발표한 Word2vec.

## 워드 임베딩(Word Embedding)

  - 단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법을 워드 임베딩(word embedding)이라고 합니다. 
  - 이 밀집 벡터를 워드 임베딩 과정을 통해 나온 결과라고 하여 임베딩 벡터(embedding vector)라고도 합니다.
  - 워드 임베딩 방법론으로는 LSA, Word2Vec, FastText, Glove 등이 있습니다. 
  - 케라스에서 제공하는 도구인 Embedding()는 앞서 언급한 방법들을 사용하지는 않지만, 단어를 랜덤한 값을 가지는 밀집 벡터로 변환한 뒤에, 인공 신경망의 가중치를 학습하는 것과 같은 방식으로 단어 벡터를 학습하는 방법을 사용합니다.

|  -	|원-핫 벡터	|임베딩 벡터|
|-----|-----------|-----------|
|차원	|고차원(단어 집합의 크기)|	저차원|
|다른 표현|	희소 벡터의 일종|	밀집 벡터의 일종|
|표현 방법|	수동	|훈련 데이터로부터 학습함|
|값의 타입|	1과 0	|실수|

# Word2Vec

Word2Vec에는 CBOW(Continuous Bag of Words)와 Skip-Gram 두 가지 방식이 있습니다. 

  - CBOW는 주변에 있는 단어들을 가지고, 중간에 있는 단어들을 예측하는 방법입니다. 
  - Skip-Gram은 중간에 있는 단어로 주변 단어들을 예측하는 방법입니다. 

__참고__
  -  [TensorFlow Embedding Projector](http://projector.tensorflow.org/)
  - [Word Embeddings in NLP](https://medium.com/analytics-vidhya/word-embeddings-in-nlp-word2vec-glove-fasttext-24d4d4286a73)
  - [Efficient Estimation of Word Representations in Vector Space](https://arxiv.org/pdf/1301.3781.pdf)
  - [Distributed Representations of Words and Phrases and their Compositionality](https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf). 



The above two papers proposed two methods for learning representations of words: 

*   **Continuous Bag-of-Words (CBOW) Model** which predicts the middle word based on surrounding context words. The context consists of a few words before and after the current (middle) word. This architecture is called a bag-of-words model as the order of words in the context is not important.



*   **Continuous Skip-gram Model** which predict words within a certain range before and after the current word in the same sentence.

### CBOW

참고: [딥 러닝을 이용한 자연어 처리 입문](https://wikidocs.net/22660)

예를 들어, 갖고 있는 코퍼스에 아래와 같은 문장이 있다고 합시다. 
예문 : "The fat cat sat on the mat"

  - 가운데 단어를 예측하는 것이 CBOW라고 했습니다.
    - {"The", "fat", "cat", "on", "the", "mat"}으로부터 sat을 예측하는 것은 CBOW가 하는 일입니다. 
    - 이 때 예측해야하는 단어 sat을 중심 단어(center word)라고 하고, 예측에 사용되는 단어들을 주변 단어(context word)라고 합니다.
  - 중심 단어를 예측하기 위해서 앞, 뒤로 몇 개의 단어를 볼지를 결정했다면 이 범위를 윈도우(window)라고 합니다. 
      - 예를 들어서 윈도우 크기가 2이고, 예측하고자 하는 중심 단어가 sat이라고 한다면 앞의 두 단어인 fat와 cat, 그리고 뒤의 두 단어인 on, the를 참고합니다. 
      - 윈도우 크기가 n이라고 한다면, 실제 중심 단어를 예측하기 위해 참고하려고 하는 주변 단어의 개수는 2n이 될 것입니다.
      - 윈도우 크기를 정했다면, 윈도우를 계속 움직여서 주변 단어와 중심 단어 선택을 바꿔가며 학습을 위한 데이터 셋을 만들 수 있는데, 이 방법을 슬라이딩 윈도우(sliding window)라고 합니다.

<img src='https://wikidocs.net/images/page/22660/%EB%8B%A8%EC%96%B4.PNG'>

  - CBOW의 인공 신경망을 간단히 도식화하면 아래와 같습니다. 
  
      <image src='https://wikidocs.net/images/page/22660/word2vec_renew_1.PNG'>

    - 입력층(Input layer)의 입력으로서 앞, 뒤로 사용자가 정한 윈도우 크기 범위 안에 있는 주변 단어들의 원-핫 벡터가 들어가게 되고, 출력층(Output layer)에서 예측하고자 하는 중간 단어의 원-핫 벡터가 필요합니다. 
    
      <img src='https://wikidocs.net/images/page/22660/word2vec_renew_2.PNG'>

    - Word2Vec은 딥 러닝 모델(Deep Learning Model)은 아니라는 점입니다. 
      - Word2Vec는 입력층과 출력층 사이에 하나의 은닉층만이 존재합니다. 
      - 이렇게 은닉층(hidden Layer)이 1개인 경우에는 일반적으로 심층신경망(Deep Neural Network)이 아니라 얕은신경망(Shallow Neural Network)이라고 부릅니다. 
      - 또한 Word2Vec의 은닉층은 일반적인 은닉층과는 달리 활성화 함수가 존재하지 않으며 룩업 테이블이라는 연산을 담당하는 층으로 일반적인 은닉층과 구분하기 위해 투사층(projection layer)이라고 부르기도 합니다.

        <img src='https://wikidocs.net/images/page/22660/word2vec_renew_3.PNG'>

      - 이 그림에서 주목해야할 것은 두 가지 입니다. 하나는 투사층의 크기가 M이라는 점입니다. CBOW에서 투사층의 크기 M은 임베딩하고 난 벡터의 차원이 됩니다. (밀집표현 수 M)
      - 두번째는 입력층과 투사층 사이의 가중치 W는 V × M 행렬이며, 투사층에서 출력층사이의 가중치 W'는 M × V 행렬이라는 점입니다. 여기서 V는 단어 집합의 크기를 의미합니다. (단어집합 사이즈 V)
      - 즉, 위의 그림처럼 원-핫 벡터의 차원이 7이고, M은 5라면 가중치 W는 7 × 5 행렬이고, W'는 5 × 7 행렬이 될 것입니다. 
      - 주의할 점은 이 두 행렬은 동일한 행렬을 전치(transpose)한 것이 아니라, 서로 다른 행렬이라는 점입니다. 

          <img src='https://wikidocs.net/images/page/22660/word2vec_renew_4.PNG'>

- 이렇게 각 주변 단어의 원-핫 벡터에 대해서 가중치 W가 곱해서 생겨진 결과 벡터들은 투사층에서 만나<br> 이 벡터들의 평균인 벡터를 구하게 됩니다. 
    - 만약 윈도우 크기 n=2라면, 입력 벡터의 총 개수는 2n이므로 중간 단어를 예측하기 위해서는 총 4개가 입력 벡터로 사용됩니다.   
    - 그렇기 때문에 평균을 구할 때는 4개의 결과 벡터에 대해서 평균을 구하게 됩니다.  
- 이렇게 구해진 평균 벡터는 두번째 가중치 행렬 W'와 곱해집니다. 
    - 곱셈의 결과로는 원-핫 벡터들과 차원이 V로 동일한 벡터가 나옵니다.<br> 만약 입력 벡터의 차원이 7이었다면 여기서 나오는 벡터도 마찬가지입니다.
    - 이 벡터에 CBOW는 소프트맥스(softmax) 함수를 취하는데, 소프트맥스 함수로 인한 출력값은 0과 1사이의 실수로, 각 원소의 총 합은 1이 되는 상태로 바뀝니다. 이렇게 나온 벡터를 스코어 벡터(score vector)라고 합니다. 
    - 스코어 벡터의 j번째 인덱스가 가진 0과 1사이의 값은 j번째 단어가 중심 단어일 확률을 나타냅니다
        

## Skip-gram

  - CBOW에서는 주변 단어를 통해 중심 단어를 예측했다면, Skip-gram은 중심 단어에서 주변 단어를 예측합니다. 
    - 앞서 언급한 예문에 대해서 동일하게 윈도우 크기가 2일 때, 데이터셋은 다음과 같이 구성됩니다.

      <img src='https://wikidocs.net/images/page/22660/skipgram_dataset.PNG'>

  - 인공 신경망을 도식화해보면 아래와 같습니다.

      <img src= 'https://wikidocs.net/images/page/22660/word2vec_renew_6.PNG'>

    - 중심 단어에 대해서 주변 단어를 예측하므로 투사층에서 벡터들의 평균을 구하는 과정은 없습니다. 
    - 여러 논문에서 성능 비교를 진행했을 때, 전반적으로 Skip-gram이 CBOW보다 성능이 좋다고 알려져 있습니다.

자연어를 좌표평면 위에 나열하는 법을 실습합니다.


*   [Word2Vec](https://code.google.com/archive/p/word2vec/)
*   [FastText](https://github.com/facebookresearch/fastText)
    - 빠르고 효율적입니다.
    - 형태학적인 세부 사항도 끝납니다.
FastText는 알 수 없는 단어에 대한 단어 벡터를 유도하거나 어휘에서 단어를 추출할 수 있기 때문에 고유합니다.
    - Word2vec과 GloVe 둘 다 모델 사전에 없는 단어에 대한 벡터 표현을 제공하지 못합니다.
*   [GloVe](https://github.com/stanfordnlp/GloVe)
- GloVe는 말뭉치에서 집계된 전역 단어-단어 동시 발생 통계에 대한 훈련을 수행하는 단어 벡터 표현 방법이다.




## Gensim Library

Gensim은 현대의 통계 기계 학습을 사용하여 감독되지 않은 주제 모델링과 자연어 처리를 위한 오픈 소스 라이브러리이다. 젠심은 성능을 위해 파이썬과 싸이톤에서 구현된다.


In [6]:
!pip install gensim



**Corpus Download**

In [7]:
!curl -c ./cookie -s -L "https://drive.google.com/uc?export=download&id=1V4rTx4yaAg0x1NY1MpNRY2Dp1nKeyOQ7" > /dev/null
!curl -Lb ./cookie "https://drive.google.com/uc?export=download&confirm=`awk '/download/ {print $NF}' ./cookie`&id=1V4rTx4yaAg0x1NY1MpNRY2Dp1nKeyOQ7" -o wiki_20190620_small.txt

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   408    0   408    0     0    524      0 --:--:-- --:--:-- --:--:--   524
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
  0     0    0     0    0     0      0      0 --:--:--  0:00:01 --:--:--     0
100 75.1M    0 75.1M    0     0  44.6M      0 --:--:--  0:00:01 --:--:-- 44.6M


# Word2Vec 코드실습

In [8]:
import gensim
from gensim.models.word2vec import Word2Vec

path = '/content/wiki_20190620_small.txt'
sentences = gensim.models.word2vec.Text8Corpus(path)
model = Word2Vec(sentences, min_count = 10, size= 50, window = 5)
print(model)

Word2Vec(vocab=38685, size=50, alpha=0.025)


In [None]:
vocabs = model.wv.vocab.keys()
print(vocabs[0:10])
print(len(vocabs))

In [13]:
model.save('w2v_model')
saved_model = Word2Vec.load('w2v_model')

In [19]:
# Get word vector.
print(model.wv['이순신'])

[-2.103499   -0.4037816   0.04242831  0.4422058  -0.6272248   0.2481679
  2.230188   -0.03800171  0.6360772  -0.56880724  0.06290251  0.04456843
 -1.4217678   2.2546046   1.5846642   0.29620305 -0.9216103  -0.07918207
  0.36083207 -0.06042967 -1.206397    1.400736    0.53347224  0.19379811
  0.47881696  0.09984478  0.38441232  1.0175991  -0.1292361   2.3143017
  0.5655817   0.4846217  -1.6425936  -1.8211129  -0.45810628  0.42389283
 -0.32201895 -1.2725163   0.5116831  -0.026713    2.2140024   0.7493353
  1.5374476  -1.3408184   0.02091075  0.21911304  0.2050189   0.1032443
  0.23552321  0.18201075]


In [15]:
print(model.most_similar(positive=["이순신"], topn=10))
print(saved_model.similarity('이순신', '이명박'))
print(model.similarity('이순신', '원균'))

[('원균', 0.8828457593917847), ('통제사', 0.8081530332565308), ('수군', 0.7841330170631409), ('의자왕', 0.7800015807151794), ('견훤', 0.7775066494941711), ('왕건', 0.7754777073860168), ('신라군', 0.7725856304168701), ('우왕', 0.7658643126487732), ('최영', 0.7547695636749268), ('사육신', 0.745963990688324)]
0.10529039
0.88284576


  """Entry point for launching an IPython kernel.
  
  This is separate from the ipykernel package so we can avoid doing imports until


In [16]:
model.most_similar(positive=['대한민국', '베이징'], negative=['서울'])

  """Entry point for launching an IPython kernel.


[('중화인민공화국', 0.8043755292892456),
 ('중화민국', 0.7984883189201355),
 ('조선민주주의인민공화국', 0.7417531609535217),
 ('홍콩', 0.7330236434936523),
 ('베트남', 0.7253396511077881),
 ('중국', 0.7225528359413147),
 ('일본', 0.7161475419998169),
 ('한국', 0.7023881077766418),
 ('타이완', 0.690333902835846),
 ('인도네시아', 0.6835872530937195)]

In [17]:
model.most_similar(positive=['여왕', '남자'], negative=['여자'])

  """Entry point for launching an IPython kernel.


[('엘리자베스', 0.8039280772209167),
 ('마르쿠스', 0.7947767376899719),
 ('왕', 0.7715920805931091),
 ('왕가', 0.7703040838241577),
 ('가이우스', 0.769849419593811),
 ('국왕', 0.756009042263031),
 ('백작', 0.7519800662994385),
 ('다리우스', 0.7486824989318848),
 ('샤를', 0.747221052646637),
 ('아우렐리우스', 0.7467935085296631)]

In [22]:
# 없는단어는 검색이 안됨
print(model.similar_by_word('카카오톡'))

  


KeyError: ignored

In [23]:
word_vector = saved_model['국왕']
print(word_vector)

[-0.85664976 -0.17339984 -1.7496833  -0.5987169  -0.9885148   0.85203534
  3.8070364   0.7160321   1.1689497   0.11416046 -0.5194951  -2.2592916
 -0.68004555 -1.3484062   2.3559542  -1.1137478   1.3008422  -0.08047302
  1.3978918   1.7055191   0.17500871 -2.4317298  -2.8721178  -1.6469916
 -1.1579609   0.9765404   1.8843994  -1.8960569   1.6420832   1.6993341
  0.08562808  1.2444746  -4.735717   -2.0475967   0.5997232  -0.69595444
  0.32976     0.15961647  2.5215075   1.4875721  -0.86813253  3.4250891
  2.7927666   1.4749222   0.5599261   1.929104    1.5387142   1.2387239
 -1.2299776  -2.3493989 ]


  """Entry point for launching an IPython kernel.


# FastText 코드실습

In [25]:
from gensim.models.fasttext import FastText
import gensim.models.word2vec

In [26]:
path = '/content/wiki_20190620_small.txt'
sentences = gensim.models.word2vec.Text8Corpus(path)
model = FastText(sentences, min_count=10, size=50, window=5)
print(model)

FastText(vocab=38685, size=50, alpha=0.025)


In [27]:
model.save('fasttext_model')
saved_model = FastText.load('fasttext_model')

In [28]:
word_vector = saved_model['이순신']
print(word_vector)

[ 0.29950124  0.14796712 -1.7002687  -1.3280648  -0.20092584 -0.4506121
 -0.3139455   0.2662199  -0.38446707 -0.21433973  1.291847   -0.413532
 -0.10084646 -0.42546043 -1.2873049   0.41837987  0.8623137   1.2720584
  1.4301499  -1.2450036  -2.429252    1.7270353   0.25918773 -0.23610362
  0.0931916  -0.39764974 -0.40255326  0.12334547 -0.7502011   0.6851946
  0.83395034  0.33649078  0.16148412  0.3042311  -0.81289166 -0.33458248
  1.3619578  -0.10176872  0.71885777 -0.09179556 -0.2990782  -0.6461151
 -0.55993086  0.6763948  -0.40603954  0.8917796   0.14275089  0.3852744
 -0.6183445   1.5657856 ]


  """Entry point for launching an IPython kernel.


In [29]:
print(model.most_similar(positive=["이순신"], topn=10))
print(model.similarity('이순신', '이명박'))
print(model.similarity('이순신', '원균'))

[('원균', 0.8612385392189026), ('연개소문', 0.7981934547424316), ('고려군', 0.7976632714271545), ('광해군', 0.789027214050293), ('왕건', 0.7834756374359131), ('구원군', 0.7728732228279114), ('신라군', 0.7640126943588257), ('원군', 0.7629894018173218), ('이순금', 0.7575764656066895), ('수군', 0.7566083669662476)]
0.21070997
0.86123854


  """Entry point for launching an IPython kernel.
  
  This is separate from the ipykernel package so we can avoid doing imports until


In [30]:
print(model.similar_by_word('이순신'))
print(model.similar_by_word('조선'))

[('원균', 0.8612385392189026), ('연개소문', 0.7981934547424316), ('고려군', 0.7976632714271545), ('광해군', 0.789027214050293), ('왕건', 0.7834756374359131), ('구원군', 0.7728732228279114), ('신라군', 0.7640126943588257), ('원군', 0.7629894018173218), ('이순금', 0.7575764656066895), ('수군', 0.7566083669662476)]
[('유조선', 0.8972110152244568), ('대우조선', 0.8628659844398499), ('조선조', 0.8590435981750488), ('조선사', 0.8327580690383911), ('조선이', 0.8241483569145203), ('고조선', 0.8164641261100769), ('월간조선', 0.8076475858688354), ('조선국', 0.8039203882217407), ('조선대', 0.8034608364105225), ('조선말', 0.799796462059021)]


  """Entry point for launching an IPython kernel.
  


In [31]:
model.most_similar(positive=['대한민국', '베이징'], negative=['서울'])

  """Entry point for launching an IPython kernel.


[('중화인민공화국', 0.8252921104431152),
 ('중화민국', 0.823383092880249),
 ('홍콩', 0.8018113970756531),
 ('일본', 0.8017085194587708),
 ('중국', 0.7919633388519287),
 ('한국', 0.7771285772323608),
 ('베트남', 0.7670145630836487),
 ('조선민주주의인민공화국', 0.765436053276062),
 ('러시아', 0.7529383897781372),
 ('미국령', 0.7505601644515991)]

In [32]:
model.most_similar(positive=['여왕', '남자'], negative=['여자'])

  """Entry point for launching an IPython kernel.


[('여왕벌', 0.8041631579399109),
 ('왕', 0.791009783744812),
 ('테오', 0.7882975935935974),
 ('테오도르', 0.786377489566803),
 ('무하마드', 0.7792791128158569),
 ('필리포스', 0.7758721113204956),
 ('알렉산드로', 0.7753006219863892),
 ('마르그레테', 0.7742685079574585),
 ('스바', 0.7735325694084167),
 ('테오도라', 0.7704205513000488)]

In [33]:
model.wv.most_similar(positive=['왕', '여자'], negative=['남자'], topn=1)[0]

('국왕', 0.8258345127105713)

In [34]:
print(model.similar_by_word('카카오톡'))

[('카카오', 0.9603352546691895), ('사탕', 0.9020154476165771), ('잎담배', 0.8983408808708191), ('코코아', 0.8731603622436523), ('과수', 0.8656327724456787), ('식료', 0.8639664053916931), ('사탕무', 0.8608531355857849), ('코코넛', 0.8587121367454529), ('버터', 0.8542596697807312), ('시럽', 0.8505592942237854)]


  """Entry point for launching an IPython kernel.


# GloVe 코드 실습

In [35]:
# glove는 word2vec과는 약간 다른 기술을 사용하는 다른 단어 임베딩이다.
# English만 가능
# 그러나 동일한 속성과 API를 가지고 있다.
import gensim.downloader as api
model = api.load("glove-wiki-gigaword-50")
model
model = gensim.models.KeyedVectors.load_word2vec_format('~/gensim-data/glove-wiki-gigaword-50/glove-wiki-gigaword-50.gz')
print(model)

<gensim.models.keyedvectors.Word2VecKeyedVectors object at 0x7ff06cf44590>


In [36]:
model.most_similar("queen")

[('princess', 0.851516604423523),
 ('lady', 0.805060863494873),
 ('elizabeth', 0.787304162979126),
 ('king', 0.7839042544364929),
 ('prince', 0.7821860909461975),
 ('coronation', 0.7692778706550598),
 ('consort', 0.7626097202301025),
 ('royal', 0.7442864775657654),
 ('crown', 0.7382649779319763),
 ('victoria', 0.7285771369934082)]

In [37]:
model.similarity('king', 'queen')

0.7839043

In [38]:
model.similarity('husband', 'wife')

0.95067436

In [39]:
model.most_similar(positive=['king', 'woman'], negative=['man'])

[('queen', 0.8523603677749634),
 ('throne', 0.7664334177970886),
 ('prince', 0.759214460849762),
 ('daughter', 0.7473883032798767),
 ('elizabeth', 0.7460220456123352),
 ('princess', 0.7424569725990295),
 ('kingdom', 0.7337411642074585),
 ('monarch', 0.7214490175247192),
 ('eldest', 0.7184861898422241),
 ('widow', 0.7099430561065674)]

In [40]:
model.most_similar(positive=['queen', 'man'], negative=['woman'])

[('king', 0.8612025380134583),
 ('prince', 0.8110411763191223),
 ('crown', 0.7789079546928406),
 ('royal', 0.7496289014816284),
 ('knight', 0.7449893951416016),
 ('coronation', 0.7430911660194397),
 ('lady', 0.7329778075218201),
 ('lord', 0.7321771383285522),
 ('great', 0.7172718048095703),
 ('name', 0.7124993801116943)]

In [41]:
model.most_similar(positive=['korea', 'beijing'], negative=['seoul'])

[('china', 0.9315868020057678),
 ('taiwan', 0.8476244807243347),
 ('chinese', 0.8349104523658752),
 ('vietnam', 0.819033682346344),
 ('japan', 0.7998741865158081),
 ('korean', 0.7752335071563721),
 ('states', 0.7679076790809631),
 ('mainland', 0.7476950287818909),
 ('world', 0.7469637393951416),
 ('countries', 0.741762638092041)]

In [42]:
model.wv['queen']

  """Entry point for launching an IPython kernel.


array([ 0.37854  ,  1.8233   , -1.2648   , -0.1043   ,  0.35829  ,
        0.60029  , -0.17538  ,  0.83767  , -0.056798 , -0.75795  ,
        0.22681  ,  0.98587  ,  0.60587  , -0.31419  ,  0.28877  ,
        0.56013  , -0.77456  ,  0.071421 , -0.5741   ,  0.21342  ,
        0.57674  ,  0.3868   , -0.12574  ,  0.28012  ,  0.28135  ,
       -1.8053   , -1.0421   , -0.19255  , -0.55375  , -0.054526 ,
        1.5574   ,  0.39296  , -0.2475   ,  0.34251  ,  0.45365  ,
        0.16237  ,  0.52464  , -0.070272 , -0.83744  , -1.0326   ,
        0.45946  ,  0.25302  , -0.17837  , -0.73398  , -0.20025  ,
        0.2347   , -0.56095  , -2.2839   ,  0.0092753, -0.60284  ],
      dtype=float32)

In [43]:
# 한글 불가
model.similarity('한국')

TypeError: ignored

In [None]:
# 모두 소문자로 이루어져있어서 대문자 불가
model.similarity('USA')