# 単語の類似度
word2vecによる分散表現を用いて、2つの単語の類似度を求めます。

## データの読み込み、及びword2vecによる学習
前回と同様に、データの読み込み及びword2vecによる学習を行います。<br>
wagahai_words.pickleを用いて分散表現（学習済みモデル）を生成します。

In [None]:
import pickle
from gensim.models import word2vec

with open('wagahai_words.pickle', mode='rb') as f:
    wagahai_words = pickle.load(f)

print(wagahai_words)

# size : 中間層のニューロン数
# min_count : この値以下の出現回数の単語を無視
# window : 対象単語を中心とした前後の単語数
# iter : epochs数
# sg : CBOWを使うかskip-gramを使うか 0:CBOW 1:skip-gram
model = word2vec.Word2Vec(wagahai_words,
                          size=100,
                          min_count=5,
                          window=5,
                          iter=20,
                          sg = 0)

## 類似度の高い単語
ある単語と類似度の高い単語を表示します。

In [None]:
print(model.wv.most_similar("猫"))  # 最も似ている単語

学習データが小さいため、今回はあまり興味深い結果にはなりません。  
興味のある方は、他の小説をなどをコーパスに加え、学習データを大きくしてみましょう。  
表示する個数のデフォルトは10です。表示個数を変更する場合は， `"猫", [], 個数`のように指定できます。

単語の類似度は以下の式で表されるコサイン類似度で計算しています。  
ベクトル$\vec{a}=(a_1,a_2,\cdots, a_n)$、$\vec{b}=(b_1,b_2,\cdots, b_n)$として、
$$\frac{a_1b_1+a_2b_2+\cdots + a_nb_n}{\sqrt{a_1^2+a_2^2+\cdots+a_n^2}\sqrt{b_1^2+b_2^2+\cdots+b_n^2}}$$

試しに、上式を用いたコサイン類似度を計算してみましょう。

In [None]:
import numpy as np

a = model.wv.__getitem__("猫")
b = model.wv.__getitem__("人間")
cos_sim = np.dot(a, b) / np.linalg.norm(a) / np.linalg.norm(b)  # linalg.normで二乗和の平方根（ノルム）を計算
print(cos_sim)

猫と人間の類似度は、先ほどの結果と同じになっているでしょうか？

### 課題2:
1. 単語「名前」と類似度の高い単語を表示してみましょう。  
2. また、最も類似度が高い単語とのコサイン類似度を計算してみましょう。

考察：納得いくの類似度でしたか？