<a href="https://colab.research.google.com/github/snufkin92/colab_tutorial/blob/master/section_08/word_similarity.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 単語の類似度
word2vecを用いて、2つの単語の類似度を求めます。

## データの読み込み、及びword2vecによる学習
前回と同様に、データの読み込み及びword2vecによる学習を行います。

In [None]:
import pickle
from gensim.models import word2vec

with open('wagahai_words.pickle', mode='rb') as f:
    wagahai_words = pickle.load(f)

print(wagahai_words[:10])

# vector_size : 中間層のニューロン数
# min_count : この値以下の出現回数の単語を無視
# window : 対象単語を中心とした前後の単語数
# epochs : epochs数
# sg : CBOWを使うかskip-gramを使うか 0:CBOW 1:skip-gram
model = word2vec.Word2Vec(wagahai_words,
                          vector_size=100,
                          min_count=5,
                          window=5,
                          epochs=20,
                          sg = 0)

[['吾輩', 'は', '猫', 'で', 'ある', '。'], ['名前', 'は', 'まだ', '無い', '。'], ['どこ', 'で', '生れ', 'た', 'か', 'とんと', '見当', 'が', 'つか', 'ぬ', '。'], ['何', 'でも', '薄暗い', 'じめじめ', 'し', 'た', '所', 'で', 'ニャーニャー', '泣い', 'て', 'いた事', 'だけ', 'は', '記憶', 'し', 'て', 'いる', '。'], ['吾輩', 'は', 'ここ', 'で', '始め', 'て', '人間', 'という', 'もの', 'を', '見', 'た', '。'], ['しかも', 'あと', 'で', '聞く', 'と', 'それ', 'は', '書生', 'という', '人間', '中', 'で', '一番', '獰悪', 'な', '種族', 'で', 'あっ', 'た', 'そう', 'だ', '。'], ['この', '書生', 'という', 'の', 'は', '時々', '我々', 'を', '捕え', 'て', '煮', 'て', '食う', 'という', '話', 'で', 'ある', '。'], ['しかし', 'その', '当時', 'は', '何', 'という', '考', 'も', 'なかっ', 'た', 'から', '別段', '恐し', 'いとも', '思わ', 'なかっ', 'た', '。'], ['ただ', '彼', 'の', '掌', 'に', '載せ', 'られ', 'て', 'スー', 'と', '持ち上げ', 'られ', 'た', '時', '何だか', 'フワフワ', 'し', 'た', '感じ', 'が', 'あっ', 'た', 'ばかり', 'で', 'ある', '。'], ['掌', 'の', '上', 'で', '少し', '落ちつい', 'て', '書生', 'の', '顔', 'を', '見', 'た', 'の', 'が', 'いわゆる', '人間', 'という', 'もの', 'の', '見', '始', 'で', 'あろ', 'う', '。']]


## 類似度の高い単語
ある単語と類似度の高い単語を表示します。

In [None]:
print(model.wv.most_similar("猫"))  # 最も似ている単語

[('人間', 0.7420498132705688), ('教師', 0.660339891910553), ('罪', 0.6461361050605774), ('事実', 0.638360857963562), ('君子', 0.6317129135131836), ('充分', 0.6296736001968384), ('性質', 0.6108419299125671), ('世の中', 0.606779158115387), ('者', 0.6065337657928467), ('普通', 0.595708429813385)]


In [None]:
model_skip = word2vec.Word2Vec(wagahai_words,
                          vector_size=100,
                          min_count=5,
                          window=5,
                          epochs=20,
                          sg = 1)

print(model_skip.wv.most_similar("猫"))  # 最も似ている単語

[('属', 0.5449262261390686), ('教師', 0.5040985345840454), ('人間', 0.499581903219223), ('一疋', 0.4977529048919678), ('有様', 0.47267118096351624), ('せめて', 0.4707314670085907), ('動作', 0.4685066044330597), ('遥か', 0.45443010330200195), ('上等', 0.45317742228507996), ('進化', 0.4474957585334778)]


学習データが小さいため、今回はあまり興味深い結果にはなりません。  
興味のある方は、他の小説をなどをコーパスに加え、学習データを大きくしてみましょう。  

なお、単語の類似度は以下の式で表されるコサイン類似度で計算しています。  
ベクトル$\vec{a}=(a_1,a_2,\cdots, a_n)$、$\vec{b}=(b_1,b_2,\cdots, b_n)$として、
$$\frac{a_1b_1+a_2b_2+\cdots + a_nb_n}{\sqrt{a_1^2+a_2^2+\cdots+a_n^2}\sqrt{b_1^2+b_2^2+\cdots+b_n^2}}$$

試しに、コサイン類似度を計算してみましょう。

In [None]:
import numpy as np

a = model.wv.__getitem__("猫")
b = model.wv.__getitem__("人間")
cos_sim = np.dot(a, b) / np.linalg.norm(a) / np.linalg.norm(b)  # linalg.normで二乗和の平方根（ノルム）を計算
print(cos_sim)

0.74204975


猫と人間の類似度は、先ほどの結果と同じになりました。

## 課題:
「名前」という単語と類似度の高い単語を表示してみましょう。  
また、最も類似度が高い単語とのコサイン類似度を計算してみましょう。

In [None]:
print(model.wv.most_similar("名前"))  # 最も似ている単語

[('娘', 0.7289959192276001), ('変り', 0.6892088055610657), ('どっち', 0.6885676980018616), ('冗談', 0.6807710528373718), ('ありゃ', 0.6774534583091736), ('泥棒', 0.6749650835990906), ('名', 0.661446750164032), ('約束', 0.6610537171363831), ('結婚', 0.660773754119873), ('罪', 0.6579711437225342)]


In [None]:
c = model.wv.__getitem__("名前")
d = model.wv.__getitem__("娘")

cos_sim = np.dot(c, d) / np.linalg.norm(c) / np.linalg.norm(d)  # linalg.normで二乗和の平方根（ノルム）を計算
print(cos_sim)

0.72899586
