# 単語間の演算
単語ベクトルを使って、単語間の演算を行います。

## データの読み込み、及びword2vecによる学習
これまでと同様に、データの読み込み及びword2vecによる学習を行います。

In [1]:
import pickle
from gensim.models import word2vec

with open('wagahai_words.pickle', mode='rb') as f:
    wagahai_words = pickle.load(f)

print(wagahai_words[:10])

# size : 中間層のニューロン数
# min_count : この値以下の出現回数の単語を無視
# window : 対象単語を中心とした前後の単語数
# iter : epochs数
# sg : CBOWを使うかskip-gramを使うか 0:CBOW 1:skip-gram
model = word2vec.Word2Vec(wagahai_words,
                          size=100,
                          min_count=5,
                          window=5,
                          iter=20,
                          sg = 0)



[['吾輩', 'は', '猫', 'で', 'ある', '。'], ['名前', 'は', 'まだ', '無い', '。'], ['どこ', 'で', '生れ', 'た', 'か', 'とんと', '見当', 'が', 'つか', 'ぬ', '。'], ['何', 'でも', '薄暗い', 'じめじめ', 'し', 'た', '所', 'で', 'ニャーニャー', '泣い', 'て', 'いた事', 'だけ', 'は', '記憶', 'し', 'て', 'いる', '。'], ['吾輩', 'は', 'ここ', 'で', '始め', 'て', '人間', 'という', 'もの', 'を', '見', 'た', '。'], ['しかも', 'あと', 'で', '聞く', 'と', 'それ', 'は', '書生', 'という', '人間', '中', 'で', '一番', '獰悪', 'な', '種族', 'で', 'あっ', 'た', 'そう', 'だ', '。'], ['この', '書生', 'という', 'の', 'は', '時々', '我々', 'を', '捕え', 'て', '煮', 'て', '食う', 'という', '話', 'で', 'ある', '。'], ['しかし', 'その', '当時', 'は', '何', 'という', '考', 'も', 'なかっ', 'た', 'から', '別段', '恐し', 'いとも', '思わ', 'なかっ', 'た', '。'], ['ただ', '彼', 'の', '掌', 'に', '載せ', 'られ', 'て', 'スー', 'と', '持ち上げ', 'られ', 'た', '時', '何だか', 'フワフワ', 'し', 'た', '感じ', 'が', 'あっ', 'た', 'ばかり', 'で', 'ある', '。'], ['掌', 'の', '上', 'で', '少し', '落ちつい', 'て', '書生', 'の', '顔', 'を', '見', 'た', 'の', 'が', 'いわゆる', '人間', 'という', 'もの', 'の', '見', '始', 'で', 'あろ', 'う', '。']]


## 単語同士の演算
word2vecにより、単語同士の足し算、引き算が可能になります。  
以下は単語同士の演算の例ですが、単語のベクトル同士で演算が行われ、結果に最も近い単語が表示されます。

In [2]:
model.wv.most_similar(positive=["猫", "人間"])

[('君子', 0.8101881742477417),
 ('世間', 0.77981036901474),
 ('逆上', 0.7700796723365784),
 ('必要', 0.7415425777435303),
 ('者', 0.7333024740219116),
 ('事実', 0.7294926643371582),
 ('彼等', 0.7239913940429688),
 ('本人', 0.7209362387657166),
 ('普通', 0.7123687267303467),
 ('教師', 0.7087819576263428)]

positiveは足し合わせる単語のリストです。  
従って、上記は
**猫 + 人間**
を計算しています。

以下では、  
**人間 + 猫 - 夢**  
を演算しています。  

In [3]:
model.wv.most_similar(positive=["人間", "猫"], negative=["夢"])

[('教師', 0.7034329175949097),
 ('君子', 0.6822417974472046),
 ('芸術', 0.6585996747016907),
 ('充分', 0.6318471431732178),
 ('必要', 0.6258209943771362),
 ('実業', 0.6075100302696228),
 ('逆上', 0.5996359586715698),
 ('者', 0.5891060829162598),
 ('恋', 0.5876612663269043),
 ('家', 0.5869858860969543)]

negativeは引く単語のリストです。

## 課題:
以下に示す単語同士の演算を行い、結果に最も近い単語を表示しましょう。  
**教師 - 夢**

In [4]:
model.wv.most_similar(positive=['教師',], negative=['夢',])

[('しかし', 0.6335464715957642),
 ('家', 0.6286207437515259),
 ('実業', 0.6242721080780029),
 ('えらい', 0.6221973299980164),
 ('いえ', 0.619827389717102),
 ('嫌', 0.6084738373756409),
 ('あの', 0.5805805921554565),
 ('だって', 0.5804039239883423),
 ('月並', 0.5772696733474731),
 ('一番', 0.5749664306640625)]