# 単語間の演算
単語ベクトルを使って、単語間の演算を行います。

## データの読み込み、及びword2vecによる学習
これまでと同様に、データの読み込み及びword2vecによる学習を行います。

In [1]:
import pickle
from gensim.models import word2vec

with open('wagahai_words.pickle', mode='rb') as f:
    wagahai_words = pickle.load(f)

print(wagahai_words[:10])

# size : 中間層のニューロン数
# min_count : この値以下の出現回数の単語を無視
# window : 対象単語を中心とした前後の単語数
# iter : epochs数
# sg : CBOWを使うかskip-gramを使うか 0:CBOW 1:skip-gram
model = word2vec.Word2Vec(wagahai_words,
                          size=100,
                          min_count=5,
                          window=5,
                          iter=20,
                          sg = 0)



[['吾輩', 'は', '猫', 'で', 'ある', '。'], ['名前', 'は', 'まだ', '無い', '。'], ['どこ', 'で', '生れ', 'た', 'か', 'とんと', '見当', 'が', 'つか', 'ぬ', '。'], ['何', 'でも', '薄暗い', 'じめじめ', 'し', 'た', '所', 'で', 'ニャーニャー', '泣い', 'て', 'いた事', 'だけ', 'は', '記憶', 'し', 'て', 'いる', '。'], ['吾輩', 'は', 'ここ', 'で', '始め', 'て', '人間', 'という', 'もの', 'を', '見', 'た', '。'], ['しかも', 'あと', 'で', '聞く', 'と', 'それ', 'は', '書生', 'という', '人間', '中', 'で', '一番', '獰悪', 'な', '種族', 'で', 'あっ', 'た', 'そう', 'だ', '。'], ['この', '書生', 'という', 'の', 'は', '時々', '我々', 'を', '捕え', 'て', '煮', 'て', '食う', 'という', '話', 'で', 'ある', '。'], ['しかし', 'その', '当時', 'は', '何', 'という', '考', 'も', 'なかっ', 'た', 'から', '別段', '恐し', 'いとも', '思わ', 'なかっ', 'た', '。'], ['ただ', '彼', 'の', '掌', 'に', '載せ', 'られ', 'て', 'スー', 'と', '持ち上げ', 'られ', 'た', '時', '何だか', 'フワフワ', 'し', 'た', '感じ', 'が', 'あっ', 'た', 'ばかり', 'で', 'ある', '。'], ['掌', 'の', '上', 'で', '少し', '落ちつい', 'て', '書生', 'の', '顔', 'を', '見', 'た', 'の', 'が', 'いわゆる', '人間', 'という', 'もの', 'の', '見', '始', 'で', 'あろ', 'う', '。']]


## 単語同士の演算
word2vecにより、単語同士の足し算、引き算が可能になります。  
以下は単語同士の演算の例ですが、単語のベクトル同士で演算が行われ、結果に最も近い単語が表示されます。

In [2]:
model.wv.most_similar(positive=["猫", "人間"])

[('君子', 0.7764431834220886),
 ('世間', 0.7706022262573242),
 ('事実', 0.7379127740859985),
 ('以上', 0.7152343988418579),
 ('彼等', 0.712632954120636),
 ('者', 0.7115590572357178),
 ('逆上', 0.7096285820007324),
 ('自覚', 0.7065743803977966),
 ('贅沢', 0.703752875328064),
 ('発達', 0.7030893564224243)]

positiveは足し合わせる単語のリストです。  
従って、上記は
**猫 + 人間**
を計算しています。

以下では、  
**人間 + 猫 - 夢**  
を演算しています。  

In [3]:
model.wv.most_similar(positive=["人間", "猫"], negative=["夢"])

[('教師', 0.7400838732719421),
 ('芸術', 0.6715455651283264),
 ('君子', 0.6402216553688049),
 ('実業', 0.6271145343780518),
 ('恋', 0.6171956062316895),
 ('家', 0.5893818140029907),
 ('到底', 0.5838587880134583),
 ('出来る', 0.5760404467582703),
 ('世間', 0.5714048147201538),
 ('者', 0.5653012990951538)]

negativeは引く単語のリストです。

## 課題:
以下に示す単語同士の演算を行い、結果に最も近い単語を表示しましょう。  
**教師 - 夢**

In [5]:
model.wv.most_similar(positive=['教師',], negative=['夢',])[0]

('しかし', 0.6546313166618347)