<a href="https://colab.research.google.com/github/snufkin92/colab_tutorial/blob/master/section_08/word_vector.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 単語間の演算
単語ベクトルを使って、単語間の演算を行います。

## データの読み込み、及びword2vecによる学習
これまでと同様に、データの読み込み及びword2vecによる学習を行います。

In [None]:
import pickle
from gensim.models import word2vec

with open('wagahai_words.pickle', mode='rb') as f:
    wagahai_words = pickle.load(f)

print(wagahai_words[:10])

# size : 中間層のニューロン数
# min_count : この値以下の出現回数の単語を無視
# window : 対象単語を中心とした前後の単語数
# iter : epochs数
# sg : CBOWを使うかskip-gramを使うか 0:CBOW 1:skip-gram
model = word2vec.Word2Vec(wagahai_words,
                          vector_size=100,
                          min_count=5,
                          window=5,
                          epochs=20,
                          sg = 0)

[['吾輩', 'は', '猫', 'で', 'ある', '。'], ['名前', 'は', 'まだ', '無い', '。'], ['どこ', 'で', '生れ', 'た', 'か', 'とんと', '見当', 'が', 'つか', 'ぬ', '。'], ['何', 'でも', '薄暗い', 'じめじめ', 'し', 'た', '所', 'で', 'ニャーニャー', '泣い', 'て', 'いた事', 'だけ', 'は', '記憶', 'し', 'て', 'いる', '。'], ['吾輩', 'は', 'ここ', 'で', '始め', 'て', '人間', 'という', 'もの', 'を', '見', 'た', '。'], ['しかも', 'あと', 'で', '聞く', 'と', 'それ', 'は', '書生', 'という', '人間', '中', 'で', '一番', '獰悪', 'な', '種族', 'で', 'あっ', 'た', 'そう', 'だ', '。'], ['この', '書生', 'という', 'の', 'は', '時々', '我々', 'を', '捕え', 'て', '煮', 'て', '食う', 'という', '話', 'で', 'ある', '。'], ['しかし', 'その', '当時', 'は', '何', 'という', '考', 'も', 'なかっ', 'た', 'から', '別段', '恐し', 'いとも', '思わ', 'なかっ', 'た', '。'], ['ただ', '彼', 'の', '掌', 'に', '載せ', 'られ', 'て', 'スー', 'と', '持ち上げ', 'られ', 'た', '時', '何だか', 'フワフワ', 'し', 'た', '感じ', 'が', 'あっ', 'た', 'ばかり', 'で', 'ある', '。'], ['掌', 'の', '上', 'で', '少し', '落ちつい', 'て', '書生', 'の', '顔', 'を', '見', 'た', 'の', 'が', 'いわゆる', '人間', 'という', 'もの', 'の', '見', '始', 'で', 'あろ', 'う', '。']]


## 単語同士の演算
word2vecにより、単語同士の足し算、引き算が可能になります。  
以下は単語同士の演算の例ですが、単語のベクトル同士で演算が行われ、結果に最も近い単語が表示されます。

In [None]:
# positiveは「足し合わせる」という意味
model.wv.most_similar(positive=["猫", "人間"])

[('智識', 0.7394311428070068),
 ('事実', 0.7355465888977051),
 ('君子', 0.7180730700492859),
 ('自覚', 0.7166944146156311),
 ('彼等', 0.7068431973457336),
 ('逆上', 0.6923908591270447),
 ('者', 0.6923704147338867),
 ('性質', 0.6923601031303406),
 ('世間', 0.6794255375862122),
 ('充分', 0.6780564188957214)]

positiveは足し合わせる単語のリストです。  
従って、上記は
**猫 + 人間**
を計算しています。

以下では、  
**人間 + 猫 - 夢**  
を演算しています。  

In [None]:
model.wv.most_similar(positive=["人間", "猫"], negative=["夢"])

[('教師', 0.6628442406654358),
 ('芸術', 0.6334997415542603),
 ('罪', 0.6077390313148499),
 ('出来る', 0.5993394255638123),
 ('智識', 0.5982522368431091),
 ('自覚', 0.5813170671463013),
 ('充分', 0.5628185272216797),
 ('君子', 0.5622528195381165),
 ('贅沢', 0.5512094497680664),
 ('たしか', 0.547397255897522)]

negativeは引く単語のリストです。

## 課題:
以下に示す単語同士の演算を行い、結果に最も近い単語を表示しましょう。  
**教師 - 夢**

In [None]:
model.wv.most_similar(negative=["教師", "夢"])

[('なさい', 0.24670791625976562),
 ('って', 0.22517457604408264),
 ('さあ', 0.2106168568134308),
 ('ましょ', 0.19785848259925842),
 ('とか', 0.18856537342071533),
 ('それから', 0.18608099222183228),
 ('まし', 0.16734939813613892),
 ('御覧', 0.16721537709236145),
 ('ながら', 0.16311480104923248),
 ('たら', 0.1491229236125946)]