In [74]:
import multiprocessing

from gensim.models.word2vec import Word2Vec
def build_gensim_w2v_model(model_path, iter_tokens, size, window, min_count):
    """
    Parameters
    ----------
    model_path : string
        Path of Word2Vec model
    iter_tokens : iterator
        Iterator of documents, which are lists of words
    """
    model = Word2Vec(
        size=size,
        window=window,
        min_count=min_count,
        workers=multiprocessing.cpu_count()
    )
    model.build_vocab(iter_tokens())
    model.train(iter_tokens())
    model.init_sims(replace=True)
    model.save(model_path)

In [75]:
model = Word2Vec.load('latest-ja-word2vec-gensim-model/word2vec.gensim.model')

In [154]:
model.wv.most_similar(positive=['カレー','うどん'])

[('カレーライス', 0.9314418435096741),
 ('焼きそば', 0.9272939562797546),
 ('おにぎり', 0.9142351746559143),
 ('お好み焼き', 0.908762514591217),
 ('天ぷら', 0.9079930186271667),
 ('焼き鳥', 0.906843364238739),
 ('ハンバーグ', 0.9052976369857788),
 ('寿司', 0.9030996561050415),
 ('豆腐', 0.9005953073501587),
 ('丼', 0.8975555300712585)]

In [117]:
model.wv.most_similar(positive=['公務員','ピストル'])

[('警察官', 0.8157522678375244),
 ('下士官', 0.7801075577735901),
 ('拳銃', 0.7748473882675171),
 ('刑務官', 0.7705545425415039),
 ('銃', 0.7351149320602417),
 ('看守', 0.7313598394393921),
 ('将校', 0.7227283716201782),
 ('海上保安官', 0.7194071412086487),
 ('操縦士', 0.714685320854187),
 ('警官', 0.7088242769241333)]

In [122]:
model.wv.most_similar(positive=['車'],negative = ['タイヤ'])

[('夜行', 0.5844853520393372),
 ('号', 0.5553199648857117),
 ('東松', 0.554681658744812),
 ('宗谷丸', 0.5325208902359009),
 ('海防艦', 0.5275475382804871),
 ('特別陸戦隊', 0.5265254974365234),
 ('11号', 0.5212676525115967),
 ('18号', 0.5175169706344604),
 ('13号', 0.5138446092605591),
 ('宇高連絡船', 0.5095405578613281)]

In [123]:
model.wv.most_similar(positive=['人間'],negative = ['知識'])

[('廃人', 0.6236408948898315),
 ('瀕死', 0.6161459684371948),
 ('黒い', 0.6008692979812622),
 ('ゾンビ', 0.6001749038696289),
 ('裸', 0.5953300595283508),
 ('白い', 0.5899269580841064),
 ('異形', 0.5870126485824585),
 ('炎', 0.5860205888748169),
 ('サソリ', 0.5854195356369019),
 ('血まみれ', 0.5840049982070923)]

In [156]:
model.wv.most_similar(positive=['イヌ','ネコ'])

[('ニワトリ', 0.9043030738830566),
 ('ウサギ', 0.8948085308074951),
 ('アライグマ', 0.8850668668746948),
 ('ブタ', 0.8836382627487183),
 ('カエル', 0.8821595907211304),
 ('イノシシ', 0.8803962469100952),
 ('モルモット', 0.8797956109046936),
 ('キツネ', 0.8794952630996704),
 ('ハチ', 0.871435284614563),
 ('ネズミ', 0.8713341951370239)]

# 考察
word2vecを実際に動かしてみた。カレーとラーメンを足してみたがカレーライスが一番の候補に挙がってしまった。カレーラーメンはもともと登録されていなかった単語だったため、出力しなかった。そのため登録されているカレーうどんを試しに、カレーとうどんを足してみたが上のほうになかった。原因として考えられるのは、カレーうどんはカレーとうどんをレシピ上では足したものではあるが今回使用したモデルの学習したデータセットでは、別々の文章の中にカレーとうどんが入っていたためであると考えられる。足し引きで容易に想像のつくものは大体その通りになったが想像できないものは、方向性が同じなものが候補として挙げられていた。