### Word2VecをWikipediaのテキストから学習したモデルをダウンロードする

- Japanese (W)をダウンロード
https://github.com/Kyubyong/wordvectors

- dataに配置

### gensimライブラリでword2vecモデルを読み込む

In [3]:
import gensim

# gensimでWord2Vecを読み込み
model = gensim.models.Word2Vec.load('data/ja/ja.bin')

# 類語を取り出す関数
def get_synonyms(text):
    results = []
    
    # gensimにはもっとも類似している単語を取得するmost_similar関数が用意されている。コサイン類似度から計算している。
    for word, sim in model.most_similar(text, topn=10):
        results.append({'term': word, 'similarity': sim})
    return results

# 類似度を取得する関数
def calc_similarity(text1, text2):
    
    sim = model.similarity(text1, text2)
    return sim

### Word2Vecを扱う

In [4]:
import json

# word2vecにはアメリカ合衆国という語が登録されていない
synonyms = get_synonyms('アメリカ')
print(json.dumps(synonyms, indent=4, ensure_ascii=False))

[
    {
        "term": "イギリス",
        "similarity": 0.7778580784797668
    },
    {
        "term": "カナダ",
        "similarity": 0.7089664936065674
    },
    {
        "term": "オーストラリア",
        "similarity": 0.6960538625717163
    },
    {
        "term": "イギリスアメリカ",
        "similarity": 0.671729564666748
    },
    {
        "term": "アルゼンチン",
        "similarity": 0.6481400728225708
    },
    {
        "term": "メキシコ",
        "similarity": 0.6394718885421753
    },
    {
        "term": "ブラジル",
        "similarity": 0.6384978890419006
    },
    {
        "term": "ドイツ",
        "similarity": 0.6304243803024292
    },
    {
        "term": "フランス",
        "similarity": 0.6301647424697876
    },
    {
        "term": "ニュージーランド",
        "similarity": 0.6216776967048645
    }
]


  # This is added back by InteractiveShellApp.init_path()


「アメリカ合衆国」のように複数の単語からなる語は、そのままWord2Vecのモデルでベクトル化ができない。その代わりに「アメリカ」「合衆国」それぞれをベクトルにしてその平均を取ることで複合語をベクトルにする方法がある

犬と猫の用に同じ文脈で使われる単語が類似していると表示される。

In [5]:
synonyms = get_synonyms('健康')
print(json.dumps(synonyms, indent=4, ensure_ascii=False))

[
    {
        "term": "衛生",
        "similarity": 0.5829343199729919
    },
    {
        "term": "心身",
        "similarity": 0.5055597424507141
    },
    {
        "term": "福祉",
        "similarity": 0.48429426550865173
    },
    {
        "term": "保健",
        "similarity": 0.46757155656814575
    },
    {
        "term": "介護",
        "similarity": 0.46678638458251953
    },
    {
        "term": "ケア",
        "similarity": 0.4635636508464813
    },
    {
        "term": "環境",
        "similarity": 0.4454096853733063
    },
    {
        "term": "精神",
        "similarity": 0.43922871351242065
    },
    {
        "term": "疾病",
        "similarity": 0.43444523215293884
    },
    {
        "term": "リハビリテーション",
        "similarity": 0.426738977432251
    }
]


  # This is added back by InteractiveShellApp.init_path()


普通名詞の場合似た意味となる。

### アナロジーの計算

X = フランス, Y = パリのとき　X’ = 日本　とすると Y’は？  
Y’ = (Y - X) + X’となる。？？？  
のように計算できることをアナロジーと呼ぶ  
Y'は東京であり(Y - X)は首都のような意味だとわかる。  

In [7]:
def analogy(X_Y, x):
    X, Y = X_Y
    results = []
    
    # negative引数を指定し、Y-X+xを行う事ができる。
    # positive側のベクトルの和からnegative側のベクトルの和を引いたベクトルに足して最も類似度の近いベクトルに対応する単語をtopn個返す
    # 返り値はy = Y - X + xとしたときのyとなりXにとってのYはxにとっての何であるかというアナロジーへの答えとなる。
    for word, sim in model.most_similar(positive=[Y, x], negative=[X], topn=10):
        results.append({'term': word, 'similarity': sim})
    return results

In [9]:
results = analogy(('フランス', 'パリ'), '日本')
print(json.dumps(results, indent=4, ensure_ascii=False))

[
    {
        "term": "東京",
        "similarity": 0.5726803541183472
    },
    {
        "term": "京都",
        "similarity": 0.5042847990989685
    },
    {
        "term": "北京",
        "similarity": 0.4632992744445801
    },
    {
        "term": "ロンドン",
        "similarity": 0.4597439169883728
    },
    {
        "term": "大阪",
        "similarity": 0.4592345654964447
    },
    {
        "term": "上海",
        "similarity": 0.4372062683105469
    },
    {
        "term": "ソウル",
        "similarity": 0.4371134042739868
    },
    {
        "term": "京第",
        "similarity": 0.41076332330703735
    },
    {
        "term": "ニューヨーク",
        "similarity": 0.40882599353790283
    },
    {
        "term": "ベルリン",
        "similarity": 0.39789241552352905
    }
]


  
