## word2vec + WMDでの類似検索サンプルを実装してみる
- 参考
    - https://medium.com/chakki/%E6%8A%80%E8%A1%93%E8%A8%98%E4%BA%8B%E3%81%AE%E3%82%BF%E3%82%A4%E3%83%88%E3%83%AB%E9%96%93%E3%81%AE%E9%A1%9E%E4%BC%BC%E6%80%A7%E3%82%92%E8%A8%88%E7%AE%97%E3%81%99%E3%82%8B-6348e89a7fb1

ライブラリをインストールする

```
$ pip install gensim
$ pip install pyemd
```

ひとまずサンプル実装用なので学習済みモデル(fastText)を使用する。以下からダウンロード出来る。
https://qiita.com/Hironsan/items/513b9f93752ecee9e670

In [25]:
import gensim

model = gensim.models.KeyedVectors.load_word2vec_format('model.vec', binary=False) 
print('model loaded')

model loaded


In [32]:
'''
類似単語の取得を試す
'''
from IPython.core.display import display

display(model.most_similar(positive=['日本人']))

[('中国人', 0.7151615619659424),
 ('日系', 0.5991291403770447),
 ('外国', 0.5666396021842957),
 ('邦人', 0.5619237422943115),
 ('コリアン', 0.5443094968795776),
 ('華僑', 0.5377859473228455),
 ('在日', 0.5263140201568604),
 ('華人', 0.5200498104095459),
 ('在留', 0.5198684930801392),
 ('留学生', 0.5194666385650635)]

In [42]:
'''
いくつか文章間の類似度を算出する。
数値が小さいほうが類似度が高いことを示している。
'''

# ①
sentence1 = ['こんにちは', '交通', '費', '申請']
sentence2 = ['こんにちわ', '電車', '代', '申請']
dis = model.wmdistance(sentence1, sentence2)
display(dis)

# ②
sentence3 = ['交通', '費', '出る']
dis = model.wmdistance(sentence1, sentence3)
display(dis)

# ③
sentence4 = ['社員', '証', '申請']
dis = model.wmdistance(sentence1, sentence4)
display(dis)

# ④
sentence5 = ['電車', '代', '請求']
dis = model.wmdistance(sentence1, sentence5)
display(dis)

# ⑤
sentence6 = ['電車', '代', '申請']
dis = model.wmdistance(sentence1, sentence6)
display(dis)

# ⑥
sentence7 = ['こうつう', 'ひ', '申請']
dis = model.wmdistance(sentence1, sentence7)
display(dis)

3.5437596969110965

2.7235367405164292

4.167257862078321

5.156096119802171

4.046956218889545

4.133545535026073

- ①は、文章そのものの構造が似ているので、単語が異なっていても比較的類似度は高い
- ②は、単語一致数は①より多いものの、①より類似度が高いと出ている。相違の数が少ないからか？
- ③は、「申請」以外は一致していない、かつ意味も関連度がうすいため類似度は低い
- ④は、意味的な類似性はあるはずだが、③より類似度が低かった。一致する単語が一つもないからか。
- ⑤は、「申請」以外は一致していない。③よりもわずかに類似度が高く、意味がある程度解釈されていると考えることも出来ないこともない

### わかったこと
- ある程度文章間の妥当な類似度が計算出来ているようには思えるが、単語の意味的な関連性が十分に反映されていると判断するには難しい。
- 漢字/ひらがな問題は十分には対処しきれているとは判断出来なかった