# gensimを利用してみる

## 参考にしたサイト
https://blog.amedama.jp/entry/gensim-fasttext-pre-trained-word-vectors

## 今回やること  
単語をベクトル表記に変換する。  
2つの単語の類似度を算出する。  
単語の足し算引き算を行う。

### ターミナルでの操作  
①gensimをインポートする。  
②作業するディレクトリに移動する。  
③学習済み単語ベクトル表現をダウンロードする。  
    `$ wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.ja.300.vec.gz`  
④jupyter notebookを起動する。

In [1]:
#gensimをインポートする。
import gensim

In [17]:
#単語をベクトル表記するモデルを設定する。
#https://radimrehurek.com/gensim/models/keyedvectors.html
model = gensim.models.KeyedVectors.load_word2vec_format('cc.ja.300.vec.gz', binary=False)

In [11]:
#モデルが設定できているかを確認する。
model

<gensim.models.keyedvectors.Word2VecKeyedVectors at 0x1a1bd3a490>

In [14]:
#単語を入力してみる。
model['鬼']

array([-3.224e-01, -2.448e-01,  1.438e-01,  4.419e-01, -4.165e-01,
       -1.180e-02,  7.240e-02,  7.690e-02, -1.866e-01,  3.277e-01,
        2.840e-02,  1.551e-01, -1.324e-01,  8.070e-02, -3.324e-01,
       -1.978e-01,  4.940e-02, -1.195e-01, -2.840e-01,  3.360e-02,
        1.772e-01, -1.609e-01, -2.519e-01, -3.600e-02, -1.266e-01,
       -1.410e-01, -6.110e-02,  5.740e-02, -2.440e-02,  1.402e-01,
        1.955e-01,  1.320e-01, -8.440e-02,  2.960e-02, -2.324e-01,
        4.630e-02,  4.130e-02, -3.700e-02,  1.312e-01,  3.453e-01,
       -1.339e-01, -1.236e-01,  8.080e-02,  3.310e-02, -8.990e-02,
        2.979e-01, -9.900e-03,  4.630e-02, -2.620e-01, -6.700e-02,
       -5.410e-02,  1.518e-01,  9.530e-02, -8.290e-02,  3.415e-01,
        3.059e-01, -1.621e-01, -2.337e-01,  2.760e-01, -6.990e-02,
       -1.820e-02, -2.532e-01, -6.790e-02,  8.580e-02, -1.233e-01,
        3.460e-02,  3.660e-02,  6.000e-04,  2.261e-01, -1.275e-01,
        7.860e-02,  4.812e-01,  1.920e-01,  7.830e-02,  3.211e

In [19]:
#無い単語を入れると以下のようにエラーをはく。
model['鬼滅の刃']

KeyError: "word '鬼滅の刃' not in vocabulary"

In [1]:
#学習済みの単語一覧(200万語)
#model.vocab.keys()

In [40]:
#語数を確認する。
len(model.vocab.keys())

2000000

In [16]:
#most_similarメソッドで、特定の言葉(「鬼」)と近い単語を表示する。
model.most_similar('鬼', topn=5)

[('蝙翔', 0.7115907669067383),
 ('吸尻', 0.6776637434959412),
 ('闘光', 0.6414532661437988),
 ('憑鉄', 0.6412721276283264),
 ('イカセエロ', 0.6296408176422119)]

In [49]:
#similarityメソッドで、単語の類似度を表示する。
print("鬼と犬の類似度は" , model.similarity('鬼', '犬'),"です。")
print("猫と犬の類似度は" , model.similarity('猫', '犬'),"です。")
print("猫とライオンの類似度は" , model.similarity('猫', 'ライオン'),"です。")
print("林檎とリンゴの類似度は" , model.similarity('林檎', 'リンゴ'),"です。")

鬼と犬の類似度は 0.3161653 です。
猫と犬の類似度は 0.65053856 です。
猫とライオンの類似度は 0.4099313 です。
林檎とリンゴの類似度は 0.66599756 です。


In [51]:
#単語の足し算と引き算を試してみる。
#similar_by_vectorメソッドで、得られた新しい単語と似ているベクトルの単語を抽出することができる。
new_vec = model['王様'] - model['男'] + model['女']
model.similar_by_vector(new_vec)[:5]

[('王様', 0.8916897773742676),
 ('女王', 0.5279211401939392),
 ('ラジオキッズ', 0.5255386829376221),
 ('王さま', 0.5226017236709595),
 ('王妃', 0.5000214576721191)]

In [52]:
new_vec2 = model['大阪'] - model['梅田'] + model['東京']
model.similar_by_vector(new_vec2)[:5]

[('東京', 0.7541787624359131),
 ('都', 0.6006302833557129),
 ('大阪', 0.5840979814529419),
 ('都内', 0.4773663878440857),
 ('西東京', 0.46788734197616577)]

類似サイト  
https://qiita.com/yubessy/items/d98482e8ec6180d97389  
https://kento1109.hatenablog.com/?page=1510754949

gensimのword2vecのオプション  
https://onemuri.space/note/1ceozcpdt/