# Word2Vec

## Word2Vecとは

ニューラルネットワークを使い、多数の文書内の単語を学習することで、教師なしで単語間の距離を用いて、単語の意味付けを行うアルゴリズムです。

単語をベクトル表現することができるので、自然言語処理を行う上で、さまざまな応用ができます。
機械翻訳などの自然言語を処理する上での大きな革新をもたらした技術です。

よくある使いみち

- 似た単語を見つけ出す
- 単語同士の足し算、引き算を可能にする

## Word2Vecを体験

- 学習済みモデルを使う
- Word2Vecを試してみる

白ヤギコーポレーションの学習済みモデルを使ってみる

https://aial.shiroyagi.co.jp/2017/02/japanese-word2vec-model-builder/
http://public.shiroyagi.s3.amazonaws.com/latest-ja-word2vec-gensim-model.zip


gensimのインストール方法

```
pip install gensim==3.6.0
```

- gensimの最新4.0系ではこのモデルを使うことが出来ない
- Python3.9ではwhl形式が準備されていないのでインストールが難しい
- Google Colaboratoryには導入済み

学習済みモデル

- word2vec.gensim.model (約23MB) + 補助ファイル（約130MB）をダウンロードする必要がある。
- 以下のコードではダウンロードして手元で実験できるようにしている（ダウンロードにそれなりに時間がかかる）


In [1]:
from gensim.models import Word2Vec

In [2]:
# # 以下はモデルのダウンロードコード。何度も実行せずに必要な時だけ実行する

# import urllib.request
# import base64

# url = "https://hit-u-data-text-processing.herokuapp.com/data/word2vec.gensim.model"
# auth_str = base64.b64encode(b"reader:hit-u")
# req = urllib.request.Request(url,
#                             headers={"Authorization": "Basic " + auth_str.decode("utf-8")})
# with urllib.request.urlopen(req) as req:
#     with open("word2vec.gensim.model", "wb") as f:
#         f.write(req.read())

# url = "https://hit-u-data-text-processing.herokuapp.com/data/word2vec.gensim.model.wv.syn0.npy"
# auth_str = base64.b64encode(b"reader:hit-u")
# req = urllib.request.Request(url,
#                             headers={"Authorization": "Basic " + auth_str.decode("utf-8")})
# with urllib.request.urlopen(req) as req:
#     with open("word2vec.gensim.model.wv.syn0.npy", "wb") as f:
#         f.write(req.read())

# url = "https://hit-u-data-text-processing.herokuapp.com/data/word2vec.gensim.model.syn1neg.npy"
# auth_str = base64.b64encode(b"reader:hit-u")
# req = urllib.request.Request(url,
#                             headers={"Authorization": "Basic " + auth_str.decode("utf-8")})
# with urllib.request.urlopen(req) as req:
#     with open("word2vec.gensim.model.syn1neg.npy", "wb") as f:
#         f.write(req.read())

In [3]:
model = Word2Vec.load("./word2vec.gensim.model")

In [4]:
model.wv.most_similar("一橋大学")

[('神戸大学', 0.9223874807357788),
 ('経済学部', 0.9040318131446838),
 ('東京都立大学', 0.9007365703582764),
 ('政治経済学部', 0.8842635154724121),
 ('慶應義塾大学', 0.8790801763534546),
 ('商学部', 0.8785971403121948),
 ('東京大学', 0.8784491419792175),
 ('中央大学', 0.8758930563926697),
 ('東京理科大学', 0.8681479692459106),
 ('東京女子大学', 0.8675746321678162)]

In [5]:
model.wv.most_similar("富士通")

[('NEC', 0.9400014281272888),
 ('日本電気', 0.9163621068000793),
 ('日本IBM', 0.9006249308586121),
 ('京セラ', 0.8962324857711792),
 ('三洋電機', 0.8911879062652588),
 ('パナソニック', 0.884463369846344),
 ('東芝', 0.8787583112716675),
 ('セイコーエプソン', 0.8641902208328247),
 ('キヤノン', 0.8419579267501831),
 ('日立', 0.8399096131324768)]

In [6]:
model.wv.most_similar(positive=["女性", "王"], negative=["男性"])

[('皇帝', 0.8153897523880005),
 ('大王', 0.8151323199272156),
 ('先王', 0.8067260980606079),
 ('女帝', 0.789979100227356),
 ('王子', 0.7833347916603088),
 ('カリフ', 0.7805764079093933),
 ('聖王', 0.7805600166320801),
 ('ローマ皇帝', 0.7782467603683472),
 ('君主', 0.7742472290992737),
 ('ファラオ', 0.7703578472137451)]