<a href="https://colab.research.google.com/github/psy-phy-org/NLP/blob/main/Word2Vec.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Word2Vec

Word2vecは、文章中の単語を数値ベクトルに変換してその意味を把握する自然言語処理の手法です。<br>
「同じ文脈において現れる単語は、似た意味を持つ」という分布仮説が、根本の設計思想としてあるのです。

- 演算処理
- 感情分析


【レコメンドの分析】<br>
「このユーザーは商品Aに興味があるが、商品Aに興味のある人は商品Bにも興味を示す傾向があるので、このユーザーに商品Bをおすすめしよう。」

【レビュー分析】<br>
大量の口コミを直接読まなくても大まかな感情の傾向を掴むことが可能です。これらのデータは商品の改善や新規商品の開発、流行の予測などに活用できます。

【機械翻訳】<br>


【質疑応答システム】<br>



#### Word2Vec の実装

In [None]:
# 日本語学習済みモデル（東北大学 乾・岡崎研究室）のダウンロード
!wget 'http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/data/20170201.tar.bz2'

--2022-09-18 10:56:52--  http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/data/20170201.tar.bz2
Resolving www.cl.ecei.tohoku.ac.jp (www.cl.ecei.tohoku.ac.jp)... 130.34.192.83
Connecting to www.cl.ecei.tohoku.ac.jp (www.cl.ecei.tohoku.ac.jp)|130.34.192.83|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1373795477 (1.3G) [application/x-bzip2]
Saving to: ‘20170201.tar.bz2’


2022-09-18 10:58:51 (11.1 MB/s) - ‘20170201.tar.bz2’ saved [1373795477/1373795477]



In [None]:
# 少し時間がかかります
!tar -jxvf '20170201.tar.bz2'

entity_vector/
entity_vector/entity_vector.model.txt
entity_vector/entity_vector.model.bin


In [None]:
# Word2Vecを利用するためにインポート
from gensim.models import KeyedVectors
# ダウンロードしたモデルの読み込み
model = KeyedVectors.load_word2vec_format('entity_vector/entity_vector.model.bin', binary=True)

#### Word2Vecの利用

In [None]:
model['男']

array([-2.492483  ,  2.8268657 ,  0.7321098 ,  2.287034  , -0.00607352,
        1.4702002 ,  2.0647933 ,  0.1551779 , -1.4257113 , -1.9083326 ,
        0.37071314,  0.81055725, -1.1420007 , -2.0220745 , -1.4244981 ,
       -0.13800943,  1.948822  , -1.511024  ,  0.47963777,  0.9655876 ,
       -3.8513746 , -0.90399814,  0.7607188 ,  1.2103426 ,  0.2133712 ,
       -3.166055  ,  0.06691325, -1.0822647 ,  1.9628221 , -0.6613745 ,
       -0.9236394 , -1.3671558 , -1.0589588 ,  2.1237442 ,  2.8282173 ,
       -3.507601  ,  0.09007615, -0.8155187 ,  1.4493253 ,  1.2893071 ,
        1.9192096 ,  0.50408185, -1.9442753 , -0.32138643,  0.19596562,
       -1.216845  , -3.0222611 , -2.8330655 ,  1.7946038 , -0.67898065,
       -2.6361828 , -2.074059  ,  1.7944314 ,  0.06511791, -0.84029245,
       -3.1549065 ,  1.6469704 ,  0.81726277, -0.34688687,  1.2560601 ,
       -0.77569586,  0.89689416,  0.87785256, -0.29650962,  0.08305567,
       -0.35258657, -1.8387113 ,  3.4126897 , -3.4751205 , -0.25

In [None]:
# positive：類似を求めたい単語のリスト
# ：類似していないものを求めたい単語のリスト
model.most_similar(positive=['王女', '女'], negative=['男'])

[('王妃', 0.752906322479248),
 ('[王女]', 0.7069423198699951),
 ('王子', 0.7032033205032349),
 ('女王', 0.6938745975494385),
 ('妃', 0.6911975145339966),
 ('皇女', 0.6851599216461182),
 ('公女', 0.6825931072235107),
 ('[マルグリット・ド・ヴァロワ]', 0.6739829182624817),
 ('[ヤドヴィガ_(ポーランド女王)]', 0.6718281507492065),
 ('[マリー・テレーズ・ドートリッシュ]', 0.6694759130477905)]

In [None]:
import pandas as pd
# 王女 - 女 + 男
results = model.most_similar(positive=['王女', '男'], negative=['女'])
pd.DataFrame(results).head(2)

Unnamed: 0,0,1
0,王子,0.734281
1,王妃,0.726876


In [None]:
# 父 - 男 + 女
results = model.most_similar(positive=['父','女'], negative=['男'],topn = 10)
pd.DataFrame(results)

Unnamed: 0,0,1
0,母,0.767789
1,祖父,0.748075
2,伯父,0.691609
3,夫,0.676847
4,兄,0.672632
5,祖母,0.672324
6,父親,0.671272
7,義父,0.670571
8,叔父,0.66654
9,長兄,0.651496


In [None]:

results = model.most_similar(positive=['ゲーム','渋谷'], negative=['金'],topn = 10)
pd.DataFrame(results)

Unnamed: 0,0,1
0,AYS,0.593824
1,カードゲーム,0.591464
2,秋葉原,0.587312
3,[Portal:ゲーム],0.583575
4,SHIBUYA,0.583278
5,原宿,0.582632
6,下北沢,0.57838
7,[プロジェクト:コンピュータゲーム],0.570781
8,OFFICIAL,0.566529
9,[THE_IDOLM@STER],0.566228
