<a href="https://colab.research.google.com/github/ShinAsakawa/ShinAsakawa.github.io/blob/master/2025notebooks/2025_0301word2vec_demo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 2020 word2vec によるアナロジー

<div align='right'>
<a href='mailto:asakawa@ieee.org'>Shin Aasakawa</a>, all rights reserved.<br>
Date: 19/Jun/2020<br>
 MIT license
</div>



<center>

<img src="https://komazawa-deep-learning.github.io/assets/2013Mikolov_KingQueenFig.svg" width="600"><br/>
From Mikolov et. al (2013) Linguistic Regularities in Continuous SpaceWord Representations, Fig. 2<br/>
</center>
全ての概念がある多次元空間内に存在するとします。各概念はこの空間内での位置ベクトルとして表現されます。
このとき，高等学校のときのベクトルの知識を思い出すと，$\mathbf{a}-\mathbf{b}$ は，ベクトル $\mathbf{b}$ から ベクトル $\mathbf{a}$ へ向かうベクトルとして表されます。
すなわち女王ベクトルから王様ベクトルを引くということは，王様を原点と考えて，女王を眺めた方向を表すベクトルと考えることができます。
このような，眺める方向を表すベクトルと，別のベクトル 女性ベクトルから男性ベクトルを引いたベクトル，
すなわち，男性を原点として女性を眺めたベクトルを考えます。
このベクトル 2 つ，<b><font color="teal">女王 - 王様</font></b> と <b><font color="teal">女 - 男</font></b> がほぼ重なることを
比喩的に <b><font color="teal">女王 - 王様 = 女 - 男</font></b> となります。この式を少し変形すれば，
<b><font color="teal">王様 - 男 + 女 = 女王</font></b> となるでしょう。これを言葉で表せば，
<b><font color="red">王様から男を引いて，女を足すと女王になる</font></b>，という演算が形式的に成り立ちます。

<br/>
<br/>
<center>
<img src="https://komazawa-deep-learning.github.io/assets/2013Mikolov_FigCountries.svg" width="680"><br/>
Modified from Mikolv et. al (2013) Distributed Representations of Words and Phrases and their Compositionality, Fig. 2</br/>

<br/><br/>
<img src="https://komazawa-deep-learning.github.io/assets/2013Mikolov_Fig1.svg" width="840"><br/>
</center>



$$
\ell=\frac{1}{T}\sum_{t=1}^{T}\sum_{-c\ge j\ge c,j\ne0}\log p\left(w_{t+1}\vert w_{t}\right),
$$

$$
p\left(w_o\vert w_i\right)=\frac{\exp(v_{w_{o}}^\top v_{w_{w_i}})}{\sum\exp(v_{w_{o}}^\top v_{w_{w_i}})}
$$

In [1]:
# -*- coding: utf-8 -*-
from six.moves.urllib import request

import numpy as np
import os
import sys
import gensim  # このライブラリ gensim が word2vec などをハンドリングしてくれる

In [2]:
!wget https://www.cis.twcu.ac.jp/~asakawa/2017jpa/2017Jul_jawiki-wakati_neologd_hid200_win20_neg20_cbow.bin.gz --no-check-certificate
#!wget http://www.cis.twcu.ac.jp/~asakawa/2017jpa/2017Jul_jawiki-wakati_neologd_hid200_win20_neg20_sgns.bin.gz
#!wget http://www.cis.twcu.ac.jp/~asakawa/2017jpa/2017Jul_jawiki-wakati_neologd_hid300_win20_neg20_sgns.bin.gz'
#!wget http://www.cis.twcu.ac.jp/~asakawa/2017jpa/2017Jul_jawiki-wakati_neologd_hid200_win20_neg20_cbow.bin.g

--2025-02-28 23:50:48--  https://www.cis.twcu.ac.jp/~asakawa/2017jpa/2017Jul_jawiki-wakati_neologd_hid200_win20_neg20_cbow.bin.gz
Resolving www.cis.twcu.ac.jp (www.cis.twcu.ac.jp)... 160.13.90.21
Connecting to www.cis.twcu.ac.jp (www.cis.twcu.ac.jp)|160.13.90.21|:443... connected.
  Unable to locally verify the issuer's authority.
HTTP request sent, awaiting response... 200 OK
Length: 1369049082 (1.3G) [application/x-gzip]
Saving to: ‘2017Jul_jawiki-wakati_neologd_hid200_win20_neg20_cbow.bin.gz’


2025-02-28 23:51:57 (19.1 MB/s) - ‘2017Jul_jawiki-wakati_neologd_hid200_win20_neg20_cbow.bin.gz’ saved [1369049082/1369049082]



In [3]:
word2vec_file='2017Jul_jawiki-wakati_neologd_hid200_win20_neg20_cbow.bin.gz'
model = gensim.models.KeyedVectors.load_word2vec_format(word2vec_file,
                                                        encoding='utf-8',
                                                        unicode_errors='replace',
                                                        binary=True)

In [4]:
model.most_similar(positive=['woman', 'king'], negative=['man'], topn=5)

[('beauty', 0.46546846628189087),
 ('queen', 0.4608246386051178),
 ('african', 0.44860783219337463),
 ('anna', 0.4478578567504883),
 ('inquirer', 0.44565945863723755)]

In [None]:
model.most_similar(positive=['王','女'], negative=['男'], topn=10)

[('女王', 0.685905396938324),
 ('王妃', 0.6838830709457397),
 ('臣下', 0.661135196685791),
 ('皇帝', 0.6584857106208801),
 ('后', 0.6490647792816162),
 ('妃', 0.647068440914154),
 ('国王', 0.6432377099990845),
 ('君主', 0.6425992846488953),
 ('王族', 0.6397929191589355),
 ('王家', 0.6275038123130798)]

In [None]:
model.most_similar(positive=['日本心理学会'], negative=['心理学'], topn=10)
#model.most_similar(positive=['心理学'], negative=['科学'], topn=10)
#model.most_similar(positive=['心理学'], negative=['実験'], topn=10)

[('日本青年会議所', 0.5038707256317139),
 ('日本建設業団体連合会', 0.5000820159912109),
 ('日本映画テレビプロデューサー協会', 0.4889319837093353),
 ('日本WHO協会', 0.47480008006095886),
 ('サントリー地域文化賞', 0.4712352752685547),
 ('日本建築士会連合会', 0.47051694989204407),
 ('宗教法人審議会', 0.46354469656944275),
 ('日本ロボット工業会', 0.46095290780067444),
 ('全日本不動産協会', 0.4609145522117615),
 ('マジシャン・オブ・ザ・イヤー', 0.4607503116130829)]

In [None]:
model.most_similar(positive=['言語','実験'], topn=10)
model.most_similar(positive=['言語学','心理学'], topn=10)

In [None]:
model.most_similar(positive=['聴覚','認知科学'], topn=5)
model.most_similar(positive=['視覚','認知科学'], topn=5)
model.most_similar(positive=['視覚','認知心理学'], topn=5)
model.most_similar(positive=['言語','思考'], topn=5)

In [None]:
#model.most_similar(positive=['ユニクロ','錦織圭'], negative=['テニス'], topn=10)
model.most_similar(positive=['心理学','数学'], negative=['臨床心理学'], topn=20)

[('物理学', 0.7231806516647339),
 ('算術', 0.6646731495857239),
 ('理論', 0.6640915274620056),
 ('代数学', 0.6632713079452515),
 ('論理学', 0.6589637398719788),
 ('幾何学', 0.6533564925193787),
 ('幾何', 0.6494854092597961),
 ('数理', 0.6235705018043518),
 ('理論物理学', 0.6233310699462891),
 ('確率論', 0.6218259930610657),
 ('自然科学', 0.6193282604217529),
 ('力学', 0.617120623588562),
 ('微分積分学', 0.6104729771614075),
 ('応用数学', 0.6060092449188232),
 ('天文学', 0.5979421734809875),
 ('整数論', 0.5974371433258057),
 ('微積分', 0.5960232615470886),
 ('解析学', 0.5932369828224182),
 ('物理', 0.5921461582183838),
 ('数論', 0.591270923614502)]

In [None]:
model.most_similar(positive=['ジャイアンツ','アメリカ'], negative=['日本'], topn=10)

[('ヤンキース', 0.6978878378868103),
 ('ドジャース', 0.6399884819984436),
 ('ジョンソン', 0.6319686770439148),
 ('カブス', 0.6314218640327454),
 ('カージナルス', 0.6301343441009521),
 ('レッドソックス', 0.6255528330802917),
 ('ブレーブス', 0.6227092742919922),
 ('レッズ', 0.6207553744316101),
 ('メッツ', 0.6173810362815857),
 ('アスレチックス', 0.6106481552124023)]

In [None]:
model.most_similar(positive=['ユニクロ'], negative=['アパレル'], topn=10)
model.most_similar(positive=['ユニクロ','アメリカ'], negative=['日本'], topn=10)
model.most_similar(positive=['ユニクロ','ソフトバンク'], negative=['アパレル'], topn=10)

In [None]:
model.most_similar(positive=['1','10'], negative=['+'], topn=5)
model.most_similar(positive=['2','1'], negative=['+'], topn=5)
model.most_similar(positive=['2','1','-'], topn=5)

In [None]:
model.most_similar(positive=['NTT', '中国'], topn=10)

In [None]:
model.most_similar(positive=['東京', '皇居'], topn=10)
model.most_similar(positive=['ユニクロ', '楽天'], negative=['IT企業'], topn=10)
model.most_similar(positive=['ユニクロ', '無印良品'], topn=10)

In [None]:
model.similarity('女性', '男性')

In [None]:
model['computer']  # raw NumPy vector of a word

In [None]:
model['コンピュータ']  # raw NumPy vector of a word

In [None]:
model.similarity('computer', 'コンピュータ')

In [None]:
model.similarity('女性', '女')

In [None]:
model.similarity('コーヒー', '紅茶')

In [None]:
model.similarity('ビール', '日本酒')

In [None]:
model.most_similar(positive=['Berlin', 'Germany'], negative=['Paris'], topn=1)

In [None]:
model.most_similar(positive=['ドイツ','フランス'], negative=['ベルリン'], topn=5)

In [None]:
model.most_similar(positive=['京都','皇居'], negative=['東京'], topn=5)

In [None]:
model.most_similar(positive=['東京','早稲田大学'], negative=['大阪'], topn=5)

In [None]:
model.most_similar(positive=['納豆','豆腐'], negative=['大豆'],topn=10)

In [None]:
model.most_similar(positive=['権力', '麻薬'], topn=10)

In [None]:
model.most_similar(positive=['治療', '修理'], topn=10)

In [None]:
model.most_similar(positive=['月', 'お盆'], topn=10)