<a href="https://colab.research.google.com/github/tomonari-masada/courses/blob/master/SML2020/11_clustering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 日本語の単語ベクトルをクラスタリングする

* 使用するデータは下記の場所にあるもの

https://github.com/shiroyagicorp/japanese-word2vec-model-builder

  * word2vecの技術を使って、日本語の単語が50次元のベクトルで表現されている。
 
  * 今回はこの単語ベクトルをクラスタリングして、意味の近い単語が同じクラスタに属しているかをチェックする。

### 1) wgetコマンドでダウンロードし、unzipで解凍する

In [1]:
!wget http://public.shiroyagi.s3.amazonaws.com/latest-ja-word2vec-gensim-model.zip

--2020-07-06 03:09:48--  http://public.shiroyagi.s3.amazonaws.com/latest-ja-word2vec-gensim-model.zip
Resolving public.shiroyagi.s3.amazonaws.com (public.shiroyagi.s3.amazonaws.com)... 52.219.16.117
Connecting to public.shiroyagi.s3.amazonaws.com (public.shiroyagi.s3.amazonaws.com)|52.219.16.117|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 132936751 (127M) [application/zip]
Saving to: ‘latest-ja-word2vec-gensim-model.zip’


2020-07-06 03:10:00 (10.8 MB/s) - ‘latest-ja-word2vec-gensim-model.zip’ saved [132936751/132936751]



In [2]:
! unzip latest-ja-word2vec-gensim-model.zip

Archive:  latest-ja-word2vec-gensim-model.zip
  inflating: word2vec.gensim.model   
  inflating: word2vec.gensim.model.syn1neg.npy  
  inflating: word2vec.gensim.model.wv.syn0.npy  


### 2) ライブラリgensimを使ってデータを読み込む

In [3]:
from gensim.models.word2vec import Word2Vec

model_path = 'word2vec.gensim.model'
model = Word2Vec.load(model_path)

  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL


In [4]:
# 単語ベクトルの次元を確認する

model.vector_size

50

In [5]:
# 単語ベクトルデータを簡潔な変数名で参照することにする

wv = model.wv

In [6]:
# 単語リストと、対応する単語ベクトルのリストを、作成する

words = list()
vectors = list()
for word in wv.vocab:
  words.append(word)
  vectors.append(wv.word_vec(word))

In [7]:
# 単語数を確認する

len(words)

335476

In [8]:
# 最初の単語とその単語ベクトルを確認する

print(words[0])
print(vectors[0])

『
[-0.16400108 -0.17862815  0.0580783  -0.24007608  0.17230852 -0.07751795
 -0.11018773 -0.08525417 -0.01558867 -0.14766072 -0.00633486 -0.01630188
  0.00647159 -0.17860252 -0.01816674 -0.05038163  0.08417128  0.04350499
 -0.19731551 -0.09599385  0.2745512  -0.22891845  0.142788   -0.08023094
 -0.23000377  0.00842183  0.15071994  0.25936294  0.10318379  0.17875645
 -0.31201744 -0.03366571 -0.08143289  0.02155716 -0.02921231  0.0362477
 -0.18767731 -0.10514667 -0.012625   -0.03388035  0.10886643 -0.1074557
 -0.03668041 -0.03183161 -0.14188181 -0.27481845 -0.12782158 -0.02111848
 -0.14041357  0.23952545]


### 3) NumPyの配列に変換する

In [9]:
import numpy as np

words = np.array(words)
vectors = np.array(vectors)

In [10]:
print(words)

['『' 'GO' '!' ... 'スケクシス' 'ｼﾞﾑ' 'パヴリチェンコ']


In [11]:
print(vectors)

[[-0.16400108 -0.17862815  0.0580783  ... -0.02111848 -0.14041357
   0.23952545]
 [ 0.01737987 -0.32058007 -0.23378702 ...  0.13550399  0.0736375
  -0.14032933]
 [ 0.08531253 -0.31538385 -0.09230007 ...  0.17875628  0.11313058
  -0.24140361]
 ...
 [ 0.00092179 -0.07699777  0.14290373 ...  0.09500334 -0.06761228
   0.24790283]
 [ 0.04340099 -0.0260367   0.09188872 ...  0.16940522  0.00322533
  -0.20196445]
 [ 0.07351335  0.15455413  0.08450193 ... -0.26947773  0.04289696
  -0.09446784]]


In [12]:
# 「日本」という単語に最も近い10個の単語を表示させてみる。
vec_jpn = np.array(wv.word_vec('日本'))
print(vec_jpn)
indices = np.argsort(np.linalg.norm(vectors - vec_jpn, axis=1))
print(words[indices[1:11]])

[-0.08019581 -0.10632093  0.14115061  0.08310905 -0.00913872  0.04414612
 -0.11600631 -0.35167393  0.04924094  0.07659911  0.07906264  0.02693196
  0.03977293  0.19168071 -0.16376053 -0.01040754 -0.13442372  0.20567688
 -0.04850557 -0.22208223  0.03354846 -0.18884456 -0.00623878 -0.12064678
 -0.01325125  0.02779626  0.02936541  0.06843039  0.11489733  0.07094222
  0.14459857 -0.12487161  0.03558656  0.41905314 -0.15021588 -0.12890314
  0.04594489 -0.28921965  0.15588439 -0.01789199 -0.2866291  -0.1415011
  0.057166   -0.19496612  0.09121747  0.01317389 -0.0359673   0.16124834
 -0.03846167 -0.06273678]
['韓国' '台湾' '日本国内' '欧米' '日本国外' '台湾出身' '中華圏' '日本の経済' '日本の歴史' '韓国国内']


### 4) k-meansで単語ベクトルをクラスタリングする

* かなり時間がかかるので、待つ。
* 得られたクラスタの重心はCSVファイルとして念のため保存しておく。

In [13]:
from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=100, random_state=123)
kmeans.fit(vectors)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=100, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=123, tol=0.0001, verbose=0)

In [14]:
np.savetxt('cluster_centers_100.csv', kmeans.cluster_centers_, delimiter=',')

In [15]:
# クラスタの重心をファイルから読み込むときは以下をコメントアウトし、centersという配列を使う。
# centers = np.loadtext('cluster_centers_100.csv', delimiter=',')

In [16]:
center = kmeans.cluster_centers_[10]
indices = np.argsort(np.linalg.norm(vectors - center, axis=1))
words[indices[:10]]

array(['コムネノス', 'ジギスムント', 'アフォンソ', 'ナポリ王国', 'ロレーヌ公国', 'シャープール', 'アルギルダス',
       'テオドロス2世', 'カスティーリャ王', 'フランドル伯'], dtype='<U42')

# 課題11

* k-means法で単語ベクトルをクラスタリングする。（上にすでにコードは書いてある。）
* いくつかのクラスタについて、クラスタの重心に近い単語どうしの意味が似ているかどうか、チェックする。（ここから各自作業する。）
* いくつかのクラスタについて、クラスタの重心から遠い単語がどのような単語になっているかをチェックする。
* 極端にサイズの大きなクラスタや、逆に、極端にサイズの小さなクラスタができていないか、チェックする。そして、そういった極端なサイズのクラスタに属する単語がどのようになっているかを調べる。
* k-means法以外のクラスタリング手法でも、同じような調査をおこなってみる。
