## 既存の分散表現とその読み込み

In [1]:
from gensim.models import KeyedVectors
import numpy as np

In [2]:
model = KeyedVectors.load('./chive-1.1-mc5-aunit_gensim/chive-1.1-mc5-aunit.kv')

## 分散表現の利用法

In [3]:
a = model['犬']
print(type(a))
print(a.shape)
print(a.dtype)

<class 'numpy.ndarray'>
(300,)
float32


In [4]:
model.similarity('犬','人')

0.36400774

In [5]:
# cosin類似度の計算
v1 = model['犬']
v2 = model['人']
nr1 = np.linalg.norm(v1, ord=2)
nr2 = np.linalg.norm(v2, ord=2)
np.dot(v1, v2) / (nr1*nr2)

0.3640077

In [6]:
# 語彙
vocab = model.key_to_index
print(len(vocab))

v = vocab['犬']

wlist = model.index_to_key[793]
print(wlist)

322094
犬


In [7]:
# 類似度の高い単語を選出
model.most_similar('犬', topn=5)

[('愛犬', 0.7968788743019104),
 ('椀子', 0.7886560559272766),
 ('ワンコ', 0.78242427110672),
 ('柴犬', 0.7631046772003174),
 ('チワワ', 0.7435126304626465)]

In [8]:
# ベクトル計算
model.most_similar(positive=['日本', 'ニューヨーク'], negative=['東京'], topn=3)

[('アメリカ', 0.698302149772644),
 ('米国', 0.5914557576179504),
 ('ロサンゼルス', 0.5447147488594055)]

## fastText

___
・fasttextはfacebookが開発した分散表現を構築する手法  
・subwordに分割して学習  


In [10]:
import fasttext
model =fasttext.load_model('./hidden_files/cc.ja.300.bin/cc.ja.300.bin')
a = model['犬']
print(type(a))
print(a.shape)

<class 'numpy.ndarray'>
(300,)


