# Word2Vec

word2vec のベクトル計算テストです。日本語エンティティベクトルがやや重いので、読み込みに数秒〜十数秒かかります。

## 初期化

環境変数をまたいで、Docker内のエンティティベクトルのバイナリファイルを指定しています。

In [1]:
import os
entity_filename = os.environ.get('ENTITY_FILENAME')

In [2]:
import numpy as np
from gensim.models import KeyedVectors

## Word2Vec クラス

シンプルな最低限の作りです。改造すると similarity とかも簡単に計算できるはずです。

In [3]:
class Word2Vec(object):
    def __init__(self, bin_entity_filename: str):
        model_path = bin_entity_filename
        self.model = KeyedVectors.load_word2vec_format(model_path, binary=True)


    def __call__(self, word: str) -> object:
        try:  # existent word
            v = self.model.get_vector(word)
            return v
        except KeyError as k: # non-existent word
            return k
        
w2v = Word2Vec(entity_filename)

In [4]:
def check_vector(word: str) -> None:
    vec = w2v.__call__(word)
    
    if(type(vec)==np.ndarray):
        print(f"{word}: ", type(vec), vec.shape, vec[0:10])
    else:
        print(f"{word} is non-existent word.")

## 実行

引数に適当な単語を入れると、その単語のベクトルを表示します。辞書に存在しない単語の場合は `Error` になります。

In [5]:
check_vector(word="ピジョン")
check_vector(word="ジョンレノン")
check_vector(word="ピジョレオン")

ピジョン:  <class 'numpy.ndarray'> (200,) [ 0.18742366  0.07586656  0.03849505  0.38004303 -0.00524301 -0.20294596
  0.20340575  0.49917793 -0.2951132  -0.08509478]
ジョンレノン:  <class 'numpy.ndarray'> (200,) [-0.16034932  0.01255404 -0.04605854 -0.00191343 -0.05804803  0.02341573
 -0.07098377 -0.00638543  0.00649883 -0.04386802]
ピジョレオン is non-existent word.
