# word2vecによる単語のベクトル化

In [None]:
# [銀河鉄道の夜]-宮沢賢治
# https://www.aozora.gr.jp/cards/000081/files/456_15050.html
# データの読込みと文字列の整形

import codecs
file = codecs.open('gingatetsudono_yoru.txt', "r", "sjis")
text = file.read()
file.close()

import re
text = re.split('\-{5,}',text)[2]
text = re.split('底本：',text)[0]
text = text.replace('|', '')
text = re.sub('《.+?》', '', text)
text = re.sub('［＃.+?］', '',text)
text = re.sub('\n\n', '\n', text) 
text = re.sub('\r', '', text)

print(text)

In [None]:
# 参考: 形態素解析の実行
from janome.tokenizer import Tokenizer
t = Tokenizer()
for token in t.tokenize(text[:50]):
    print(token)

In [None]:
# word2vecを使用するための準備。不要な品詞を取り除く
def extract_words(text):
    tokens = t.tokenize(text)
    return [token.base_form for token in tokens 
        if token.part_of_speech.split(',')[0] in['名詞', '動詞', '形容詞', '形容詞']]

sentences = text.split('。')
word_list = [extract_words(sentence) for sentence in sentences]

In [None]:
# Word2Vecによる100次元の単語ベクトル生成
from gensim.models import word2vec
model = word2vec.Word2Vec(word_list, size=200,  window=5,iter=200)

# 参考: 単語ベクトルの表示
print(model.__dict__['wv']['ジョバンニ'])

In [None]:
# 単語の類似度を表示
res = model.wv.most_similar(
    positive=['ジョバンニ']) 

for item in res:
    print(item[0], item[1])

In [None]:
# ベクトルの計算 (ジョバンニ + こらえる)
res = model.wv.most_similar(
    positive=['ジョバンニ','こらえる']) 

for item in res:
    print(item[0], item[1])

In [None]:
# ベクトルの計算 (ジョバンニ - 笑う)
res = model.wv.most_similar(
    positive=['ジョバンニ'],
    negative=['笑う']) 

for item in res:
    print(item[0], item[1])