# 日本語Word2Vecサンプル

## Step1 青空文庫より「三四郎」をダウンロードし整形するまで

In [1]:
# zipファイルダウンロード
url = 'https://www.aozora.gr.jp/cards/000148/files/794_ruby_4237.zip'
zip = '794_ruby_4237.zip'
import urllib.request
urllib.request.urlretrieve(url, zip)

# ダウンロードしたzipの解凍
import zipfile
with zipfile.ZipFile(zip, 'r') as myzip:
    myzip.extractall()
    # 解凍後のファイルからデータ読み込み
    for myfile in myzip.infolist():
        # 解凍後ファイル名取得
        filename = myfile.filename
        # ファイルオープン時にencodingを指定してsjisの変換をする
        with open(filename, encoding='sjis') as file:
            text = file.read()
            
print(text[:200])

# ファイル整形
import re
# ヘッダ部分の除去
text = re.split('\-{5,}',text)[2]
# フッタ部分の除去
text = re.split('底本：',text)[0]
# | の除去
text = text.replace('|', '')
# ルビの削除
text = re.sub('《.+?》', '', text)
# 入力注の削除
text = re.sub('［＃.+?］', '',text)
# 空行の削除
text = re.sub('\n\n', '\n', text) 
text = re.sub('\r', '', text)

# 整形結果確認

# 頭の100文字の表示 
print(text[:100])
# 見やすくするため、空行 
print()
print()
# 後ろの100文字の表示 
print(text[-100:])

三四郎
夏目漱石

-------------------------------------------------------
【テキスト中に現れる記号について】

《》：ルビ
（例）頓狂《とんきょう》

｜：ルビの付く文字列の始まりを特定する記号
（例）福岡県｜京都郡《みやこぐん》

［＃］：入力者注　主に外字の説明や、傍点の位置の指定
　　　（数字は、JIS X 0213の面区点番号または

一
　うとうととして目がさめると女はいつのまにか、隣のじいさんと話を始めている。このじいさんはたしかに前の前の駅から乗ったいなか者である。発車まぎわに頓狂な声を出して駆け込んで来て、いきなり肌をぬい


評に取りかかる。与次郎だけが三四郎のそばへ来た。
「どうだ森の女は」
「森の女という題が悪い」
「じゃ、なんとすればよいんだ」
　三四郎はなんとも答えなかった。ただ口の中で迷羊、迷羊と繰り返した。




## Step2 Janomeを使い三四郎テキストから単語リストを生成

In [2]:
# Janomeのインストール
!pip install janome | tail -n 1

# Janomeのロード
from janome.tokenizer import Tokenizer

# Tokenneizerインスタンスの生成 
t = Tokenizer()

# テキストを引数として、形態素解析の結果、名詞・動詞・形容詞の原形のみを配列で抽出する関数を定義 
def extract_words(text):
    tokens = t.tokenize(text)
    return [token.base_form for token in tokens 
        if token.part_of_speech.split(',')[0] in['名詞', '動詞','形容詞']]

#  関数テスト
# ret = extract_words('三四郎は京都でちょっと用があって降りたついでに。')
# for word in ret:
#   print(word)

# 全体のテキストを句点('。')で区切った配列にする。 
sentences = text.split('。')
# それぞれの文章を単語リストに変換(処理に数分かかります)
word_list = [extract_words(sentence) for sentence in sentences]

# 結果の一部を確認 
for word in word_list[0]:
    print(word)

一
する
目
さめる
女
隣
じいさん
話
始める
いる


## Step 3 準備したデータを用いてWord2Vecのモデル作成、学習実施

In [3]:
# Word2Vecライブラリの導入
!pip install gensim | tail -n 1 

# Word2Vecライブラリのロード
from gensim.models import word2vec

# size: 圧縮次元数
# min_count: 出現頻度の低いものをカットする
# window: 前後の単語を拾う際の窓の広さを決める
# iter: 機械学習の繰り返し回数(デフォルト:5)十分学習できていないときにこの値を調整する
# model.wv.most_similarの結果が1に近いものばかりで、model.dict['wv']のベクトル値が小さい値ばかりの 
# ときは、学習回数が少ないと考えられます。
# その場合、iterの値を大きくして、再度学習を行います。

# 事前準備したword_listを使ってWord2Vecの学習実施
model = word2vec.Word2Vec(word_list, size=100,min_count=5,window=5,iter=100)



In [4]:
# 結果の確認1
# 一つ一つの単語は100次元のベクトルになっています。 
# 「世間」のベクトル値を確認します。
print(model.__dict__['wv']['世間'])

[ 0.1741808  -0.43168685 -0.65332335  0.6833014   0.57470125  0.2539509
  0.12178501  0.32688227  0.10116928 -1.3088945   0.27169803 -0.5457899
  1.1889824  -0.27545893 -0.4110091   0.04593495  0.7961927   0.10180763
  1.1695373   0.20678271 -0.30108437 -0.13187823 -0.137792    0.02033613
  0.4064897   0.04740463  0.95096415  0.2242543   0.3909797  -0.07125689
  0.41575217 -0.6635489   0.3752715   0.29347792  0.06934108  0.49085644
 -0.22049908 -0.40814143  0.22617292  0.61900294  0.2793214  -0.4029485
 -0.40094432 -0.00381183  0.13973615 -0.86965793 -0.4124246  -0.00688193
 -0.08912339  0.5427453   0.3621293   0.3323013   0.01785805 -0.08497438
 -0.4373295   0.41017246 -0.25815445  0.08704685 -0.18028507  0.23353882
 -0.00399473  0.4531782   0.2497752   0.07789893 -0.6005639  -0.38498324
 -0.25364298  0.35326108  1.1815746   0.46302557 -0.1125634   0.3769569
  0.41945183 -0.75088286  0.07509755 -0.2635251   0.3281033   0.06958311
  0.06325916  0.24846655  0.53973997  0.41797686  0.376

In [5]:
# 結果の確認2
# 関数most_similarを使って「世間」の類似単語を調べます 
ret = model.wv.most_similar(positive=['世間']) 
for item in ret:
    print(item[0], item[1])

外国 0.6087949872016907
社会 0.5741201043128967
自己 0.5520804524421692
喝采 0.5300933122634888
聞こえる 0.5240653157234192
うる 0.5086288452148438
決心 0.5039682388305664
有す 0.4733140468597412
界 0.4718446433544159
堪える 0.46965426206588745
