## 青空文庫から「三四郎」をダウンロードして整形

In [6]:
# zipファイルダウンロード
url = 'https://www.aozora.gr.jp/cards/000148/files/794_ruby_4237.zip'
zip = '794_ruby_4237.zip'
import urllib.request
urllib.request.urlretrieve(url, zip)

# ダウンロードしたzipの解凍
import zipfile
with zipfile.ZipFile(zip, 'r') as myzip:
    myzip.extractall()
    # 解凍後のファイルからデータ読み込み
    for myfile in myzip.infolist():
        # 解凍後ファイル名取得
        filename = myfile.filename
        # ファイルオープン時にencodingを指定してsjisの変換をする
        with open(filename, encoding='sjis') as file:
            text = file.read()
            
# ファイル整形
import re
# ヘッダ部分の除去
text = re.split('\-{5,}',text)[2]
# フッタ部分の除去
text = re.split('底本：',text)[0]
# | の除去
text = text.replace('|', '')
# ルビの削除
text = re.sub('《.+?》', '', text)
# 入力注の削除
text = re.sub('［＃.+?］', '',text)
# 空行の削除
text = re.sub('\n\n', '\n', text) 
text = re.sub('\r', '', text)

# 整形結果確認

# 頭の100文字の表示 
print(text[:100])
# 見やすくするため、空行 
print()
print()
# 後ろの100文字の表示 
print(text[-100:])


一
　うとうととして目がさめると女はいつのまにか、隣のじいさんと話を始めている。このじいさんはたしかに前の前の駅から乗ったいなか者である。発車まぎわに頓狂な声を出して駆け込んで来て、いきなり肌をぬい


評に取りかかる。与次郎だけが三四郎のそばへ来た。
「どうだ森の女は」
「森の女という題が悪い」
「じゃ、なんとすればよいんだ」
　三四郎はなんとも答えなかった。ただ口の中で迷羊、迷羊と繰り返した。




In [7]:
# Janomeのロード
from janome.tokenizer import Tokenizer

# Tokenizerインスタンスの生成 
t = Tokenizer()

# テキストを引数として、形態素解析の結果、名詞・動詞・形容詞(原形)のみを配列で抽出する関数を定義 
def extract_words(text):
    tokens = t.tokenize(text)
    return [token.base_form for token in tokens 
        if token.part_of_speech.split(',')[0] in['名詞', '動詞']]

#  関数テスト
# ret = extract_words('三四郎は京都でちょっと用があって降りたついでに。')
# for word in ret:
#    print(word)

# 全体のテキストを句点('。')で区切った配列にする。 
sentences = text.split('。')
# それぞれの文章を単語リストに変換(処理に数分かかります)
word_list = [extract_words(sentence) for sentence in sentences]

# 結果の一部を確認 
for word in word_list[0]:
    print(word)

一
する
目
さめる
女
隣
じいさん
話
始める
いる


In [12]:
# Word2Vecライブラリのロード
from gensim.models import word2vec

# size: 圧縮次元数
# min_count: 出現頻度の低いものをカットする
# window: 前後の単語を拾う際の窓の広さを決める
# iter: 機械学習の繰り返し回数(デフォルト:5)十分学習できていないときにこの値を調整する
# model.wv.most_similarの結果が1に近いものばかりで、model.dict['wv']のベクトル値が小さい値ばかりの 
# ときは、学習回数が少ないと考えられます。
# その場合、iterの値を大きくして、再度学習を行います。

# 事前準備したword_listを使ってWord2Vecの学習実施
model = word2vec.Word2Vec(word_list,vector_size=100,min_count=5,window=5,epochs=100)

In [13]:
# 結果の確認1
# 一つ一つの単語は100次元のベクトルになっています。 
# 「世間」のベクトル値を確認します。
print(model.__dict__['wv']['世間'])

[-0.0043173   0.6655949  -0.05180647 -0.19278206 -0.23083042 -0.08749042
 -0.08934834  0.34942552 -0.14794604  0.24016622  0.5031633  -0.36605543
  0.35405436  0.48916632  0.18451871 -0.04530301 -0.04593269 -0.09520891
  0.07679106 -0.5972494  -0.8259634   0.6936088   0.40947056 -1.0991483
  0.25108737  0.01730709 -0.4611265  -0.40110588 -0.21700837 -0.72893786
  0.26661795 -0.39460972 -0.0378271  -0.20172581 -0.6135443   0.37872314
 -0.58190846 -0.08197036 -0.43796524  0.02759309  0.5463179  -0.07265177
 -0.48310676 -0.59208274 -0.5905827   0.5864199  -0.11711731 -0.3373608
  0.4920156  -0.4495143   0.7381708  -0.30859897  0.44380924 -0.37874714
  0.15108533 -0.7975405   0.39363363  0.02395621 -0.5913098   0.4739849
 -0.842366    0.19378476 -0.8126919  -0.5897769  -1.0647506   0.28741756
 -0.29902294 -0.6346677   0.0878964   0.32352608 -0.41872817 -0.45564786
 -0.25065503 -0.21112646  0.52704656  0.01112902  0.02210339  0.2929497
  0.36621043  0.26814482 -0.9631134   0.36023262 -0.328

In [14]:
# 結果の確認2
# 関数most_similarを使って「世間」の類似単語を調べます 
ret = model.wv.most_similar(positive=['世間']) 
for item in ret:
    print(item[0], item[1])

喝采 0.5605099201202393
自己 0.5328094959259033
賛成 0.5003823637962341
聞こえる 0.4871812164783478
外国 0.48262298107147217
未来 0.48067787289619446
ヘーゲル 0.47762057185173035
社会 0.47404608130455017
堪える 0.45919176936149597
える 0.45901378989219666
