# コーパスの前処理
自然言語処理のために集められた大量のテキストデータのことを、**コーパス**といいます。  
今回は、青空文庫のデータをコーパスとして用いますが、そのためにはプログラムで扱いやすくするために前処理を行う必要があります。

## データの読み込み
まず、青空文庫のデータを読み込みます。    
データは多い方がいいのですが、今回は簡単にするため夏目漱石の「我輩は猫である」の全文のみを読み込みます。

In [None]:
with open("gingatetsudowa_nekodearu.txt", mode="r", encoding="utf-8") as f:  # ファイルの読み込み
    wagahai_original = f.read()

print(wagahai_original)    # メモリ不足の際はコメントアウトしてください

## データの前処理
読み込んだ小説のデータから、正規表現を用いてルビなどを削除します。  
その上で、文章ごとにリストに格納し、pickleを使って保存します。

In [2]:
import re
import pickle

wagahai = re.sub("《[^》]+》", "", wagahai_original) # ルビの削除
wagahai = re.sub("［[^］]+］", "", wagahai) # 読みの注意の削除
wagahai = re.sub("[｜ 　「」\n]", "", wagahai) # | と全角半角スペース、「」と改行の削除

seperator = "。"  # 。をセパレータに指定
wagahai_list = wagahai.split(seperator)  # セパレーターを使って文章をリストに分割する
wagahai_list.pop() # 最後の要素は空の文字列になるので、削除
wagahai_list = [x+seperator for x in wagahai_list]  # 文章の最後に。を追加
        
print(wagahai_list[:10])

with open('wagahai_list.pickle', mode='wb') as f:  # pickleに保存
    pickle.dump(wagahai_list, f)

['吾輩は猫である。', '名前はまだ無い。', 'どこで生れたかとんと見当がつかぬ。', '何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。', '吾輩はここで始めて人間というものを見た。', 'しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。', 'この書生というのは時々我々を捕えて煮て食うという話である。', 'しかしその当時は何という考もなかったから別段恐しいとも思わなかった。', 'ただ彼の掌に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。', '掌の上で少し落ちついて書生の顔を見たのがいわゆる人間というものの見始であろう。']


保存できていることを確認します。

In [3]:
with open('wagahai_list.pickle', mode='rb') as f:
    wagahai_list = pickle.load(f)

print(wagahai_list[:10])

['吾輩は猫である。', '名前はまだ無い。', 'どこで生れたかとんと見当がつかぬ。', '何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。', '吾輩はここで始めて人間というものを見た。', 'しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。', 'この書生というのは時々我々を捕えて煮て食うという話である。', 'しかしその当時は何という考もなかったから別段恐しいとも思わなかった。', 'ただ彼の掌に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。', '掌の上で少し落ちついて書生の顔を見たのがいわゆる人間というものの見始であろう。']


## 課題:
同じフォルダの以下のファイルから「銀河鉄道の夜」を読み込み、前処理を行ってみましょう。  
gingatetsudono_yoru.txt

In [5]:
with open("gingatetsudono_yoru.txt", mode="r", encoding="utf-8") as f:  # ファイルの読み込み
    gingatetsudono_yoru = f.read()

In [8]:
import re
import pickle

gingatetsudo = re.sub("《[^》]+》", "", gingatetsudono_yoru) # ルビの削除
gingatetsudo = re.sub("［[^］]+］", "", gingatetsudo) # 読みの注意の削除
gingatetsudo = re.sub("[｜ 　「」\n]", "", gingatetsudo) # | と全角半角スペース、「」と改行の削除

seperator = "。"  # 。をセパレータに指定
gingatetsudo_list = gingatetsudo.split(seperator)  # セパレーターを使って文章をリストに分割する
gingatetsudo_list.pop() # 最後の要素は空の文字列になるので、削除
gingatetsudo_list = [x+seperator for x in gingatetsudo_list]  # 文章の最後に。を追加
        
print(gingatetsudo_list[:10])

with open('gingatetsudo_list.pickle', mode='wb') as f:  # pickleに保存
    pickle.dump(gingatetsudo_list, f)

['ではみなさんは、そういうふうに川だと云われたり、乳の流れたあとだと云われたりしていたこのぼんやりと白いものがほんとうは何かご承知ですか。', '先生は、黒板に吊した大きな黒い星座の図の、上から下へ白くけぶった銀河帯のようなところを指しながら、みんなに問をかけました。', 'カムパネルラが手をあげました。', 'それから四五人手をあげました。', 'ジョバンニも手をあげようとして、急いでそのままやめました。', 'たしかにあれがみんな星だと、いつか雑誌で読んだのでしたが、このごろはジョバンニはまるで毎日教室でもねむく、本を読むひまも読む本もないので、なんだかどんなこともよくわからないという気持ちがするのでした。', 'ところが先生は早くもそれを見附けたのでした。', 'ジョバンニさん。', 'あなたはわかっているのでしょう。', 'ジョバンニは勢よく立ちあがりましたが、立って見るともうはっきりとそれを答えることができないのでした。']


In [9]:
with open('gingatetsudo_list.pickle', mode='rb') as f:
    gingatetsudo_list = pickle.load(f)

print(gingatetsudo_list[:10])

['ではみなさんは、そういうふうに川だと云われたり、乳の流れたあとだと云われたりしていたこのぼんやりと白いものがほんとうは何かご承知ですか。', '先生は、黒板に吊した大きな黒い星座の図の、上から下へ白くけぶった銀河帯のようなところを指しながら、みんなに問をかけました。', 'カムパネルラが手をあげました。', 'それから四五人手をあげました。', 'ジョバンニも手をあげようとして、急いでそのままやめました。', 'たしかにあれがみんな星だと、いつか雑誌で読んだのでしたが、このごろはジョバンニはまるで毎日教室でもねむく、本を読むひまも読む本もないので、なんだかどんなこともよくわからないという気持ちがするのでした。', 'ところが先生は早くもそれを見附けたのでした。', 'ジョバンニさん。', 'あなたはわかっているのでしょう。', 'ジョバンニは勢よく立ちあがりましたが、立って見るともうはっきりとそれを答えることができないのでした。']
