# コーパスの前処理
自然言語処理のために集められた大量のテキストデータのことを、**コーパス**といいます。  
今回は、青空文庫のデータをコーパスとして用いますが、そのためにはプログラムで扱いやすくするために前処理を行う必要があります。

## データの読み込み
まず、青空文庫のデータを読み込みます。    
データは多い方がいいのですが、今回は簡単にするため夏目漱石の「我輩は猫である」の全文のみを読み込みます。

In [None]:
with open("wagahaiwa_nekodearu.txt", mode="r", encoding="utf-8") as f:  # ファイルの読み込み
    wagahai_original = f.read()

print(wagahai_original)

## データの前処理
読み込んだ小説のデータから、正規表現を用いてルビなどを削除します。  
その上で、文章ごとにリストに格納し、pickleを使って保存します。

In [None]:
import re
import pickle

wagahai = re.sub("《[^》]+》", "", wagahai_original) # ルビの削除
wagahai = re.sub("［[^］]+］", "", wagahai) # 読みの注意の削除
wagahai = re.sub("[｜ 　「」\n]", "", wagahai) # | と全角半角スペース、「」と改行の削除

seperator = "。"  # 。をセパレータに指定
wagahai_list = wagahai.split(seperator)  # セパレーターを使って文章をリストに分割する
wagahai_list.pop() # 最後の要素は空の文字列になるので、削除
wagahai_list = [x+seperator for x in wagahai_list]  # 文章の最後に。を追加
        
print(wagahai_list)

with open('wagahai_list.pickle', mode='wb') as f:  # pickleに保存
    pickle.dump(wagahai_list, f)

保存できていることを確認します。

In [None]:
with open('wagahai_list.pickle', mode='rb') as f:
    wagahai_list = pickle.load(f)

print(wagahai_list)

## 課題:
同じフォルダの以下のファイルから「銀河鉄道の夜」を読み込み、前処理を行ってみましょう。  
gingatetsudono_yoru.txt