# コーパスの前処理
自然言語処理のために集められた大量のテキストデータのことを、**コーパス**といいます。  
今回は、インターネット図書館「青空文庫」のデータをコーパスとして用いますが、そのためにはプログラムで扱いやすくするために前処理を行う必要があります。

## データの読み込み
まず、青空文庫のデータを読み込みます。    
データは多い方がいいのですが、今回は簡単にするため夏目漱石の「我輩は猫である」の全文のみを読み込みます。<br>
ファイル名:wagahaiwa_nekodearu.txt

In [None]:
with open("wagahaiwa_nekodearu.txt", mode="r", encoding="utf-8") as f:  # ファイルの読み込み
    wagahai_original = f.read()

print(wagahai_original)

## データの前処理
読み込んだ小説のデータから、正規表現を用いてルビなどを削除します。  
その上で、文章ごとにリストに格納し、pickleを使って保存します。<br>

- pickleについて：Python の標準ライブラリにある pickle モジュールは Python のオブジェクトを直列化・非直列化するための機能を提供している。 直列化 (Serialize) というのはプログラミング言語においてオブジェクトをバイト列などの表現に変換することを指す。(pikleは漬け物(ピクルス)の意味)
- 処理結果をpickleで保存、解凍するためには，先頭でpickleモジュールを読み込んでから使います。

In [None]:
import re
import pickle

wagahai = re.sub("《[^》]+》", "", wagahai_original) # ルビの削除
wagahai = re.sub("［[^］]+］", "", wagahai) # 読みの注意の削除
wagahai = re.sub("[｜ 　「」\n]", "", wagahai) # | と全角半角スペース、「」と改行の削除

seperator = "。"  # 。をセパレータに指定
wagahai_list = wagahai.split(seperator)  # セパレーターを使って文章をリストに分割する
wagahai_list.pop() # 最後の要素は空の文字列になるので、削除
wagahai_list = [x+seperator for x in wagahai_list]  # 文章の最後に"。"を追加
        
print(wagahai_list)

with open('wagahai_list.pickle', mode='wb') as f:  # pickleに保存
    pickle.dump(wagahai_list, f)

表示された結果は，ルビや不要な記号は除去できていましたか？　<br>
week12のフォルダに、wagahai_list.pickle　が生成されているか確認しましょう。 <br>
確認ができたら、以下のコードで処理結果がpickleで保存できていることを確認します。<br>
pickleファイルを読み込む，それを表示させるコードになります。<br>
ln[2]の結果と同じ内容になっていますか？

In [None]:
with open('wagahai_list.pickle', mode='rb') as f:
    wagahai_list = pickle.load(f)

print(wagahai_list)

## 課題2:
青空文庫 https://www.aozora.gr.jp/ から「吾輩は猫である」以外のルビ付きの小説をダウンロードし、同様の前処理を行ってみましょう。  <br>
文の長さは短すぎると後からの実習で困るので、ある程度長いものが良いでしょう。<br>
処理結果のファイルが保存できたら，「ルビ」、「読みの注意「、「| と全角半角スペース」、「」と改行の削除ができているか確認してみましょう。<br>
不要な記号などが残っていればre.sub()を用いて削除してみてください。  
入出力ファイル名は上の例に倣って付けてください。