## ①Unicode正規化
- 半角カタカナや全角、タブ、空白等を分析処理しやすいように整形する（正規化）を行う
- re

### 関数化

In [6]:
# 正規表現操作を行うライブラリ
import re
# unicodeに従って変換してくれるライブラリ
import unicodedata

from bs4 import BeautifulSoup

# maketransでdictで指定した文字列を変換するテーブルを作成している。これは後にtranslateの引数として指定できる
translation_table = str.maketrans(dict(zip('()!', '（）!')))

def cleanse(text):
#     NFKC形式でtextを変換、さらに、translateにtranslation_tableを指定することでdict内に従って変換する
    text = unicodedata.normalize('NFKC', text).translate(translation_table)
#     正規表現を使用し\s+（ひとつ以上の空白文字の連続）を空白一つに変換
    text = re.sub(r'\s+', ' ', text)
    return text

def scrape(html):
    soup = BeautifulSoup(html, 'html.parser')
    # __EOS__ の挿入
    for block in soup.find_all(['br', 'p', 'h1', 'h2', 'h3', 'h4']):
        # strip()で改行を取り除いたブロック内テキストの文字数が0以上 かつ 後ろから一文字目が'。', '！'でない場合
        if len(block.text.strip()) > 0 and block.text.strip()[-1] not in ['。', '!']:
            # EOSを挿入
            block.append('<__EOS__>')
        
    # 本文の抽出
    text = '\n'.join([
        # クレンジング処理を行う
        cleanse(tag.text.strip()) for tag in soup.find_all(['p', 'h1', 'h2', 'h3', 'h4']) if len(tag.text.strip()) > 0
    ])
    
    # タイトルの抽出
    # ' - Wikipedia'を削除しcleanse
    title = cleanse(soup.title.text.replace(' - Wikipedia', ''))
    return text, title

### クレンジング開始

In [8]:
import urllib.request
import cchardet

if __name__ == '__main__':
    url = 'https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC'
    with urllib.request.urlopen(url) as res:
        byte = res.read()
        html = byte.decode(cchardet.detect(byte)['encoding'])
        # スクレイピング関数を適応
        text, title = scrape(html)
        print('[title]: ', title)
        print('[text]:  ', text[:300])

[title]:  日本
[text]:   日本<__EOS__>
日本国（にほんこく、にっぽんこく）、または日本（にほん、にっぽん）は、日本列島（北海道・本州・四国・九州の主要四島およびそれに付随する島々）および南西諸島・伊豆諸島・小笠原諸島などからなる東アジアの島国[1][2]。議会制民主主義国家である。首都は東京都。
気候は四季の変化に富み、国土の多くは山地で、人口は平野部に集中している。国内には行政区分として47の都道府県があり、日本人・琉球民族・アイヌ・外国人系の人々などが居住し、事実上の公用語として日本語が使用される。
内政では、明治維新後の1890年に憲法を制定し立憲国家となり、第二次世界大戦後の1947年には現行の日本国
