## テキストのクリーニング

In [1]:
from bs4 import BeautifulSoup

In [2]:
def clean_html(html, strip=False):
    soup = BeautifulSoup(html, 'html.parser')
    text = soup.get_text(strip=strip)
    return text

In [3]:
html = """
    <html>
        <body>
            これは<a href="http://example.com">Example</a>です。
        </body>
    </html>"""

clean_html(html, strip=False)

'\n\n\n            これはExampleです。\n        \n'

- 上記は改行コード（¥n）が含まれる
    - strip=Trueにすることで改行コード（¥n）が除去される

In [4]:
clean_html(html, strip=True)

'これはExampleです。'

- データに応じたノイズを除去したい場合には、`正規表現`を使うと良い

In [5]:
text = '今度からMkDocsでドキュメント書こう。 #Python'

- ハッシュタグを除去する場合を考える
    - 上記テキストの場合、ハッシュタグ記号に英語の小文字か大文字が一文字以上続く場合だと考える

In [6]:
import re

In [7]:
def clean_hashtag(text):
    # 第一引数で指定したパターンを第二引数の値で置き換える
    cleaned_text = re.sub(r'#[a-zA-Z]+', '', text)
    return cleaned_text

In [8]:
clean_hashtag(text)

'今度からMkDocsでドキュメント書こう。 '

In [10]:
text = '機械学習やるなら #python がいいよね。 #jupyter'
clean_hashtag(text)

'機械学習やるなら  がいいよね。 '

- 文末のハッシュタグだけ削除したい（文中のハッシュタグは削除しないようにする）

In [15]:
def clean_hashtag(text):
    # 第一引数で指定したパターンを第二引数の値で置き換える
    cleaned_text = re.sub(r' #[a-zA-Z]+$', '', text)
    cleaned_text = re.sub(r' #([a-zA-Z]+) ', r'\1', cleaned_text)
    return cleaned_text

In [16]:
clean_hashtag(text)

'機械学習やるならpythonがいいよね。'

In [17]:
text = '機械学習やるなら #python がいいよね。 #jupyter #pycon #scipy'
clean_hashtag(text)

'機械学習やるならpythonがいいよね。jupyter#pycon'

- ハッシュタグが複数連続する場合は上手くいかない
    - それを考慮した設計に変更する

In [19]:
def clean_hashtag(text):
    # 第一引数で指定したパターンを第二引数の値で置き換える
    cleaned_text = re.sub(r'( #[a-zA-Z]+)+$', '', text)
    cleaned_text = re.sub(r' #([a-zA-Z]+) ', r'\1', cleaned_text)
    return cleaned_text

In [20]:
clean_hashtag(text)

'機械学習やるならpythonがいいよね。'

- オンラインエディタの`Regex101`がオススメ
- https://regex101.com/