<a href="https://colab.research.google.com/github/snufkin92/colab_tutorial/blob/master/section_08/regular_expression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pythonにおける正規表現
指定したパターンに一致する文字列を置換、抽出したい場合、正規表現がよく使われます。  
今回は、自然言語処理において便利な正規表現をいくつか紹介します。  
正規表現は、文章に前処理を行う際に活躍します。  

## subによる置換
正規表現を使う際は、reをインポートします。  
`re.sub`により、文字列の置換を行うことができます。

In [1]:
import re

s = "私は柴犬が好きです。"

s = re.sub("柴犬", "シャム猫", s)  # 文字列sの「柴犬」を「シャム猫」に置き換える
print(s)

私はシャム猫が好きです。


## 複数の文字の指定
以下の例では、複数の文字を別の文字に置き換えています。

In [2]:
import re

s = "私は黒犬と白猫が好きです。"

s = re.sub("[犬猫]", "馬", s)  # []内の各文字（「犬」、「猫」）を「馬」に置き換える
print(s)

私は黒馬と白馬が好きです。


[ ]内の各文字を、特定の文字に置き換えることができます。

## 否定
以下の例では、ある特定の文字以外を置き換えています。

In [3]:
import re

s = "私は黒犬と白猫が好きです。"

s = re.sub("[^犬猫]", "馬", s)  # 「犬」、「猫」以外を「馬」に置き換える
print(s)

馬馬馬犬馬馬猫馬馬馬馬馬馬


^を使うことで、「犬」、「猫」以外の全ての文字が「馬」と入れ替わりました。

## 繰り返し
以下の例では、\+ の記号を使用することで文字の１回以上の繰り返しを表現しています。

In [4]:
import re

s = "私は柴犬犬犬犬犬犬犬犬犬犬犬犬犬が好きです。"

s = re.sub("犬+", "犬", s)  # 「犬」の繰り返しを「犬」に置き換える
print(s)

私は柴犬が好きです。


「犬」の繰り返しを、「犬」に置き換えました。

## ルビの除去
これまで学んできた正規表現のルールを組み合わせて、文字列からルビを除去します。

In [5]:
import re

s = "私は柴犬【しばいぬ】とシャム猫【しゃむねこ】が大好きです。"

s = re.sub("【[^】]+】", "", s)  # 【と】の間に】以外の文字が複数ある箇所を、空の文字列に置き換える
print(s)

私は柴犬とシャム猫が大好きです。


`[^】]+`の箇所は、】以外の文字の繰り返しを意味します。  
従って、`【[^】]+】`は【と】の間に】以外の文字が複数ある箇所を表します。

## 課題:
以下のコードにおける文字列sから、正規表現を使ってルビを除去してみましょう。

In [6]:
import re

s = "白馬【はくば】に乗って、草原【そうげん】を駆けるのが夢です。"