# 正規化の例
正規表現オブジェクトを作成してからsearchをする。
見つかった場合はその文字列、見つからなかった場合はNoneがかえる

In [7]:
import re
phone_re = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
mo = phone_re.search('000-111-2222')
mo.group()

'000-111-2222'

# 記法

In [8]:
# グループでアクセス
phone_re = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)')
mo = phone_re.search('000-111-2222')
mo.group(1)

'000'

In [11]:
# or
phone_re = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)|(\d\d\d)-(\d\d\d\d)')
mo = phone_re.search('111-2222')
mo.group()

'111-2222'

In [None]:
# ? (0か1回)
test = re.compile(r'(wo)?man')

In [None]:
# * (0回以上)

In [None]:
# + (1回以上)

In [12]:
# {} (回数指定)
ha_re = re.compile(r'(Ha){3}')
mo = ha_re.search('HaHaHaHa')
mo.group()

'HaHaHa'

# findall
searchでは最初に見つかったものだけだが、findallは全てを返す

In [13]:
# グループ無し
phone_re = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
phone_re.findall('Cell : 415-555-9999 Work:212-555-0000')

['415-555-9999', '212-555-0000']

In [14]:
# グループ無し
phone_re = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)')
phone_re.findall('Cell : 415-555-9999 Work:212-555-0000')

[('415', '555', '9999'), ('212', '555', '0000')]

# 正規表現の定義

In [None]:
# []内のどれか
test = re.compile(r'[abcde]')

In [None]:
# 範囲しても可能
[a-zA-Z0-9]

In [None]:
# 補集合 (それ以外)
[^abcde]

# キャレットとドル記号
キャレット・・・先頭
ドル・・・末尾

In [22]:
import re
re = re.compile(r'^Hello')
mo = re.search('Hello World')
mo.group()

'Hello'

In [28]:
import re
re = re.compile(r'World$')
mo = re.search('Hello World')
mo.group()

'World'

# 任意の文字列 .

In [31]:
import re
re = re.compile(r'.at')
re.findall('The cat in the hat')

['cat', 'hat']

In [32]:
# (.*)で任意の文字列にヒットする

# まとめ
● ?は、 直前のグループの0回か1回の出現にマッチする。<br>
● *は、 直前のグループの0回以上の出現にマッチする。<br>
● +は、 直前のグループの1回以上の出現にマッチする。<br>
● {n}は、 直前のグループのn回の出現にマッチする。<br>
● {n,}は、 直前のグループのn回以上の出現にマッチする。<br>
● {,m}は、 直前のグループの0～m回の出現にマッチする。<br>
● {n,m}は、 直前のグループのn～m回の出現にマッチする。<br>
● {n,m}?、 *?、 +?は、 直前のグループの非貪欲マッチを行う。<br>
● ^spamは、「 spam」 から始まる文字列とマッチする。<br>
● spam$は、「 spam」 で終わる文字列とマッチする。<br>
●.は、 改行文字以外の任意の1文字とマッチする。<br>
● \d、 \w、 \sは、 それぞれ、 数字、 単語を構成する文字、 空白文字にマッチする。<br>
● \D、 \W、 \Sは、 それぞれ、 数字、 単語を構成する文字、 空白文字以外の文字にマッ
チする。
● [abc]は、 角カッコの中の任意の1文字にマッチする（ この例では、「 a」 か「 b」 か
「 c」）。<br>
● [^abc]は、 角カッコの中の文字以外の任意の1文字にマッチする。<br>