## 正規表現

### 基本的なマッチング
ここではPythonのreを用いてやってみる。Pandasを使うことがほとんどだろうが正規表現はこれで学ぶことにする。
reにおける正規表現マッチの基本的な流れは以下の通り。

1. import re
2. Regexオブジェクト=re.compile()を生成(raw文字列を使うと楽)
3. Matchオブジェクト=Regaxオブジェクト.search()を生成
4. Matchオブジェクト.group()でマッチした文字列を取得


In [1]:
import re

In [2]:
text='my phone number is 415-555-4242.' #テスト用の文章

In [3]:
regex=re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') #raw文字列に正規表現を渡す

In [4]:
mo = regex.search(text)
mo.group()

'415-555-4242'

#### グルーピング
丸かっこを用いるとグルーピングできる。

In [5]:
regex=re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)') #raw文字列に正規表現を渡す

mo = regex.search(text)
mo.group() #こちらの結果は変わらないが

'415-555-4242'

In [6]:
mo.groups() #タプルで取得できるようになる

('415', '555-4242')

In [7]:
mo.group(1) #こうすることで1番目のグループだけ抜き出せる

'415'

#### orなマッチング
|を使う

In [8]:
regex=re.compile(r'Batman|Tina Fey') #こう指定すると、BatmanかTina Feyを検索することができる
# NOTE ただし両方が含まれている場合には先に出現したほうが優先される。

#### 任意のマッチ
マッチしてもしなくてもいいときは?を使う。(ある意味で上記に似てる)

In [9]:
regex=re.compile(r'Bat(wo)?man') #BatmanにもBatwomanにもヒットする

#### 0回以上のマッチ
*を使う

In [10]:
regex=re.compile(r'飲んでなくない？(wow)*') #wowがなくても何回あってもok
regex.search('飲んでなくない？').group()

'飲んでなくない？'

In [11]:
regex.search('飲んでなくない？wowwow').group()

'飲んでなくない？wowwow'

#### 1回以上のマッチ
+を使う

In [12]:
regex=re.compile(r'い(た)+') #いたたたたにマッチする
regex.search('いたたたたたた').group()

'いたたたたたた'

#### 文字集合
いままで\dを何気なく使ってきたがこれは文字集合という概念である。

| 短縮形 | 意味 |
|:-----------:|:----------------:|
|\d    |   0-9の数字    |
|\D  | 0~9の数字以外|
|\w  | 文字数字アンダーバー|
|\W  |\d以外 |
|\s  | スペース、タブ、改行|
|\S  | \s以外|

例、`\d+\s\w+`は数字が1文字以上で一旦空白があって文字列が続くときの文字列を検索することになる。

文字集合は自分でも定義することができる

In [13]:
regex=re.compile(r'[1-5]+') #1から5のいずれか
regex.findall('12345678987654321')

['12345', '54321']

In [14]:
regex=re.compile(r'[aiueoAIUEO]') #母音
regex.findall('''Take control.   Brainpower,   Let the bass kick!
O-oooooooooo AAAAE-A-A-I-A-U- JO-oooooooooooo AAE-O-A-A-U-U-A- E-eee-ee-eee AAAAE-A-E-I-E-A- JO-ooo-oo-oo-oo EEEEO-A-AAA-AAAA''')[:5]

['a', 'e', 'o', 'o', 'a']

In [15]:
regex=re.compile(r'[^aiueoAIUEO]') #母音の補集合
regex.findall('''Take control.   Brainpower,   Let the bass kick!
O-oooooooooo AAAAE-A-A-I-A-U- JO-oooooooooooo AAE-O-A-A-U-U-A- E-eee-ee-eee AAAAE-A-E-I-E-A- JO-ooo-oo-oo-oo EEEEO-A-AAA-AAAA''')[:5]

['T', 'k', ' ', 'c', 'n']

#### 先頭と末尾のマッチング
\^と\$をつかう(先程のとは別物ということに注意)

組み合わせて使うことも可能。
例えば、\^\d+\$は1文字以上の数字である文字列とマッチングする。

In [16]:
regex=re.compile(r'^Hello') #Helloから始まる
regex.search('Hello world').group()

'Hello'

In [17]:
if regex.search('He said Hello') is None:
    print('No match')

No match


In [18]:
regex=re.compile(r'Hello$') #Helloで終わる
regex.search('He said Hello').group()

'Hello'

#### ワイルドカード
.は任意の一文字を表す

In [19]:
regex=re.compile(r'.at') #.は任意の文字列となる
regex.findall('The cat in the hat sat on the flat mat') #そのためflatだけはlatとなってしまう。

['cat', 'hat', 'sat', 'lat', 'mat']

In [20]:
regex=re.compile(r'.*at') #*と組み合わせることで任意の回数以上繰り返すことが可能
regex.findall('The cat in the hat sat on the flat mat') #そのためflatだけはlatとなってしまう。

['The cat in the hat sat on the flat mat']

In [21]:
regex=re.compile(r'.*?at') #ただし、貪欲モードでは条件を満たす一番長い文字列とマッチするため、？をつけて非貪欲にするといいい感じになる
regex.findall('The cat in the hat sat on the flat mat') #そのためflatだけはlatとなってしまう。

['The cat', ' in the hat', ' sat', ' on the flat', ' mat']

### 条件に合うものすべてを探す
search()では最初に見つかったものを返す。しかしfindall()を用いれば見つかったすべての文字列を取得することができる。

In [22]:
regex=re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') #raw文字列に正規表現を渡す
regex.findall('Cell: 415-555-9999, Work: 212-555-0000')

['415-555-9999', '212-555-0000']

In [23]:
regex=re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)') #raw文字列に正規表現を渡す
regex.findall('Cell: 415-555-9999, Work: 212-555-0000')

[('415', '555-9999'), ('212', '555-0000')]