# Chapter7 正規表現

In [192]:
import re

#### 正規表現
1. ```import re```で正規表現モジュールをimport  
2. ```re.compile()```に正規表現パターンを渡し、Regexオブジェクトを生成  
3. Regexオブジェクトの```search()```メソッドに検索対象の文字列を渡す  
    →Matchオブジェクトを返す  
4. Matchオブジェクトの```group()|groups()```メソッドで実際にマッチした文字列を返す  

### 7.3.1 丸カッコを用いたグルーピング

- 検索パターン　→　```()```でgroup化

In [193]:
phone_num_regex = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
mo = phone_num_regex.search('電話番号は123-456-7890です。')

In [194]:
mo.group()

'123-456-7890'

In [195]:
mo.groups()

('123', '456-7890')

### 7.3.2 縦線を使って複数グループとマッチング

- ```re.compile(A|B)```でひとつとマッチするか確認
- 両方ある場合は最初に出現した方にマッチ

In [196]:
here_regex = re.compile(r'Batman|Tina Fey')
mo1 = here_regex.search('Batman and Tina Fey')
mo2 = here_regex.search('Tina Fey and Batman')

In [197]:
mo1.group()

'Batman'

In [198]:
mo2.group()

'Tina Fey'

### 7.3.3 疑問符を用いた任意のマッチ

- ```(グループ)?```  
    直前のグループに0回か1回マッチする

In [199]:
bat_regex = re.compile(r'Bat(wo)?man')

In [200]:
mo1 = bat_regex.search('The Adventures of Batman')
mo1.group()

'Batman'

In [201]:
mo2 = bat_regex.search('The Adventures of Batwoman')
mo2.group()

'Batwoman'

### 7.3.4 アスタリスクを用いた0回以上のマッチ

- ```(グループ)*```  
    直前のグループに0回以上マッチする

In [202]:
bat_regex = re.compile(r'Bat(wo)*man')

In [203]:
mo1 = bat_regex.search('The Adventured of Batman')
mo1.group()

'Batman'

In [204]:
mo2 = bat_regex.search('The Adventured of Batwoman')
mo2.group()

'Batwoman'

In [205]:
mo3 = bat_regex.search('The Adventured of Batwowowowowowoman')
mo3.group()

'Batwowowowowowoman'

### 7.3.5 プラスを用いた1回以上のマッチ

- ```(グループ)+```  
    直前のグループに1回以上マッチする

In [206]:
bat_regex = re.compile(r'Bat(wo)+man')

In [207]:
mo1 = bat_regex.search('The adventures of Batwoman')
mo1.group()

'Batwoman'

In [208]:
mo2 = bat_regex.search('The Adventure of Batwowowowowoman')
mo2.group()

'Batwowowowowoman'

In [209]:
mo3 = bat_regex.search('The Adventure of Batman')
mo3 == None

True

### 7.3.6 波括弧を用いて繰り返し回数を指定する

- ```(グループ){回数} / (グループ){最小値,最大値}```  
    回数分/最小値~最大値のグループを繰り返す

In [210]:
ha_regex = re.compile(r'(Ha){3,5}') # 3,5の間にスペースを入れない

In [211]:
mo1 = ha_regex.search('HaHaHaHaHa')
mo1.group()

'HaHaHaHaHa'

In [212]:
mo2 = ha_regex.search('Ha')
mo2 == None

True

## 7.4 貪欲マッチと非貪欲マッチ

In [213]:
greedy_Ha_regex = re.compile(r'(Ha){3,5}')

In [214]:
mo1 = greedy_Ha_regex.search('HaHaHaHaHa')
mo1.group()

'HaHaHaHaHa'

In [215]:
nongreedy_Ha_regex = re.compile(r'(Ha){3,5}?')

In [216]:
mo2 = nongreedy_Ha_regex.search('HaHaHaHaHa')
mo2.group()

'HaHaHa'

## 7.5 findall()メソッド

- ```findall(文字列)```  
    見つかったすべての文字列を返す

In [217]:
phone_num_regex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')

In [218]:
mo = phone_num_regex.search('Cell: 415-555-9999 Work: 212-555-0000')
mo.group()

'415-555-9999'

In [219]:
phone_num_regex.findall('Cell: 415-555-9999 Work: 212-555-0000')

['415-555-9999', '212-555-0000']

In [220]:
phone_num_regex = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)') # グループあり
phone_num_regex.findall('Cell: 415-555-9999 Work: 212-555-0000')

[('415', '555', '9999'), ('212', '555', '0000')]

## 7.6 文字集合

In [221]:
xmas_regex = re.compile(r'\d+\s\w+')
xmas_regex.findall('12 drummers, 11 pipers, 10 loads, 9 ladies, 8 maids, 7 swans, 6 geese, 5 rings, 4 birds, 3 hens, 2 doves, 1 partridge')

['12 drummers',
 '11 pipers',
 '10 loads',
 '9 ladies',
 '8 maids',
 '7 swans',
 '6 geese',
 '5 rings',
 '4 birds',
 '3 hens',
 '2 doves',
 '1 partridge']

## 7.7 独自に文字集合を定義する

- ```[文字集合]```  
    独自の文字集合を定義
- ```[^文字集合]```  
    文字集合の補集合

In [222]:
vowel_regex = re.compile(r'[aeiouAEIOU]')
vowel_regex.findall('RoboCop eats baby food. BABY FOOD.')

['o', 'o', 'o', 'e', 'a', 'a', 'o', 'o', 'A', 'O', 'O']

In [223]:
consonant_regex = re.compile(r'[^aeiouAEIOU]')
consonant_regex.findall('RoboCop eats baby food. BABY FOOD.')

['R',
 'b',
 'C',
 'p',
 ' ',
 't',
 's',
 ' ',
 'b',
 'b',
 'y',
 ' ',
 'f',
 'd',
 '.',
 ' ',
 'B',
 'B',
 'Y',
 ' ',
 'F',
 'D',
 '.']