# Chapter7 正規表現

In [189]:
import re

#### 正規表現
1. ```import re```で正規表現モジュールをimport  
2. ```re.compile()```に正規表現パターンを渡し、Regexオブジェクトを生成  
3. Regexオブジェクトの```search()```メソッドに検索対象の文字列を渡す  
    →Matchオブジェクトを返す  
4. Matchオブジェクトの```group()|groups()```メソッドで実際にマッチした文字列を返す  

### 7.3.1 丸カッコを用いたグルーピング

- 検索パターン　→　```()```でgroup化

In [190]:
phone_num_regex = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
mo = phone_num_regex.search('電話番号は123-456-7890です。')

In [191]:
mo.group()

'123-456-7890'

In [192]:
mo.groups()

('123', '456-7890')

### 7.3.2 縦線を使って複数グループとマッチング

- ```re.compile(A|B)```でひとつとマッチするか確認
- 両方ある場合は最初に出現した方にマッチ

In [193]:
here_regex = re.compile(r'Batman|Tina Fey')
mo1 = here_regex.search('Batman and Tina Fey')
mo2 = here_regex.search('Tina Fey and Batman')

In [194]:
mo1.group()

'Batman'

In [195]:
mo2.group()

'Tina Fey'

### 7.3.3 疑問符を用いた任意のマッチ

- ```(グループ)?```  
    直前のグループに0回か1回マッチする

In [196]:
bat_regex = re.compile(r'Bat(wo)?man')

In [197]:
mo1 = bat_regex.search('The Adventures of Batman')
mo1.group()

'Batman'

In [198]:
mo2 = bat_regex.search('The Adventures of Batwoman')
mo2.group()

'Batwoman'

### 7.3.4 アスタリスクを用いた0回以上のマッチ

- ```(グループ)*```  
    直前のグループに0回以上マッチする

In [199]:
bat_regex = re.compile(r'Bat(wo)*man')

In [200]:
mo1 = bat_regex.search('The Adventured of Batman')
mo1.group()

'Batman'

In [201]:
mo2 = bat_regex.search('The Adventured of Batwoman')
mo2.group()

'Batwoman'

In [202]:
mo3 = bat_regex.search('The Adventured of Batwowowowowowoman')
mo3.group()

'Batwowowowowowoman'

### 7.3.5 プラスを用いた1回以上のマッチ

- ```(グループ)+```  
    直前のグループに1回以上マッチする

In [203]:
bat_regex = re.compile(r'Bat(wo)+man')

In [204]:
mo1 = bat_regex.search('The adventures of Batwoman')
mo1.group()

'Batwoman'

In [205]:
mo2 = bat_regex.search('The Adventure of Batwowowowowoman')
mo2.group()

'Batwowowowowoman'

In [206]:
mo3 = bat_regex.search('The Adventure of Batman')
mo3 == None

True

### 7.3.6 波括弧を用いて繰り返し回数を指定する

- ```(グループ){回数} / (グループ){最小値,最大値}```  
    回数分/最小値~最大値のグループを繰り返す

In [207]:
ha_regex = re.compile(r'(Ha){3,5}') # 3,5の間にスペースを入れない

In [208]:
mo1 = ha_regex.search('HaHaHaHaHa')
mo1.group()

'HaHaHaHaHa'

In [209]:
mo2 = ha_regex.search('Ha')
mo2 == None

True

## 7.4 貪欲マッチと非貪欲マッチ

In [210]:
greedy_Ha_regex = re.compile(r'(Ha){3,5}')

In [211]:
mo1 = greedy_Ha_regex.search('HaHaHaHaHa')
mo1.group()

'HaHaHaHaHa'

In [212]:
nongreedy_Ha_regex = re.compile(r'(Ha){3,5}?')

In [213]:
mo2 = nongreedy_Ha_regex.search('HaHaHaHaHa')
mo2.group()

'HaHaHa'

## 7.5 findall()メソッド

- ```findall(文字列)```  
    見つかったすべての文字列を返す

In [214]:
phone_num_regex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')

In [215]:
mo = phone_num_regex.search('Cell: 415-555-9999 Work: 212-555-0000')
mo.group()

'415-555-9999'

In [216]:
phone_num_regex.findall('Cell: 415-555-9999 Work: 212-555-0000')

['415-555-9999', '212-555-0000']

In [217]:
phone_num_regex = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)') # グループあり
phone_num_regex.findall('Cell: 415-555-9999 Work: 212-555-0000')

[('415', '555', '9999'), ('212', '555', '0000')]

## 7.6 文字集合

In [218]:
xmas_regex = re.compile(r'\d+\s\w+')
xmas_regex.findall('12 drummers, 11 pipers, 10 loads, 9 ladies, 8 maids, 7 swans, 6 geese, 5 rings, 4 birds, 3 hens, 2 doves, 1 partridge')

['12 drummers',
 '11 pipers',
 '10 loads',
 '9 ladies',
 '8 maids',
 '7 swans',
 '6 geese',
 '5 rings',
 '4 birds',
 '3 hens',
 '2 doves',
 '1 partridge']

## 7.7 独自に文字集合を定義する

- ```[文字集合]```  
    独自の文字集合を定義
- ```[^文字集合]```  
    文字集合の補集合

In [219]:
vowel_regex = re.compile(r'[aeiouAEIOU]')
vowel_regex.findall('RoboCop eats baby food. BABY FOOD.')

['o', 'o', 'o', 'e', 'a', 'a', 'o', 'o', 'A', 'O', 'O']

In [220]:
consonant_regex = re.compile(r'[^aeiouAEIOU]')
consonant_regex.findall('RoboCop eats baby food. BABY FOOD.')

['R',
 'b',
 'C',
 'p',
 ' ',
 't',
 's',
 ' ',
 'b',
 'b',
 'y',
 ' ',
 'f',
 'd',
 '.',
 ' ',
 'B',
 'B',
 'Y',
 ' ',
 'F',
 'D',
 '.']

## 7.8 キャレットとドル記号

- ```^文字列```  
    文字列の先頭にマッチする
- ```文字列$```  
    文字列の末尾にマッチする
    

In [221]:
begins_with_hello = re.compile(r'^Hello')

In [222]:
begins_with_hello.search('Hello World')

<re.Match object; span=(0, 5), match='Hello'>

In [223]:
begins_with_hello.search('He said Hello.') == None

True

In [224]:
ends_begin_number = re.compile(r'\d$')

In [225]:
ends_begin_number.search('Your number is 42')

<re.Match object; span=(16, 17), match='2'>

In [226]:
ends_begin_number.search('You are 42 years old.') == None

True

In [227]:
# 全体が1文字以上の数値とマッチ
whole_string_is_num = re.compile(r'^\d+$')

In [228]:
whole_string_is_num.search('1234567890')

<re.Match object; span=(0, 10), match='1234567890'>

In [229]:
whole_string_is_num.search('12345xyz67890') == None

True

In [230]:
whole_string_is_num.search('12 34567890') == None

True

## 7.9 ワイルドカード文字


- ```.```  
    改行以外の任意の文字

In [231]:
at_regex = re.compile(r'.at')

In [232]:
at_regex.findall('The cat in the hat sat on the flat mat.')

['cat', 'hat', 'sat', 'lat', 'mat']

### 7.9.1 ドットとアスタリスクであらゆる文字列とマッチする

- ```.*```  
    なんでもに相当する正規表現  
    デフォルトでは貪欲モード（最も長いのにマッチ）  
    非貪欲モードにするには：```.*?```

In [233]:
name_regex = re.compile(r'First Name: (.*) Last Name: (.*)')

In [234]:
mo = name_regex.search('First Name: Al Last Name: Sweigart')

In [235]:
mo.group(1)

'Al'

In [236]:
nongreedy_regex = re.compile(r'<.*?>') # 非貪欲

In [237]:
mo = nongreedy_regex.search('<To serve man> for dinner.')
mo.group()

'<To serve man>'

In [238]:
greedy_regex = re.compile(r'<.*>') # 貪欲

In [239]:
mo = greedy_regex.search('<To serve man> for dinner.')
mo.group()

'<To serve man>'

### 7.9.2 ドット文字を改行とマッチさせる

In [243]:
no_newline_regex = re.compile(r'.*')
no_newline_regex.search('Serve the public trust. \nProtect the innocent.\nUphold the law.').group()

'Serve the public trust. '

In [244]:
newline_regex = re.compile(r'.*', re.DOTALL)
newline_regex.search('Serve the public trust. \nProtect the innocent.\nUphold the law.').group()

'Serve the public trust. \nProtect the innocent.\nUphold the law.'

## 7.10 正規表現に用いる記号のまとめ

## 7.11 大文字・小文字を無視したマッチ 

In [249]:
# 第２引数にre.Iを渡す
robocop = re.compile(r'robocop', re.I)

In [250]:
robocop.search('RoboCop is part man, part machine, all cop.').group()

'RoboCop'

In [251]:
robocop.search('ROBOCOP is part man, part machine, all cop.').group()

'ROBOCOP'

## 7.12 sub()メソッドを用いて文字列を置換する

- ```sub(置き換える文字列, 置き換え対象の文字列)```

In [252]:
names_regex = re.compile(r'Agent \w+')

In [253]:
names_regex.sub('CENSORED', 'Agent Alice gave the secret documents to Agent Bob.')

'CENSORED gave the secret documents to CENSORED.'

In [254]:
agent_names_regex = re.compile(r'Agent (\w)\w*')
agent_names_regex.sub(r'\1****', 'Agent Alice told Agent Carol that Agent Eve Agent Bob was a double agent.')

'A**** told C**** that E**** B**** was a double agent.'

## 7.13 複雑な正規表現を管理する

- ```re.compile(r'', re.VERBOSE)```  
    正規表現を複数行に分けてコメントを入れる

In [256]:
phone_regex = re.compile(r'''
    (\d{3}|\(\d{3}\))? # 3桁の市外局番
    (\s|-|\.)? # 区切り（スペースかハイフンかドット）
    \d{3} # 3桁の市外局番
    (\s|-|.) # 区切り
    \d{4} # 4桁の番号
    (\s*(ext|x|ext.)\s*\d{2, 5})? # 2~5桁の内線番号
    ''', re.VERBOSE)

## 7.14 re.IGNORECASEとre.DOTALLとre.VERBOSEを組み合わせる

- ```some_regex_value = re.compile(正規表現, re.IGNORECASE | re.DOTALL | re.VERBOSE)```  
    論理和演算子で組み合わせ可能

## 