# 正規表現によるパターンマッチング

文字列の中から特定の文字パターンを検索したり置換するときに<font color=blue>正規表現</font>というツールを使うことができます．
正規表現は様々なプログラミング言語に組み込まれているサブ言語です．

かつて，Perlプログラマーは正規表現を用いた数行のプログラムを組むことを競うように行っていましたが，出来上がったプログラムは暗号のようで他人には理解できないものでした．

正規表現は文字列のパターンマッチングにおいて強力な武器となりますが，その構文ルールが特殊なので使い方を凝ると解読困難なプログラムになってしまいます．

正規表現について一通り学ぼうとすると相当なボリュームになってしまいます．
ここでは，最低限必要な事だけをコンパクトにまとめて学習します．

正規表現は英語で Regular Expression といいます．
Pythonではその頭文字をとった reライブラリーが提供されています．
まずは，reライブラリーを搬入します．

```Python
import re
```

In [1]:
import re

*****
## マッチング関数

正規表現には，様々なマッチング関数が用意されています．
ここでは代表的な関数について紹介します．

- <font face='courier new'>findall</font>
- <font face='courier new'>search</font>
- <font face='courier new'>match</font>
- <font face='courier new'>fullmatch</font>

*****
### findall関数

分かりやすい例として，文章の中にある数字を全て検索するプログラムを紹介します．
これを実現するには，<font color=green>re.findall()</font>関数を利用します．

> <font face='courier new'>re.findall(*pattern*,*string*,*flags=0*)</font>

引数：
- <font face='courier new'>*pattern*</font> ：探し出す文字列のパターン
- <font face='courier new'>*string*</font> ：検索対象となる文章
- <font face='courier new'>*flags*</font> ：オプションフラグ，デフォルトでゼロがセットされている

<font face='courier new'>*pattern*</font>の文字列を記述する方法として，制御コードによる副作用を避けるためにraw文字列で指定しましょう．

オプションフラグについては，デフォルトのままとします．

#### 数字のパターン

正規表現では，文字列のパターンの表し方が重要です．
初歩的な例として，数字1文字は次のように表します．

> <font face='courier new'> r'&yen;d' </font>

この表現と一致する文字は 0~9 の単一の数字になります．  
そして，2桁以上の数字も含めて一致させるには，次のような表現にします．

> <font face='courier new'> r'&yen;d+' </font>

ここでプラス記号は前の条件の文字を1文字以上続けた文字に一致することを意味します．

#### 数字を抽出する例

最初の例は，宝くじの発表文章から当選番号を抽出するプログラムです．
re.findall関数の引数に次の値を直接代入します．

> 
<font face='courier new'>pattern : r'&yen;d+'</font>  
<font face='courier new'>string : 'The lottery winning numbers are 23, 50, 177 and 256.</font>


```Python
re.findall(r'\d+','The lottery winning numbers are 23, 50, 177 and 256.')
```

In [2]:
re.findall(r'\d+','The lottery winning numbers are 23, 50, 177 and 256.')

['23', '50', '177', '256']

次は日本語の文章の中から半角の数字を抽出するプログラムです．

```Python
re.findall(r'\d+','国語は80点で、社会は95点だった。でも英語は50点でした。')
```

In [3]:
re.findall(r'\d+','国語は80点で、社会は95点だった。でも英語は50点でした。')

['80', '95', '50']

このように，文章の中から特定の文字列パターンを全て拾い出すにはdindall関数が重宝します．

*****
### search関数

search関数は，文章の中から指定したパターンを検索する関数です．
マッチする部分が複数ある場合は，最初の部分が返されます．
構文は次のようになります．

> <font face='courier new'>re.search(*pattern*,*string*,*flags=0*)</font>

引数：
- <font face='courier new'>*pattern*</font> ：探し出す文字列のパターン
- <font face='courier new'>*string*</font> ：検索対象となる文章
- <font face='courier new'>*flags*</font> ：オプションフラグ，デフォルトでゼロがセットされている

#### 単純な文字列の検索

調査対象の文章から文字列の「what」を検索します．

```Python
matchObj = re.search(r'what','what I believe is what I see.')
matchObj
```

In [4]:
matchObj = re.search(r'what','What I believe is what I see.')
matchObj

<_sre.SRE_Match object; span=(18, 22), match='what'>

#### マッチオブジェクト

この処理で「what」という文字列が見つかったので，返り値として<font color=blue>マッチオブジェクト</font>が返ってきます．
マッチオブジェクトとは，検索結果の一致情報をまとめたものです．
マッチオブジェクトには次のメソッドが用意されています．

- <font face='courier new'>start()</font> ：見つかった文字列の先頭位置
- <font face='courier new'>end()</font> ：見つかった文字列の最後尾の次の位置
- <font face='courier new'>span()</font> ：見つかった文字列の（先頭位置，最後尾の次の位置）
- <font face='courier new'>group()</font> ：マッチした文字列

それぞれのメソッドを実行して結果を確認します．

In [5]:
matchObj.start()

18

In [6]:
matchObj.end()

22

In [7]:
matchObj.span()

(18, 22)

In [8]:
matchObj.group()

'what'

#### group

文字列の検索結果を分割して取り出すことも可能です．
一例として，電話番号がマイナス記号付きで記載されている「01-2345-6789」という文字列から市外局番や市内局番を個別で取り出す方法を紹介します．
この電話番号に一致するパターンは，

> <font face='courier new'>r'&yen;d+-&yen;d+-&yen;d+'</font>

です．
文章の中から電話番号を取り出します．

```Python
re.search(r'\d+-\d+-\d+','My phone number is 01-2345-6789.')
```

In [9]:
re.search(r'\d+-\d+-\d+','My phone number is 01-2345-6789.')

<_sre.SRE_Match object; span=(19, 31), match='01-2345-6789'>

しかし，この結果として抽出される文字列は「01-2345-6789」だけですので，この後で文字列を分割する操作が必要になります．
そこで，3つの部分を取り出せるようにマッチングパターンを変更します．
その方法は，取り出したい部分を括弧 ( ) で囲うだけです．
マッチングパターンを次のようにします．

> <font face='courier new'> r'(&yen;d+)-(&yen;d+)-(&yen;d+)' </font>

このパターンを使って電話番号を取り出します．

```Python
matchObj = re.search(r'(\d+)-(\d+)-(\d+)','My phone number is 01-2345-6789.')
matchObj
```

In [10]:
matchObj = re.search(r'(\d+)-(\d+)-(\d+)','My phone number is 01-2345-6789.')
matchObj

<_sre.SRE_Match object; span=(19, 31), match='01-2345-6789'>

このマッチオブジェクトの結果を見ると先ほどと同じように思えますが，group()関数に引数を渡すことによって個別の数字を取り出すことができます．
このgroup()関数に渡せる引数の最大値はlastindex属性によって知ることができます．

```Python
matchObj.group()   # 一致した文字列全体
matchObj.lastindex # group()関数に指定できるインデックスの最後の値
matchObj.group(1)  # 一致した文字列の最初の指定部分
```

In [11]:
matchObj.group()

'01-2345-6789'

In [12]:
matchObj.lastindex

3

In [13]:
matchObj.group(1)

'01'

さらに，groups()メソッドによって個別に取り出した文字列をタプルとして得ることができます．

```Python
matchObj.groups()
```

In [14]:
matchObj.groups()

('01', '2345', '6789')

*****
### match関数

match()関数は文章の先頭から一致する場合のみマッチオブジェクトを返します．
次の例は文章の先頭にある「What」と一致した例です．

```Python
re.match(r'What','What I believe is what I see.')
```

In [15]:
re.match(r'What','What I believe is what I see.')

<_sre.SRE_Match object; span=(0, 4), match='What'>

この場合，「What」が先頭にあるのでパターンが一致して，マッチオブジェクトが生成されました．
この文章の中には小文字の'w'で始まる「what」もありますが，この文字列をmatch()関数で調べても結果を得ることはできません．

```Python
re.match(r'what','What I believe is what I see.')
```

In [16]:
re.match(r'what','What I believe is what I see.')

このように返り値を得ることができません．
文章の途中の文字列を検索する場合はmatch()関数ではなくsearch()関数を使用します．

*****
### fullmatch関数

確認対象の文章がパターンと完全一致しているかを確かめるにはfullmatch()関数を使用します．
次の例は，住所として認識できるかをfullmatch関数で判断しています．
ここではマッチングパターンとして，次の記号を使っています．

>  
- <font face='courier new'> &yen;w+ </font>  
- <font face='courier new'> .\* </font>
- <font face='courier new'> [都道府県] </font>
- <font face='courier new'> (  ) <font>

「&yen;w+」は特殊文字を除く任意の文字の1つ以上の文字列です．  
「.\*」は任意の文字の0個以上の文字列です．何もなくても構いません．  
「[都道府県]」は都,道,府,県のどれか一つと一致している文字列です．  
「(  )」は括弧内に一致した部分を独立して抽出できる仕組みです．

```Python
matchObj = re.fullmatch(r'(\w+[都道府県])(\w+[市町村]).*','神奈川県横浜市中央区1丁目1番地')
matchObj.group()
```

In [17]:
matchObj = re.fullmatch(r'(\w+[都道府県])(\w+[市町村]).*','神奈川県横浜市中央区1丁目1番地')
matchObj.group()

'神奈川県横浜市中央区1丁目1番地'

このパターンでのマッチングでは，都道府県名と市町村名を抽出しています．
groups()メソッドを使って確認します．

```Python
matchObj.groups()
```

In [18]:
matchObj.groups()

('神奈川県', '横浜市')

*****