# 正規表現のコンパイル

これまで正規表現の学習では，re.search()などの関数に正規表現パターンを文字列の引数として与えてきました．
この方法では，reモジュールが正規表現パターンの文字列を受け取った時点で構文解析を行いマッチングパターンをコンパイルしてから検索を開始します．
すなわち，re.search()関数が呼び出されるたびにコンパイルが実行されます．

一般的なデータクレンジングにおいては，同じ文字検索が繰り返し実行されます．
その度にコンパイルが繰り返されることは効率的ではありません．
そこで，コンパイルを独立させて事前に実施することにより，検索時のオーバーヘッドを軽減することができます．
ここでは，事前にコンパイルする方法について学習します．

題材として，小数点付数の文字列をfullmatch()で判別するプログラムを扱います．

まず，reライブラリーを搬入します．

```Python
import re
```

In [1]:
import re

既に確認したように小数点付数と一致する文字列の正規表現は次のようになります．

> <font face='courier new'> r'^&yen;s\*([+-]?(&yen;d+&yen;.?&yen;d\*|&yen;.&yen;d+))\s\*&#036;' </font>

この正規表現をコンパイルするには，<font color='green'>re.compile()</font>関数を使用します．
そして，コンパイル済みの正規表現オブジェクトを変数に代入します．

```Python
floatCheck = re.compile(r'^\s*([+-]?(\d+\.?\d*|\.\d+))\s*$')
floatCheck
```

In [2]:
floatCheck = re.compile(r'^\s*([+-]?(\d+\.?\d*|\.\d+))\s*$')
floatCheck

re.compile(r'^\s*([+-]?(\d+\.?\d*|\.\d+))\s*$', re.UNICODE)

マッチングする関数の呼出しですがコンパイルしない場合は，

> <font face='courier new'>re.fullmatch(*pattern*,*string*)</font>

と記載しました．
コンパイル後は，コンパイル済みの正規表現オブジェクトを使って，

> <font face='courier new'>floatCheck.fullmatch(*string*)</font>

と記載します．

具体的に文字列を与えてfullmatch()を実行してみます．

```Python
floatCheck.fullmatch(' -123.4 ')
```

In [3]:
floatCheck.fullmatch(' -123.4 ')

<_sre.SRE_Match object; span=(0, 8), match=' -123.4 '>

このように一致しているので，マッチオブジェクトが返ってきました．

また，ここで使用している小数点付数のパターンではカンマ区切りの数字を認めていないので，カンマ区切りの文字列を与えた場合は不一致となります．

```python
floatCheck.fullmatch('1,234.5')
```

In [4]:
floatCheck.fullmatch('1,234.5')

データクレンジングにて正規表現を使用する場面では，必ずコンパイルを行ってから，マッチングを実施します．

*****