# 正規表現のパターン

正規表現は，検索対象の文字列の中でマッチングする文字列のパターンを正確に記述することが重要です．

全てのパターンについて学習するのは大変ですので，ここでは最小限の正規表現について説明します．

### 文字を指定する記号

&yen;記号はエスケープシーケンスの開始文字で，この後の記号と合わせて特別な意味になっています．

| 記号 | 説明 |
|:---:|:---|
| . | 改行以外の任意の1文字 |
| &yen;w | 会話文字，数字，アンダースコアのどれか一文字（日本語も含む） |
| &yen;W | &yen;w以外の一文字（空白文字，記号，制御コード） |
| &yen;d | 数字0~9の一文字 |
| &yen;D | &yen;d以外の一文字 |
| &yen;s | 空白文字と改行，タブなどの制御文字の一文字 |
| &yen;S | &yen;s以外の一文字 |
| &yen;n | 改行 |
| &yen;t | タブ |
| &yen;&yen; | &yen;記号 |

### 繰り返しの指定

| 記号 | 説明 |
|:---:|:---|
| * | 直前の正規表現が0回以上できる限り多くマッチ |
| + | 直前の正規表現が1回以上できる限り多くマッチ |
| ? | 直前の正規表現が0回か1回マッチ |
| {n} | 直前の正規表現がn回マッチ |
| {m,n} | 直前の正規表現がm回以上n回以下マッチ |

### 特別な記号

| 記号 | 説明 |
|:---:|:---|
| ^  | 文字列の先頭とマッチ |
| \$ | 文字列の最後尾とマッチ |
| ( ) | マッチする文字列中のグループ指定 |
| &alpha; &#124; &beta; | &alpha; か &beta; のどちらか一方とマッチ |
| [ ] | 文字の集合，[ ] 内の文字のどれかとマッチ |
| [^ ] | ^に続く文字以外とマッチ |

### 特殊な意味のある記号をそのままの文字にするには

正規表現パターンの中で特殊な役割をする記号をそのままの記号として扱いたい場合は，その文字の前に円記号&yen;を記載します．

| 文字 | 記載方法 |
|:---:|:---:|
| &yen; | &yen;&yen; |
| . | &yen;. |
| \* |&yen;\*|
| + | &yen;+ |
| ? | &yen;? |
| ^ | &yen;^ |
| \$ | &yen;\$ |
| &#124; | &yen;&#124; |
| ( | &yen;( |
| ) | &yen;) |
| [ | &yen;[ |
| ] | &yen;] |

*****
## Pythonによる具体例

具体例を確認するために，reライブラリーを搬入します．

```Python
import re
```

In [1]:
import re

*****
## 整数に一致するパターン

整数を集合で記述すると，

> $\{\cdots, -3, -2, -1, 0, 1, 2, 3, \cdots\}$

となります．また，正の数にはプラス記号が付いても構いません．

文字列として整数に一致する正規表現パターンは次のようになります．
ただし，文字列の前後に空白文字があっても良いものとします．

> <font face='courier new'>r'^&yen;s\*([+-]?&yen;d+)&yen;s\*\&#036;'</font>

- <font face='courier new'>^&yen;s\* </font>：文字列の先頭に空白文字が何文字あっても構わない
- <font face='courier new'>[+-]?     </font>：プラス記号あるいはマイナス記号のどちらかがあっても無くてもよい
- <font face='courier new'>&yen;d+   </font> ：数字文字0~9が1個以上ある
- <font face='courier new'>&yen;s\*\&#036; </font>：文字列の末尾に空白文字が何文字あっても構わない


整数に一致する文字列のパターンを次のように定義して，変数に代入します．

```Python
patternInt = r'^\s*([+-]?\d+)\s*$'
```

In [2]:
patternInt = r'^\s*([+-]?\d+)\s*$'

fullmatch()関数でこのパターンを使った場合，次のような文字列がマッチします．

> <font face='courier new'> '123', ' 123 ', '+123',  ' -123 '</font>

試しに，次の例を実行します．

```Python
result = re.fullmatch(patternInt,' -123 ')
result
```

In [3]:
result = re.fullmatch(patternInt,' -123 ')
result

<_sre.SRE_Match object; span=(0, 6), match=' -123 '>

数字そのものはresult.group(1)に格納されていますので，これを指定することにより純粋な整数の文字列が求まります．

```Python
result.group(1)
```

In [4]:
result.group(1)

'-123'

チェックする文字列に小数点を付けるとマッチしません．
次の例で確認します．

```Python
re.fullmatch(patternInt,'123.')
```

In [5]:
re.fullmatch(patternInt,'123.')

このようにマッチしない場合は返り値として何も返ってきません．
この返り値を利用することにより，if文でマッチした場合としなかった場合を制御することができます．
この例で変数stringに色々な値を代入して確かめてください．

```Python
string = '12345.'
result = re.fullmatch(patternInt,string)
if result:
    print('Matched sentence : '+result.group())
else:
    print('Nothing matched!')
```

In [6]:
string = '12345.'
result = re.fullmatch(patternInt,string)
if result:
    print('Matched sentence : '+result.group())
else:
    print('Nothing matched!')

Nothing matched!


*****
## 小数点付き数に一致するパターン

次に文字列全体が小数点付数とマッチするパターンを作成します．
小数点付数としては次のような値を考えます．

> <font face='courier new'> '12.3', '+12.', '-12.3', ' 12.3 ', ' 12 ' </font>

この定義では小数点の無い整数も含みますが，指数形式の数値は対象にはしません．

> <font face='courier new'> r'^&yen;s\*([+-]?(&yen;d+&yen;.?&yen;d\*|&yen;.&yen;d+))&yen;s\*&#036;' </font>

- <font face='courier new'>^&yen;s\* </font>：文字列の先頭に空白文字が何文字あっても構わない
- <font face='courier new'>[+-]?     </font>：プラス記号あるいはマイナス記号のどちらかがあっても無くてもよい
- <font face='courier new'>( &alpha; | &beta; )  </font> ：正義表現の&alpha;か&beta;のどちらか
- <font face='courier new'>&yen;d+&yen;.?&yen;d* </font> ：整数部が必ずあり，ピリオドと小数点部がオプションになっている表現
- <font face='courier new'>&yen;.&yen;d\+ </font> ：ピリオドから始まって小数点不がある表現
- <font face='courier new'>&yen;s\*\&#036; </font>：文字列の末尾に空白文字が何文字あっても構わない

小数点付数にマッチするパターンを作成して，変数に代入します．

```Python
patternFloat = r'^\s*([+-]?(\d+\.?\d*|\.\d+))\s*$'
```

In [7]:
patternFloat = r'^\s*([+-]?(\d+\.?\d*|\.\d+))\s*$'

このパターンを使って，fullmatch()関数により一致する文字列を確認します．

```Python
result = re.fullmatch(patternFloat,' -12.3 ')
result
```

In [8]:
result = re.fullmatch(patternFloat,' -12.3 ')
result

<_sre.SRE_Match object; span=(0, 7), match=' -12.3 '>

このマッチ結果において，小数点付数の部分はgroup(1)に格納されます．

```Python
result.group(1)
```

In [9]:
result.group(1)

'-12.3'

この小数点付数のマッチングパターンはデータクレンジングで活用します．

なお，正規表現パターンの先頭の「<font face='courier new'>^&yen;s\*</font>」と
最後尾の「<font face='courier new'>&yen;s\*\$</font>」を削除すれば文中の小数点付数の検索に利用できます．

*****