<a href="https://colab.research.google.com/github/WakabayashiTetsu/WakabayashiTetsu.github.io/blob/master/%E6%AD%A3%E8%A6%8F%E8%A1%A8%E7%8F%BE%E3%81%AB%E3%82%88%E3%82%8B%E3%83%91%E3%82%BF%E3%83%BC%E3%83%B3%E3%83%9E%E3%83%83%E3%83%81%E3%83%B3%E3%82%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 正規表現によるパターンマッチング

正規表現：検索するパターン

正規表現の理解を助けるサイトは[こちら](https://www.regexpal.com/)

## 正規表現の利用に必要な手順

1. 正規表現モジュールをインストール：`import re`
2. Regexオブジェクトの生成：`re.compile()`
3. Matchオブジェクトの生成：`Regexオブジェクト.search()`
4. マッチした文字列の取得：`Matchオブジェクト.group()`

In [None]:
import re
content = r"(\d\d\d)-(\d\d\d-\d\d\d\d)"
pattern = '私の電話番号は080-657-7758です'
phone_num_regex = re.compile(content)
mo = phone_num_regex.search(pattern)
mo.group()

'080-657-7758'

## `group()`メソッド

グループごとにマッチした文字列を取得
0を渡すか、何も渡さなければ、マッチした文字列全体を返す

In [None]:
mo.group(1)

'080'

In [None]:
mo.group(2)

'657-7758'

In [None]:
mo.group(0)

'080-657-7758'

## 縦線を使って複数のグループとマッチする

`|`によって、複数のパターンのうちのひとつとマッチできる

1度マッチすると、それ以降の文字列は無視される

`findall()`メソッドを使うと、すべてのマッチした箇所を取得できる

In [None]:
hero_regex = re.compile(r"Batman|Tina Fey")
mo1 = hero_regex.search("Batman and Tina Fey")
mo1.group()

'Batman'

In [None]:
mo2 = hero_regex.search("Tina Fey and Batman")
mo2.group()

'Tina Fey'

## 疑問符を用いて任意のマッチ

疑問符`?`を用いると、その直前のパターンを任意パターンとして指定

`?`は**直前のグループに0回か1回マッチする**

In [None]:
bat_regex = re.compile(r'Bat(wo)?man')
mo1 = bat_regex.search('The Adventure of Batman')
mo1.group()

'Batman'

In [None]:
mo2 = bat_regex.search('The Adventure of Batwoman')
mo2.group()

'Batwoman'

In [None]:
mo3 = bat_regex.search('The Adventure of Batwowowowowoman')
mo3 == None

True

## アスタリスクを用いた０回以上のマッチ

`*`は**0回以上にマッチする**

In [None]:
bat_regex = re.compile(r'Bat(wo)*man')

In [None]:
mo4 = bat_regex.search('The Adventure of Batwowowowowoman')
mo4.group()

'Batwowowowowoman'

## プラスを用いた１回以上のマッチ

`+`は**1回以上にマッチする**

`*`：直前のグループが出現しなくてもよい

`+`：直前のグループが少なくとも1回は出現する必要がある

In [None]:
bat_regex = re.compile(r'Bat(wo)+man')

In [None]:
mo5 = bat_regex.search('The Adventure of Batman')
mo5 == None

True

## 波カッコを用いて繰返し回数を指定する

グループの繰返し回数を指定したいときは**波カッコの中に回数を指定**

カンマで区切って最小値と最大値を指定

In [None]:
ha_regex = re.compile(r'(Ha){4,5}')

In [None]:
mo1 = ha_regex.search('HaHaHaHa')
mo1.group()

'HaHaHaHa'

In [None]:
mo3 = ha_regex.search('HaHaHaHaHaHaHaHaHaHaHaHaHa')
mo3.group()

'HaHaHaHaHa'

In [None]:
mo4 = ha_regex.search('HaHaHa')
mo4 == None

True

4または5回にマッチするけど、最大回数にマッチする「**貪欲**」

In [None]:
mo2 = ha_regex.search('HaHaHaHaHa')
mo2.group()

'HaHaHaHaHa'

閉じカッコのあとに疑問符`?`をつけると「**非貪欲**」なマッチを指定できる

In [None]:
nonGreedy_Ha_regex = re.compile(r'(Ha){1,5}?')
mo5 = nonGreedy_Ha_regex.search('HaHaHaHaHaHa')
mo5.group()

'Ha'

### ◎正規表現における`?`の役割

* 任意グループの指定
* 非貪欲マッチの指定