# 正規表現のメタ文字、特殊シーケンス

|メタ文字|意味|
| --- | --- |
| . |改行以外の1文字(DOTALLフラグで改行も含む)|
| ^ |文字列の先頭(MULTILINEフラグで各行の先頭にもマッチ)|
| $ |文字列の末尾(MULTILINEフラグで各行の末尾にもマッチ)|
| * |直前のパターンを0回以上繰り返し|
| + |直前のパターンを1回以上繰り返し|
| ? |直前のパターンを0回または1回繰り返し|
| {m} |直前のパターンをm回繰り返し|
| {m, n} |直前のパターンをm～n回繰り返し|
| [] |文字の集合[]内のいずれか1文字にマッチ|
| | |OR(または) A|BでAまたはBのいずれかのパターンにマッチ|

|特殊シーケンス|意味|
| --- | --- |
|\d|数字|
|\D|数字以外|
|\s|Unicode空白文字|
|\S|Unicode空白文字以外|
|\w|アルファベットと数字|
|\W|アルファベットと数字以外|

## match()
### 文字列の先頭がマッチするかチェックする。マッチする場合は、マッチオブジェクトを返す。
### match()が調べるのは先頭のみで、先頭にマッチしない場合はNoneを返す。

In [35]:
import re
s = 'aaa@xxx.com, bbb@yyy.com, ccc@zzz.net'
print(f'対象文字: {s}')

m = re.match(r'[a-z]+@[a-z]+\.com', s)
print(f'[a-z]+@[a-z]+\.com: {m}')

n = re.match(r'[a-z]+@[a-z]+\.net', s)
print(f'[a-z]+@[a-z]+\.net: {n}')


対象文字: aaa@xxx.com, bbb@yyy.com, ccc@zzz.net
[a-z]+@[a-z]+\.com: <re.Match object; span=(0, 11), match='aaa@xxx.com'>
[a-z]+@[a-z]+\.net: None
aaa@xxx.com


In [26]:
pattern = 'Does'
pattern2 = ""
text = 'Does this text match the pattern?'
match = re.match(pattern, text)
match2 = re.match(pattern2, text)

print(f'match: {match}')
print(f'match2: {match2}')


match: <re.Match object; span=(0, 4), match='Does'>
match2: <re.Match object; span=(0, 0), match=''>


## search()
### 先頭に限らずマッチするかチェックする。マッチする場合は、マッチオブジェクトを返す。
### マッチする部分が複数ある場合は、最初のマッチ部分のみが返される。

In [43]:
text = 'aaa@xxx.com, bbb@yyy.com, ccc@zzz.net'
print(f'text: {s}')

m = re.search(r'[a-z]+@[a-z]+\.net', s)
print(f'[a-z]+@[a-z]+\.com: {m}')

n = re.search(r'[a-z]+@[a-z]+\.com', s)
print(f'[a-z]+@[a-z]+\.net: {n}')

text: aaa@xxx.com, bbb@yyy.com, ccc@zzz.net
[a-z]+@[a-z]+\.com: <re.Match object; span=(26, 37), match='ccc@zzz.net'>
[a-z]+@[a-z]+\.net: <re.Match object; span=(0, 11), match='aaa@xxx.com'>


In [25]:
pattern = 'search'
pattern2 = "Search"
text = 'Does this text search the pattern?'
search = re.search(pattern, text)
search2 = re.search(pattern2, text)

print(f'search: {search}')
print(f'search2: {search2}')

search: <re.Match object; span=(15, 21), match='search'>
search2: None


## fullmatch()
### 文字列全体がマッチするかチェックする。マッチする場合は、マッチオブジェクトを返す。
### マッチしない部分がある場合はNoneを返す。

In [17]:
s = 'aaa@xxx.com'
r = '!!!aaa@xxx.com!!!'

m = re.fullmatch(r'[a-z]+@[a-z]+\.com', s)
print(f'aaa@xxx.com: {m}')

n = re.fullmatch(r'[a-z]+@[a-z]+\.com', r)
print(f'!!!aaa@xxx.com!!!: {n}')

# fullmatch()はpython3.4で追加。それまでは、matchと末尾にマッチするメタ文字「$」を利用する。
o = re.match(r'[a-z]+@[a-z]+\.com$', r)
print(f'!!!aaa@xxx.com!!!: {o}')


aaa@xxx.com: <re.Match object; span=(0, 11), match='aaa@xxx.com'>
!!!aaa@xxx.com!!!: None
!!!aaa@xxx.com!!!: None


## findall()
### マッチする部分すべてをリストで取得
### リストの要素はマッチオブジェクトではなく文字列なので注意

In [19]:
s = 'aaa@xxx.com, bbb@yyy.com, ccc@zzz.net'

result = re.findall(r'[a-z]+@[a-z]+\.[a-z]+', s)
print(f'findall(): {result}')

# マッチした部分が何個あるかはlen()を使う。
print(f'マッチした部分: {len(result)}')

findall(): ['aaa@xxx.com', 'bbb@yyy.com', 'ccc@zzz.net']
マッチした部分: 3


## finditer()
### マッチする部分すべてをイテレータで取得
### マッチした部分の位置(インデックス)なども取得できる。
### for文などで中身が一つずつ取り出せる。

In [29]:
s = 'aaa@xxx.com, bbb@yyy.com, ccc@zzz.net'

result = re.finditer(r'[a-z]+@[a-z]+\.[a-z]+', s)
print(f'finditer: {result}')

for match in result:
    print(match)

finditer: <callable_iterator object at 0x00000229548B8F88>
<re.Match object; span=(0, 11), match='aaa@xxx.com'>
<re.Match object; span=(13, 24), match='bbb@yyy.com'>
<re.Match object; span=(26, 37), match='ccc@zzz.net'>


## sub()
### 完全一致ではなく正規表現にマッチした文字列を置換したい場合はreモジュールのsub()関数を使う。
### replace()やtranslate()では置換元文字列に完全一致した場合に置換される。

In [30]:
s = 'aaa@xxx.com, bbb@yyy.com, ccc@zzz.net'

result = re.sub(r'[a-z]+@[a-z]+\.com', 'new-address', s)
print(f'sub(): {result}')

sub(): new-address, new-address, ccc@zzz.net


## comile()
### 正規表現パターンを事前にコンパイルする。

In [47]:
regexes = [re.compile(p) for p in ['this', 'that']]
text = 'Does this text match the pattern?'
print(f'text: {text}')

for regexe in regexes:
    if regexe.search(text):
        print(f'{regexe}: match')
    else:
        print(f'{regexe}: not match')


text: Does this text match the pattern?
re.compile('this'): match
re.compile('that'): not match


## マッチオブジェクト  
|メソッド|意味|
| --- | --- |
| group() | マッチした文字列を返す |
| start() | マッチした文字列の開始位置を返す。 |
| end() | マッチした文字列の終了位置を返す。 |
| span() | マッチした文字列の開始終了位置のタプルを返す。 |

In [39]:
text = "123456abcedf789ghi"
matchobj = re.search(r'[a-z]+', text)

print(f'group(): {matchobj.group()}')
print(f'start(): {matchobj.start()}')
print(f'end(): {matchobj.end()}')
print(f'span(): {matchobj.span()}')

group(): abcedf
start(): 6
end(): 12
span(): (6, 12)
