In [1]:
import re

- 参考：https://note.nkmk.me/python-re-match-search-findall-etc/
- 文字列の前に，rをつけるraw文字列と扱い，例えば＼を特別文字扱いしてくれる（\n, \t）とか

## match
- 文字列の"先頭が"パターンにマッチするとマッチオブジェクトを返す
- 先頭にない場合は，Noneを返す

In [28]:
s = 'aaa@xxx.com, bbb@yyy.com, ccc@zzz.net'

m = re.match(r'([a-z]+)@([a-z]+)\.com', s)
print(m)

<_sre.SRE_Match object; span=(0, 11), match='aaa@xxx.com'>


In [29]:
s = 'aaa@xxx.com, bbb@yyy.com, ccc@zzz.net'

# 先頭でない場合は，None
print(re.match(r'([a-z]+)@([a-z]+)\.net', s))

None


- [a-z]: aからzまでのいずれかの文字
- +: 直前のパターンを１回以上繰り返すという意味
- .は，特殊な文字なので，\つける必要がある

In [30]:
print(m.start())  # matchした初めの位置
print(m.end())  # matchした終わりの位置
print(m.span())  # matchした位置の範囲

0
11
(0, 11)


In [31]:
print(m.group())  # matchした文字列

aaa@xxx.com


## search
- 文字列すべてが検索対象で、先頭にない文字列にもマッチする。
- ただし，マッチする部分が複数ある場合は、"最初のマッチ部分のみ"が返される。

In [32]:
s = 'aaa@xxx.com, bbb@yyy.com, ccc@zzz.net'

m = re.search(r'[a-z]+@[a-z]+\.net', s)
print(m)

<_sre.SRE_Match object; span=(26, 37), match='ccc@zzz.net'>


In [33]:
print(m.start())  # matchした初めの位置
print(m.end())  # matchした終わりの位置
print(m.span())  # matchした位置の範囲

26
37
(26, 37)


## fullmatch
- 文字列全体が正規表現パターンにマッチしているかどうかの確認
- 例えば、ある文字列がメールアドレスとして有効かどうかなどをチェックする場合に便利

In [34]:
s = '!!!aaa@xxx.com!!!'

m = re.match(r'[a-z]+@[a-z]+\.com$', s)
print(m)

None


# findall
- マッチするすべての部分文字列をリストにして返す
- リストの要素はマッチオブジェクトではなく文字列なので注意

In [35]:
s = 'aaa@xxx.com, bbb@yyy.com, ccc@zzz.net'

result = re.findall(r'[a-z]+@[a-z]+\.[a-z]+', s)
print(result)

['aaa@xxx.com', 'bbb@yyy.com', 'ccc@zzz.net']


In [37]:
# マッチオブジェクトを返すには，()で囲む，するとタプルで返す
result = re.findall(r'([a-z]+)@([a-z]+)\.([a-z]+)', s)
print(result)

[('aaa', 'xxx', 'com'), ('bbb', 'yyy', 'com'), ('ccc', 'zzz', 'net')]


In [39]:
# １つもマッチしない場合，空のリストを返す
result = re.findall('[0-9]+', s)
print(result)

[]


## finditer
- マッチするすべての部分をイテレータで返す

In [41]:
s = 'aaa@xxx.com, bbb@yyy.com, ccc@zzz.net'

result = re.finditer(r'[a-z]+@[a-z]+\.[a-z]+', s)
print(result)

for m in result:
    print(m.group())

<callable_iterator object at 0x7f895504e2b0>
aaa@xxx.com
bbb@yyy.com
ccc@zzz.net


# sub, subn
- マッチした部分を他の文字列に置換
- 特に，subnの場合は，置換した文字列と置換された個数のタプルが返ってくる

In [42]:
s = 'aaa@xxx.com, bbb@yyy.com, ccc@zzz.net'

result = re.sub(r'[a-z]+@[a-z]+\.com', 'new-address', s)
print(result)

new-address, new-address, ccc@zzz.net


In [43]:
# countで最大置換数を指定
result = re.sub(r'[a-z]+@[a-z]+\.com', 'new-address', s, count=1)
print(result)

new-address, bbb@yyy.com, ccc@zzz.net


In [44]:
result = re.subn(r'[a-z]+@[a-z]+\.com', 'new-address', s)
print(result)

('new-address, new-address, ccc@zzz.net', 2)


## split
- パターンにマッチした部分で文字列を分割し、リストにして返す
- 先頭・末尾にマッチする場合、結果のリストの最初と最後に空文字列''が含まれるので注意。

In [45]:
s = '111aaa222bbb333'

result = re.split('[a-z]+', s)
print(result)

result = re.split('[0-9]+', s)
print(result)

['111', '222', '333']
['', 'aaa', 'bbb', '']


## その他

- \w: 任意の英数字（[a-zA-Z0-9_]）, また全角の日本語にもマッチ

In [46]:
m = re.match(r'\w+', 'あいう漢字ＡＢＣ１２３')
print(m)

<_sre.SRE_Match object; span=(0, 11), match='あいう漢字ＡＢＣ１２３'>


- \d: 任意の数字 [0-9]

In [64]:
m = re.findall(r'\d+', 'あいう漢字ＡＢＣ１２３')
print(m)

['１２３']


- \s: 任意の空白文字
	[\t\n\r\f\v]

In [70]:
m = re.split(r'\s+', 'あいう 漢字 ＡＢＣ １２３')
print(m)

m = re.split(r'\s+', 'あいう\t漢字\tＡＢＣ\t１２３')
print(m)

['あいう', '漢字', 'ＡＢＣ', '１２３']
['あいう', '漢字', 'ＡＢＣ', '１２３']


- 大文字小文字

In [47]:
m = re.match('[a-zA-Z]+', 'abcABC')
print(m)

<_sre.SRE_Match object; span=(0, 6), match='abcABC'>


- ^: 文字列全体の先頭のみにマッチ
- $: 文字列全体の末尾のみにマッチ

In [49]:
s = '''aaa-xxx
bbb-yyy
ccc-zzz'''

result = re.findall('[a-z]+', s)
print(result)

result = re.findall('^[a-z]+', s)
print(result)

result = re.findall('[a-z]+$', s)
print(result)

['aaa', 'xxx', 'bbb', 'yyy', 'ccc', 'zzz']
['aaa']
['zzz']


# ※例題

- // 「東京」で始まる文字列

In [58]:
"^東京.*"  #"."が任意の1文字で，"*"が0回以上の繰り返しなので，任意の文字列が後に続くことを意味する

'^東京.*'

- 「だよね。」で終わる文字列

In [56]:
".*だよね。$"

'.*だよね。$'

- 「〇〇cm」と書かれた数値

In [57]:
"[0-9]+cm"

'[0-9]+cm'

- 2015 2016 2017 2018 2019 の5つの文字列を行を検索したい場合

In [52]:
"201[5-9]"

'201[5-9]'

- 利用者に携帯電話の電話番号を入力してもらうテキストボックスがあった場合. 携帯電話の電話番号は 090-xxxx-xxxx のように 070 または 080 または 090 で始まり、4 桁の数値が 2 つ続くものとする. 

In [53]:
"^0[789]0-\d{4}-\d{4}$"

'^0[789]0-\\d{4}-\\d{4}$'

"*"と"+"の違い
- "*": 0回以上の繰り返し
- "+": 1回以上の繰り返し

In [62]:
text = "ab a abb abbb"

print(re.findall('ab*', text))  # *の場合は直前の文字が含まれない場合も含める
print(re.findall('ab+', text))

['ab', 'a', 'abb', 'abbb']
['ab', 'abb', 'abbb']


".*"と""