# 正規表達式

In [2]:
import re

In [6]:
# search
'''
說明
re.search 會將整個字串進行搜尋，
但只會比對到第一組，
match[0]是regex所代表的整個完整比對的字串，
match[1]是第一組()中的內容，
match[2]是第二組()中的內容...
'''
regex01 = r"[a-zA-Z]([12])[0-9]{8}"
string01 = "A123456789, S299888777"
match01 = re.search(regex01, string01)
print(match01)
print(match01[0])
print(match01[1])

'''
補充:
match.group() 或 match.group(0) 是regex所代表的整個完整比對的字串，
match.group(1)是第一組()中的內容，
match.group(2)是第二組()中的內容...
'''
print(match01.group(0))
print(match01.group(1))

<re.Match object; span=(0, 10), match='A123456789'>
A123456789
1
A123456789
1


In [9]:
# findall
'''
說明
re.findall 會將所有配對到的字串
回傳成一個 list
'''
regex02 = r"[0-9]+"
string02 = "0911111111, 0922222222, 0933333333"
match02 = re.findall(regex02, string02)
print(match02)
print(match02[0])
print(match02[2])

['0911111111', '0922222222', '0933333333']
0911111111
0933333333


In [11]:
# finditer
'''
說明
re.finditer 會將所有配對到的字串
以迭代的方式呈現，若沒有配對到，則回傳 None
'''
regex03 = r"[0-9]+"
string03 = "0911111111, 0922222222, 0933333333"
match03 = re.finditer(regex03, string03)
if match03 != None:
    for match in match03:
        print(match[0])

0911111111
0922222222
0933333333


In [3]:
# match
'''
說明
re.match 與 re.search 的差別，
在於 match 會從字串的「開頭」開始比對，
比對不到，便回傳 None
'''
regex04 = r"2[0-9]{3}\/([0]?[1-9]|[1]?[0-2])\/([12][0-9]\b|[3][01]\b|[0]?[1-9]\b)"
string04 = "2022/06/20"
match04 = re.match(regex04, string04)
print(match04)
print(match04[0])
print(match04[1])
print(match04[2])

<re.Match object; span=(0, 10), match='2022/06/20'>
2022/06/20
06
20


In [21]:
# split
'''
說明
re.split 類似 string.split('separator')，
只是用正規表達式來作為 separator，
並回傳 list
'''
regex05 = r"\d"
string05 = "One1Two2Three3Four4"
match05 = re.split(regex05, string05)
print(match05)

['One', 'Two', 'Three', 'Four', '']


In [22]:
# sub
'''
說明
re.sub(regex, replace_string, test_string)
將 regex 所代表的文字，改成 replace_string，文字來源是 test_string
'''
regex06 = r"\D"
string06 = "5-20 #1314"
match06 = re.sub(regex06, "", string06)
print(match06)

5201314


# 環視

In [25]:
# 環視 (例如去除中文字旁邊的空白)
regex07 = r"\s(?![A-Za-z])"
string07 = "一 天 一 蘋 果 醫 生 遠 離 我。An apple a day keeps the doctor away."
match07 = re.sub(regex07, "", string07)
print(match07)

一天一蘋果醫生遠離我。An apple a day keeps the doctor away.


In [30]:
# 環視 (加入千分位)
regex08 = r"(?<=\d)(?=(\d{3})+\b)"
string08 = '1234567890'
match08 = re.sub(regex08, ",", string08)
print(match08)

1,234,567,890


# 具名群組

In [36]:
'''
補充:
除了 .group(n) 以外，
還可以用 key 來代替 n。
'''
regex09 = r"[A-Z](?P<SEX>[12])\d{8}"
string09 = "A100000001"
match09 = re.match(regex09, string09)

# 完整配對的文字
print(match09[0])
print(match09.group(0))
print(match09.group())

# 具名(類似key)所代表的值，也可以用索引代號來取得
print(match09[1])
print(match09["SEX"])
print(match09.group("SEX"))

A100000001
A100000001
A100000001
1
1
1
