In [7]:
import re # 匯入Regular Expression套件

In [11]:
# re.search
'''
re.search 搜尋整個字串，但只會找出「第一組」符合條件的
re.match[0]是 regex所代表的整個完整比對的字串，
match[1]是第一組()中的內容，
match[2]是第二組()中的內容...
'''
regex01 = r'[A-Za-z]([12])\d{7}(\d)' # 正規表達式
string01 = "A123456789, S299888777" # 資料字串
match01 = re.search(regex01,string01)
print('re.Match物件:',match01)
print('比對到的字串:',match01[0])
print('第一組捕獲組（Capturing Group）所捕獲:',match01[1])
print('第二組捕獲組（Capturing Group）所捕獲:',match01[2])
print('比對到的字串:',match01.group(0))
print('第一組捕獲組（Capturing Group）所捕獲:',match01.group(1))
print('第二組捕獲組（Capturing Group）所捕獲:',match01.group(2))

re.Match物件: <re.Match object; span=(0, 10), match='A123456789'>
比對到的字串: A123456789
第一組捕獲組（Capturing Group）所捕獲: 1
第二組捕獲組（Capturing Group）所捕獲: 9
比對到的字串: A123456789
第一組捕獲組（Capturing Group）所捕獲: 1
第二組捕獲組（Capturing Group）所捕獲: 9


In [17]:
# re.findall
'''
re.findall 搜尋整個字串，找出所有配對到的字串（即是global的概念）
回傳一個 list
'''
regex02 = r'09[\d]{8}'
string02 = "0911111111, 0922222222, 0933333333"
listMatch02 = re.findall(regex02, string02)
print('Whole List (listMatch02) =',listMatch02)
print('listMatch02(0) =',listMatch02[0])
print('listMatch02(2) =',listMatch02[2])

Whole List (listMatch02) = ['0911111111', '0922222222', '0933333333']
listMatch02(0) = 0911111111
listMatch02(2) = 0933333333


In [24]:
# re.finditer
'''
re.finditer 將所有配對到的字串以迭代的方式呈現，每一組都是re.Match物件
若沒有配對到，則回傳 None (Python的null)
'''
regex03 = r'09[\d]{8}'
string03 = "0911111111, 0922222222, 0933333333"
iterableMatch03 = re.finditer(regex03, string03)
print(iterableMatch03)
if iterableMatch03 != None:
    for x in iterableMatch03:
        print('Match object =',x)
        print('Match object[x] =',x[0])

<callable_iterator object at 0x7fc1349b39d0>
Match object = <re.Match object; span=(0, 10), match='0911111111'>
Match object[x] = 0911111111
Match object = <re.Match object; span=(12, 22), match='0922222222'>
Match object[x] = 0922222222
Match object = <re.Match object; span=(24, 34), match='0933333333'>
Match object[x] = 0933333333


In [37]:
# re.match
'''
match 從字串的「開頭」開始比對，
re.match 與 re.search 的差別在於若match比對不到，則回傳 None
'''
regex04 = r'2[0-9]{3}\/[0-1]?[0-9]{1}\/([0-3]?[0-9])'
string04 = "2022/06/30 ,2002/08/27"
match04 = re.match(regex04,string04)
print('Match object =', match04)
print('match04[0] =', match04[0])
print('match04[1] =', match04[1])

Match object = <re.Match object; span=(0, 10), match='2022/06/30'>
match04[0] = 2022/06/30
match04[1] = 30


In [41]:
# re.split
'''
re.split 類似 string.split('separator')，
只是用正規表達式來作為 separator，
回傳 list
'''
regex06 = r'\d'
string06 = "One1Two2Three3Four4"
listMatch06 = re.split(regex06, string06)
print(listMatch06)
for x in listMatch06:
    print(x)

['One', 'Two', 'Three', 'Four', '']
One
Two
Three
Four



In [42]:
# string.split補充
string = '1.2.3.4.5.6.7'
x = string.split('.')
print(x)

['1', '2', '3', '4', '5', '6', '7']


In [44]:
# re.sub
'''
說明
re.sub(regex, replace_string, test_string)
將 regex 所代表的文字，改成 replace_string，文字來源是 test_string
'''
regex07 = r"\D"
string07 = "5-20 #1314"
strResult = re.sub(regex07, "", string07) # 將\D（任何非數字）替換為''（空字串）
print(int(strResult))

5201314


---
# Look Around 環視
--> 正向環視（Lookahead）、反向環視（Lookbehind）

In [46]:
# 環視 (例如去除中文字旁邊的空白)
# \s任何空白字元
regex08 = r"\s(?![a-zA-Z])" # 任何空白字元右邊不能出現大小寫英文字幕，也可以寫成 r"(?<![a-zA-Z])\s"任何空白字元元的左側不能出現大小寫英文字母
string08 = "一 天 一 蘋 果 醫 生 遠 離 我。An apple a day keeps the doctor away."
strResult = re.sub(regex08, '', string08) # 去除regex08，替換成''，來源是string08
print(strResult)

一天一蘋果醫生遠離我。An apple a day keeps the doctor away.


In [56]:
# 環視 (加入千分位)
regex09 = r'(?<=\d)(?=(\d{3})+\b)' # ''的右邊是「多個」三個\d數字跟一個\b邊界，左邊至少要有一個數字
string09 = '123456789000'
strResult = re.sub(regex09, ',', string09)
print(strResult)

123,456,789,000


---
# 具名群組

In [60]:
'''
補充:
除了 .group(n) 以外，
還可以用 key 來代替 n。
'''
# 身分證字號
regex08 = r'[A-Za-z](?P<sex>[12])\d{8}'
string08 = "A100000001"
match08 = re.search(regex08, string08)

# 完整配對的文字
print(match08)
print(match08[0])
print(match08.group(0))
print(match08.group(1))

# 具名(類似key)所代表的值，也可以用索引代號來取得
print(match08.group('sex'))
print(match08['sex'])
print(match08[1])

<re.Match object; span=(0, 10), match='A100000001'>
A100000001
A100000001
1
1
1
1
