# 正規表達式 Regular Expression

In [None]:
# 匯入 regex 套件
import re

In [None]:
# search
'''
說明
re.search 會將整個字串進行搜尋，
但只會比對到第一組，
match[0]是regex所代表的整個完整比對的字串，
match[1]是第一組()中的內容，
match[2]是第二組()中的內容...
'''
regex01 = r'[a-zA-Z]([12])\d{8}'
string01 = "A123456789, S299888777"
match01 = re.search(regex01, string01)
print(match01)
print(match01[0])
print(match01[1])

'''
補充:
match.group() 或 match.group(0) 是regex所代表的整個完整比對的字串，
match.group(1)是第一組()中的內容，
match.group(2)是第二組()中的內容...
'''
print(match01.group(0))
print(match01.group(1))

In [None]:
# findall
'''
說明
re.findall 會將所有配對到的字串
回傳成一個 list
'''
regex02 = r'[0-9]+'
string02 = "0911111111, 0922222222, 0933333333"
listMatch02 = re.findall(regex02, string02)
print(listMatch02)
print(listMatch02[0])
print(listMatch02[2])

In [None]:
# finditer
'''
說明
re.finditer 會將所有配對到的字串
以迭代的方式呈現，若沒有配對到，則回傳 None
'''
regex03 = r'[0-9]+'
string03 = "0911111111, 0922222222, 0933333333"
iterableMatch03 = re.finditer(regex03, string03)
if iterableMatch03 != None:
    for match in iterableMatch03:
        print(match[0])

In [None]:
# match
'''
說明
re.match 與 re.search 的差別，
在於 match 會從字串的「開頭」開始比對，
比對不到，便回傳 None
'''
regex04 = r'2[0-9]{3}\/[0-1]?[0-9]{1}\/([0-3]?[0-9])'
string04 = "2022/06/30"
match04 = re.match(regex04, string04)
print(match04)
print(match04[0])
print(match04[1])

In [None]:
# split
'''
說明
re.split 類似 string.split('separator')，
只是用正規表達式來作為 separator，
並回傳 list
'''
regex06 = r'\d'
string06 = "One1Two2Three3Four4"
listMatch06 = re.split(regex06, string06)
print(listMatch06)

In [None]:
# sub
'''
說明
re.sub(regex, replace_string, test_string)
將 regex 所代表的文字，改成 replace_string，文字來源是 test_string
'''
regex07 = r"\D"
string07 = "5-20 #1314"
strResult = re.sub(regex07, "", string07)
print(strResult)

# 環視
| 名稱 | 語法 | 說明 |
|:---:|:---:|:---:|
| 正向環視 | (?=) | 這位置右邊要出現什麼 |
| 正向環視否定 | (?!) | 這位置右邊不能出現什麼 |
| 反向環視 | (?<=) | 這位置左邊要出現什麼 |
| 反向環視否定 | (?<!) | 這位置左邊不能出現什麼 |

In [None]:
# 環視 (例如去除中文字旁邊的空白)
regex08 = r"\s(?![a-zA-Z])" # 也可以寫成 r"(?<![a-zA-Z])\s"
string08 = "一 天 一 蘋 果 醫 生 遠 離 我。An apple a day keeps the doctor away."
strResult = re.sub(regex08, '', string08)
print(strResult)

In [None]:
# 環視 (加入千分位)
regex09 = r'(?<=\d)(?=(\d{3})+\b)'
string09 = '1234567890'
strResult = re.sub(regex09, ',', string09)
print(strResult)

---
# 具名群組

In [None]:
'''
補充:
除了 .group(n) 以外，
還可以用 key 來代替 n。
'''
# 身分證字號
regex08 = r'[A-Z](?P<gender>[12])\d{8}'
string08 = "A100000001"
match08 = re.match(regex08, string08)

# 完整配對的文字
print(match08[0])
print(match08.group(0))
print(match08.group())

# 具名(類似key)所代表的值，也可以用索引代號來取得
print(match08.group('gender'))
print(match08['gender'])
print(match08[1])

# 參考資料
1. [Python3 正则表达式](https://www.runoob.com/python3/python3-reg-expressions.html "Python3 正则表达式")
2. [正則表達式-全型英數中文字、常用符號unicode對照表](https://blog.typeart.cc/%E6%AD%A3%E5%89%87%E8%A1%A8%E9%81%94%E5%BC%8F-%E5%85%A8%E5%9E%8B%E8%8B%B1%E6%95%B8%E4%B8%AD%E6%96%87%E5%AD%97%E3%80%81%E5%B8%B8%E7%94%A8%E7%AC%A6%E8%99%9Funicode%E5%B0%8D%E7%85%A7%E8%A1%A8/ "正則表達式-全型英數中文字、常用符號unicode對照表")
3. [匹配中文字符的正則表達式： [/u4e00-/u9fa5]](https://www.itread01.com/content/1513168876.html "匹配中文字符的正則表達式： [/u4e00-/u9fa5]")
4. [【Regular Expression】正向環視、反向環視](https://toyo0103.blogspot.com/2017/01/regular-expression.html "【Regular Expression】正向環視、反向環視")