In [2]:
import re

---
## 1) re.compile() 建立模式物件 Patttern Object

In [66]:
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com"

#建立模式對象
pattern_obj = re.compile(pattern=r"(.*)@(?!gmail)\w+\.com")

#進行配對(請注意這裡是使用pattern.search配對)
x1 = pattern_obj.search(txt) #先別擔心re.research的作用(後續會說明)
print(x1.group())

SaveTheWorld@hotmail.com


---
## 2) re.search() 僅配對第一個出現的，找到即停止 (返回 string)

In [31]:
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com \n zzzGroup@yahoo.com"
pattern = r".*@(?!gmail)\w+\.com"

match = re.search(pattern, txt)
print('返回的資料型態：', type(match))
print('返回的物件：', match)

print(f'配對起點: {match.start()}; 配對終點: {match.end()}') #使用.start(), .end()返回配對的起點與終點

print(f'配對文字: {match.group()}') #使用.group() or .group(0)返回配對的字串

#可以由返回的結果發現, re.search()只返回第一個配對的對象, 最後一個 email address 也符合配對但沒有返回

返回的資料型態： <class 're.Match'>
返回的物件： <re.Match object; span=(0, 24), match='SaveTheWorld@hotmail.com'>
配對起點: 0; 配對終點: 24
配對文字: SaveTheWorld@hotmail.com


In [8]:
#若無可滿足配對, re.search 會返回 None
txt = "foobar@gmail.com" #這裡只保留不滿足配對的email
pattern = r".*@(?!gmail)\w+\.com" 
match = re.search(pattern, txt)
print(match)

None


---
## 3) re.match() 僅配對開頭 (返回 string)

In [30]:
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com \n zzzGroup@yahoo.com" 
pattern = r".*@(?!gmail)\w+\.com"

match = re.match(pattern, txt)
print('返回的資料型態：', type(match))
print('返回的物件：', match)

print(f'配對起點: {match.start()}; 配對終點: {match.end()}') #使用.start(), .end()返回配對的起點與終點

print(f'配對文字: {match.group()}') #使用.group() or .group(0)返回配對的字串

#發現第一個開頭配對成功後返回 Match 物件實例

返回的資料型態： <class 're.Match'>
返回的物件： <re.Match object; span=(0, 24), match='SaveTheWorld@hotmail.com'>
配對起點: 0; 配對終點: 24
配對文字: SaveTheWorld@hotmail.com


In [19]:
#若開頭無法配對成功，即返回 None
txt = "foobar@gmail.com \n SaveTheWorld@hotmail.com \n zzzGroup@yahoo.com" #將不符合配對的 email 移到字串開頭
pattern = r".*@(?!gmail)\w+\.com" 

match = re.match(pattern, txt)
print(match)

#與 search 比較
search = re.search(pattern, txt)
print(search)

None
<re.Match object; span=(18, 43), match=' SaveTheWorld@hotmail.com'>


---
## 4) re.findall() 找出所有配對 (返回 list 物件)

In [28]:
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com \n zzzGroup@yahoo.com"
pattern = r".*@(?!gmail)\w+\.com" #這裡使用原始字串作為配對

match = re.findall(pattern, txt)
print('返回的資料型態：', type(match)) #list 物件
print('返回的物件：', match)

返回的資料型態： <class 'list'>
返回的物件： ['SaveTheWorld@hotmail.com', ' zzzGroup@yahoo.com']


In [34]:
pattern = r"(.*)@(?!gmail)(\w+)\.com" #將.* 改為 group的形式(.*), 且 \w+ 改為 (\w+)

match = re.findall(pattern, txt)
print('返回的資料型態：', type(match))
print('返回的物件：', match)

返回的資料型態： <class 'list'>
返回的物件： [('SaveTheWorld', 'hotmail'), (' zzzGroup', 'yahoo')]


---
## 5) re.finditer() 找出所有配對字串 (返回 iterator)

In [35]:
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com \n zzzGroup@yahoo.com"
pattern = r".*@(?!gmail)\w+\.com" #這裡使用原始字串作為配對

match = re.finditer(pattern, txt)
print('返回的資料型態：', type(match)) #list 物件
print('返回的物件：', match)

返回的資料型態： <class 'callable_iterator'>
返回的物件： <callable_iterator object at 0x1051fabb0>


In [37]:
for ma in match:
    print(ma)
    print(f'配對起點: {ma.start()}, 配對終點: {ma.end}')
    print('\n')

<re.Match object; span=(0, 24), match='SaveTheWorld@hotmail.com'>
配對起點: 0, 配對終點: <built-in method end of re.Match object at 0x1052120a0>


<re.Match object; span=(45, 64), match=' zzzGroup@yahoo.com'>
配對起點: 45, 配對終點: <built-in method end of re.Match object at 0x105212110>




---
## 6) re.sub(pat, repl, target_str, count=0, flag=0) 
* target_str 中配對到 pat 即替換成 repl

In [43]:
txt = "SaveTheWorld@hotmail.com \nfoobar@gmail.com \nzzzGroup@yahoo.com" 
pattern = r".*@(?!gmail)\w+\.com" #這裡使用原始字串作為配對
print(txt)

SaveTheWorld@hotmail.com 
foobar@gmail.com 
zzzGroup@yahoo.com


In [46]:
match = re.sub(pattern, 'REPLACE', txt, count=0)
print(match)

REPLACE 
foobar@gmail.com 
REPLACE


In [47]:
match = re.sub(pattern, 'REPLACE', txt, count=1)
print(match)

REPLACE 
foobar@gmail.com 
zzzGroup@yahoo.com


### 6-1) re.subn() 同上，但會返回替換次數 (返回一個 tuple)

In [57]:
match = re.subn(pattern, 'REPLACE', txt, count=0)
print(type(match))
print(match)

<class 'tuple'>
('REPLACE \nfoobar@gmail.com \nREPLACE', 2)


In [58]:
match = re.subn(pattern, 'REPLACE', txt, count=1)
print(type(match))
print(match)

<class 'tuple'>
('REPLACE \nfoobar@gmail.com \nzzzGroup@yahoo.com', 1)


---
## 7) re.split() 從配對的字串分割 (返回 list)

In [65]:
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com \n zzzGroup@yahoo.com" 
pattern = r"\n" #這裡改為配對換行符號

In [62]:
match = re.split(pattern, txt)
print(len(match))
print(match)

3
['SaveTheWorld@hotmail.com ', ' foobar@gmail.com ', ' zzzGroup@yahoo.com']


In [64]:
match = re.split(pattern, txt, maxsplit=1) # maxsplit=分割組數
print(len(match))
print(match)

2
['SaveTheWorld@hotmail.com ', ' foobar@gmail.com \n zzzGroup@yahoo.com']


---
## flag 參數 (調整配對模式)

* re.I (re.IGNORECASE): 忽略大小寫模式
* re.M (re.MULTILINE): 多行模式
* re.S (re.DOTALL): 讓`.`可以匹配所有的字元 (原本`.`無法匹配換行字元)

---
## flag=re.I (忽略大小寫配對模式)

In [82]:
txt = "Leo123 \nkevin456 \n"
pattern = r"[a-z]+" #配對所有小寫a-z字符 

In [83]:
match = re.findall(pattern, txt) #使用預設的一般配對模式
print(match)

['eo', 'kevin']


In [84]:
match = re.findall(pattern, txt, flags=re.I)
print(match)

['Leo', 'kevin']


---
## flag=re.M (多行配對模式)

In [85]:
txt = "Leo123 \nkevin456 \n"
pattern = r"^[a-zA-Z]+"

In [86]:
match2 = re.findall(pattern, txt) #在\n換行符號後會視為新的字串來配對
print(match2)

['Leo']


In [87]:
match2 = re.findall(pattern, txt, flags=re.M) #使用多行配對模式 
print(match2)

['Leo', 'kevin']


---
## flag=re.S (DOTALL配對模式)

In [88]:
txt = "Leo123 \nkevin456 \n"
pattern = r".+" 

In [89]:
match = re.findall(pattern, txt)
print(match)

['Leo123 ', 'kevin456 ']


In [90]:
match = re.findall(pattern, txt, flags=re.S) #使用 DOTALL 配對模式
print(match)

['Leo123 \nkevin456 \n']


---
## 併用不同配對模式： flag=re.I|re.M

In [91]:
txt = "Leo123 \nkevin456 \n"
pattern = r"^[a-z]+" #配對所有開頭是a-z

match = re.findall(pattern, txt)
print(match)

<class 'list'>
[]


In [96]:
txt = "Leo123 \nkevin456 \n"
pattern = r"^[a-z]+" #配對所有開頭是小寫 a-z

match_I = re.findall(pattern, txt, flags=re.I) #抓出大寫，但少了 \n 的狀況
print(match_I)

match_M = re.findall(pattern, txt, flags=re.M) #抓出 \n 的狀況，但抓不到大寫
print(match_M)

['Leo']
['kevin']


In [97]:
match = re.findall(pattern, txt, flags=re.M|re.I) #抓出所有狀況
print(match)

['Leo', 'kevin']


---
## 語法對照

![re](re_functions.png)