## 利用Python re 模組來進行正規表達式配對

在先前課程中所學的Regular Expression(正規表達式),是可以匹配文字片段的一種模式。要使用Regex來處理字串,我們必須要使用支援Regex的工具。而在Python中的re模組就是專們用來支援處理Regex的模組工具。

### Python 字串前綴

在正規表達式中，我們常會使用到反斜線(`\`)來表達一些特殊配對，像是 `\w: 配對任何數字字母底線`、`\b: 字詞字元邊界`、`\s: 任何空白字元` 等等。但在Python中，反斜線(`\`)會被當作是特殊符號得跳脫字元，像是`\n`代表換行，加上跳脫字元後`\\n`即代表一般`\n`符號。 

為了避免字串中出現過多的反斜線，進而導致難以維護正規表達式的配對，因此我們可以使用原始字串前綴`r"str"`。 因此`r"\n" == "\\n"`。

因此為了避免出現特殊符號問題，習慣上我們會將正規表達式的模式對象加上字串前綴。(ex: `r"\W\.\D"`)

In [44]:
# 請注意以下的打印差異
print('this is \n a test') #換行
print('----分隔線----')
print('this is \\n a test') #反斜線跳脫字元
print('----分隔線----')
print(r'this is \n a test') #原始字串

this is 
 a test
----分隔線----
this is \n a test
----分隔線----
this is \n a test


### 建立模式對象(Pattern Object)

* `re.compile(pattern, flags=0)`

將正規表達式轉為**pattern object**的模式對象。以此方法將其保存下來供後續之用。
(但其實這樣的做法是非必要的，詳情請參考延伸閱讀一)
(ref: https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/656506/)

In [1]:
###使用前章節的電子郵件配對為例###

#導入re模組
import re

#欲配對文本
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com"

#建立模式對象
pattern_obj = re.compile(pattern=r"(.*)@(?!gmail)\w+\.com")
#進行配對(請注意這裡是使用pattern.search配對)
x1 = pattern_obj.search(txt) #先別擔心re.research的作用(後續會說明)
print(x1.group())

SaveTheWorld@hotmail.com


In [2]:
#不使用模式對象
#我們也可以不建立模式對象,直接使用正規表達式配對

#遇配對文本
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com"
pattern = r"(.*)@(?!gmail)\w+\.com" #這裡使用原始字串作為配對
#進行配對(請注意這裡是使用re.search配對)
x2 = re.search(pattern, txt)
print(x2.group())

SaveTheWorld@hotmail.com


### re.search(pattern, string, flags=0)

掃描字符串，查詢匹配正規表達式模式的位置，返回**MatchObject**的物件實例。若沒有可匹配的位置，則返回**None**。

若有多個可配對位置，只有第一個配對成功的會返回。

In [3]:
###使用前章節的電子郵件配對為例###

#欲配對文本
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com \n zzzGroup@yahoo.com" #這裡我們新增一個email address
pattern = r".*@(?!gmail)\w+\.com" #這裡使用原始字串作為配對

#進行配對
match = re.search(pattern, txt)
print(type(match)) #顯示為re.Match 物件實例
print(match)

print('\n----分隔線----')
print(f'Match start: {match.start()}; Match end: {match.end()}') #使用.start(), .end()返回配對的起點與終點

print('\n----分隔線----')
print(f'Match text: {match.group()}') #使用.group() or .group(0)返回配對的字串

#可以由返回的結果發現, re.search()只返回第一個配對的對象, 最後一個email address也符合配對但沒有返回

<class 're.Match'>
<re.Match object; span=(0, 24), match='SaveTheWorld@hotmail.com'>

----分隔線----
Match start: 0; Match end: 24

----分隔線----
Match text: SaveTheWorld@hotmail.com


In [4]:
#若無可滿足配對, re.search會返回None
txt = "foobar@gmail.com" #這裡只保留不滿足配對的email
pattern = r".*@(?!gmail)\w+\.com" 
match = re.search(pattern, txt)
print(match)

None


### re.match(pattern, string, flags=0)

從字串開始的位置進行配對，只會配對字串開頭，若配對成功則返回**Match**的物件實例。若失敗則返回**None**。

In [5]:
###使用前章節的電子郵件配對為例###

#欲配對文本
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com \n zzzGroup@yahoo.com" 
pattern = r".*@(?!gmail)\w+\.com" #這裡使用原始字串作為配對

#進行配對
match = re.match(pattern, txt)
print(type(match)) #顯示為re.Match 物件實例
print(match)

print('\n----分隔線----')
print(f'Match start: {match.start()}; Match end: {match.end()}') #使用.start(), .end()返回配對的起點與終點

print('\n----分隔線----')
print(f'Match text: {match.group()}') #使用.group() or .group(0)返回配對的字串

#發現第一個開頭配對成功後返回Match物件實例

<class 're.Match'>
<re.Match object; span=(0, 24), match='SaveTheWorld@hotmail.com'>

----分隔線----
Match start: 0; Match end: 24

----分隔線----
Match text: SaveTheWorld@hotmail.com


In [6]:
#若開頭無法配對成功，即返回None
txt = "foobar@gmail.com \n SaveTheWorld@hotmail.com \n zzzGroup@yahoo.com" #這裡我們將不符合配對的email移到字串開頭
pattern = r".*@(?!gmail)\w+\.com" 
match = re.match(pattern, txt)
print(match)

None


### re.findall(pattern, string, flags=0)
掃描字符串，找到正規表達式所配對的**所有**子串，並組成一個列表(list)返回。若沒有配對成功，則返回空列表(list)。

In [7]:
###使用前章節的電子郵件配對為例###

#欲配對文本
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com \n zzzGroup@yahoo.com" 
pattern = r".*@(?!gmail)\w+\.com" #這裡使用原始字串作為配對

#進行配對
match = re.findall(pattern, txt)
print(type(match)) #list 物件實力
print(match)

<class 'list'>
['SaveTheWorld@hotmail.com', ' zzzGroup@yahoo.com']


In [8]:
###使用前章節的電子郵件配對為例###

#欲配對文本
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com \n zzzGroup@yahoo.com"
pattern = r"(.*)@(?!gmail)(\w+)\.com" #將.* 改為 group的形式(.*), 且 \w+ 改為 (\w+)

#進行配對
match = re.findall(pattern, txt)
print(type(match)) 
print(match)

#可以發現返回的list變成符合配對的email裡面的group字串

<class 'list'>
[('SaveTheWorld', 'hotmail'), (' zzzGroup', 'yahoo')]


### re.finditer(pattern, string, flags=0)
和findall類似, 在字符串中找尋正規表達式可以匹配的所有子字串，並返回一個迭代器(iterator)。

In [9]:
###使用前章節的電子郵件配對為例###

#欲配對文本
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com \n zzzGroup@yahoo.com" 
pattern = r".*@(?!gmail)\w+\.com" #這裡使用原始字串作為配對

#進行配對
match = re.finditer(pattern, txt)
print(type(match)) #iterator 物件實例
print('\n----分隔線----')
for ma in match:
    print(ma)
    print(f'Match start: {ma.start()}; Match end: {ma.end()}') #使用.start(), .end()返回配對的起點與終點
    print(f'Match text: {ma.group()}') #使用.group() or .group(0)返回配對的字串
    print('\n----分隔線----')

<class 'callable_iterator'>

----分隔線----
<re.Match object; span=(0, 24), match='SaveTheWorld@hotmail.com'>
Match start: 0; Match end: 24
Match text: SaveTheWorld@hotmail.com

----分隔線----
<re.Match object; span=(45, 64), match=' zzzGroup@yahoo.com'>
Match start: 45; Match end: 64
Match text:  zzzGroup@yahoo.com

----分隔線----


### re.sub(pattern, repl, string, count=0, flags=0)
在字符串中找到正規表達式匹配的子字串，使用另外一個字串repl替換匹配的字串。若沒有可匹配的字串，即返回未被修改的原始字串。

count變數可以用來指定要替代的次數，如果count是0(預設值)，所有成功配對的都修改。

In [10]:
###使用前章節的電子郵件配對為例###

#欲配對文本
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com \n zzzGroup@yahoo.com" 
pattern = r".*@(?!gmail)\w+\.com" #這裡使用原始字串作為配對

#進行配對
match = re.sub(pattern, 'REPLACE', txt, count=0)
match #配對到的email都修改為REPLACE

'REPLACE \n foobar@gmail.com \nREPLACE'

In [11]:
###使用前章節的電子郵件配對為例###

#欲配對文本
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com \n zzzGroup@yahoo.com" 
pattern = r".*@(?!gmail)\w+\.com" #這裡使用原始字串作為配對

#進行配對
match = re.sub(pattern, 'REPLACE', txt, count=1) #將count設為1
match #只有一個配對到的修改為REPLACE

'REPLACE \n foobar@gmail.com \n zzzGroup@yahoo.com'

### re.subn(pattern, repl, string, count=0, flags=0) 
功能與`re.sub()`基本上相同，但在返回值時會同時返回新的字符串與替換次數。

In [12]:
###使用前章節的電子郵件配對為例###

#欲配對文本
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com \n zzzGroup@yahoo.com" 
pattern = r".*@(?!gmail)\w+\.com" #這裡使用原始字串作為配對

#進行配對
match = re.subn(pattern, 'REPLACE', txt, count=0)
match #可以發現一共配對替換2次

('REPLACE \n foobar@gmail.com \nREPLACE', 2)

In [13]:
###使用前章節的電子郵件配對為例###

#欲配對文本
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com \n zzzGroup@yahoo.com" 
pattern = r".*@(?!gmail)\w+\.com" #這裡使用原始字串作為配對

#進行配對
match = re.subn(pattern, 'REPLACE', txt, count=1) #將count設為1
match #只配對替換1次

('REPLACE \n foobar@gmail.com \n zzzGroup@yahoo.com', 1)

### re.split(pattern, string, maxsplit=0, flags=0)
利用正規表達式將成功配對的字串部分分割為一個列表，並返回分割後的列表。
其中`maxsplit`是用來指定最多切割多少份，若是0(預設值)，則所有配對成功的都會進行切割。

In [14]:
###使用前章節的電子郵件配對為例###

#欲配對文本
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com \n zzzGroup@yahoo.com" 
pattern = r"\n" #這裡改為配對換行符號

#進行配對
match = re.split(pattern, txt)
match

['SaveTheWorld@hotmail.com ', ' foobar@gmail.com ', ' zzzGroup@yahoo.com']

In [15]:
###使用前章節的電子郵件配對為例###

#欲配對文本
txt = "SaveTheWorld@hotmail.com \n foobar@gmail.com \n zzzGroup@yahoo.com" 
pattern = r"\n" #這裡改為配對換行符號

#進行配對
match = re.split(pattern, txt, maxsplit=1) #設定最多只配對分割一組
match

['SaveTheWorld@hotmail.com ', ' foobar@gmail.com \n zzzGroup@yahoo.com']

### flags參數

此參數可以控制匹配模式，大部分的匹配模式都可以直接使用正規表達式的規則寫出，但此參數提供我們更方便的方法來控制匹配模式。例如:

* re.I (re.IGNORECASE): 忽略大小寫模式
* re.M (re.MULTILINE): 多行模式
* re.S (re.DOTALL): 讓`.`可以匹配所有的字元 (原本`.`無法匹配換行字元)

可以使用`|`來結合多種模式

In [16]:
###re.IGNORECASE###

#欲配對文本
txt = "Leo123 \nkevin456 \n"
pattern = r"[a-z]+" #配對所有小寫a-z字符 

#進行配對_1
match = re.findall(pattern, txt) #使用預設的一般配對模式
print(type(match)) 
print(match)
#可以發現無法配對大寫的L

print('\n----分隔線----')

#進行配對_2
match2 = re.findall(pattern, txt, flags=re.I)
print(type(match)) 
print(match2)
#可以發現再加上 re.I後, 可以互略大小寫的配對

<class 'list'>
['eo', 'kevin']

----分隔線----
<class 'list'>
['Leo', 'kevin']


In [17]:
###re.MULTILINE###

#欲配對文本
txt = "Leo123 \nkevin456 \n"
pattern = r"^[a-zA-Z]+" #配對所有開頭是a-z或是A-Z的字元

#進行配對_1
match = re.findall(pattern, txt) #使用預設的一般配對模式
print(type(match)) 
print(match)
#可以發現只配對到Leo (因為在一般配對模式下, 文本被視為一個含有\n的長字串)

print('\n----分隔線----')

#進行配對_2
match2 = re.findall(pattern, txt, flags=re.M) #使用多行配對模式
print(type(match)) 
print(match2)
#可以發現加上re.M後，可以配對到Leo, Kevin (因為在\n換行符號後會視為新的字串來配對)

<class 'list'>
['Leo']

----分隔線----
<class 'list'>
['Leo', 'kevin']


In [18]:
###re.DOTALL###

#欲配對文本
txt = "Leo123 \nkevin456 \n"
pattern = r".+" #配對所有開頭是a-z或是A-Z的字元

#進行配對_1
match = re.findall(pattern, txt) #使用預設的一般配對模式
print(type(match)) 
print(match)
#配對的內容不包含\n字串

print('\n----分隔線----')

#進行配對_2
match2 = re.findall(pattern, txt, flags=re.S) #使用DOTALL配對模式
print(type(match)) 
print(match2)
#這樣配對也包含了\n換行符號

<class 'list'>
['Leo123 ', 'kevin456 ']

----分隔線----
<class 'list'>
['Leo123 \nkevin456 \n']


In [19]:
###結合多種配對模式 (re.I|re.M)###

#欲配對文本
txt = "Leo123 \nkevin456 \n"
pattern = r"^[a-z]+" #配對所有開頭是a-z

#進行配對_1
match = re.findall(pattern, txt) #使用預設的一般配對模式
print(type(match)) 
print(match)
#一般模式下，找不到可配對字串

print('\n----分隔線----')

#進行配對_2
match2 = re.findall(pattern, txt, flags=re.I|re.M) #使用多行配對模式
print(type(match)) 
print(match2)
#可以發現加上re.I|re.M後，可以配對到Leo, kevin

<class 'list'>
[]

----分隔線----
<class 'list'>
['Leo', 'kevin']


### Reference:

https://regexone.com/references/python

https://www.w3schools.com/python/python_regex.asp#findall

https://docs.python.org/3.6/library/re.html#re.IGNORECASE (更多的flags模式)

https://chrisalbon.com/python/data_wrangling/regex_by_example/

https://chrisalbon.com/python/data_wrangling/regular_expressions_basics/