# 「正規表示式」Regualr expression

## 常用函數

| 函數 | 說明                                                       |
|----------|-------------------------------------------------------------------|
| findall()  | 回傳所有匹配結果的串列(list)                             |
| search()   | 回傳第一個匹配結果的字串(string) |
| split()    | 回傳一個串列(list)，其中字串在每次匹配時都被拆分為一個元素(element)      |
| sub()      | 替代符合匹配的每個字元                       |

## 匯入re 模組

In [1]:
import re
sent = 'Please call David at 02-8888-1688 by today. 02-9888-9898 is his office number.'

## 建立 Regex 物件
* 要使用 re 模組中的 compile()函式
* 比對資料可以使用 search() 或 findall() 方法
* <span style="color:red">需要的格式前面加上 r ，代表原始字串 raw</span>

## findall()

* 把所有符合的資料都找出來

In [2]:
phoneNumRegex = re.compile(r'\d\d-\d\d\d\d-\d\d\d\d')

result = phoneNumRegex.findall(sent)
result

['02-8888-1688', '02-9888-9898']

In [3]:
# 利用()分群
phoneNumRegex = re.compile(r'(\d\d)-(\d\d\d\d)-(\d\d\d\d)')
result = phoneNumRegex.findall(sent)
print(result)
print(result[0])
print(result[0][1])

[('02', '8888', '1688'), ('02', '9888', '9898')]
('02', '8888', '1688')
8888


In [4]:
# 比對的成果可以有完整電話號碼，可以在規則的最外層再加上括號
phoneNumRegex = re.compile(r'((\d\d)-(\d\d\d\d)-(\d\d\d\d))')
result = phoneNumRegex.findall(sent)
print('輸出：   ',result)
print('取得第一個元素：    ',result[0])
print('取得元素中的次元素： ',result[0][1])

輸出：    [('02-8888-1688', '02', '8888', '1688'), ('02-9888-9898', '02', '9888', '9898')]
取得第一個元素：     ('02-8888-1688', '02', '8888', '1688')
取得元素中的次元素：  02


## search()
* 只會找出符合規則的第一筆資料
* 方法：
    * .span() 返回一個包含匹配開始和結束位置的元組。
    * .string 返回傳遞給函數的字符串
    * .group() 返回字符串中匹配的部分

In [5]:
result = phoneNumRegex.search(sent)
print('輸出：        ',result)
print('預設group為0：', result.group())

# 使用group取出資料
print('group(0)：   ',result.group(0))
print('group(1)：   ',result.group(1))
print('group(2)：   ',result.group(2))
print('group(3)：   ',result.group(3))
#print('超過索引範圍：錯誤訊息 no such group',result.group(4))

輸出：         <re.Match object; span=(21, 33), match='02-8888-1688'>
預設group為0： 02-8888-1688
group(0)：    02-8888-1688
group(1)：    02-8888-1688
group(2)：    02
group(3)：    8888


In [6]:
phoneNumRegex = re.compile(r'(\d\d)-(\d\d\d\d)-(\d\d\d\d)')
mo = phoneNumRegex.search(sent)
print('輸出：    ',mo)
print('group(0)：',mo.group(0))
print('group(3)：',mo.group(3))
print('span()：  ', mo.span())
print('srting：  ', mo.string)

輸出：     <re.Match object; span=(21, 33), match='02-8888-1688'>
group(0)： 02-8888-1688
group(3)： 1688
span()：   (21, 33)
srting：   Please call David at 02-8888-1688 by today. 02-9888-9898 is his office number.


## findall()與search()的差異：

| 差異項目 |                      findall()                      |          search()          |
|:--------:|:--------------------------------------------------:|:----------------------------:|
|    回傳數量    | 所有符合值 | 第一個符合值 |
|    回傳值    | 串列（list），串列內的項目是字串（string）| 字串（string） |
|    無資料回傳值    |      空的串列 []      | None            |
|    回傳值處理    | 以list方式處理    | 可用span()、group()、string |

## sub()
* 替換成想要的字元

In [7]:
# 用數字 9 替換每個空白字符
txt = "The rain in Spain"
x = re.sub(r"\s", "9", txt)
print(x)

The9rain9in9Spain


In [8]:
# 替換前 2 次出現
txt = "The rain in Spain"
x = re.sub(r"\s", "9", txt, 2)
print(x)

The9rain9in Spain


## split()
* 將匹配的字符進行切割，並且回傳一組串列

In [9]:
# 在每個空白字符處拆分
txt = "The rain in Spain"
x = re.split(r"\s", txt)
print(x)

['The', 'rain', 'in', 'Spain']


# 是否需要compile
* compile 非必要

In [10]:
txt = "The rain in Spain"
x = re.sub(r"\s", "9", txt)
print(x)

The9rain9in9Spain


In [11]:
txt = "The rain in Spain"
com = re.compile(r'\s')
x = com.sub("9", txt)
print(x)

The9rain9in9Spain


In [12]:
txt = "The rain in Spain"
com = r'\s'
x = re.sub(com, "9", txt)
print(x)

The9rain9in9Spain
