# 正規表達式
### [線上產生器](https://cloudlab.tw/wp/sampleFiles/RegExp/)

In [1]:
import re

Regular Expression
是一種表達〝具有某種特徵〞字串的方式，可用來完全指定需要加以處理的資料 , 避免反覆判斷找尋的困擾

Regular Expression的組成
為了表達〝特徵〞需定義範本(Pattern)，範本由普通字元(ASCII)、特殊字元(Metacharacter)及數量定義詞(Quantifier)組成。其格式為
[ 普通字元|特殊字元 ]數量定義詞

## re

* `re.search(pattern, string)` 搜尋字串
    * pattern(正規表達式)
    * string(匹配字串)
* `re.match(pattern, string)` 匹配(開頭)字串
    * pattern(正規表達式)
    * string(匹配字串)
* `re.findall(pattern, string)` 匹配所有字串 輸出list
    * pattern(正規表達式)
    * string(匹配字串)
* `re.sub(pattern, change, string)` 替換匹配的字符轉換取代字串
    * pattern(正規表達式)
    * change(變更字串)
    * string(匹配字串)
* `re.sub(pattern, string)` 分裂 匹配的字串切開輸出list
    * pattern(正規表達式)
    * string(匹配字串)

In [2]:
# 匹配 string 的開頭
print(re.match('P', 'Pool') != None)
print(re.match('ool', 'Pool') != None)
# 搜尋 string 內的字串
print(re.search('P', 'Pool') != None)
print(re.search('ool', 'Pool') != None)

True
False
True
True


## pattern(正規表達式)

|  / |  / |
|:---|:---|
|__次數限定：__||
|`char`|`char` (1次)|
|`char*`|`char` (0 ~ n 次數)|
|`char+`|`char` (1 ~ n 次數)|
|`char?`|`char` (0 or 1 次數) 可以當成有沒有使用|
|`(string)?`|`string` (0 or 1 次數) 可以當成有沒有使用|
|`char{n}`|`char` (n 次數)|
|`char{,m}`|`char` (<= m 次數)|
|`char{n,}`|`char` (>= n 次數)|
|`char{n,m}`|`char` (n ~ m 次數)|
|__字元限定：__||
|`.`| 任意字元|
|`[ABC]`| A, B, C 任選 (1次)|
|`[^ABC]`| != A, B, C 任意字元 (1次)|
|`[A-Z]`| A~Z (1次)|
|`string1\|string2`| `string1` or `string2` 都可以|
|__限定pkg：__||
|`\a`|任何數字字母 [A-Za-z0-9]|
|`\c`|任何字母 [A-Za-z]|
|`\d`|任何數字 [0-9]|
|`\D`|任何非數字 [^0-9]|
|`\w`|任何數字字母底線 [A-Za-z0-9_]|
|`\W`|任何非數字字母底線 [^A-Za-z0-9_]|
|`\l`|任何小寫字母 [a-z]|
|`\L`|任何非小寫字母 [^a-z]|
|`\u`|任何大寫字母 [A-Z]|
|`\U`|任何非大寫字母 [^A-Z]|
|`\s`|任何空格 [\t\n\r\f\v]|
|`\S`|任何非空格 [^\t\n\r\f\v]|
|__頭尾限定：__||
|`^string`|`string` 指定開頭(match)|
|`string$`|`string` 指定結尾|
|`^string$`|`string` 完美比對|
|`(a+b)+`| 括號(處理順序) 將比對符合的字元暫時存入一個變數 供系統後續使用|

### 非python re :
![](https://kopu.chat/wp-content/uploads/2017/01/%E6%AD%A3%E8%A6%8F5.jpg)

#### 0 ~ n 個 s

In [3]:
pattern = 's*'
string = 'aaaaa'
print(re.match(pattern, string) != None)
print(re.search(pattern, string) != None)

True
True


#### 1 ~ n 個 s

In [4]:
pattern = 's+'
string = 'os'
print(re.match(pattern, string) != None)
print(re.search(pattern, string) != None)

False
True


#### 兩個任意字元 (任意兩個長度的字串)

In [5]:
pattern = '..'
string = 'Qoo'
print(re.match(pattern, string) != None)
print(re.search(pattern, string) != None)

True
True


#### 任意一個數字

In [6]:
pattern = '\d'
string = 'Zoo123'
print(re.match(pattern, string) != None)
print(re.search(pattern, string) != None)

False
True


#### 指定開頭( ^ ), 指定結尾( $ )

In [7]:
pattern = 'pool$'
string = 'sppool'
print(re.match(pattern, string) != None)
print(re.search(pattern, string) != None)
pattern = '^spp'
string = 'sppool'
print(re.match(pattern, string) != None)
print(re.search(pattern, string) != None)

False
True
True
True


In [8]:
pattern = 'po|so'
string = 'aolpo'
print(re.match(pattern, string) != None)
print(re.search(pattern, string) != None)

False
True


In [9]:
pattern = 'Mon(day)?'
string = 'Monday'
print(re.match(pattern, string) != None)
print(re.search(pattern, string) != None)

True
True


### re.findall( ) 尋找所有匹配
* 可以已經匹配的字串不會重複出現！

In [10]:
pattern = '[06]\d'
string = '0960328640'
re.findall(pattern, string)

['09', '60', '64']

### re.sub( ) 取代 replace

In [11]:
pattern = 'Pool'
string = 'I am Pool'
re.sub(pattern, 'Qoo', string)

'I am Qoo'

### re.split( ) 分裂

In [12]:
# r'[,.;:]' == '[,\.;:]'   '\.' == r'.'
pattern = r'[,.;:]'
string = 'A,B.C:D;E'
re.split(pattern, string)

['A', 'B', 'C', 'D', 'E']

### Raw String (原生字串) 不考慮轉義字符( \\ )
|/|/|
|:---|:---|
|`\\`	|反斜槓符號|
|`\’`	|單引號|
|`\”`	|雙引號|
|`\a`	|響鈴|
|`\b`	|退格(Backspace)|
|`\e`	|轉義|
|`\000`	|空|
|`\n`	|換行|
|`\v`	|縱向製表符|
|`\t`	|橫向製表符|
|`\r`	|回車|
|`\f`	|換頁|

In [13]:
print('pool\n')
print(r'pool\n')

pool

pool\n


In [14]:
re.search(r"^[0\-9]$", '-') != None # 原生字串不須考慮\問題

True

### 字元組簡記法

In [15]:
print(re.search(r"^[0-9]$", '5') != None) # \d == [0-9]
print(re.search(r"^\d$", '5') != None)

True
True


In [16]:
print(re.search(r"^[0-9a-zA-Z]$", 'P') != None) # \w == [0-9a-zA-Z]
print(re.search(r"^\w$", '5') != None)
print(re.search(r"^\w$", 'p') != None)
print(re.search(r"^\w$", 'P') != None)

True
True
True
True


In [17]:
print(re.search(r"^[0-9a-z]$", 'p') != None) # 也可以混用
print(re.search(r"^[\da-z]$", 'p') != None)

True
True


#### \D and \W ( \D = 非\d, 兩者完全沒有交集)

In [18]:
print(re.search(r"^\d$", '5') != None)
print(re.search(r"^\D$", '5') != None)
print(re.search(r"^\w$", 'P') != None)
print(re.search(r"^\W$", 'P') != None)
print(re.search(r"^\D$", '?') != None) # 包含數字之外的所有
print(re.search(r"^\W$", '?') != None) # 包含單字之外的所有

True
False
True
False
True
True


In [19]:
print(re.search("^[\w\W]$", ':') != None) # 所有字元
print(re.search("^.$", ':') != None) # '.' 所有字元
print(re.search("^.$", ' ') != None) # 可以空白
print(re.search("^.$", '\n') != None) # 除了\n分行記號

True
True
True
False


## 量詞

In [20]:
print(re.search(r"^\d\d\d\d\d$", '80143') != None) # 5個連續的數字
print(re.search(r"^\d\d\d\d\d$", '9999A') != None)# 5個連續的數字

True
False


In [21]:
re.search(r"^\d{5}$", '80143') != None # \d{5}追加5個, 用大括號{}

True

In [22]:
print(re.search(r"^\d{2, 5}$", '12345') != None) # \d{2,5} 最少2個 最多5個, {n,m} 逗號後面不能有空白' '
print(re.search(r"^\d{2, 5}$", '12') != None)
print(re.search(r"^\d{2, 5}$", '123456') != None)
print(re.search(r"^\d{2, 5}$", '1') != None)

True
True
False
False


In [23]:
print(re.search(r"^\d{2,}$", '1') != None) # \d{n,} 最少n個 最多無限！
print(re.search(r"^\d{2,}$", '12') != None)
print(re.search(r"^\d{2,}$", '1234567890') != None)

False
True
True


In [24]:
print(re.search(r"^\d{0, 5}$", '') != None) # \d{0,n} 可不出現 最多n個！ 可不出現：空字串
print(re.search(r"^\d{0, 5}$", ' ') != None) # space字串 不是數字類
print(re.search(r"^\d{0, 5}$", '12345') != None) # 最多五個

True
False
True
