***
### **正規表示式 (regular expression,re) 操作**
[<參考>](https://docs.python.org/zh-tw/3/library/re.html)docs.python.org 


* 正規表示式使用反斜線字元 (`\`) 表示特別的形式，或是使用特殊字元而不調用它們的特殊意義。這與 Python 在字串文本 (literal) 中，為了一樣的目的使用同一個字元的目的相衝突；舉例來說，為了配對一個反斜線文字，可能需要寫 `\\\\` 當作模式字串，因為正規表示式必須是 `\\`，而且每個反斜線在 Python 字串文本中必須表示為 `\\`。  
* **注意**:  
另外，請注意在 Python 的字串文本中，使用反斜線的任何無效跳脫序列，目前會產生一個 SyntaxWarning，而在未來這會變成一個 SyntaxError。儘管它對正規表示式是一個有效的跳脫序列，這種行為也會發生。  

* **解決方法**:  
是對正規表示式模式使用 Python 的原始字串符號；反斜線在一個以 `r` 為前綴的字串文本中不會被用任何特別的方式處理。所以 `r"\n"` 是一個兩個字元的字串，包含 `\` 和 `n`，同時 `"\n"` 是一個單個字元的字串，包含一個**換行符號**。通常模式在 Python 程式中會使用這個原始字串符號表示。

### **正規表示式 ** 
[<參考源1>](https://zh.wikipedia.org/zh-tw/正则表达式)zh.wikipedia.org正規表示式  
[<參考源2>](https://docs.python.org/zh-tw/3/library/re.html)docs.python.org：re-正規表示式 (regular expression) 操作   

#### 基本語法  
一個正規表示式通常被稱為一個模式（pattern），為用來描述或者符合一系列符合某個句法規則的字串。例如：Handel、Händel和Haendel這三個字串，都可以由`H(a|ä|ae)ndel`這個模式來描述。  
大部分正規表示式的形式都有如下的結構：
* **選擇**
     * 豎線|代表選擇（即或集），具有最低優先級。例如gray|grey可以符合grey或gray。
* **數量限定**  
     * 加號`+`代表前面的字元必須至少出現一次。（1次或多次）。如，`goo+gle`可以符合google、gooogle、goooogle等
     * 問號`?`代表前面的字元最多只可以出現一次。（0次或1次）。如，`colou?r`可以符合color或者colour
     * 星號`*`代表前面的字元可以不出現，也可以出現一次或者多次。如，`0*42`可以符合42、042、0042、00042等。 
* **符合**
     * 圓括號()可以用來定義運算子的範圍和優先度。例如，gr(a|e)y等價於gray|grey，(grand)?father符合father和grandfather。  
     
上述這些構造子都可以自由組合，因此H(ae?|ä)ndel和H(a|ae|ä)ndel是相同的，表示{"Handel", "Haendel", "Händel"}。

##### PCRE表達式 
相容Perl正規表達式(Perl Compatible Regular Expressions, PCRE)

字元：      描述  

* `\`  : 將下一個字元標記為一個特殊字元、或一個原義字元、或一個向後參照、或一個八進制跳脫符  
     * 例如，`\n`符合一個換行符。而序列`\\`符合"\"而`\(`則符合"("。  
     * Identity Escape，有`^$()*+?.[\{|`共計12個  
     * 如果您不使用原始字串來表達模式，請記住 Python 也使用反斜線作為字串文字中的轉義序列；
     * 如果 Python 的解析器無法辨識轉義序列，則反斜線和後續字元將包含在結果字串中。
     * 但是，如果 Python 能夠識別結果序列，則反斜線應該重複兩次。這很複雜且難以理解，因此強烈建議除了對最簡單的表達式之外的所有表達式都使用原始字串。
* `.` : 符合除`\r` `\n`之外的任何單個字元。
     * 如要符合包括`\r` `\n`在內的任何字元，請使用像`(.|\r|\n)`的模式。  
     * `.`（點）在預設模式下，它會匹配除換行符之外的任何字元。如果`DOTALL`已指定該標誌，則它將匹配包括換行符在內的任何字元。 `(?s:.)`匹配任何字符，無論標誌如何。
* `^` : 符合輸入字串的開始位置。
     * 如果設定了RegExp物件的Multiline屬性，`^`也符合`\n`或`\r`之後的位置。
* `$` : 符合輸入字串的結束位置。
     * 如果設定了RegExp物件的Multiline屬性，`$`也符合`\n`或`\r`之前的位置。
     * `foo` 可同時符合`foo`和`foobar`兩者，而正規表示式`foo$`僅符合"foo"。
     * 更有趣的是，`foo.$`在`foo1\nfoo2\n` 中搜尋通常會匹配"foo2"，但在mode MULTILINE中會匹配到 “foo1” 
     * 在`foo\n`搜尋單一字串`$`，將找到兩個（空）匹配項：一個位於換行符之前，一個位於字串末尾。
* `*` : 符合前面的子表達式**零次或多次**（盡可能多的重複）。
     * 例如，`zo*`能符合"z"、"zo"以及"zoo"。`*`等價於`{0,}`。
     * 例如，`ab*`將符合"a"、"ab"或"a"後面跟著任意數量的"b"。
* `+` : 符合前面的子表達式**一次或多次**。
     * 例如，`zo+`能符合"zo"以及"zoo"，但不能符合"z"。`+`等同於`{1,}`。
     * 例如，`ab+`將匹配"a"後面跟著任何非零數量的"b"；它不會只匹配"a"。
* `?` : 符合前面的子表達式**零次或一次**  
     * 例如，`do(es)?`可以符合"does"中的"do"和"does"。`?`等同於`{0,1}`。
* `{n}` : n是一個非負整數。
     * **符合確定的n次**。
     * 例如，`o{2}`不能符合"Bob"中的"o"，但是能符合"food"中的兩個"o"。
* `{n,}` : n是一個非負整數。
     * **至少符合n次**。例如，`o{2,}`不能符合"Bob"中的"o"，但能符合"foooood"中的所有"o"。
     * `o{1,}`等同於`o+`。`o{0,}`則等同於`o*`。
* `{n,m}` : m和n均為非負整數，其中n<=m。
     * **最少符合n次且最多符合m次**。
     * 例如，`o{1,3}`將符合"fooooood"中的前三個o。`o{0,1}`等同於`o?`。請注意在逗號和兩個數之間不能有空格
  
 

* `?` : 非貪婪量化（Non-greedy quantifiers）
     * 當該字元**緊跟在任何一個其他重複修飾詞**（`*`,`+`,`?`，`{n}`，`{n,}`，`{n,m}`）後面時，符合模式是非貪婪的。
     * 非貪婪模式儘可能少的符合所搜尋的字串，而預設的貪婪模式則儘可能多的符合所搜尋的字串。
     * 例如，對於字串「oooo」，「o+?」將符合單個「o」，而「o+」將符合所有「o」。
* **`*?`, `+?`, `??`**  
    * `*`、`+`和`?`量詞都是貪婪的；它們匹配盡可能多的文字。  
    * 匹配最多多的文字這種行為，有時是不需要的；例如、如果RE `<.*>`與 "`<a> <b> <c>`"匹配，它將匹配整個字串，而不僅僅是 "`<a>`"；添加`？`在量詞使其以非貪婪或最小方式執行匹配之後，將匹配盡可能少的字元；使用 RE `<.*?>` 將僅符合"`<a>`"。
* **`*+`, `++`, `?+`**  
    * 與`*`、`+`和`?`量詞一樣，附加`+`後的量詞也會盡量多次配對。  
    * 然而，與真正的貪婪量詞不同，**當其後面的表達式無法匹配時，這些量詞不允許回溯**。 
    * 這些被稱為所有格量詞。例如，
        * `a*a`將匹配"aaaa"，因為`a*`會匹配所有4個"a"，但是，當遇到最後一個時`a`，表達式會回溯，以便最終`a*`匹配 3個"a"，而第四個"a"則與最後一個`a`匹配。
        * 但是，當使用`a*+a` 來匹配"aaaa"時，`a*+`會匹配所有4個"a"，但是當最後`a`無法找到更多字元來匹配時，表達式無法回溯，因此會**匹配失敗**。例如，  
        `x*+`、`x++`和`x?+`相當與`(?>x*)`、`(?>x+)` 和`(?>x?)`相對應。

* pass  
* `[]` : 用於表示一組字元。在一組中：
     * 字元可以單獨列出，例如`[amk]`將匹配'a'、'm'或'k'。
     * 字元範圍可以透過給出兩個字元並用"-"分隔它們來表示，例如`[a-z]`將匹配任何小寫 ASCII 字母，`[0-5][0-9]` 將匹配從"00"到"59"的所有兩位數字，並將`[0-9A-Fa-f]`匹配任何十六進制數字。如果"-"被轉義（例如`[a\-z]` ）或如果它被放置為第一個或最後一個字元（例如`[-a]`或`[a-]`），它將匹配文字"-"。
     * 特殊字元在集合內失去其特殊意義。例如， `[(+*)]`將符合任何文字字元"("、"+"、 "*" 或 ")"。
     * 字元類別諸如`\w`或`\S`（定義如下）之類的，在集合內也可以被接受，儘管它們匹配的字元取決於所使用的旗幟標誌(flags)。
     * 可以透過互補集合來匹配不在某個範圍內的字元。如果集合的第一個字元是"^"，則將匹配所有不在集合中的字元。例如，`[^5]`將匹配"5"之外的任何字符，`[^^]`並將匹配除"^"之外的任何字符 。 如果"^"它不是集合中的第一個字符，則沒有特殊含義。
     * 要匹配集合內的文字"]"，請在其前面添加反斜線，或將其放在集合的開頭。例如， `[()[\]{}] 和 `[]()[{}]`將符合右括號、左括號、大括號和圓括號。

     * 將來可能會添加對Unicode 技術標準#18中的巢狀集合和集合操作的支援。這將改變語法，因此為了促進這一改變，在FutureWarning將引發暫時不明確的情況 。這包括以文字開頭"["或包含文字字元序列的集合"--"、"&&"、"~~" 和 "||"。為了避免警告，請使用反斜線轉義它們。
* pass  

* pass  
* `(pattern)`or `(...)`：
     * 符合pattern並取得這一符合的子字串。該子字串用於向後參照。
     * 所取得的符合可以從產生的Matches集合得到。
     * 要符合圓括號字元，請使用`\(`或`\)`。
     * 可帶數量字尾。
* `(?...)`
     * 這是一個擴展符號（跟在`(`後面的`?`是沒有其他意義）。`?`後面的第一個字元決定了該結構的含義和進一步的語法。擴充功能通常不會建立新群組；`(?P<name>...)`是該規則的唯一例外。
     * #### **以下是目前支援的擴充功能**
pass
* `(?:...)`
     * 常規括號的非捕獲版本。匹配符合括號內的任何正規表示式，但在執行匹配後無法檢索該群組匹配的子字串或稍後在模式中引用。
PASS
* `(?>...)` 
     * 嘗試將`...`其視為單獨的正規表示式進行匹配，如果成功，則繼續匹配其後面的模式的其餘部分。
     * 如果後續模式無法匹配，則堆疊只能展開到先前的點`(?>...)`，因為一旦退出，該表達式（稱為原子組）就會丟棄其自身內的所有堆疊點。
     * 因此，`(?>.*).`永遠不會匹配任何內容，因為首先`.*` 會匹配所有可能的字符，然後，沒有任何剩餘可匹配的字符，最終`.`將無法匹配。由於原子組中沒有保存堆疊點，且其先前也沒有堆疊點，因此整個表達式將無法匹配。

pass
* `(?:pattern)`or`(?:...)`  
     * 常規括號的非捕獲文本(version)。匹配括號內的任何正規表示式，但在執行匹配後，無法檢索該群組匹配的子字串或稍後在模式中引用。 
     * 匹配pattern但不取得符合的子字串（shy groups），也就是說這是一個不取得匹配，不儲存符合的子字串，用於向後參照。這在使用"或"("or")字元`(|)`來組合一個模式的各個部分是很有用。例如`industr(?:y|ies)`就是一個比`industry|industries`更簡略的表達式。
     * 即、 類似`(?...)`，但它不分組。     
     * 舉例來說，想擷取文本(text)中格式為"時間點|Time|值"(如 2024|Time|5488)的所有符合格式的數據，這樣需要將"時間點"與"值"分組，但不需要"|Time|"，可以使用  
     `re.findall(r'(\d+)(?:\D\Time\D)(\d+)',text)`   #下例 :[('2023', '3388'), ('2024', '5488')]

* `(?P<name>...)`      **[TODO]**
     * 與常規括號類似，但群組匹配的子字串可以透過符號組名***name***存取。群組名稱必須是有效的 Python 標識符，並且在bytes模式中它們只能包含 ASCII 範圍內的位元組(bytes)。每個群組名稱只能在正規表示式中定義一次。符號組也是編號組，就像該組沒有命名一樣。

     * 命名組可以在三種上下文中引用。如果模式是`(?P<quote>['"]).*?(?P=quote)`（即匹配用單引號或雙引號引起來的字串）：  

     |引用群組“quote”的上下文|參考方法1           |參考方法2             |參考方法3|
     |:---------------------|:-------------------|:---------------------|:---------|
     |以相同的模式本身       |• (?P=quote)（如下述）|• \1                |          |
     |處理匹配物件m時        |• m.group('quote')  |• m.end('quote')(etc.) |         |
     |在字串中傳遞給re.sub()的重複(repl)參數|•\g<quote>|•\g<1>           |•\1       |

* `(?P=name)`
     * 對命名組的反向引用；它匹配先前名為***name***的群組所匹配的任何文字。
     
* pass  **[TODO]**

* `[^a-z]`: 排除型的字元範圍。符合任何不在Unicode編碼表指定範圍內的任意字元。  
     * 例如，`[^a-z]`可以符合任何不在"a"到"z"範圍內的任意字元。  
* `\d`  : 符合一個數字字元。等價於[0-9]。注意Unicode正規表示式會符合全形數字字元。  
* `\D`  : 符合一個非數字字元。  
* `\r`  : 符合一個回車字元。  
* `\s`  : 符合任何空白字元，包括空格、跳格符、換頁符等等。  
* `\S`  : 符合任何非空白字元。  
* `\t`  : 符合一個跳格符。  
* `\n`  : 符合一個換行符。  
* `\w`  : 符合包括底線的任何單詞字元。等價於「`[A-Za-z0-9_]`」  
* `\W`  : 符合任何非單詞字元。等價於「`[^A-Za-z0-9_]`」。  

pass

pass

* `re.M` or `re.MULTILINE`
    * 指定後，模式字元`^`匹配字串的開頭和每行的開頭（緊接在每個換行符之後）；
    * 並且模式字元`$`匹配字串末尾和每行末尾（緊鄰每個換行符之前）。
    * 預設情況下，`^` 僅在字串的開頭、`$`字串的末尾以及字串末尾的換行符（如果有）之前匹配。


pass

In [None]:
# 例 for (?:pattern) or (?:...) 
import re

text = '2023|Time|3388 and 2024|Time|5488'
re.findall(r'(\d+)(?:\DTime\D)(\d+)',text)   # for (?:pattern)`or`(?:...)

[('2023', '3388'), ('2024', '5488')]

In [None]:
# 例 for (?P<name>...) ref https://stackoverflow.com/questions/10059673/named-regular-expression-group-pgroup-nameregexp-what-does-p-stand-for
import re
match = re.search('(?P<name>.*) (?P<phone>.*)', 'taipei/web/LaborCollege 02-27208889ext3345')
print('name : ',match.group('name'))
print('phone : ',match.group('phone'))
print('groups-->',match.groups())
print('group(1)-->name : ',match.group(1))
print('group(2)-->phone : ',match.group(2))

name :  taipei/web/LaborCollege
phone :  02-27208889ext3345
groups--> ('taipei/web/LaborCollege', '02-27208889ext3345')
group(1)-->name :  taipei/web/LaborCollege
group(2)-->phone :  02-27208889ext3345


In [None]:
# [TODO]
# 例 for (?P=name) ref https://www3.ntu.edu.sg/home/ehchua/programming/howto/Regexe.html
import re

# <ref>Swap the first and second words separated by one space
inStr1 = 'two apples:' 
print(re.sub(r'(\S+) (\S+)', r'\2 \1', inStr1))  # Python

# <ref>Remove duplicate word
inStr2 = 'apple apple apple tree in flower flower garden' 
print(re.sub(r'(\w+) \1', r'\1', inStr2))  # Python
                 
print('非貪婪',re.sub(r'(?P<outStr>[\w+]).*? (?P=outStr)', r'\1', inStr2))    # 非貪婪
print('非貪婪',re.sub(r'(?P<outStr>[\w+]).*? (?P=outStr)', r'\g<1>', inStr2))    # 非貪婪
print('非貪婪',re.sub(r'(?P<outStr>[\w+]).*? (?P=outStr)', r'\g<outStr>', inStr2))    # 非貪婪

print('貪婪',re.sub(r'(?P<outStr>[\w+]).* (?P=outStr)', r'\1', inStr2))    # 貪婪
print('貪婪',re.sub(r'(?P<outStr>[\w+]).* (?P=outStr)', r'\g<1>', inStr2))    # 貪婪
print('貪婪',re.sub(r'(?P<outStr>[\w+]).* (?P=outStr)', r'\g<outStr>', inStr2))    # 貪婪

print('#################################')
#  m.group('quote') --> ?????  **[TODO]**
inStr3 = 'apple Apple apple tree in flower flower garden' 
pattern = re.compile(r'(?P<outStr>[\w+]).* (?P=outStr)', flags=re.I)    # 尋找連續重複的模式

result = re.sub(pattern, r'\1',inStr3)  # 連續重複的取代
print(result)
if result == inStr3:
    print('找不到重複資料')      # 沒有匹配就印出找不到資料
else:
    # print('group()-->',result.group('outStr'))  # 'str' object has no attribute 'group'
    print('result-->',result) # 有匹配就印出結果

apples: two
apple apple tree in flower garden
非貪婪 apple apple tree in flower garden
非貪婪 apple apple tree in flower garden
非貪婪 apple apple tree in flower garden
貪婪 apple tree in flower garden
貪婪 apple tree in flower garden
貪婪 apple tree in flower garden
#################################
apple tree in flower garden
result--> apple tree in flower garden


In [8]:
import re

re.search(r'(?P<id1>\d)abc(?P=id1)','22abc66').group()

AttributeError: 'NoneType' object has no attribute 'group'

from ChatGPT_2014.11.15  
出現 'NoneType' object has no attribute 'group' 錯誤，是因為 `re.search` 找不到符合條件的匹配，因此返回了 None，而 None 沒有 `group()` 方法。  

正則表達式 `r'(?P<id1>\d)abc(?P=id1)'` 要求字串中存在一個數字，緊接著是 `abc`，之後**再出現同樣的數字**。然而，傳入的字串 '22abc66' 並不符合這個模式，因為沒有一個數字在 `abc` 前後都出現一次。例如，像 2abc2 或 6abc6 才會符合這個模式。

以下是幾種解決方案：
* 更改測試字串:  
使用符合模式的測試字串。例如，將 '22abc66' 改成 '2abc2' 或 '6abc6'：
    ```  
    import re
    result = re.search(r'(?P<id1>\d)abc(?P=id1)', '2abc2')
    if result:
        print(result.group())  # 輸出 '2abc2'
    ```
* 加入錯誤處理:如果不能保證輸入的字串一定會符合模式，可以加上條件檢查：
    ```
    import re
    match = re.search(r'(?P<id1>\d)abc(?P=id1)', '22abc66')
    if match:
        print(match.group())
    else:
        print("No match found")
    ```

In [9]:
import re

result = re.search(r'(?P<id1>\d)abc(?P=id1)', '2abc2')
if result:
    print(result.group())  # 輸出 '2abc2'

2abc2


In [10]:
import re

match = re.search(r'(?P<id1>\d)abc(?P=id1)', '22abc66')
if match:
    print(match.group())
else:
    print("No match found")

No match found


pass
***


### **[使用正規表達式 re]**  
[<參考網址>](https://steam.oxxostudio.tw/category/python/library/re.html ) STEAM 教育學習網

#### **import re**  
要使用 re 必須先 import re 模組，或使用 from 的方式，單獨 import 特定的類型。  
```python
import re
from re import sample
```

#### **compile(pattern)**
* `re.compile(pattern)` 可以建立一個正規表達式的規則，規則建立後，就能使用 re 的其他方法執行套用這個規則的對象，  
舉例來說，下方的程式碼執行後，會建立找尋「連續三個數字」的規則，接著使用 `search` 的方法，就能找到 123 這三個字串  
ps. **配對的規則通常會用「r」進行標示**，例如 r'str'。  

    ```python
    import re
    role = re.compile(r'\d\d\d')       # 連續三個數字
    result = role.search('abc123xyz')  # 使用 search 方法，使用建立的規則，搜尋 abc123xyz
    print(result.group())              # 123
    ```

* `re.compile(pattern)` 還有第二個參數 flags，預設不需要填寫，可以額外設定一些正規表達式的匹配方式，flags 有幾種參數可供設定：Ex. `re.I`    忽略字母大小寫。  
    ```python
    import re
    role = re.compile(r'hello', flags=re.I)  # 匹配 hello，不論大小寫
    result = role.search('HeLlo World')
    print(result.group())                    # HeLlo
    ```

**<參考-詳細下記>給自己的Python小筆記 **  
**強大的數據處理工具 — 正則表達式 — Regular Expression — regex詳細教學**  
[參考網站](https://chwang12341.medium.com/給自己的python小筆記-強大的數據處理工具-正則表達式-regular-expression-regex詳細教學-a5d20341a0b2)  regex詳細教學

* **使用group()函數來獲取匹配的字符，而不是返回一個字符的位置**

    |參數    |用法   |
    |:-------|:------|   
    |groups()|將匹配好的字符組合起來，形成一個tuple元數組|
    |group(num=0)| 選擇第幾個匹配好的字符|

In [None]:
# 例_關於group的用法
import re

text = 'Geo studies in LaborCollege and he is 50 years old, when ...'
match_result = re.match(r'(.*) studies in ([a-z]*) and he is (\d+).*', text, re.I)
   
print(match_result.group())  # Geo studies in LaborCollege and he is 50 years old, when ...
print(match_result.group(1))  # Geo
print(match_result.group(2))  # LaborCollege
print(match_result.group(3))  # 50

# 使用groups()
print(type(match_result.groups()))  # <class 'tuple'>
print(match_result.groups())  # ('Geo', 'LaborCollege', '50')

### **flags 有下列幾種參數可供設定：**
|參數	|說 明  |
|:-----:|:-----|
|re.I	|忽略字母大小寫。|
|re.M	|匹配「^」和「$」在開頭和結尾時，會增加換行符之前和之後的位置。|
|re.S	|使「.」完全匹配包括換行的任何字元，如果沒有這個標籤，「.」會匹配除了換行符外的任何字元。|
|re.X	|當設定這個標籤時，空白字元被忽略，除非該空白字元在字符類中或在反斜線之後，當一個行內有 # 不在字符集和轉義序列，那麼它之後的所有字元都是注釋。|
|re.L	|由當前語言區域決定 \w, \W, \b, \B 和大小寫的匹配 ( 官方不建議使用，因為語言機制在不同作業系統可能會有不同 )。|

In [13]:
# 進行正規表達式搜尋字串內容後，預設將匹配的資料分成同一組，也可在搜尋時使用「小括號」進行搜尋資料的「分組」，接著使用「group」或「groups」，將匹配到的資料內容取出。
import re
role1 = re.compile(r'(hello) (world)', flags=re.I)
result_match1 = role1.match('HeLlo World, Hello oxxo')
print(result_match1)            # <re.Match object; span=(0, 11), match='HeLlo World'>
print(result_match1.span())     # (0, 11)
print(result_match1.groups())   # ('HeLlo', 'World')  ## groups() 傳回所有括號符合的字符，以tuple格式。
print(result_match1.group())    ## group（0）和group（）效果相同，都是取得所取得的字串整體。
print(result_match1.group(1))   # HeLlo
print(result_match1.group(2))   # World

role2 = re.compile(r'hello', flags=re.I)
result_match2 = role2.match('HeLlo World, Hello oxxo')
print(result_match2)
print(result_match2.groups())   # ()
print(result_match2.group())    # HeLlo
print(result_match2.group(1))   # 發生錯誤  no such group

<re.Match object; span=(0, 11), match='HeLlo World'>
(0, 11)
('HeLlo', 'World')
HeLlo World
HeLlo
World
<re.Match object; span=(0, 5), match='HeLlo'>
()
HeLlo


IndexError: no such group

In [6]:
# 由於使用 group 或 groups 時，如果找不到 group 會發生錯誤 ( 沒有匹配就沒有 group )，所以可以先使用 if 判斷式先行篩選，避免錯誤狀況發生，下方的程式碼執行後，會判斷 result 是否為 None，如果是 None 就直接印出找不到資料的文字。

import re
role = re.compile(r'hello', flags=re.I)
result = role.fullmatch('HeLlo World, Hello oxxo')
if result == None:
    print('找不到資料')      # 沒有匹配就印出找不到資料
else:
    print(result.group())  # 有匹配就印出結果

找不到資料


***
### **[研究緣由]**
### [<參考網址>](https://medium.com/@chiayinchen/1-分鐘搞懂-python-迴圈控制-break-continue-pass-be290cd1f9d8)[1 分鐘搞懂 Python 迴圈控制：break、continue、pass]

#### 情境 2：比對  
檢查 email 是否為公司官方信箱，如出現 hello、contact、sales、support、business、info 等關鍵字。  
 Note：  
 利用 break 告訴迴圈當 email 字串中包含 email_out 列表 (List) 中的關鍵字時，要強制結束迴圈。

In [18]:
import re
# 定義函數
def detect_email(email):
    email_out = ['hello','contact','sales','support','business','info']
    for e_out in email_out:
        pattern = re.compile('.*' + e_out + '.*')
        r = re.match(pattern, email.lower())
        if r is not None:
            print('{} 中包含 {} 關鍵字，因此判斷為官方信箱'.format(email, e_out))
            break
    else:
            print('{} 為個人信箱'.format(email))
        
# 呼叫函數
detect_email('carol@gmail.com')
detect_email('Support@gmail.com')

carol@gmail.com 為個人信箱
Support@gmail.com 中包含 support 關鍵字，因此判斷為官方信箱


#### **from chatgpt**  
**Question:** `.*` 是正規表示式中的一個模式，它與`*` 的差異為何？  

**Answer:**  
* ##### `.*` 的意思：
    * `.`: 代表任意單一字元（除了換行符號）。
    * `*`: 代表前面的字元或子模式可以出現零次或多次。  
    * `.*` :組合`.`&`*`在一起，代表“零個或多個任意字元”，**即可以匹配任意數量的任意字元（包括空字串）**。  
    例如：正規表示式 `.*` 可以符合：
        空字串 ""  
        任意單一字元 "a"  
        多個字元 "abc"  
        甚至是整行字元 "This is a test line"  

* ##### `*` 的意思：  
    * `*` **單獨使用是沒有意義的，因為它必須跟在一個字元或子模式後面**，表示該字元或子模式出現零次或多次。  
    * 正規表示式 (abc)* 表示零個或多個 'abc' 的重複，可以匹配：  
        空字串 ""  
        單一 'abc' "abc"  
        多 'abc' "abcabc"  

#### **from chatgpt**
**Question**: 接上述，若email=carol@gmail.com時，**r = re.match(pattern, email)用法**為何？  

**Answer:**  
在你的範例中，如果我們有一個電子郵件地址 email = "carol@gmail.com"，而我們使用 `re.match` 方法來匹配這個電子郵件地址，具體的用法將取決於我們定義的 pattern。

假設我們繼續使用先前的 `pattern = re.compile('.*' + e_out + '.*')`，且 e_out = 'support'，那麼整個正規表示式模式將是 `.*support.*`。這個模式用來匹配任意包含 support 的字串。以下是具體的使用方法：
```python
import re

e_out = 'support'
pattern = re.compile('.*' + e_out + '.*')
email = "carol@gmail.com"
```

##### 使用 re.match() 方法
```python
r = re.match(pattern, email)

if r:
    print(f"Email matches: {email}")
else:
    print("Email does not match.")
```


In [3]:
import re

e_out = 'support'
pattern = re.compile('.*' + e_out + '.*')
email = "carol_support@gmail.com"

r = re.match(pattern, email) # 使用 re.match() 方法
if r:
    print(f"Email matches: {email}")
else:
    print("Email does not match.")

Email matches: carol_support@gmail.com


#### **from chatgpt**  
##### **更改 pattern 以符合電子郵件**  
如果我們想要匹配電子郵件地址，我們需要一個不同的正規表示式模式。例如：

#### `pattern = re.compile(r'.*@.*\..*')`

這個模式的解釋如下：  
* `.*` 表示任意數量的任意字元（包括零個字元）。  
* `@` 是匹配字元 @。  
* `.*` 再次表示任意數量的任意字元。  
* `\.` 匹配字元 .。  
* `.*` 再次表示任意數量的任意字元。  


以下是使用該模式來匹配電子郵件地址的範例：
```python
import re

pattern = re.compile(r'.*@.*\..*')
email = "carol@gmail.com"

# 使用 re.match() 方法
r = re.match(pattern, email)

if r:
    print(f"Email matches: {email}")
else:
    print("Email does not match.")
```


**總結**  
使用 `re.match(pattern, email)` 可以檢查電子郵件地址是否符合給定的正規表示式模式。
正規表示式 `.*support.*` 用於匹配包含 support 的字串，  
而 `r'.*@.*\..*'` 則是一個通用的匹配電子郵件地址的正規表示式模式。

In [17]:
import re

pattern = re.compile(r'.*@.*\..*')
email = "carol@gmail.com"

# 使用 re.match() 方法
r = re.match(pattern, email)

if r:
    print(f"Email matches: {email}")
else:
    print("Email does not match.")


Email matches: carol@gmail.com


In [1]:
# 使用 loop 方法
import re

def detect_email(email):    
    pattern = re.compile(r'.*@.*\..*')
    email_match = re.match(pattern, email)  # 使用 re.match() 方法

    if  email_match:
        print(f"Email\t {email} : matches")
    else:
        print(f"Email\t {email} : does not match.")

emails=['GeoJSON@gmail.com','GeoPython@gmail.com','GeoGit.gmail.com']
for i in emails:
  detect_email(i)      

Email	 GeoJSON@gmail.com : matches
Email	 GeoPython@gmail.com : matches
Email	 GeoGit.gmail.com : does not match.


In [8]:
import re
mail_key=[]
def chk_mail(email):
    for mail_key in mail_keys:
        pattern=re.compile('.*' + mail_key + '@.*\..*')
        mail_match=re.match(pattern,email.lower())  # mail_key 有大寫時?-->pattern:ail_key.lower()??
        if mail_match:
            print(f'emali\t {email} : match')
            break
#    else:
    if mail_match is None:
            print(f"Email\t {email} : does not match.")

mail_keys = ['hello','contact','sales','support','business','info']
emails=['GeoJSON@gmail.com','GeoPython@gmail.com','GeoSales.gmail.com','GeoSales@gmail.com','GeoInf@gmail.com']
for i in emails:
  chk_mail(i)  

Email	 GeoJSON@gmail.com : does not match.
Email	 GeoPython@gmail.com : does not match.
Email	 GeoSales.gmail.com : does not match.
emali	 GeoSales@gmail.com : match
Email	 GeoInf@gmail.com : does not match.


In [5]:
# re.compile 使用 flags = re.I (忽略字母大小寫)

import re
mail_key=[]
def chk_mail(email):
    for mail_key in mail_keys:
        pattern=re.compile('.*' + mail_key + '@.*\..*',flags=re.I)  # 使用flags = re.I
        mail_match=re.match(pattern,email)  # email.lower()可省略成email
        if mail_match:
            print(f'emali\t {email} : match')
            break
#    else:
    if mail_match is None:
            print(f"Email\t {email} : does not match.")

mail_keys = ['hello','contact','sales','support','business','info']
emails=['GeoJSON@gmail.com','GeoPython@gmail.com','GeoSales.gmail.com','GeoSales@gmail.com','GeoInf@gmail.com']
for i in emails:
  chk_mail(i)  

Email	 GeoJSON@gmail.com : does not match.
Email	 GeoPython@gmail.com : does not match.
Email	 GeoSales.gmail.com : does not match.
emali	 GeoSales@gmail.com : match
Email	 GeoInf@gmail.com : does not match.


===============================================================  
Title : 設定包含中英文字

#### 透過chatGPT -1
##### Question : 在`re.search()`如何設定包含中英文字？  
##### Answer:  
要在 Python 的 `re.search()` 中設置匹配包含中英文字符的字符串，可以使用 Unicode 字符類型。  
**Unicode 字符類型**  
* `\u4e00-\u9fff` 用於匹配中文字符，
* `\w` 用於匹配英文字符和數字（還包括下劃線 _）。

以下是一些示例：

In [1]:
import re

# 示例字符串
text = "Hello 你好 world 世界"

# 匹配包含中英文字符的模式
pattern = r'[\w\u4e00-\u9fff]+'

# 搜索匹配
match = re.search(pattern, text)

if match:
    print("匹配成功:", match.group())
else:
    print("未找到匹配")


匹配成功: Hello


### **解釋**
* `\w` 匹配字母、數字和下劃線，即 [a-zA-Z0-9_]
* `\u4e00-\u9fff` 匹配 Unicode 范圍內的中文字符
* `[\w\u4e00-\u9fff]+` 匹配一個或多個中英文字符
* `\s` 匹配任何空白字元，包括空格、制表符、換頁符等等。 
如果你想要更精確地匹配，可能需要根據實際需求進行調整。例如，如果你只想匹配中英文字符而不包括數字，可以使用 `[a-zA-Z\u4e00-\u9fff]+`。


更多示例：
* 只匹配中英文字符（不包括數字和下劃線）：  
`pattern = r'[a-zA-Z\u4e00-\u9fff]+'`

* 匹配中英文字符及空格（允許空格分隔的詞組）：  
`pattern = r'[a-zA-Z\u4e00-\u9fff\s]+'`

* 匹配中英文字符及標點符號：  
`pattern = r'[a-zA-Z\u4e00-\u9fff.,!?，。！？]+'`

使用這些模式可以靈活匹配各種包含中英文字符的字符串。根據具體需求選擇合適的正則表達式模式。

In [15]:
#完整代碼示例
#這段代碼會逐個檢查每個字符串中是否包含中英文字符並輸出匹配結果。
import re

# 示例字符串
texts = [
    "Hello 你好",
    "world 世界",
    "Python123 编程",
    "只包含中文",
    "Only English",
    "12345",
    "包含标点符号，! Hello！"
]

# 匹配包含中英文字符的模式
# pattern = r'[a-zA-Z\u4e00-\u9fff]+'
#pattern = r'[a-zA-Z\u4e00-\u9fff\s]+'
pattern = r'[\w\u4e00-\u9fff\s,!！]+'

for text in texts:
    match = re.search(pattern, text)
    if match:
        print(f"在 '{text}' 中匹配成功: {match.group()}")
    else:
        print(f"在 '{text}' 中未找到匹配")


在 'Hello 你好' 中匹配成功: Hello 你好
在 'world 世界' 中匹配成功: world 世界
在 'Python123 编程' 中匹配成功: Python123 编程
在 '只包含中文' 中匹配成功: 只包含中文
在 'Only English' 中匹配成功: Only English
在 '12345' 中匹配成功: 12345
在 '包含标点符号，! Hello！' 中匹配成功: 包含标点符号


#### 設定包含中英文字  \~~~ End ~~~
***

======================================================================

### 給自己的Python小筆記 
#### **強大的數據處理工具 — 正則表達式 — Regular Expression — regex詳細教學**  
### [參考網站](https://chwang12341.medium.com/給自己的python小筆記-強大的數據處理工具-正則表達式-regular-expression-regex詳細教學-a5d20341a0b2)  regex詳細教學


### **正則表達式是什麼？**  
* 正則表達式（Regular Expression 、regex、regexp or Re）透過我們自行定義的字符串規則，幫助我們從文本中找尋對應規則的字符串
* 過濾出我們所需的資料後，幫助我們將這些資料組成串列，方便我們對文本進行下一步的分析
* 舉個例子：我們要在文章中的眾多文字資料中，找尋文章提到的人物的身份證資料，我們就會去定義一個規則，第一個字符要是大寫的英文，後面要接續著九個數字，接著它就會根據這個規則找尋匹配的字符串，收集好後，回傳給我們

### **Python 與 正則表達式？**  
正則表達式是一種輕量型的程式語言，它並不是Python底下的一個套件而已，像是我也用過Javascript來使用正則表達式處理文本字符串資料，在Python中，我們只要引入re模組就能使用這個強大的字符串處理語言囉!

* #### **基本的匹配**
![基本型](./figure/regex01.webp)
補充 `group()`：簡單來說，就是幫助我們方便看出匹配出來的字符有哪些

* #### 補充：**常見的[…]匹配規則**
![基本型[…]匹配規則](./figure/regex02.webp)

* #### **定義好的字符集**
![定義好的字符集](./figure/regex03.webp)

* #### **邊界上的匹配**
![邊界上的匹配](./figure/regex04.webp)

* #### **數量上的匹配（通常用在其它匹配符之後）**
![數量上的匹配](./figure/regex05.webp)

In [31]:
import re

search_01= re.search('Go+gle\d+','Gooooogle2024').group()
search_02= re.search('Gooo?gle\d+','Google2024').group()
print(search_01,search_02)


sample_01 = re.search('go{2}','goooooooooogle').group()
sample_02 = re.search('go{2,}','goooooooooogle').group()
sample_03 = re.search('go{2,7}','goooooooooogle').group()

print(sample_01,'\t',sample_02,'\t',sample_03)

data =['a','b','c','d','e',1,2,3,4,5]
for num in range(len(data)):
    print(num,end=' ')

Gooooogle2024 Google2024
goo 	 goooooooooo 	 gooooooo
0 1 2 3 4 5 6 7 8 9 

* #### **邏輯與分組的概念**
![數量上的匹配](./figure/regex06.webp)

***

#### pass

---

* #### **正則表達式的貪婪與非貪婪模式**
通常在過程中匹配的字符數量，會有兩種情況：貪婪與非貪婪，而Python中的預設模式為貪婪模式

* 貪婪：，不斷嘗試匹配更多的字符
* 非貪婪：盡可能的嘗試少匹配字符，它會盡量減少匹配重複的字符  
程式碼舉例：
```python
import re
​
## 貪婪模式
print(re.search('go*', 'goooooood').group()) ## 'gooooooo'
​
## 非貪婪模式
print(re.search('go*?', 'goooooood').group()) ## 'g'
```
**怎麼使用非貪婪模式呢？**
作者實作心得是在語法後面加上一個”`?`”，如下圖的非貪婪模式介紹

In [17]:
import re

# 貪婪模式
print(re.search('go*', 'goooooood').group()) ## 'gooooooo'

# 非貪婪模式
print(re.search('go*?', 'goooooood').group()) ## 'g'
print(re.search('go+?', 'goooooood').group()) ## 'go'
print(re.search('go{2,8}?', 'goooooood').group()) ## 'goo' 
print(re.search('go{2,8}?', 'goooooooooood').group()) ## 'goo' 與文本説明有差異---> ??????
print(re.search('go{3,}?', 'gooooooood').group()) ## 'gooo'
print(re.search('go??', 'goooooood').group()) ## 'g'
print(re.search('.*?B', 'gooooooodBye').group()) ## 'g'

gooooooo
g
go
goo
goo
gooo
g
gooooooodB


* #### **怎麼使用非貪婪模式呢？**
在語法後面加上一個”?”，如下圖的非貪婪模式介紹
![非貪婪模式](./figure/regex10.webp)


* #### **非貪婪模式的常見用法 .*？的用法介紹**
    * .*？ ：盡量匹配較少的字符
    * 大多用在像是.*？a的地方，意思是前面匹配任何的字符，直到字母a出現  
`re.search('.*?e','a_b*c defg').group()`  #'a_b*c de'

In [12]:
import re
re.search('.*?e','a_b*c defg').group()

'a_b*c de'

* ### **正則表達式的函數介紹與實作**
1. match 函數用法
    * `re.match`會從文本中的起始位置開始進行文字符的匹配，如果不是一開始第一個字符就匹配成功的話，就會直接返回一個none，**簡單來說就是欲匹配的文本一開始就要符合我們定義的字符規則**，不符合直接回傳none，符合就會回傳字符位置資訊  
    * 函數語法格式：  
    `re.match(pattern, string, flags)`  
    * 參數介紹： 
    
        |參數    |用法   |
        |:-------|:------|
        |pattern |匹配的規則，使用正則表達式的語法撰寫|
        |string  |要進行匹配的字符串|
        |flags   |設定一些正則表達式的匹配方式，像是規則是忽略大小寫，或使用UNICODE字符規則來解析字符等，如果沒有特別需求，可以忽略不寫 可以選擇的標誌，可參考上面有提到的正則表達式修飾符號|

    * **使用group()函數來獲取匹配的字符，而不是返回一個字符的位置**

        |參數    |用法   |
        |:-------|:------|   
        |groups()|將匹配好的字符組合起來，形成一個tuple元數組|
        |group(num=0)| 選擇第幾個匹配好的字符|


In [3]:
# 程式碼 : 舉例1
import re

text = 'https://lc.arpa.bola.gov.taipei/WebUPD/LaborCollege/Header'
text1 = 'LaborCollege.news'

print(re.match('https', text))
print(re.match('https', text).span())
print(re.match('LaborCollege', text))
print(re.match('LaborCollege', text1))
print(re.match('laborCollege', text1))
print(re.match('laborCollege', text1, flags = re.I))

<re.Match object; span=(0, 5), match='https'>
(0, 5)
None
<re.Match object; span=(0, 12), match='LaborCollege'>
None
<re.Match object; span=(0, 12), match='LaborCollege'>


In [6]:
# 程式碼:舉例2_關於group的用法
import re

text = 'Geo studies in LaborCollege and he is 50 years old, when ...'
match_result = re.match(r'(.*) studies in ([a-z]*) and he is (\d+).*', text, re.I)
   
print(match_result.group())  # Geo studies in LaborCollege and he is 50 years old, when ...
print(match_result.group(1))  # Geo
print(match_result.group(2))  # LaborCollege
print(match_result.group(3))  # 50

# 使用groups()
print(type(match_result.groups()))  # <class 'tuple'>
print(match_result.groups())  # ('Geo', 'LaborCollege', '50')

Geo studies in LaborCollege and he is 50 years old, when ...
Geo
LaborCollege
50
<class 'tuple'>
('Geo', 'LaborCollege', '50')


* ### **正則表達式的函數介紹與實作**
2. Search 函數用法
    * `re.search`**會搜尋整個字符串**，然後找到匹配的字符並且傳回，如果失敗，沒有匹配到任何字符則傳回none，如果成功，就會傳回一個匹配的對象，就可以使用group()來取得匹配成功的字符 
    * 函數語法格式：  
    `re.search(pattern, string, flags)`  
    * 參數介紹： (用法與match一樣)
    
        |參數    |用法   |
        |:-------|:------|
        |pattern |匹配的規則，使用正則表達式的語法撰寫|
        |string  |要進行匹配的字符串|
        |flags   |設定一些正則表達式的匹配方式，像是規則是忽略大小寫，或使用UNICODE字符規則來解析字符等，如果沒有特別需求，可以忽略不寫 可以選擇的標誌，可參考上面有提到的正則表達式修飾符號|

In [11]:
# 程式碼 : 舉例1
import re

text = 'https://lc.arpa.bola.gov.taipei/WebUPD/LaborCollege/Header'
text1 = 'LaborCollege.news'

print(re.search('https', text))
print(re.search('https', text).span())
print(re.search('LaborCollege', text))
print(re.search('LaborCollege', text1))
print(re.search('News', text1))
print(re.search('News', text1, flags = re.I))
print(re.search('News', text1, flags = re.I).span())
print(re.search('News', text1, flags = re.I).group())

<re.Match object; span=(0, 5), match='https'>
(0, 5)
<re.Match object; span=(39, 51), match='LaborCollege'>
<re.Match object; span=(0, 12), match='LaborCollege'>
None
<re.Match object; span=(13, 17), match='news'>
(13, 17)
news


In [7]:
# 程式碼：範例2_使用groups()與group(num)來取得字符
import re

text = 'Geo studies in LaborCollege and he is 50 years old, when ...'
search_result = re.search(r'(.*) studies in ([a-z]*) and he is (\w+).*', text, re.I | re.M)
   
print(search_result.group())  # Geo studies in LaborCollege and he is 50 years old, when ...
print(search_result.group(1))  # Geo
print(search_result.group(2))  # LaborCollege
print(search_result.group(3))  # 50

print(search_result.groups())  # ('Geo', 'LaborCollege', '50')
print(type(search_result.groups()))  # class 'tuple'

Geo studies in LaborCollege and he is 50 years old, when ...
Geo
LaborCollege
50
('Geo', 'LaborCollege', '50')
<class 'tuple'>


### **note：match與search的差別，其實差別就在match一定要從起始位置開始匹配成功，而search則不用！**


* ### **正則表達式的函數介紹與實作**
3. findall 函數用法
    * `re.findall`會直接找尋所有匹配的字符，裝進**串列**後返回，如果沒有找到匹配的字符，就會回傳一個空的串列   
    * 小筆記：`re.findall`會**匹配所有符合規則的字符**，而`re.search`與`re.match`只會匹配一次而已
    * 函數語法格式：  
    `findall(pattern, string, pos, endpos)`  
    * 參數介紹：  
        * pattern: 匹配的規則，使用正則表達式的語法來撰寫
        * string:欲進行匹配的字符串
        * pos: 可選擇的參數，不一定要寫，指定開始匹配的位置，預設為0，也就是起始字符的位置
        * endpos: 可以選擇的參數，不一定要添加，指定結束匹配字符串的位置

In [9]:
import re

find_pattern = re.compile(r'[a-z]+', re.I)
match_result1 = find_pattern.findall('NT 1 dollar equals Japen Yen 0.2210yen')
match_result2 = find_pattern.findall('NT1dollar equals Japen_Yen0.2210yen')
match_result3 = find_pattern.findall('NT1dollar equals Japen_Yen0.2210yen', 2,20)
print(match_result1)
print(match_result2)
print(match_result3)

['NT', 'dollar', 'equals', 'Japen', 'Yen', 'yen']
['NT', 'dollar', 'equals', 'Japen', 'Yen', 'yen']
['dollar', 'equals', 'Jap']


In [24]:
# test _ write something
import re

find_pattern = re.compile(r'[a-z]+', re.I)
f=open('./files/seek_file.txt','w')
text='NT 1 dollar equals Japen Yen 0.2210ye'
f.write(text)

f=open('./files/seek_file.txt','r')

seek_file=f.readlines()

print(seek_file)
print(f.tell())

f.close()

['NT 1 dollar equals Japen Yen 0.2210ye']
37


* ### **正則表達式的函數介紹與實作**
4. sub 函數用法
    * 匹配好字符後，將它替換成想設定的字符，這個方法相當方便，在進行數據處理時，會有一些多餘的不要的空格、符號等等，就可以透過這個方法來一次替換掉   
    * 函數語法格式：  
    `re.sub(pattern, repl, string, count = 0, flags)`  
    * 參數介紹： 
        * pattern: 匹配的規則，使用正則表達式的語法來撰寫
        * repl: 欲替換的字符，也可以用函數的形式傳入
        * string: 要進行匹配的字符串
        * count: 匹配好字符後，替換的最大數量，預設為0，表示要全部替換
        * flags: 設定一些正則表達式的方式，像是規則是否忽略大小寫、使用UNICODE字符規則來解析字符等，如果沒有特別需求可以忽略不寫；可以選擇的標誌，可參考上面有提到的正則表達式修飾符號

In [1]:
# 程式碼:舉例1
import re 
text = 'Jack/25/1993 and Jen/23/1995'

## 把中間的and與空格拿掉，用&替換
sub_result1 = re.sub('\sand\s', '&', text)
print(sub_result1)

## 狀況一: 再把/拿掉
sub_result2 = re.sub('/', '', sub_result1)
print(sub_result2)

## 狀況二: 再把/拿掉，但只要拿掉前兩個
sub_result3 = re.sub('/', '', sub_result1, 2)
print(sub_result3)

Jack/25/1993&Jen/23/1995
Jack251993&Jen231995
Jack251993&Jen/23/1995


In [12]:
# 程式碼：舉例2_repl使用函數傳入時

import re
text = 'Jack66Jen58Ken28,Cathy38'

## 將匹配好的數字做平方計算
def square(match_result):
  num = int(match_result.group('number'))
  print(num,num**2)
  return str(num**2)

## 給定我們匹配值一個名稱，用?P<name> _ 邏輯與分組的概念_引用別名為<name>的分組的匹配字符
final_result = re.sub('(?P<number>\d+)', square, text)
print(final_result)

66 4356
58 3364
28 784
38 1444
Jack4356Jen3364Ken784,Cathy1444


* ### **正則表達式的函數介紹與實作**
5. Compile 函數
    * `re.compile`可以幫助我們編譯正則表達式，並生成一個pattern對象，來供給`match`、`search`、`findall`函數使用，簡單來說，就是我們只要定義好一次正則表達式的規則，就能用這個定義好的pattern規則，來提供`match`、`search`、`findall`函數匹配字符   
    * 用了這個方法後，我們就不用每次使用匹配函數時，都要重新寫一次正則表達式語法，但明明匹配的規則與寫法是一樣的
    * 函數語法格式：  
    `re.compile(pattern, flags)`  
    * 參數介紹： 
        * pattern: 匹配的規則，使用正則表達式的語法來撰寫
        * flags: 設定正則表達式匹配的一些模式
    * 補充用法說明
        * `group()`: 匹配好後，會回傳一個**tuple**，會根據匹配成功的字符一組一組返回，但由於`match`方法只會回傳一組，所以只要寫`group()`就好，其他的話，若我們想要回傳第一組就寫`group(0)`，以此類推
        * `start()`: 起始位置，傳入要查詢的組別，像是第一組就寫start(0)，以此類推
        * `end()`: 結束位置，傳入要查詢的組別，像是第一組就寫end(0)，以此類推
        * `span()`: 傳回（起始位置,結束位置）

In [1]:
#程式碼舉例：

import re
# text = '68Jack66Jen58Ken28,Cathy38'
text = '2023.09.01 Geo studied in LaborCollege and he was 50 years old, when he was 22...'

## 匹配字母，並忽略大小寫
pattern = re.compile(r'([a-z]+)', re.I)

## match預設從第一個位置開始匹配
compile_result1 = pattern.match(text)
print(compile_result1) ## None，因為match會從第一個位置開始匹配，如果不通過就會返回none

## 從第3個位置開始匹配
compile_result2 = pattern.match(text, 11, 20)

print(compile_result2) 
print(compile_result2.group(0)) 
print(compile_result2.start(0))
print(compile_result2.end(0))
print(compile_result2.span())

None
<re.Match object; span=(11, 14), match='Geo'>
Geo
11
14
(11, 14)


* ### **正則表達式的函數介紹與實作**
6. finditer 函數用法
    * `re.finditer`的用法與`re.findall`相似，找到所有符合匹配規則的字符後，以**迭代器的形式傳回**
    * 函數語法格式：  
    `re.finditer(pattern, string, flags)`  
    * 參數介紹： 
        * pattern: 匹配的規則，使用正則表達式的語法來撰寫
        * string: 要進行匹配的字符串
        * flags: 設定一些正則表達式的方式，像是規則是否忽略大小寫、使用UNICODE字符規則來解析字符等，如果沒有特別需求可以忽略不寫；可以選擇的標誌，可參考上面有提到的正則表達式修飾符號

In [14]:
import re

match_result = re.finditer(r'[a-z]+', 'Apple12Orange24Grape36,Dollar32', re.I)
# print(match_result.groups())

for name in match_result:
  print(name)
  print(name.group())

<re.Match object; span=(0, 5), match='Apple'>
Apple
<re.Match object; span=(7, 13), match='Orange'>
Orange
<re.Match object; span=(15, 20), match='Grape'>
Grape
<re.Match object; span=(23, 29), match='Dollar'>
Dollar


In [19]:
import re

find_pattern = re.compile(r'[a-z]+',flags=re.I)
text = 'Apple12Orange24Grape36,Dollar32'
finditer_result = find_pattern.finditer(text)  #以迭代器的形式傳回
print(finditer_result)  # <callable_iterator object at 0x0000027E3650F340>

findall_result = find_pattern.findall(text) # 找尋所有匹配的字符，裝進list後返回
print(findall_result)   # ['Apple', 'Orange', 'Grape', 'Dollar']

print('\nfinditer:找尋所有匹配的字符，以迭代器的形式傳回')
for name in finditer_result:
  print(name)
  print(name.group())

print('\nfindall:找尋所有匹配的字符，裝進list後返回')
for name in findall_result:
  print(name)   # name 型態為'str'
  print(type(name))
  # print(name.group())  #'str' object has no attribute 'group'

<callable_iterator object at 0x0000027E36515180>
['Apple', 'Orange', 'Grape', 'Dollar']

finditer:找尋所有匹配的字符，以迭代器的形式傳回
<re.Match object; span=(0, 5), match='Apple'>
Apple
<re.Match object; span=(7, 13), match='Orange'>
Orange
<re.Match object; span=(15, 20), match='Grape'>
Grape
<re.Match object; span=(23, 29), match='Dollar'>
Dollar

findall:找尋所有匹配的字符，裝進list後返回
Apple
<class 'str'>
Orange
<class 'str'>
Grape
<class 'str'>
Dollar
<class 'str'>


* ### **正則表達式的函數介紹與實作**
7. split 函數用法
    * `re.split`將匹配的字符進行切割，並且回傳一組串列
    * 函數語法格式：  
    `re.split(pattern, string, maxsplit, flags)`  
    * 參數介紹： 
        * pattern: 匹配的規則，使用正則表達式的語法撰寫
        * string: 欲進行匹配的字符串
        * maxsplit: 分割的次數，如maxsplit=1，代表分割一次，**預設為0，表示不限分割次數**
        * flags: 設定一些匹配的模式

In [22]:
import re

# text = 'Jack66Jen58Ken28Cathy'
text = 'Apple12Orange24Grape36,Dollar72$'

## 用數字來做為分隔依據
print(re.split('\d+', text))

## 分隔，並將數字也傳進陣列
print(re.split('(\d+)', text))

## 如果匹配的一句剛好在前後的位置，就會以空值傳回空值
# text1 = '66Jack66Jen58Ken28Cathy38'
text1 = '20240910Apple12Orange24Grape36,Dollar$72'
print(re.split('\d+', text1))

## 如果找不到匹配會回串全部字串
print(re.split('\s+', text1))

['Apple', 'Orange', 'Grape', ',Dollar', '$']
['Apple', '12', 'Orange', '24', 'Grape', '36', ',Dollar', '72', '$']
['', 'Apple', 'Orange', 'Grape', ',Dollar$', '']
['20240910Apple12Orange24Grape36,Dollar$72']


### **重要筆記：**  
#### **匹配時將我們需要爬取的數據，用（）來包住它的匹配規則，才會被獨立出來放入串列**
舉個例子來說，我們想要爬取文本字符串中符合我們指定格式的字符串，但是我們只想要取得|Example_format|前後的數值，並分別放入串列，這時候我們就需要將它們括號起來，像是(\d+)|Example_format|(\d+)這樣

指定的字符串格式：
#### **333|Example_format|666**

ps.  
`re.findall(r'(\d+)(?:\WExample_format\W)(\d+)', text)`  
語法中的 `?:re..`為特殊用法，類似`(...)`，但是它不分組

In [23]:
import re

text = '333|Example_format|666'
print(re.findall(r'(\d+)(?:\WExample_format\W)(\d+)', text))

text1 = '333|Example_format|666&000|Example_format|111'
print(re.findall(r'(\d+)(?:\WExample_format\W)(\d+)', text1))

[('333', '666')]
[('333', '666'), ('000', '111')]


**給自己的python小筆記-強大的數據處理工具-正則表達式-regular-expression-regex詳細教學**  
### **~End~** ###

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

## **Regular Expressions (Regex)**
https://www3.ntu.edu.sg/home/ehchua/programming/howto/Regexe.html

### **1. 正規表示式範例(Regex By Examples)**

#### **1.1 正規表示式語法總結(Regex Syntax Summary)**
* **字元(Character)**：除了在正規表示式中具有特殊意義的字元外，所有字元都與自身相符。  
例如，正規表示式`x`匹配子字串"x"；正規表示式`9`匹配"9"；正規表示式`=`匹配"="；和正規表示式 `@`匹配"@"。
* **特殊正規表示式字元(Special Regex Characters)**：這些字元在正規表示式中具有特殊意義（將在下面討論）： `.  +  *  ?  ^  $  (  )  [  ]  {  }  |  \` 
* **轉義序列** ： Escape Sequences (\char)
    * 要匹配正規表示式中具有特殊含義的字符，需要使用帶有反斜線(`\`)的轉義序列前綴。例如，`\.`匹配"."；正規表示式`\+`匹配"+"；和正規表示式`\(` 匹配 "("。
    * 您還需要使用正規表示式`\\`來匹配"`\`"（反斜線）。
    * 正規表示式可識別常見的轉義序列，例如 `\n`為換行符、`\t`為Tab符、`\r`為return符、`\nnn`為最多 3位元八進位數、`\xhh`為兩位十六進位代碼、`\uhhhh` 為4位元 Unicode、`\uhhhhhhhh`為8位元 Unicode。
* **字元序列（或字串）**： A Sequence of Characters (or String)可以透過組合字元序列（稱為子表達式）來匹配字串。例如，正規表示式`Saturday`匹配"Saturday".預設情況下，匹配區分大小寫，但可以透過 修飾符設定為不區分大小寫。
* **OR 運算子 ( | ) (OR Operator (|))**：例如，正規表示式`four|4`接受字串"four"or "4"。
* **字元類別（或括號列表）**： Character class (or Bracket List)
    * `[...]`：接受方括號內的任一個字符，例如`[aeiou]`匹配"a"、"e"、"i"、"o"、或"u"。
    * `[.-.]` （範圍表達式）：接受範圍中的任意一個字符，例如`[0-9]`匹配任意數字；`[A-Za-z]`匹配任何大寫或小寫字母。
    * `[^...]`：不匹配方括號內任一個字符，例如，[^0-9]匹配任何非數字的字符。
    * **只有這四個字元需要在括號列表內轉義序列**：`^  -  ]  \` 
* **出現指示符（或重複運算子）**： Occurrence Indicators (or Repetition Operators)
    * `+`：一個或多個( 1+ )，例如`[0-9]+`符合一個或多個數字，例如'123','000'。
    * `*`：零個或多個 ( 0+)，例如，`[0-9]*`符合零個或多個數字。它接受所有的`[0-9]+`加上空字串。
    * `？`：零或一（可選），例如，`[+-]?`符合可選的"+"、"-"或空字串。
    * `{m,n}` : 符合m至n次（包含兩者）
    * `{m}`：符合精確的m次
    * `{m,}` :符合m次或更多 ( m+ )
* **元字符(匹配一個字符)**：Meta-characters(matches a character)
    * `.`（點）：除換行符之外的任何一個字元。與相同`[^\n]`
    * `\d`、`\D`：任何一位數字/非數字字元。數字是`[0-9]`
    * `\w`、`\W`：任何一個單字/非單字字元。對於 ASCII，單字字元是`[a-zA-Z0-9_]`
    * `\s`、`\S`：任何一個空格/非空格字元。對於 ASCII，空白字元是`[ \n\r\t\f]`
* **位置標籤**：Position Anchors - 不匹配字符，而是匹配位置，例如行首、行尾、詞首和詞尾  
    (does not match character, but position such as start-of-line, end-of-line, start-of-word and end-of-wor)
    * `^`、`$`：分別為行首、行尾。例如，`^[0-9]$`匹配數字字串。
    * `\b`：單字邊界，即單字開頭或單字結尾。例如，`\bcat\b`匹配輸入字串中的單字"cat"。
    * `\B`： 為`\b` 的相反，即非單字開頭或非單字結尾。
    * `\<` 、 `\>`：分別為詞首和詞尾，類似`\b`.例如，`\<cat\>`匹配輸入字串中的單字"cat"。
    * `\A`、`\Z`：分別是輸入開始和輸入結束。
* **帶括號的反向參考文獻**：Parenthesized Back References
    * 使用括號`( )`建立反向引用。
    * 使用`$1`, `$2`, ...（Java、Perl、JavaScript）或`\1`, `\2`, ... (Python) 依序檢索向後引用。
* **惰性（抑制重複運算子的貪婪）**：Laziness (Curb Greediness for Repetition Operators)
    * `*?`, `+?`, `??`, `{m,n}?`,`{m,}?`

#### **1.2 數字** - Numbers  
- Example： `[0-9]+` or `\d+`
1. regex（正規表示式）由一系列子表達式組成。在此範例中，`[0-9]`和`+`.
2. `[...]`稱為字元類別（或括號列表），包含字元列表。它匹配列表中的任何單個字元。  
在此範例中，`[0-9]`符合 0 到 9 之間的任何單一字元（即數字），其中破折號 ( - ) 表示範圍。
3. `+`稱為出現指示符（或重複運算子），指示前一個子表達式出現一次或多次 (1+)。  
在這種情況下，`[0-9]+`匹配一位或多位數字。
4. 正規表示式可以符合輸入的一部分（即子字串）或整個輸入。事實上，它可以匹配輸入的零個或多個子字串（使用全域修飾符）。 
5. 此正規表示式符合輸入的任何數字子字串（數字 0 到 9）。例如，
    * 如果輸入為"abc123xyz"，則符合子字串"123"。
    * 如果輸入為"abcxyz"，則不符合任何內容。
    * 如果輸入為"abc00123xyz456_0"，則它會匹配子字串"00123"、"456"和"0"（三個匹配）。
    請注意，此正規表示式匹配以零為前導的數字，例如"000"、"0123"和"0001"，這可能並不理想。
6. 您也可以編寫`\d+`，其中`\d`稱為匹配任何數字的元字元（與 `[0-9]`相同）。編寫正規表示式的方法不只一種！
    * 請注意，許多程式語言（C、Java、JavaScript、Python）使用反斜線(`\`)作為轉義序列的前綴（例如，`\n`換行符），故其轉義、您需要改編寫為 `\\d+`。

#### **1.3 程式碼範例** - Code Examples (Python, Java, JavaScript, Perl, PHP)
* **Code Example in Python**  
    * 可參閱[「Python 的re正規表示式模組」](https://www3.ntu.edu.sg/home/ehchua/programming/webprogramming/Python1_Basics.html#re)以了解完整內容。  
    * Python 透過 module 支援正規表示式re。 Python 也使用反斜線 ( \ ) 來表示轉義序列（即，您需要編寫`\\` for `\`, `\\d` for `\d`），但它支援 **形式為`r'...'`的原始字串，這會忽略轉義序列的解釋 - 非常適合編寫正則表達式。**

In [4]:
# 在 Python 命令列解釋器下測試
# python3

import re    # 正規表示式需要模組're'

# 嘗試尋找： re.findall( regexStr , inStr ) -> matchedSubstringsList 
# r'...' 表示忽略轉義碼的原始字串，即 r'\n' 是 '\'+'n' 
example = re.findall(r'[0-9]+', 'abc123xyz')    # 傳回符合子字串的清單['123'] 
print(example)

example = re.findall(r'[0-9]+', 'abcxyz')   # 傳回符合子字串的清單[] 
print(example)

example = re.findall(r'[0-9]+', 'abc00123xyz456_0')  # 傳回符合子字串的清單['00123', '456', '0']
print(example)

example = re.findall(r'\d+', 'abc00123xyz456_0')  # 傳回符合子字串的清單['00123', '456', '0']
print(example)

# 嘗試替換： re.sub( regexStr , replacementStr , inStr ) -> outStr 
example = re.sub(r'[0-9]+', r'*', 'abc00123xyz456_0') # 傳回符合子字串的清單'abc*xyz*_*'
print(example)

# 試著用 count 取代： re.subn( regexStr , replacementStr , inStr ) -> ( outStr , count ) 
re.subn(r'[0-9]+', r'*', 'abc00123xyz456_0')  # 傳回輸出字串和計數的元組( 'abc*xyz*_*', 3)   

['123']
[]
['00123', '456', '0']
['00123', '456', '0']
abc*xyz*_*


('abc*xyz*_*', 3)

[備註_參考：](https://www.cnblogs.com/yoyoketang/p/14261349.html)**re正規符合替換字串(sub和subn)**  
**`subn()`方法使用：**  
`subn()`方法與`sub()`相同, 但傳回一個元組, 其中包含新字串和替換次數。  

```
import re
s = "We are happy."
x, n = re.subn(" ", "%20", s,count=0 ) # 替換字符串中的空格為%20，只替換一次(sub 加count 參數可以控制要替換的最大次數，而且必須是非負整數，該參數預設為0，即所有的匹配都會被替換)
print("替換后：", x)   # 替换後： We%20are%20happy.
print("替換次数: ", n)  # 替换次数:  2
```

In [3]:
import re

s = "We support good working environment."
x, n = re.subn(" ", " 100% ", s, count=0) # 替換字符串中的空格為100%，count=0為所有的匹配都會被替換
print("替換后：", x)
print("替換次数: ", n)

替換后： We 100% support 100% good 100% working 100% environment.
替換次数:  4


#### **1.3 程式碼範例** - Code Examples (Python, Java, JavaScript, Perl, PHP)
* **Code Example in Java**  
* **Code Example in Perl**  
* **Code Example in JavaScript**  
Pass

#### **1.4 完整數字字串** - Full Numeric Strings
- **Example：  `^[0-9]+$` or `^\d+$`**  
* 開頭^和結尾$稱為位置標籤，它們分別匹配行的起始位置和結束位置。結果須**整個輸入字串應完全匹配**，而不是輸入字串的一部分（子字串）。
* 此正規表示式符合任何非空數字字串（包含數字 0 到 9），例如"0"和"12345"。它不符合""（空字串）、"abc"、"a123"、"abc123xyz"等。但它也可匹以為開頭的字串"000" "0123"和"0001"

#### **1.5 正整數文字** - Positive Integer Literals  
- **Example： `[1-9][0-9]*|0` or `[1-9]\d*|0`**  
* `[1-9]`匹配 1 到 9 之間的任意字元；`[0-9]*`匹配零個或多個數字。是表示零次或多次出現的出現`*`指示符。`[1-9][0-9]*`一起使用，為匹配任何不帶開頭為零的數字。
* `|`代表 OR 運算子；用於包含數字 0。
* 該表達式可匹配"0"和"123"；但不能匹配"000"和"0123"（但見下文）。
* 您可以用元字元`\d`替換`[0-9]`，而非`[1-9]`。
* 在這個正規表示式中，我們沒有使用位置標籤 ^和$。因此，它可以匹配輸入字串的任何部分。例如，
    * 如果輸入字串是"abc123xyz"，則符合子字串"123"。
    * 如果輸入字串為"abcxyz"，則無任何符合內容。
    * 如果輸入字串為"abc123xyz456_0"，則它符合子字串"123"、"456"和"0"（三個匹配）。
    * 如果輸入字串是"0012300"，則它符合子字串："0"、"0"和"12300"（三個符合）！

#### **1.6 全整數文字** - Full Integer Literals 
- **Example： `^[+-]?[1-9][0-9]*|0$` or `^[+-]?[1-9]\d*|0$`**  
* 此正規表示式符合整數文字（對於具有位置標籤的整個字串），包括正數、負數和零。
* `[+-]` 匹配+或-符號。`?`是出現指示符，表示出現0次或1次，即可選的。因此，`[+-]?`匹配可選的開頭為+或-符號。
* 我們已經介紹了三個出現指標：
    * `+`為出現一次或多次、
    * `*`為出現零次或多次
    * `?`為出現零次或一次。

#### **1.7 標識符（或名稱）** - Identifiers (or Names)  
- **Example： `[a-zA-Z_][0-9a-zA-Z_]*` or `[a-zA-Z_]\w`**  
* 以一個字母或底線開頭，後面跟著零個或多個數字、字母和底線。
* 也可以使用元字元 `\w`作為單字字元`[a-zA-Z0-9_]`。回想一下，元字元 `\d`可用於數字`[0-9]`。

#### **1.8 圖片檔名** - Image Filenames  
- **Example： `^\w+\.(gif|png|jpg|jpeg)$`**  
* 位置標籤 `^`並 `$`分別匹配輸入字串的開頭和結尾。也就是說，該正規表示式應符合**整個輸入字串**，而不是輸入字串的一部分（子字串）。
* `\w+`匹配一個或多個單字字元（與 `[a-zA-Z0-9_]+`相同）。
* `\.`匹配點(`.`)字元。我們需要使用 `\.` 來表示 `.`，因為 `.` 在正規表示式中具有特殊意義。這`\`被稱為轉義碼，它恢復後面字元的原始字面含義。同樣， `*`, `+`, `?`（出現指示符）,`^`, `$`（位置標籤）在正規表示式中具有特殊意義。您需要使用轉義碼來匹配這些字元。
* (gif|png|jpg|jpeg)符合"gif"、"png"、"jpg"或"jpeg"。`|`表示"OR"運算符。括號用於將選擇分組。
* 正規表示式後面的修飾符`i`指定不區分大小寫的匹配（僅適用於某些語言，例如 Perl 和 JavaScript）。即，它接受"test.GIF"和"TesT.Gif"。

#### **1.9 電子郵件地址** - Email Addresses  
- **Example： `^\w+([.-]?\w+)*@\w+([.-]?\w+)*(\.\w{2,3})+$`**  
* 位置定位符 `^`並`$`分別指定匹配輸入字串的開頭和結尾。也就是說，該正規表示式應符合**整個輸入字串**，而不是輸入字串的一部分（子字串）。
* `\w+`符合 1 個或多個單字字元（與`[a-zA-Z0-9_]+`相同）。
* `[.-]?`匹配可選字元`.`或`-`.雖然 點 (`.`) 在正規表示式中具有特殊意義，但在字元類別（方括號）中，除了`^`, `-`, `]` 或`\`之外的任何字元都是文字，且不需要轉義序列。
* `([.-]?\w+)*`配對 0 次或多次出現的`[.-]?\w+`。
* 子表達式`\w+([.-]?\w+)*`用於匹配電子郵件中@符號之前的使用者名稱。它以至少一個單字字元開頭`[a-zA-Z0-9_]`，後面跟著更多單字字元或`.`或`-`。然而，`.`或`-`後面必須跟有單字字元`[a-zA-Z0-9_]`。即輸入字串不能以`.`或`-`開頭；且不能包含".."、"--"、".-"或'-.'。有效字串的範例是"a.1-2-3"。
* @匹配它本身。在正規表示式中，除了具有特殊意義的字元之外的所有字元都與自身匹配，例如a匹配a、b匹配b等。
* 同樣，子表達式\w+([.-]?\w+)*用於匹配電子郵件域名，其模式與上述使用者名稱相同。
* 子表達式`\.\w{2,3}`匹配`.`後跟兩個或三個單字字符，例如".com"、".edu"、".us"、".uk"、".co"。
* `(\.\w{2,3})+`指定上述子表達式可以出現一次或多次，例如".com"、".co.uk"、".edu.sg"等。  
- **練習**：  
解釋此正規表示式，它提供了電子郵件地址的另一種表示形式：`^[\w\-\.\+]+\@[a-zA-Z0-9\.\-]+\.[a-zA-z0-9]{2,4}$`。

#### **1.10 使用括號的反向引用交換單字** - Swapping Words using Parenthesized Back-References  
- **Example： `^(\S+)\s+(\S+)$` and `$2 $1`**  
* `^`和`$`分別匹配輸入字串的開頭和結尾。
* `\s`(小寫s)匹配空格（空白、跳格符`\t`和 換行符`\r`或`\n`）。另一方面，`\S+`(大寫S)匹配非符合`\s`的任何內容，即非空格。在正規表示式中，大寫元字元表示小寫對應字元的反義詞，例如，`\w`對於單字字元和`\W`非單字字元；`\d`對於數字和`\D`非數字。
* 上述正規表示式符合由一個或多個空格分隔的兩個單字（沒有空格）。
* 正規表示式中的括號()有兩種意義：
    - 將子表達式分組，例如(abc)*
    - 為捕獲和提取匹配項提供所謂的反向引用。
* `(\S+)`中的括號、稱為帶括號的反向引用，用於從輸入字串中提取匹配的子字串。在此正規表示式中，有兩個`(\S+)`, 匹配前兩個單詞，它是由一個或多個空格`\s+`分隔的。兩個符合的單字是從輸入字串中提取的，通常分別保存在特殊變數 `$1` and `$2`（或Python中的`\1` and `\2`）中。
* 要交換兩個單字，您可以存取特殊變量，並列印 `$2` `$1` （透過程式語言）；或替換運算子“ s/(\S+)\s+(\S+)/$2 $1/”（在 Perl 中）。

#### **Code Example in Python**
Python keeps the parenthesized back references in \1, \2, .... Also, \0 keeps the entire match.

`$ python3`  
`re.findall(r'^(\S+)\s+(\S+)$', 'apple orange')`  #[('apple', 'orange')]   
* A list of tuples if the pattern has more than one back references  
* Back references are kept in \1, \2, \3, etc.

**Prefix r for raw string which ignores escape**  
`re.sub(r'^(\S+)\s+(\S+)$', r'\2 \1', 'apple orange')`   #'orange apple'  

**Need to use \\ for \ for regular string**  
`re.sub(r'^(\S+)\s+(\S+)$', '\\2 \\1', 'apple orange')`  #'orange apple  

In [11]:
import re

back_ref1 = re.findall(r'^(\S+)\s+(\S+)$', 'apple orange')  #[('apple', 'orange')] 
print(back_ref1,type(back_ref1))

back_ref2 = re.sub(r'^(\S+)\s+(\S+)$', r'\2 \1', 'apple orange')   #'orange apple'
print(back_ref2,type(back_ref2))

back_ref3 = re.sub(r'^(\S+)\s+(\S+)$', '\\2 \\1', 'apple orange')  #'orange apple
print(back_ref3,type(back_ref3))

back_ref4 = re.sub(r'^(\S+)\s+(\S+)$', r'\2 \1 \2', 'apple orange')   #'orange apple orange'
print(back_ref4,type(back_ref4))

back_ref5 = re.sub(r'^(\S+)\s+(\S+)\s+(\S+)$', r'\3', 'apple orange banana')   #'banana'
print(back_ref5,type(back_ref5))

[('apple', 'orange')] <class 'list'>
orange apple <class 'str'>
orange apple <class 'str'>
orange apple orange <class 'str'>
banana <class 'str'>


#### **Code Example in Java**

pass

#### **1.11 HTTP 位址** - HTTP Addresses  
- **Example： `^http:\/\/\S+(\/\S+)*(\/)?$`**  
* 開始於 `**http://**`,請注意，您可能需要在某些語言(如JavaScript、Perl)中,使用`\/`轉義碼/來編寫。  
* 後跟`\S+`，一個或多個非空格，表示網域名稱。
* 後面跟著`(\/\S+)*`零個或多個"/..."，用來表示子目錄。
* 後跟`(\/)?`，是一個可選(0 或 1)結尾/，用於目錄請求。
pass

In [14]:
import re

http_address = re.sub(r'^(http | https):\/\/\S+(\/\S+)*(\/)?$',r'\1','https://www3.ntu.edu.sg/home/ehchua/programming/howto/Regexe.html')
print(http_address)

https://www3.ntu.edu.sg/home/ehchua/programming/howto/Regexe.html


#### **1.12 AngularJS 中的正規表示式模式** - Regex Patterns in AngularJS  
- **Example：** 

[詳細-->(參考)1.12  Example: Regex Patterns in AngularJS](https://www3.ntu.edu.sg/home/ehchua/programming/howto/Regexe.html)  
pass

#### **1.13 Perl 中的正規表示式範例** - Sample Regex in Perl  
- **Example：** 

[詳細-->(參考)1.13  Sample Regex in Perl](https://www3.ntu.edu.sg/home/ehchua/programming/howto/Regexe.html)  
pass

### **2 正規表示式（Regex）語法** - Regular Expression (Regex) Syntax  
* 正規表示式（或 Regex）是一種模式（或過濾器），它描述與該模式相符的一組字串。換句話說，正規表示式接受一組特定的字串並拒絕其餘的字串。
* 正規表示式由一系列字元、元字元（例如`.`, `\d`, `\D`, `\s`, `\S`, `\w`, `\W`）和運算子（例如`+`, `*`, `?`, `|`, `^`）組成。它們是透過組合許多較小的子表達式來建構的。

#### **2.1 匹配單一字符** - Matching a Single Character  
* 正規表示式的基本構件是匹配單一字元的模式。大多數字符，包括所有字母 (a-z和A-Z) 和數字 ( 0-9)，都匹配其自身。例如，正規表示式`x`匹配子字串"x"；`z`匹配"z"；和`9`匹配"9"。
* 在正規表示式中、沒有特殊意義的非字母數字字元也與其自身匹配。例如，`=`匹配"=";`@`匹配"@"。

#### **2.2 正規表示式特殊字元和轉義序列** - Regex Special Characters and Escape Sequences 
**正規表示式的特殊字符** -
這些字元在正規表示式中具有特殊意義（後面詳細討論）：
* 元字元：點 (`.`)
* 括號列表：`[ ]`
* 位置標籤：`^`,`$`
* 出現指標：`+`, `*`, `?`,`{ }`
* 括號：`( )`
* 或者：`|`
* 轉義和元字元：反斜線 (`\`) 

**轉義序列** ：
- 上面列出的字元在正規表示式中具有特殊意義。為了匹配這些字符，我們需要在其前面添加一個反斜線（`\`），稱為轉義序列。例如，`\+`匹配"+"; `\[`匹配"["； 和`\.`匹配"."。
- Regex 還可以識別常見的轉義序列，例如`\n`為換行符、`\t`為跳格鍵、`\r`為換行鍵、`\nnn`為最多3位元八進位數、`\xhh`為2位元十六進位代碼、`\uhhhh` 4位元 Unicode、`\uhhhhhhhh`為8位元 Unicode 。

**Code Example in Python**  

* Need module 're' for regular expression  
`import re`    

* Try find: `re.findall(regexStr, inStr)` -> matchedStrList  
* `r'...'` denotes raw strings which ignore escape code, i.e., `r'\n'` is `'\'`+`'n'`  
`re.findall(r'a', 'abcabc')`    # ['a', 'a']  

- '=' is not a special regex character  
`re.findall(r'=', 'abc=abc')`     # ['=']  

* '.' is a special regex character, need regex escape sequence  
`re.findall(r'\.', 'abc.com')`    # ['.']  

- You need to write `\\` for \ in regular Python string  
`re.findall('\\.', 'abc.com')`    # ['.']  

In [5]:
import re

reg_ex1 = re.findall(r'a', 'abcabc') # Try find: re.findall(regexStr, inStr) -> matchedStrList
print('reg_ex1-->',reg_ex1)

reg_ex2 = re.findall(r'=', 'abc=abc')   # '=' is not a special regex character
print('reg_ex2-->',reg_ex2)

reg_ex3 = re.findall(r'\.', 'abc.com')  # '.' is a special regex character, need regex escape sequence
print('reg_ex3-->',reg_ex3)

reg_ex31 = re.findall('\.', 'abc.com')  # '.' is a special regex character, need regex escape sequence
print('reg_ex31-->',reg_ex31)

reg_ex4 = re.findall('\\.', 'abc.com')  # You need to write \\ for \ in regular Python string
print('reg_ex4-->',reg_ex4)

reg_ex5 = re.findall(r'\\.', 'abc.com')  # You need to write \\ for \ in regular Python string
print('reg_ex5-->',reg_ex5)

reg_ex1--> ['a', 'a']
reg_ex2--> ['=']
reg_ex3--> ['.']
reg_ex31--> ['.']
reg_ex4--> ['.']
reg_ex5--> []


**Code Example in JavaScript**

**Code Example in Java**

pass

#### **2.3 匹配字元序列（字串或文字）** - Matching a Sequence of Characters (String or Text) 
**子表達式**  
* 正規表示式是透過組合許多較小的子表達式或小元素來建構的。例如，正規表示式Friday符合字串"Friday"。
* 預設情況下，匹配區分大小寫，但可以透過修飾符將其設定為不區分大小寫。例如，`re.compile(r'...', flags=re.I)`

In [4]:
import re

print(re.findall(r'o','Orange.com')) # ['o']
re.findall(r'o','Orange.com',flags=re.I)  # ['O', 'o']

['o']


['O', 'o']

#### **2.4 "或"（|）運算符** - OR ( | ) Operator 
可以使用替代"OR"的運算符，以豎線'|'表示。例如，正規表示式`four|for|floor|4`接受字串"four"、"for"、"floor"或"4"。

#### **2.5 括號列表（字元類）** - Bracket List (Character Class) [...], [^...], [.-.] 
括號表達式是由[ ]括起來的字元列表，也稱為字元類別。它匹配列表中的任何一個字元。但是，如果清單的第一個字元是插入符(or脫字號) (`^`)，則它與清單中以外不存在的任何一個字元相符。例如，正規表示式`[02468]`符合單一數字0, 2, 4, 6, 或8；正規表示式`[^02468]`符合除0, 2, 4, 6,或8之外的任何單一字元。

您可以在括號內使用範圍表達式，而不是列出所有字元。**範圍表達式由用連字號 (-) 分隔**的兩個字元組成。它匹配在兩個字元之間排序的任何單一字元（包括這兩個字元）。例如，`[a-d]`與`[abcd]`相同。您可以在範圍前加上插入符號 (^) 以反轉匹配。例如，`[^a-d]`相當於`[^abcd]`.

大多數特殊正規表示式字元在括號列表中失去其含義，可以原樣使用；除了^,-,]或\。

* 若要包含一個 ]，請將其放在清單的第一位，或加上使用轉義反斜線 `\]`。
* 若要包含一個 ^，請將其放置在除了第一個之外的任何位置，或加上使用轉義反斜線 `\^`。
* 若要包含一個 -，請將其放置在最後一個位置，或加上使用轉義反斜線 `\-`。
* 若要包含一個 \，請加上使用轉義反斜線`\\`。
* 括號列表內的其他字元如 ., +, *, ?, (, ), {, } 等,無需轉義
* 也可以在括號列表中使用元字元，例如\w, \W, \d, \D, \s, \S（將在下一節中解釋）。

**Name Character Classes in Bracket List (For Perl Only?)**  
[詳細參照](https://www3.ntu.edu.sg/home/ehchua/programming/howto/Regexe.html) 2.5 括號列表（字元類）
pass

#### **2.6 元字元** - Metacharacters ., \w, \W, \d, \D, \s, \S 
元字元是正規表示式中具有特殊意義的符號。

* 元字元 點`(.)` 符合除換行符`\n`之外的任何單一字元（與`[^\n]`相同）。例如，`...`符合任意3個字元（包括字母、數字、空格，但換行符除外）；`the..`配對「there」、「these」、「the  」等。
* `\w`（單字字元）符合任何單一字母、數字或底線（與`[a-zA-Z0-9_]`相同）。大寫字母`\W`（非單字字元）匹配任何不匹配\w的單字字元（與`[^a-zA-Z0-9_]`相同）。
* 在正規表示式中，大寫元字元總是小寫對應元字元的反轉。
* `\d`(digit 數字) 符合任何單一數字（與`[0-9]`相同）。大寫字母`\D`（非數字）匹配任何非數字的單個字元（與`[^0-9]`相同）。
* `\s`(空格) 符合任何單一空格（與`[ \t\n\r\f]`相同、即可是空白、跳格鍵符、換行符、回車符"carriage-return斷行符號"和換頁符）。大寫字母`\S`（非空格）匹配任何不匹配`\s`的單個字元（與`[^ \t\n\r\f]`相同）。

#### **2.7 反斜線（\）與正規表示式轉義序列** - Backslash (`\`) and Regex Escape Sequences  
**正規表示式使用反斜線 (`\`) 有兩個目的：**  
* 對於元字符，例如\d（數字）、\D（非數字）、\s（空格）、\S（非空格）、\w（單字）、\W（非單字）。  
* 轉義特殊正規表示式字符，例如`\.`for .、`\+`for +、`\*`for *、`\?`for ?。您還需要在正規表示式中編寫`\\`for\以避免歧義。  
* 正規表示式還可以辨識\n換行符、\t跳格鍵符等。   

需要注意的是，在許多程式語言（C、Java、Python）中，反斜線（\）也用於字串中的轉義序列，例如"`\n`"換行符、"`\t`"跳格鍵符，並且還需要編寫"`\\`"for \。因此，要在這些語言中編寫正規表示式模式`\\`（匹配1個\），您需要編寫"\\\\"（兩級轉義）。同樣，您需要"`\\d`"為正規表示式元字元編寫\d。這樣既麻煩又容易出錯！

#### **2.8 出現指示符（重複運算子）** - Occurrence Indicators (Repetition Operators): +, *, ?, {m}, {m,n}, {m,}  
**正規表示式子表達式後面可以跟一個出現指示符（也稱為重複運算子）：**  
* `?`：前一項是可選的，最多符合一次（即出現0次或1次或可選）。
* `*`：前一項將被匹配零次或多次，即0+次
* `+`: 前一項會被配對一次或多次，即1+次
* `{m}`: 前一項正好符合 m 次。
* `{m,}`：前一項匹配m次或多次，即m+次
* `{m,n}`：前一項至少匹配m次，但不超過n次。
例如：正規表示式`xy{2,4}`接受"xyy"、"xyyy"和"xyyyy"。

#### **2.9 修飾符** - Modifiers  
**可以應用修飾符於正規表示式來調整其行為**，例如全域(global)、不區分大小寫(case-insensitive)、多行(multiline)等。

在 **Perl** 中，您可以在正規表示式之後以.例如：`/.../`修飾符(modifiers)  
`m/abc/i`      # 不區分大小寫的匹配  
`m/abc/g`      # 全域（匹配全部而不是先匹配）  

在 **Java** 中，您在編譯 regex模式時,套用修飾符。例如，  
模式 `p1 = Pattern.compile(regex, Pattern.CASE_INSENSITIVE)`;   // 對於不區分大小寫的符合  
模式 `p2 = Pattern.compile(regex, Pattern.MULTILINE)`;          // 對於多行輸入字串  
模式 `p3 = Pattern.compile(regex, Pattern.DOTALL)`;             // 點 (.) 符合包含換行符號在內的所有字符  

**常用的修飾符模式**有：  
* 不區分大小寫模式（或i）：字母不區分大小寫匹配。  
* 全域（或g）：匹配全部而不是第一個匹配。  
* 多行模式（或m）：影響`^`、`$`、`\A`和`\Z`。在多行模式下，`^`匹配行開始或輸入開始，`$`匹配行尾或輸入結束；`\A`匹配輸入開始，`\Z`匹配輸入結束。  
* 單行模式（或s）：點（.）將匹配所有字符，包括換行符。  
* 註解模式（或x）：允許並忽略以#開頭的嵌入註解，直到行尾 (EOL) 。  
* 更多的...

#### **2.10 重複運算子的貪婪、惰性和回溯** - Greediness, Laziness and Backtracking for Repetition Operators  
* **重複運算子的貪婪**`*` , `+` , `?` , `{m,n}`：重複運算子是貪婪運算符，預設會抓取盡可能多的字元來進行匹配。例如，正規表示式 xy{2,4}嘗試匹配"xyyyy"，然後匹配"xyyy"，然後匹配"xyy"。

* **惰性量詞**`*?` , `+?` , `??` , `{m,n}?`， `{m，}?` , ：可以在重複運算子後面添加額外`?`,以抑制其貪婪性（即，在最短匹配處停止）。例如，

    * `input = "The <code>first</code> and <code>second</code> instances"`  
    * `regex = <code>.*</code>` 匹配 "<code>first</code> and <code>second</code>",但  
    * `regex = <code>.*?</code>` 產生兩個符合項目："<code>first</code>"和"<code>second</code>"  

* **回溯**：如果正規表示式達到無法完成匹配的狀態，它會透過從貪婪匹配中展開一個字元來回溯。例如，如果正規表示式`z*zzz`與字串"zzzz"匹配，則`z*`首先匹配"zzzz"；展開以匹配"zzz"；展開以匹配"zz"；最後展開以符合"z"，以便其餘模式可以找到匹配項。

* **所有格量詞**`*+`、`++`、`?+`、`{m,n}+`、`{m,}+`：您可以在重複運算符中添加額外的`+`以禁用回溯，即使它可能會導致匹配失敗。例如，`z++z`將不匹配"zzzz"。某些語言可能不支援此功能。

#### **2.11 位置標籤** - Position Anchors ^, $, \b, \B, \<, \>, \A, \Z  
位置標籤**不匹配實際字符**，但匹配字串中的位置，例如行首、行尾、單字開頭和單字結尾。

* `^`和`$`：`^`匹配行首，`$`匹配行尾包括換行符的行尾或輸入結束符（對於不以換行符結尾的輸入）。這些是最常用的位置標籤。例如，
    * `ing$`            # 以 'ing' 結尾
    * `^testing 123$`   # 只​​符合一種模式。應該使用相等比較來代替。 
    * `^[0-9]+$`        # 數字字串
* `\b`和`\B`： `\b`匹配單字的邊界（即單字開頭或單字結尾）；而`\B`匹配`\b`的相反，或非字邊界。例如，
    * `\bcat\b`         # 符合輸入字串"This is a cat."中的單字"cat"。  
    * `\bcat\b`         # 但與輸入"This is a catalog."不符。  
* `\<`和`\>`：`\<`和`\>`分別配對單字的開頭和結尾（與`\b`相比， `\b`可以同時配對單字的開頭和結尾）。
* `\A`和`\Z`：`\A`匹配輸入的開頭。`\Z`匹配輸入的結尾。當涉及到多行匹配輸入時，它們是與`^`和`$`不同的。 `^`匹配字串的開頭和之後的每個換行，而`\A`僅符合字串的開頭。`$`匹配字串末尾和每個換行符之前，而`\Z`僅匹配字串末尾。例如， 
    * **Using `^` and `$` in multiline mode**
        * `p1 = re.compile(r'^.+$', re.MULTILINE)`  # . for any character except newline
        * `p1.findall('testing\ntesting')`          # ['testing', 'testing']
        * `p1.findall('testing\ntesting\n')`        # ['testing', 'testing']
        - ^ matches start-of-input or after each line break at start-of-line
        - $ matches end-of-input or before line break at end-of-line
        - newlines are NOT included in the matches

    * **Using \A and \Z in multiline mode**
        * `p2 = re.compile(r'\A.+\Z', re.MULTILINE)`  #[] # This pattern does not match the internal \n
        * `p3 = re.compile(r'\A.+\n.+\Z', re.MULTILINE)`  # to match the internal \n
        * `p3.findall('testing\ntesting')`            #['testing\ntesting']
        * `p3.findall('testing\ntesting\n')`    # []  # This pattern does not match the trailing \n
        * `\A` matches start-of-input and `\Z` matches end-of-input

In [3]:
import re
# Using ^ and $ in multiline mode
p1 = re.compile(r'^.+$', re.MULTILINE)  # . for any character except newline
print(p1.findall('testing\ntesting') )         #['testing', 'testing']
print(p1.findall('testing\ntesting\n'))        #['testing', 'testing']
   # ^ matches start-of-input or after each line break at start-of-line
   # $ matches end-of-input or before line break at end-of-line
   # newlines are NOT included in the matches

# Using \A and \Z in multiline mode
p2 = re.compile(r'\A.+\Z', re.MULTILINE)
print(p2.findall('testing\ntesting'))          #[]  # This pattern does not match the internal \n
p3 = re.compile(r'\A.+\n.+\Z', re.MULTILINE)   # to match the internal \n
print(p3.findall('testing\ntesting'))                 # ['testing\ntesting']
p3.findall('testing\ntesting\n')        #[]    # This pattern does not match the trailing \n
   # \A matches start-of-input and \Z matches end-of-input

['testing', 'testing']
['testing', 'testing']
[]
['testing\ntesting']


[]

#### **2.12 透過括號的反向引用和匹配變數$1 , $2 , ...捕獲匹配** - Capturing Matches via Parenthesized Back-References & Matched Variables $1, $2, ...  
**括號( )在正規表示式中有兩個用途：**
* 首先，括號( )可用於對子運算式進行分組，以覆寫優先權或套用重複運算子。例如， (abc)+ (accepts abc, abcabc, abcabcabc, ...) 與abc+(accepts abc, abcabc, abcabcabc, ...)不同。
* 其次，括號用於提供所謂的反向引用（或 捕獲組），反向引用包含匹配的子字串。例如，正規表示式`(\S+)`會建立一個反向引用`(\S+)`，其中包含輸入字串的第一個單字（連續的非空格）；正規表示式`(\S+)\s+(\S+)`建立兩個反向引用：`(\S+)`和另一個`(\S+)`，包含前兩個單詞，由一個或多個空格分隔`\s+`。

這些反向引用（或 捕獲組）儲存在**特殊變數**$1, $2, ... （或**Python 中的\1, \2, ...** ）中，其中$1 包含與第一對括號匹配的子字串，依此類推。例如，`(\S+)\s+(\S+)`建立與前兩個單字相符的兩個反向引用。匹配的單字分別儲存在$1和$2（或\1和\2）中。

反向引用對於操作字串很重要。反向引用可以在替換字串和模式中使用。例如，(ref **1.10**)
* **Swap the first and second words separated by one space**
    * `s/(\S+) (\S+)/$2 $1/;`                     # Perl
    * `re.sub(r'(\S+) (\S+)', r'\2 \1', inStr)`  # Python

* **Remove duplicate word**
    * ` s/(\w+)  $1/$1/;`                    # Perl
    * `re.sub(r'(\w+)  \1', r'\1', inStr)`  # Python

In [5]:
import re

# Swap the first and second words separated by one space
inStr = 'two apples:' 
print(re.sub(r'(\S+) (\S+)', r'\2 \1', inStr))  # Python
# s/(\S+) (\S+)/$2 $1/;                     # Perl

# Remove duplicate word
inStr = 'apple apple tree in flower flower garden' 
# s/(\w+)  $1/$1/;                    # Perl
re.sub(r'(\w+) \1', r'\1', inStr)  # Python

apples: two


'apple tree in flower garden'

#### **2.13 （進階）前瞻/後瞻、分組與條件** -(Advanced) Lookahead/Lookbehind, Groupings and Conditional  
[待辦事項]  
pass


pass

---

### **ytGetAudioOnly_0.5.0.ipynb**使用範例

* `\w` 匹配字母、數字和下劃線，即 `[a-zA-Z0-9_]`
* `\u4e00-\u9fff` 匹配 Unicode 范圍內的**中文字符**
* [\w\u4e00-\u9fff]+ 匹配一個或多個中英文字符
* 如果你想要更精確地匹配，可能需要根據實際需求進行調整。例如，如果你只想匹配中英文字符而不包括數字，可以使用 [a-zA-Z\u4e00-\u9fff]+。

**更多示例**
* **只匹配中英文字符**（不包括數字和下劃線）：  
    `pattern = r'[a-zA-Z\u4e00-\u9fff]+'`
* **匹配中英文字符及空格**（允許空格分隔的詞組）：  
`pattern = r'[a-zA-Z\u4e00-\u9fff\s]+'`
* **匹配中英文字符及標點符號**：  
`pattern = r'[a-zA-Z\u4e00-\u9fff.,!?，。！？]+'`

使用這些模式可以靈活匹配各種包含中英文字符的字符串。根據具體需求選擇合適的正則表達式模式。