<參考> https://zh.wikipedia.org/zh-tw/正则表达式  
### 正規表示式  

#### 基本語法  
##### 數量限定  
* 加號+代表前面的字元必須至少出現一次。（1次或多次）。如，goo+gle可以符合google、gooogle、goooogle等
* 問號?代表前面的字元最多只可以出現一次。（0次或1次）。如，colou?r可以符合color或者colour
* 星號*代表前面的字元可以不出現，也可以出現一次或者多次。如，0*42可以符合42、042、0042、00042等。 

##### PCRE表達式  

字元      描述  
* `\`  : 將下一個字元標記為一個特殊字元  
     例如，「\n」符合一個換行符。序列「\\」符合「\」而「\(」則符合「(」。  
* `.`  : 符合除「\r」「\n」之外的任何單個字元。
     * 要符合包括「\r」「\n」在內的任何字元，請使用像「(.|\r|\n)」的模式。   
* `[^a-z]`    : 排除型的字元範圍。符合任何不在Unicode編碼表指定範圍內的任意字元。  
            例如，「[^a-z]」可以符合任何不在「a」到「z」範圍內的任意字元。  
* `\d`  : 符合一個數字字元。等價於[0-9]。注意Unicode正規表示式會符合全形數字字元。  
* `\D`  : 符合一個非數字字元。  
* `\r`  : 符合一個回車字元。  
* `\s`  : 符合任何空白字元，包括空格、制表符、換頁符等等。  
* `\S`  : 符合任何非空白字元。  
* `\t`  : 符合一個制表符。  
* `\n`  : 符合一個換行符。  
* `\w`  : 符合包括底線的任何單詞字元。等價於「`[A-Za-z0-9_]`」  
* `\W`  : 符合任何非單詞字元。等價於「`[^A-Za-z0-9_]`」。  

pass

***
### **re** --- 正規表示式 (regular expression) 操作
### [<參考>](https://docs.python.org/zh-tw/3/library/re.html)docs.python.org 


正規表示式使用反斜線字元 (`\`) 表示特別的形式，或是使用特殊字元而不調用它們的特殊意義。這與 Python 在字串文本 (literal) 中，為了一樣的目的使用同一個字元的目的相衝突；舉例來說，為了配對一個反斜線文字，可能需要寫 `\\\\` 當作模式字串，因為正規表示式必須是 `\\`，而且每個反斜線在 Python 字串文本中必須表示為 `\\`。另外，請注意在 Python 的字串文本中使用反斜線的任何無效跳脫序列目前會產生一個 SyntaxWarning，而在未來這會變成一個 SyntaxError。儘管它對正規表示式是一個有效的跳脫序列，這種行為也會發生。

解決方法是對正規表示式模式使用 Python 的原始字串符號；反斜線在一個以 `r` 為前綴的字串文本中不會被用任何特別的方式處理。所以 `r"\n"` 是一個兩個字元的字串，包含 `\` 和 `n`，同時 `"\n"` 是一個單個字元的字串，包含一個**換行符號**。通常模式在 Python 程式中會使用這個原始字串符號表示。

### *?, +?, ??###  
`*`、`+`和`?`量詞都是貪婪的；它們匹配盡可能多的文字。  
有時這種行為是不需要的；  
如果 `RE <.*>`與` (a) b (c)`匹配，它將匹配整個字串，而不僅僅是`(a)`。添加`？`在量詞使其以非貪婪或最小方式執行匹配之後；將匹配盡可能少的字元。使用 `RE <.*?>` 將僅符合`(a)`。
pass

pass
***


### **[使用正規表達式 re]**  
[<參考網址>](https://steam.oxxostudio.tw/category/python/library/re.html ) STEAM 教育學習網

#### **import re**  
要使用 re 必須先 import re 模組，或使用 from 的方式，單獨 import 特定的類型。  
```python
import re
from re import sample
```

#### **compile(pattern)**
* `re.compile(pattern)` 可以建立一個正規表達式的規則，規則建立後，就能使用 re 的其他方法執行套用這個規則的對象，  
舉例來說，下方的程式碼執行後，會建立找尋「連續三個數字」的規則，接著使用 `search` 的方法，就能找到 123 這三個字串  
ps. **配對的規則通常會用「r」進行標示**，例如 r'str'。  

    ```python
    import re
    role = re.compile(r'\d\d\d')       # 連續三個數字
    result = role.search('abc123xyz')  # 使用 search 方法，使用建立的規則，搜尋 abc123xyz
    print(result.group())              # 123
    ```

* `re.compile(pattern)` 還有第二個參數 flags，預設不需要填寫，可以額外設定一些正規表達式的匹配方式，flags 有幾種參數可供設定：Ex. `re.I`    忽略字母大小寫。  
    ```python
    import re
    role = re.compile(r'hello', flags=re.I)  # 匹配 hello，不論大小寫
    result = role.search('HeLlo World')
    print(result.group())                    # HeLlo
    ```

### **flags 有下列幾種參數可供設定：**
|參數	|說 明  |
|:-----:|:-----|
|re.I	|忽略字母大小寫。|
|re.M	|匹配「^」和「$」在開頭和結尾時，會增加換行符之前和之後的位置。|
|re.S	|使「.」完全匹配包括換行的任何字元，如果沒有這個標籤，「.」會匹配除了換行符外的任何字元。|
|re.X	|當設定這個標籤時，空白字元被忽略，除非該空白字元在字符類中或在反斜線之後，當一個行內有 # 不在字符集和轉義序列，那麼它之後的所有字元都是注釋。|
|re.L	|由當前語言區域決定 \w, \W, \b, \B 和大小寫的匹配 ( 官方不建議使用，因為語言機制在不同作業系統可能會有不同 )。|

In [13]:
# 進行正規表達式搜尋字串內容後，預設將匹配的資料分成同一組，也可在搜尋時使用「小括號」進行搜尋資料的「分組」，接著使用「group」或「groups」，將匹配到的資料內容取出。
import re
role1 = re.compile(r'(hello) (world)', flags=re.I)
result_match1 = role1.match('HeLlo World, Hello oxxo')
print(result_match1)            # <re.Match object; span=(0, 11), match='HeLlo World'>
print(result_match1.span())     # (0, 11)
print(result_match1.groups())   # ('HeLlo', 'World')  ## groups() 傳回所有括號符合的字符，以tuple格式。
print(result_match1.group())    ## group（0）和group（）效果相同，都是取得所取得的字串整體。
print(result_match1.group(1))   # HeLlo
print(result_match1.group(2))   # World

role2 = re.compile(r'hello', flags=re.I)
result_match2 = role2.match('HeLlo World, Hello oxxo')
print(result_match2)
print(result_match2.groups())   # ()
print(result_match2.group())    # HeLlo
print(result_match2.group(1))   # 發生錯誤  no such group

<re.Match object; span=(0, 11), match='HeLlo World'>
(0, 11)
('HeLlo', 'World')
HeLlo World
HeLlo
World
<re.Match object; span=(0, 5), match='HeLlo'>
()
HeLlo


IndexError: no such group

In [6]:
# 由於使用 group 或 groups 時，如果找不到 group 會發生錯誤 ( 沒有匹配就沒有 group )，所以可以先使用 if 判斷式先行篩選，避免錯誤狀況發生，下方的程式碼執行後，會判斷 result 是否為 None，如果是 None 就直接印出找不到資料的文字。

import re
role = re.compile(r'hello', flags=re.I)
result = role.fullmatch('HeLlo World, Hello oxxo')
if result == None:
    print('找不到資料')      # 沒有匹配就印出找不到資料
else:
    print(result.group())  # 有匹配就印出結果

找不到資料


***
### **[研究緣由]**
### [<參考網址>](https://medium.com/@chiayinchen/1-分鐘搞懂-python-迴圈控制-break-continue-pass-be290cd1f9d8)[1 分鐘搞懂 Python 迴圈控制：break、continue、pass]

#### 情境 2：比對  
檢查 email 是否為公司官方信箱，如出現 hello、contact、sales、support、business、info 等關鍵字。  
 Note：  
 利用 break 告訴迴圈當 email 字串中包含 email_out 列表 (List) 中的關鍵字時，要強制結束迴圈。

In [18]:
import re
# 定義函數
def detect_email(email):
    email_out = ['hello','contact','sales','support','business','info']
    for e_out in email_out:
        pattern = re.compile('.*' + e_out + '.*')
        r = re.match(pattern, email.lower())
        if r is not None:
            print('{} 中包含 {} 關鍵字，因此判斷為官方信箱'.format(email, e_out))
            break
    else:
            print('{} 為個人信箱'.format(email))
        
# 呼叫函數
detect_email('carol@gmail.com')
detect_email('Support@gmail.com')

carol@gmail.com 為個人信箱
Support@gmail.com 中包含 support 關鍵字，因此判斷為官方信箱


#### **from chatgpt**  
**Question:** `.*` 是正規表示式中的一個模式，它與`*` 的差異為何？  

**Answer:**  
* ##### `.*` 的意思：
    * `.`: 代表任意單一字元（除了換行符號）。
    * `*`: 代表前面的字元或子模式可以出現零次或多次。  
    * `.*` :組合`.`&`*`在一起，代表“零個或多個任意字元”，**即可以匹配任意數量的任意字元（包括空字串）**。  
    例如：正規表示式 `.*` 可以符合：
        空字串 ""  
        任意單一字元 "a"  
        多個字元 "abc"  
        甚至是整行字元 "This is a test line"  

* ##### `*` 的意思：  
    * `*` **單獨使用是沒有意義的，因為它必須跟在一個字元或子模式後面**，表示該字元或子模式出現零次或多次。  
    * 正規表示式 (abc)* 表示零個或多個 'abc' 的重複，可以匹配：  
        空字串 ""  
        單一 'abc' "abc"  
        多 'abc' "abcabc"  

#### **from chatgpt**
**Question**: 接上述，若email=carol@gmail.com時，**r = re.match(pattern, email)用法**為何？  

**Answer:**  
在你的範例中，如果我們有一個電子郵件地址 email = "carol@gmail.com"，而我們使用 `re.match` 方法來匹配這個電子郵件地址，具體的用法將取決於我們定義的 pattern。

假設我們繼續使用先前的 `pattern = re.compile('.*' + e_out + '.*')`，且 e_out = 'support'，那麼整個正規表示式模式將是 `.*support.*`。這個模式用來匹配任意包含 support 的字串。以下是具體的使用方法：
```python
import re

e_out = 'support'
pattern = re.compile('.*' + e_out + '.*')
email = "carol@gmail.com"
```

##### 使用 re.match() 方法
```python
r = re.match(pattern, email)

if r:
    print(f"Email matches: {email}")
else:
    print("Email does not match.")
```


In [3]:
import re

e_out = 'support'
pattern = re.compile('.*' + e_out + '.*')
email = "carol_support@gmail.com"

r = re.match(pattern, email) # 使用 re.match() 方法
if r:
    print(f"Email matches: {email}")
else:
    print("Email does not match.")

Email matches: carol_support@gmail.com


#### **from chatgpt**  
##### **更改 pattern 以符合電子郵件**  
如果我們想要匹配電子郵件地址，我們需要一個不同的正規表示式模式。例如：

#### `pattern = re.compile(r'.*@.*\..*')`

這個模式的解釋如下：  
* `.*` 表示任意數量的任意字元（包括零個字元）。  
* `@` 是匹配字元 @。  
* `.*` 再次表示任意數量的任意字元。  
* `\.` 匹配字元 .。  
* `.*` 再次表示任意數量的任意字元。  


以下是使用該模式來匹配電子郵件地址的範例：
```python
import re

pattern = re.compile(r'.*@.*\..*')
email = "carol@gmail.com"

# 使用 re.match() 方法
r = re.match(pattern, email)

if r:
    print(f"Email matches: {email}")
else:
    print("Email does not match.")
```


**總結**  
使用 `re.match(pattern, email)` 可以檢查電子郵件地址是否符合給定的正規表示式模式。
正規表示式 `.*support.*` 用於匹配包含 support 的字串，  
而 `r'.*@.*\..*'` 則是一個通用的匹配電子郵件地址的正規表示式模式。

In [17]:
import re

pattern = re.compile(r'.*@.*\..*')
email = "carol@gmail.com"

# 使用 re.match() 方法
r = re.match(pattern, email)

if r:
    print(f"Email matches: {email}")
else:
    print("Email does not match.")


Email matches: carol@gmail.com


In [1]:
# 使用 loop 方法
import re

def detect_email(email):    
    pattern = re.compile(r'.*@.*\..*')
    email_match = re.match(pattern, email)  # 使用 re.match() 方法

    if  email_match:
        print(f"Email\t {email} : matches")
    else:
        print(f"Email\t {email} : does not match.")

emails=['GeoJSON@gmail.com','GeoPython@gmail.com','GeoGit.gmail.com']
for i in emails:
  detect_email(i)      

Email	 GeoJSON@gmail.com : matches
Email	 GeoPython@gmail.com : matches
Email	 GeoGit.gmail.com : does not match.


In [8]:
import re
mail_key=[]
def chk_mail(email):
    for mail_key in mail_keys:
        pattern=re.compile('.*' + mail_key + '@.*\..*')
        mail_match=re.match(pattern,email.lower())  # mail_key 有大寫時?-->pattern:ail_key.lower()??
        if mail_match:
            print(f'emali\t {email} : match')
            break
#    else:
    if mail_match is None:
            print(f"Email\t {email} : does not match.")

mail_keys = ['hello','contact','sales','support','business','info']
emails=['GeoJSON@gmail.com','GeoPython@gmail.com','GeoSales.gmail.com','GeoSales@gmail.com','GeoInf@gmail.com']
for i in emails:
  chk_mail(i)  

Email	 GeoJSON@gmail.com : does not match.
Email	 GeoPython@gmail.com : does not match.
Email	 GeoSales.gmail.com : does not match.
emali	 GeoSales@gmail.com : match
Email	 GeoInf@gmail.com : does not match.


In [5]:
# re.compile 使用 flags = re.I (忽略字母大小寫)

import re
mail_key=[]
def chk_mail(email):
    for mail_key in mail_keys:
        pattern=re.compile('.*' + mail_key + '@.*\..*',flags=re.I)  # 使用flags = re.I
        mail_match=re.match(pattern,email)  # email.lower()可省略成email
        if mail_match:
            print(f'emali\t {email} : match')
            break
#    else:
    if mail_match is None:
            print(f"Email\t {email} : does not match.")

mail_keys = ['hello','contact','sales','support','business','info']
emails=['GeoJSON@gmail.com','GeoPython@gmail.com','GeoSales.gmail.com','GeoSales@gmail.com','GeoInf@gmail.com']
for i in emails:
  chk_mail(i)  

Email	 GeoJSON@gmail.com : does not match.
Email	 GeoPython@gmail.com : does not match.
Email	 GeoSales.gmail.com : does not match.
emali	 GeoSales@gmail.com : match
Email	 GeoInf@gmail.com : does not match.


===============================================================  
Title : 設定包含中英文字

#### 透過chatGPT -1
##### Question : 在`re.search()`如何設定包含中英文字？  
##### Answer:  
要在 Python 的 `re.search()` 中設置匹配包含中英文字符的字符串，可以使用 Unicode 字符類型。  
**Unicode 字符類型**  
* `\u4e00-\u9fff` 用於匹配中文字符，
* `\w` 用於匹配英文字符和數字（還包括下劃線 _）。

以下是一些示例：

In [1]:
import re

# 示例字符串
text = "Hello 你好 world 世界"

# 匹配包含中英文字符的模式
pattern = r'[\w\u4e00-\u9fff]+'

# 搜索匹配
match = re.search(pattern, text)

if match:
    print("匹配成功:", match.group())
else:
    print("未找到匹配")


匹配成功: Hello


### **解釋**
* `\w` 匹配字母、數字和下劃線，即 [a-zA-Z0-9_]
* `\u4e00-\u9fff` 匹配 Unicode 范圍內的中文字符
* `[\w\u4e00-\u9fff]+` 匹配一個或多個中英文字符
* `\s` 匹配任何空白字元，包括空格、制表符、換頁符等等。 
如果你想要更精確地匹配，可能需要根據實際需求進行調整。例如，如果你只想匹配中英文字符而不包括數字，可以使用 `[a-zA-Z\u4e00-\u9fff]+`。


更多示例：
* 只匹配中英文字符（不包括數字和下劃線）：  
`pattern = r'[a-zA-Z\u4e00-\u9fff]+'`

* 匹配中英文字符及空格（允許空格分隔的詞組）：  
`pattern = r'[a-zA-Z\u4e00-\u9fff\s]+'`

* 匹配中英文字符及標點符號：  
`pattern = r'[a-zA-Z\u4e00-\u9fff.,!?，。！？]+'`

使用這些模式可以靈活匹配各種包含中英文字符的字符串。根據具體需求選擇合適的正則表達式模式。

In [15]:
#完整代碼示例
#這段代碼會逐個檢查每個字符串中是否包含中英文字符並輸出匹配結果。
import re

# 示例字符串
texts = [
    "Hello 你好",
    "world 世界",
    "Python123 编程",
    "只包含中文",
    "Only English",
    "12345",
    "包含标点符号，! Hello！"
]

# 匹配包含中英文字符的模式
# pattern = r'[a-zA-Z\u4e00-\u9fff]+'
#pattern = r'[a-zA-Z\u4e00-\u9fff\s]+'
pattern = r'[\w\u4e00-\u9fff\s,!！]+'

for text in texts:
    match = re.search(pattern, text)
    if match:
        print(f"在 '{text}' 中匹配成功: {match.group()}")
    else:
        print(f"在 '{text}' 中未找到匹配")


在 'Hello 你好' 中匹配成功: Hello 你好
在 'world 世界' 中匹配成功: world 世界
在 'Python123 编程' 中匹配成功: Python123 编程
在 '只包含中文' 中匹配成功: 只包含中文
在 'Only English' 中匹配成功: Only English
在 '12345' 中匹配成功: 12345
在 '包含标点符号，! Hello！' 中匹配成功: 包含标点符号


#### 設定包含中英文字  \~~~ End ~~~
***

======================================================================

### 給自己的Python小筆記 
#### **強大的數據處理工具 — 正則表達式 — Regular Expression — regex詳細教學**  
### [參考網站](https://chwang12341.medium.com/給自己的python小筆記-強大的數據處理工具-正則表達式-regular-expression-regex詳細教學-a5d20341a0b2)  regex詳細教學

pass-->working

### **正則表達式是什麼？**  
* 正則表達式（Regular Expression 、regex、regexp or Re）透過我們自行定義的字符串規則，幫助我們從文本中找尋對應規則的字符串
* 過濾出我們所需的資料後，幫助我們將這些資料組成串列，方便我們對文本進行下一步的分析
* 舉個例子：我們要在文章中的眾多文字資料中，找尋文章提到的人物的身份證資料，我們就會去定義一個規則，第一個字符要是大寫的英文，後面要接續著九個數字，接著它就會根據這個規則找尋匹配的字符串，收集好後，回傳給我們

### **Python 與 正則表達式？**  
正則表達式是一種輕量型的程式語言，它並不是Python底下的一個套件而已，像是我也用過Javascript來使用正則表達式處理文本字符串資料，在Python中，我們只要引入re模組就能使用這個強大的字符串處理語言囉!

* #### **基本的匹配**
![基本型](./figure/regex01.webp)
補充 `group()`：簡單來說，就是幫助我們方便看出匹配出來的字符有哪些

* #### 補充：**常見的[…]匹配規則**
![基本型[…]匹配規則](./figure/regex02.webp)

* #### **定義好的字符集**
![定義好的字符集](./figure/regex03.webp)

* #### **邊界上的匹配**
![邊界上的匹配](./figure/regex04.webp)

* #### **數量上的匹配（通常用在其它匹配符之後）**
![數量上的匹配](./figure/regex05.webp)

In [31]:
import re

search_01= re.search('Go+gle\d+','Gooooogle2024').group()
search_02= re.search('Gooo?gle\d+','Google2024').group()
print(search_01,search_02)


sample_01 = re.search('go{2}','goooooooooogle').group()
sample_02 = re.search('go{2,}','goooooooooogle').group()
sample_03 = re.search('go{2,7}','goooooooooogle').group()

print(sample_01,'\t',sample_02,'\t',sample_03)

data =['a','b','c','d','e',1,2,3,4,5]
for num in range(len(data)):
    print(num,end=' ')

Gooooogle2024 Google2024
goo 	 goooooooooo 	 gooooooo
0 1 2 3 4 5 6 7 8 9 

* #### **邏輯與分組的概念**
![數量上的匹配](./figure/regex06.webp)

***

#### pass

---

* #### **正則表達式的貪婪與非貪婪模式**
通常在過程中匹配的字符數量，會有兩種情況：貪婪與非貪婪，而Python中的預設模式為貪婪模式

* 貪婪：，不斷嘗試匹配更多的字符
* 非貪婪：盡可能的嘗試少匹配字符，它會盡量減少匹配重複的字符  
程式碼舉例：
```python
import re
​
## 貪婪模式
print(re.search('go*', 'goooooood').group()) ## 'gooooooo'
​
## 非貪婪模式
print(re.search('go*?', 'goooooood').group()) ## 'g'
```
**怎麼使用非貪婪模式呢？**
作者實作心得是在語法後面加上一個”`?`”，如下圖的非貪婪模式介紹

In [17]:
import re

# 貪婪模式
print(re.search('go*', 'goooooood').group()) ## 'gooooooo'

# 非貪婪模式
print(re.search('go*?', 'goooooood').group()) ## 'g'
print(re.search('go+?', 'goooooood').group()) ## 'go'
print(re.search('go{2,8}?', 'goooooood').group()) ## 'goo' 
print(re.search('go{2,8}?', 'goooooooooood').group()) ## 'goo' 與文本説明有差異---> ??????
print(re.search('go{3,}?', 'gooooooood').group()) ## 'gooo'
print(re.search('go??', 'goooooood').group()) ## 'g'
print(re.search('.*?B', 'gooooooodBye').group()) ## 'g'

gooooooo
g
go
goo
goo
gooo
g
gooooooodB


* #### **怎麼使用非貪婪模式呢？**
在語法後面加上一個”?”，如下圖的非貪婪模式介紹
![非貪婪模式](./figure/regex10.webp)


* #### **非貪婪模式的常見用法 .*？的用法介紹**
    * .*？ ：盡量匹配較少的字符
    * 大多用在像是.*？a的地方，意思是前面匹配任何的字符，直到字母a出現  
`re.search('.*?e','a_b*c defg').group()`  #'a_b*c de'

In [12]:
import re
re.search('.*?e','a_b*c defg').group()

'a_b*c de'

* ### **正則表達式的函數介紹與實作**
1. match 函數用法
    * `re.match`會從文本中的起始位置開始進行文字符的匹配，如果不是一開始第一個字符就匹配成功的話，就會直接返回一個none，**簡單來說就是欲匹配的文本一開始就要符合我們定義的字符規則**，不符合直接回傳none，符合就會回傳字符位置資訊  
    * 函數語法格式：  
    `re.match(pattern, string, flags)`  
    * 參數介紹： 
    
        |參數    |用法   |
        |:-------|:------|
        |pattern |匹配的規則，使用正則表達式的語法撰寫|
        |string  |要進行匹配的字符串|
        |flags   |設定一些正則表達式的匹配方式，像是規則是忽略大小寫，或使用UNICODE字符規則來解析字符等，如果沒有特別需求，可以忽略不寫 可以選擇的標誌，可參考上面有提到的正則表達式修飾符號|

    * **使用group()函數來獲取匹配的字符，而不是返回一個字符的位置**

        |參數    |用法   |
        |:-------|:------|   
        |groups()|將匹配好的字符組合起來，形成一個tuple元數組|
        |group(num=0)| 選擇第幾個匹配好的字符|


In [3]:
# 程式碼 : 舉例1
import re

text = 'https://lc.arpa.bola.gov.taipei/WebUPD/LaborCollege/Header'
text1 = 'LaborCollege.news'

print(re.match('https', text))
print(re.match('https', text).span())
print(re.match('LaborCollege', text))
print(re.match('LaborCollege', text1))
print(re.match('laborCollege', text1))
print(re.match('laborCollege', text1, flags = re.I))

<re.Match object; span=(0, 5), match='https'>
(0, 5)
None
<re.Match object; span=(0, 12), match='LaborCollege'>
None
<re.Match object; span=(0, 12), match='LaborCollege'>


In [6]:
# 程式碼:舉例2_關於group的用法
import re

text = 'Geo studies in LaborCollege and he is 50 years old, when ...'
match_result = re.match(r'(.*) studies in ([a-z]*) and he is (\d+).*', text, re.I)
   
print(match_result.group())  # Geo studies in LaborCollege and he is 50 years old, when ...
print(match_result.group(1))  # Geo
print(match_result.group(2))  # LaborCollege
print(match_result.group(3))  # 50

# 使用groups()
print(type(match_result.groups()))  # <class 'tuple'>
print(match_result.groups())  # ('Geo', 'LaborCollege', '50')

Geo studies in LaborCollege and he is 50 years old, when ...
Geo
LaborCollege
50
<class 'tuple'>
('Geo', 'LaborCollege', '50')


* ### **正則表達式的函數介紹與實作**
2. Search 函數用法
    * `re.search`**會搜尋整個字符串**，然後找到匹配的字符並且傳回，如果失敗，沒有匹配到任何字符則傳回none，如果成功，就會傳回一個匹配的對象，就可以使用group()來取得匹配成功的字符 
    * 函數語法格式：  
    `re.search(pattern, string, flags)`  
    * 參數介紹： (用法與match一樣)
    
        |參數    |用法   |
        |:-------|:------|
        |pattern |匹配的規則，使用正則表達式的語法撰寫|
        |string  |要進行匹配的字符串|
        |flags   |設定一些正則表達式的匹配方式，像是規則是忽略大小寫，或使用UNICODE字符規則來解析字符等，如果沒有特別需求，可以忽略不寫 可以選擇的標誌，可參考上面有提到的正則表達式修飾符號|

In [11]:
# 程式碼 : 舉例1
import re

text = 'https://lc.arpa.bola.gov.taipei/WebUPD/LaborCollege/Header'
text1 = 'LaborCollege.news'

print(re.search('https', text))
print(re.search('https', text).span())
print(re.search('LaborCollege', text))
print(re.search('LaborCollege', text1))
print(re.search('News', text1))
print(re.search('News', text1, flags = re.I))
print(re.search('News', text1, flags = re.I).span())
print(re.search('News', text1, flags = re.I).group())

<re.Match object; span=(0, 5), match='https'>
(0, 5)
<re.Match object; span=(39, 51), match='LaborCollege'>
<re.Match object; span=(0, 12), match='LaborCollege'>
None
<re.Match object; span=(13, 17), match='news'>
(13, 17)
news


In [7]:
# 程式碼：範例2_使用groups()與group(num)來取得字符
import re

text = 'Geo studies in LaborCollege and he is 50 years old, when ...'
search_result = re.search(r'(.*) studies in ([a-z]*) and he is (\w+).*', text, re.I | re.M)
   
print(search_result.group())  # Geo studies in LaborCollege and he is 50 years old, when ...
print(search_result.group(1))  # Geo
print(search_result.group(2))  # LaborCollege
print(search_result.group(3))  # 50

print(search_result.groups())  # ('Geo', 'LaborCollege', '50')
print(type(search_result.groups()))  # class 'tuple'

Geo studies in LaborCollege and he is 50 years old, when ...
Geo
LaborCollege
50
('Geo', 'LaborCollege', '50')
<class 'tuple'>


note
### **match與search的差別，其實差別就在match一定要從起始位置開始匹配成功，而search則不用！**

* ### **正則表達式的函數介紹與實作**
3. findall 函數用法
    * `re.findall`會直接找尋所有匹配的字符，裝進**串列**後返回，如果沒有找到匹配的字符，就會回傳一個空的串列   
    * 小筆記：`re.findall`會**匹配所有符合規則的字符**，而`re.search`與`re.match`只會匹配一次而已
    * 函數語法格式：  
    `findall(pattern, string, pos, endpos)`  
    * 參數介紹：  
        * pattern: 匹配的規則，使用正則表達式的語法來撰寫
        * string:欲進行匹配的字符串
        * pos: 可選擇的參數，不一定要寫，指定開始匹配的位置，預設為0，也就是起始字符的位置
        * endpos: 可以選擇的參數，不一定要添加，指定結束匹配字符串的位置

In [9]:
import re

find_pattern = re.compile(r'[a-z]+', re.I)
match_result1 = find_pattern.findall('NT 1 dollar equals Japen Yen 0.2210yen')
match_result2 = find_pattern.findall('NT1dollar equals Japen_Yen0.2210yen')
match_result3 = find_pattern.findall('NT1dollar equals Japen_Yen0.2210yen', 2,20)
print(match_result1)
print(match_result2)
print(match_result3)

['NT', 'dollar', 'equals', 'Japen', 'Yen', 'yen']
['NT', 'dollar', 'equals', 'Japen', 'Yen', 'yen']
['dollar', 'equals', 'Jap']


In [24]:
# test _ write something
import re

find_pattern = re.compile(r'[a-z]+', re.I)
f=open('./files/seek_file.txt','w')
text='NT 1 dollar equals Japen Yen 0.2210ye'
f.write(text)

f=open('./files/seek_file.txt','r')

seek_file=f.readlines()

print(seek_file)
print(f.tell())

f.close()

['NT 1 dollar equals Japen Yen 0.2210ye']
37


* ### **正則表達式的函數介紹與實作**
4. sub 函數用法
    * 匹配好字符後，將它替換成想設定的字符，這個方法相當方便，在進行數據處理時，會有一些多餘的不要的空格、符號等等，就可以透過這個方法來一次替換掉   
    * 函數語法格式：  
    `re.sub(pattern, repl, string, count = 0, flags)`  
    * 參數介紹： 
        * pattern: 匹配的規則，使用正則表達式的語法來撰寫
        * repl: 欲替換的字符，也可以用函數的形式傳入
        * string: 要進行匹配的字符串
        * count: 匹配好字符後，替換的最大數量，預設為0，表示要全部替換
        * flags: 設定一些正則表達式的方式，像是規則是否忽略大小寫、使用UNICODE字符規則來解析字符等，如果沒有特別需求可以忽略不寫；可以選擇的標誌，可參考上面有提到的正則表達式修飾符號

In [1]:
# 程式碼:舉例1
import re 
text = 'Jack/25/1993 and Jen/23/1995'

## 把中間的and與空格拿掉，用&替換
sub_result1 = re.sub('\sand\s', '&', text)
print(sub_result1)

## 狀況一: 再把/拿掉
sub_result2 = re.sub('/', '', sub_result1)
print(sub_result2)

## 狀況二: 再把/拿掉，但只要拿掉前兩個
sub_result3 = re.sub('/', '', sub_result1, 2)
print(sub_result3)

Jack/25/1993&Jen/23/1995
Jack251993&Jen231995
Jack251993&Jen/23/1995


In [12]:
# 程式碼：舉例2_repl使用函數傳入時

import re
text = 'Jack66Jen58Ken28,Cathy38'

## 將匹配好的數字做平方計算
def square(match_result):
  num = int(match_result.group('number'))
  print(num,num**2)
  return str(num**2)

## 給定我們匹配值一個名稱，用?P<name> _ 邏輯與分組的概念_引用別名為<name>的分組的匹配字符
final_result = re.sub('(?P<number>\d+)', square, text)
print(final_result)

66 4356
58 3364
28 784
38 1444
Jack4356Jen3364Ken784,Cathy1444


* ### **正則表達式的函數介紹與實作**
5. Compile 函數
    * `re.compile`可以幫助我們編譯正則表達式，並生成一個pattern對象，來供給`match`、`search`、`findall`函數使用，簡單來說，就是我們只要定義好一次正則表達式的規則，就能用這個定義好的pattern規則，來提供`match`、`search`、`findall`函數匹配字符   
    * 用了這個方法後，我們就不用每次使用匹配函數時，都要重新寫一次正則表達式語法，但明明匹配的規則與寫法是一樣的
    * 函數語法格式：  
    `re.compile(pattern, flags)`  
    * 參數介紹： 
        * pattern: 匹配的規則，使用正則表達式的語法來撰寫
        * flags: 設定正則表達式匹配的一些模式
    * 補充用法說明
        * `group()`: 匹配好後，會回傳一個**tuple**，會根據匹配成功的字符一組一組返回，但由於`match`方法只會回傳一組，所以只要寫`group()`就好，其他的話，若我們想要回傳第一組就寫`group(0)`，以此類推
        * `start()`: 起始位置，傳入要查詢的組別，像是第一組就寫start(0)，以此類推
        * `end()`: 結束位置，傳入要查詢的組別，像是第一組就寫end(0)，以此類推
        * `span()`: 傳回（起始位置,結束位置）

In [6]:
#程式碼舉例：

import re
# text = '68Jack66Jen58Ken28,Cathy38'
text = '2023.09.01 Geo studied in LaborCollege and he was 50 years old, when he was 22...'

## 匹配字母，並忽略大小寫
pattern = re.compile(r'([a-z]+)', re.I)

## match預設從第一個位置開始匹配
compile_result1 = pattern.match(text)
print(compile_result1) ## None，因為match會從第一個位置開始匹配，如果不通過就會返回none

## 從第3個位置開始匹配
compile_result2 = pattern.match(text, 11, 20)

print(compile_result2) 
print(compile_result2.group(0)) 
print(compile_result2.start(0))
print(compile_result2.end(0))
print(compile_result2.span())

None
<re.Match object; span=(11, 14), match='Geo'>
Geo
11
14
(11, 14)


* ### **正則表達式的函數介紹與實作**
6. finditer 函數用法
    * `re.finditer`的用法與`re.findall`相似，找到所有符合匹配規則的字符後，以**迭代器的形式傳回**
    * 函數語法格式：  
    `re.finditer(pattern, string, flags)`  
    * 參數介紹： 
        * pattern: 匹配的規則，使用正則表達式的語法來撰寫
        * string: 要進行匹配的字符串
        * flags: 設定一些正則表達式的方式，像是規則是否忽略大小寫、使用UNICODE字符規則來解析字符等，如果沒有特別需求可以忽略不寫；可以選擇的標誌，可參考上面有提到的正則表達式修飾符號

In [14]:
import re

match_result = re.finditer(r'[a-z]+', 'Apple12Orange24Grape36,Dollar32', re.I)
# print(match_result.groups())

for name in match_result:
  print(name)
  print(name.group())

<re.Match object; span=(0, 5), match='Apple'>
Apple
<re.Match object; span=(7, 13), match='Orange'>
Orange
<re.Match object; span=(15, 20), match='Grape'>
Grape
<re.Match object; span=(23, 29), match='Dollar'>
Dollar


In [19]:
import re

find_pattern = re.compile(r'[a-z]+',flags=re.I)
text = 'Apple12Orange24Grape36,Dollar32'
finditer_result = find_pattern.finditer(text)  #以迭代器的形式傳回
print(finditer_result)  # <callable_iterator object at 0x0000027E3650F340>

findall_result = find_pattern.findall(text) # 找尋所有匹配的字符，裝進list後返回
print(findall_result)   # ['Apple', 'Orange', 'Grape', 'Dollar']

print('\nfinditer:找尋所有匹配的字符，以迭代器的形式傳回')
for name in finditer_result:
  print(name)
  print(name.group())

print('\nfindall:找尋所有匹配的字符，裝進list後返回')
for name in findall_result:
  print(name)   # name 型態為'str'
  print(type(name))
  # print(name.group())  #'str' object has no attribute 'group'

<callable_iterator object at 0x0000027E36515180>
['Apple', 'Orange', 'Grape', 'Dollar']

finditer:找尋所有匹配的字符，以迭代器的形式傳回
<re.Match object; span=(0, 5), match='Apple'>
Apple
<re.Match object; span=(7, 13), match='Orange'>
Orange
<re.Match object; span=(15, 20), match='Grape'>
Grape
<re.Match object; span=(23, 29), match='Dollar'>
Dollar

findall:找尋所有匹配的字符，裝進list後返回
Apple
<class 'str'>
Orange
<class 'str'>
Grape
<class 'str'>
Dollar
<class 'str'>


* ### **正則表達式的函數介紹與實作**
7. split 函數用法
    * `re.split`將匹配的字符進行切割，並且回傳一組串列
    * 函數語法格式：  
    `re.split(pattern, string, maxsplit, flags)`  
    * 參數介紹： 
        * pattern: 匹配的規則，使用正則表達式的語法撰寫
        * string: 欲進行匹配的字符串
        * maxsplit: 分割的次數，如maxsplit=1，代表分割一次，**預設為0，表示不限分割次數**
        * flags: 設定一些匹配的模式

In [22]:
import re

# text = 'Jack66Jen58Ken28Cathy'
text = 'Apple12Orange24Grape36,Dollar72$'

## 用數字來做為分隔依據
print(re.split('\d+', text))

## 分隔，並將數字也傳進陣列
print(re.split('(\d+)', text))

## 如果匹配的一句剛好在前後的位置，就會以空值傳回空值
# text1 = '66Jack66Jen58Ken28Cathy38'
text1 = '20240910Apple12Orange24Grape36,Dollar$72'
print(re.split('\d+', text1))

## 如果找不到匹配會回串全部字串
print(re.split('\s+', text1))

['Apple', 'Orange', 'Grape', ',Dollar', '$']
['Apple', '12', 'Orange', '24', 'Grape', '36', ',Dollar', '72', '$']
['', 'Apple', 'Orange', 'Grape', ',Dollar$', '']
['20240910Apple12Orange24Grape36,Dollar$72']


### **重要筆記：**  
#### **匹配時將我們需要爬取的數據，用（）來包住它的匹配規則，才會被獨立出來放入串列**
舉個例子來說，我們想要爬取文本字符串中符合我們指定格式的字符串，但是我們只想要取得|Example_format|前後的數值，並分別放入串列，這時候我們就需要將它們括號起來，像是(\d+)|Example_format|(\d+)這樣

指定的字符串格式：
#### **333|Example_format|666**

ps.  
`re.findall(r'(\d+)(?:\WExample_format\W)(\d+)', text)`  
語法中的 `?:re..`為特殊用法，類似`(...)`，但是它不分組

In [23]:
import re

text = '333|Example_format|666'
print(re.findall(r'(\d+)(?:\WExample_format\W)(\d+)', text))

text1 = '333|Example_format|666&000|Example_format|111'
print(re.findall(r'(\d+)(?:\WExample_format\W)(\d+)', text1))

[('333', '666')]
[('333', '666'), ('000', '111')]


**給自己的python小筆記-強大的數據處理工具-正則表達式-regular-expression-regex詳細教學**  
### **~End~** ###

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

## **Regular Expressions (Regex)**
https://www3.ntu.edu.sg/home/ehchua/programming/howto/Regexe.html

### **1. 正規表示式範例(Regex By Examples)**

#### **1.1 正規表示式語法總結(Regex Syntax Summary)**
* **字元(Character)**：除了在正規表示式中具有特殊意義的字元外，所有字元都與自身相符。例如，正規表示式x匹配子字串"x"；正規表示式9匹配"9"；正規表示式=匹配"="；和正規表示式 @匹配"@"。
* **特殊正規表示式字元(Special Regex Characters)**：這些字元在正規表示式中具有特殊意義（將在下面討論）： .  +  *  ?  ^  $  (  )  [  ]  {  }  |  \ 
* **轉義序列** ： Escape Sequences (\char)
    * 要匹配正規表示式中具有特殊含義的字符，需要使用帶有反斜線(\\)的轉義序列前綴。例如，\\.匹配"."；正規表示式\\+匹配"+"；和正規表示式\\( 匹配 "("。
    * 您還需要使用正規表示式\\\來匹配"\\"（反斜線）。
    * 正規表示式可識別常見的轉義序列，例如 \n為換行符、\t為Tab符、\r為return符、\nnn為最多 3位元八進位數、\xhh為兩位十六進位代碼、\uhhhh 為4位元 Unicode、\uhhhhhhhh為8位元 Unicode。
* **字元序列（或字串）**： A Sequence of Characters (or String)可以透過組合字元序列（稱為子表達式）來匹配字串。例如，正規表示式Saturday符合"Saturday".預設情況下，匹配區分大小寫，但可以透過 修飾符設定為不區分大小寫。
* **OR 運算子 ( | ) (OR Operator (|))**：例如，正規表示式four|4接受字串"four"or "4"。
* **字元類別（或括號列表）**： Character class (or Bracket List)
    * [...]：接受方括號內的任一個字符，例如[aeiou]匹配"a"、"e"、或"i"、"o"、"u"。
    * [.-.] （範圍表達式）：接受範圍中的任意一個字符，例如[0-9]匹配任意數字；[A-Za-z]匹配任何大寫或小寫字母。
    * [^...]：沒有一個字符，例如，[^0-9]匹配任何非數字。
    * 只有這四個字元需要在括號列表內轉義序列：^  -  ]  \ 
* **出現指示符（或重複運算子）**： Occurrence Indicators (or Repetition Operators)
    * +：一個或多個( 1+ )，例如[0-9]+符合一個或多個數字，例如'123','000'。
    * *：零個或多個 ( 0+)，例如，[0-9]*符合零個或多個數字。它接受所有的[0-9]+加上空字串。
    * ？：零或一（可選），例如，[+-]?符合可選的"+"、"-"或空字串。
    * {m,n} : 符合m至n次（包含兩者）
    * {m}：符合精確的m次
    * {m,} :符合m次或更多 ( m+ )
* **元字符(匹配一個字符)**：Meta-characters(matches a characte)
    * .（點）：除換行符之外的任何一個字元。與相同[^\n]
    * \d、\D：任何一位數字/非數字字元。數字是[0-9]
    * \w、\W：任何一個單字/非單字字元。對於 ASCII，單字字元是[a-zA-Z0-9_]
    * \s、\S：任何一個空格/非空格字元。對於 ASCII，空白字元是[ \n\r\t\f]
* **位置錨點**：Position Anchors - 不匹配字符，而是匹配位置，例如行首、行尾、詞首和詞尾(does not match character, but position such as start-of-line, end-of-line, start-of-word and end-of-wor)
    * ^、$：分別為行首、行尾。例如，^[0-9]$匹配數字字串。
    * \b：單字邊界，即單字開頭或單字結尾。例如，匹配輸入字串中的\bcat\b單字。"cat"
    * \B： \b 的相反，即非單字開頭或非單字結尾。
    * \< , \>：分別為詞首和詞尾，類似\b.例如，匹配輸入字串中的\<cat\>單字。"cat"
    * \A、\Z：分別是輸入開始和輸入結束。
* **帶括號的反向參考文獻**：Parenthesized Back References
*   * 使用括號( )建立反向引用。
    * 使用$1, $2, ...（Java、Perl、JavaScript）或\1, \2, ... (Python) 依序檢索向後引用。
* **惰性（抑制重複運算子的貪婪）**：Laziness (Curb Greediness for Repetition Operators)
    * *?, +?, ??, {m,n}?,{m,}?

#### **1.2 數字 - Numbers  
- Example： `[0-9]+` or `\d+`
1. regex（正規表示式）由一系列子表達式組成。在此範例中，`[0-9]`和`+`.
2. `[...]`稱為字元類別（或括號列表），包含字元列表。它匹配列表中的任何單個字元。在此範例中，`[0-9]`符合 0 到 9 之間的任何單一字元（即數字），其中破折號 ( - ) 表示範圍。
3. +稱為出現指示符（或重複運算子），指示前一個子表達式出現一次或多次 (1+)。在這種情況下，`[0-9]+`匹配一位或多位數字。
4. 正規表示式可以符合輸入的一部分（即子字串）或整個輸入。事實上，它可以匹配輸入的零個或多個子字串（使用全域修飾符）。
5.此正規表示式符合輸入的任何數字子字串（數字 0 到 9）。例如，
    * 如果輸入為"abc123xyz"，則符合子字串"123"。
    * 如果輸入為"abcxyz"，則不符合任何內容。
    * 如果輸入為"abc00123xyz456_0"，則它會匹配子字串"00123"、"456"和"0"（三個匹配）。
    請注意，此正規表示式將數字與前導零匹配，例如"000"、"0123"和"0001"，這可能是不可取的。
6. 您也可以編寫`\d+`，其中\d稱為匹配任何數字的元字元（與 `[0-9]`相同）。編寫正規表示式的方法不只一種！
    * 請注意，許多程式語言（C、Java、JavaScript、Python）使用反斜線\作為轉義序列的前綴（例如，\n換行符），您需要改編寫為 `\\d+`。

#### **1.3 程式碼範例** - Code Examples (Python, Java, JavaScript, Perl, PHP)
* **Code Example in Python**  
    * 可參閱[「Python 的re正規表示式模組」](https://www3.ntu.edu.sg/home/ehchua/programming/webprogramming/Python1_Basics.html#re)以了解完整內容。  
    * Python 透過 module 支援正規表示式re。 Python 也使用反斜線 ( \ ) 來表示轉義序列（即，您需要編寫`\\` for `\`, `\\d` for `\d`），但它支援 **形式為`r'...'`的原始字串，這會忽略轉義序列的解釋 - 非常適合編寫正則表達式。**

In [4]:
# 在 Python 命令列解釋器下測試
# python3

import re    # 正規表示式需要模組're'

# 嘗試尋找： re.findall( regexStr , inStr ) -> matchedSubstringsList 
# r'...' 表示忽略轉義碼的原始字串，即 r'\n' 是 '\'+'n' 
example = re.findall(r'[0-9]+', 'abc123xyz')    # 傳回符合子字串的清單['123'] 
print(example)

example = re.findall(r'[0-9]+', 'abcxyz')   # 傳回符合子字串的清單[] 
print(example)

example = re.findall(r'[0-9]+', 'abc00123xyz456_0')  # 傳回符合子字串的清單['00123', '456', '0']
print(example)

example = re.findall(r'\d+', 'abc00123xyz456_0')  # 傳回符合子字串的清單['00123', '456', '0']
print(example)

# 嘗試替換： re.sub( regexStr , replacementStr , inStr ) -> outStr 
example = re.sub(r'[0-9]+', r'*', 'abc00123xyz456_0') # 傳回符合子字串的清單'abc*xyz*_*'
print(example)

# 試著用 count 取代： re.subn( regexStr , replacementStr , inStr ) -> ( outStr , count ) 
re.subn(r'[0-9]+', r'*', 'abc00123xyz456_0')  # 傳回輸出字串和計數的元組( 'abc*xyz*_*', 3)   

['123']
[]
['00123', '456', '0']
['00123', '456', '0']
abc*xyz*_*


('abc*xyz*_*', 3)

#### **1.3 程式碼範例** - Code Examples (Python, Java, JavaScript, Perl, PHP)
* **Code Example in Java**  
* **Code Example in Perl**  
* **Code Example in JavaScript**  
Pass

#### **1.4 完整數字字串** - Full Numeric Strings
- **Example：  `^[0-9]+$` or `^\d+$`**  
* 開頭^和結尾$稱為位置標籤，它們分別匹配行的起始位置和結束位置。結果須**整個輸入字串應完全匹配**，而不是輸入字串的一部分（子字串）。
* 此正規表示式符合任何非空數字字串（包含數字 0 到 9），例如"0"和"12345"。它不符合""（空字串）、"abc"、"a123"、"abc123xyz"等。但它也可匹以為開頭的字串"000" "0123"和"0001"

#### **1.5 正整數文字** - Positive Integer Literals  
- **Example： `[1-9][0-9]*|0` or `[1-9]\d*|0`**  
* `[1-9]`匹配 1 到 9 之間的任意字元；`[0-9]*`匹配零個或多個數字。是表示零次或多次出現的出現`*`指示符。`[1-9][0-9]*`一起使用，為匹配任何不帶開頭為零的數字。
* |代表 OR 運算子；用於包含數字 0。
* 該表達式可匹配"0"和"123"；但不能匹配"000"和"0123"（但見下文）。
* 您可以用元字元\d替換[0-9]，而非[1-9]。
* 在這個正規表示式中，我們沒有使用位置錨點 ^和$。因此，它可以匹配輸入字串的任何部分。例如，
    * 如果輸入字串是"abc123xyz"，則符合子字串"123"。
    * 如果輸入字串為"abcxyz"，則無任何符合內容。
    * 如果輸入字串為"abc123xyz456_0"，則它符合子字串"123"、"456"和"0"（三個匹配）。
    * 如果輸入字串是"0012300"，則它符合子字串："0"、"0"和"12300"（三個符合）！

#### **1.6 全整數文字** - Full Integer Literals 
- **Example： `^[+-]?[1-9][0-9]*|0$` or `^[+-]?[1-9]\d*|0$`**  
* 此正規表示式符合整數文字（對於具有位置標籤的整個字串），包括正數、負數和零。
* [+-] 匹配+或-符號。?是出現指示符，表示出現0次或1次，即可選的。因此，[+-]?匹配可選的開頭為+或-符號。
* 我們已經介紹了三個出現指標：
    * +為出現一次或多次、
    * *為出現零次或多次
    * ?為出現零次或一次。

#### **1.7 標識符（或名稱）** - Identifiers (or Names)  
- **Example： `[a-zA-Z_][0-9a-zA-Z_]*` or `[a-zA-Z_]\w`**  
* 以一個字母或底線開頭，後面跟著零個或多個數字、字母和底線。
* 也可以使用元字元 `\w`作為單字字元`[a-zA-Z0-9_]`。回想一下，元字元 `\d`可用於數字`[0-9]`。

#### **1.8 圖片檔名** - Image Filenames  
- **Example： `^\w+\.(gif|png|jpg|jpeg)$`**  
* 位置分別錨定 `^`並 `$`匹配輸入字串的開頭和結尾。也就是說，該正規表示式應符合**整個輸入字串**，而不是輸入字串的一部分（子字串）。
* `\w+`匹配一個或多個單字字元（與 `[a-zA-Z0-9_]+`相同）。
* `\.`匹配點(`.`)字元。我們需要使用 `\.` 來表示 `.`，因為 `.` 在正規表示式中具有特殊意義。這`\`被稱為轉義碼，它恢復後面字元的原始字面含義。同樣， `*`, `+`, `?`（出現指示符）,`^`, `$`（位置錨）在正規表示式中具有特殊意義。您需要使用轉義碼來匹配這些字元。
* (gif|png|jpg|jpeg)符合"gif"、"png"、"jpg"或"jpeg"。`|`表示"OR"運算符。括號用於將選擇分組。
* 正規表示式後面的修飾符`i`指定不區分大小寫的匹配（僅適用於某些語言，例如 Perl 和 JavaScript）。即，它接受"test.GIF"和"TesT.Gif"。

#### **1.9 電子郵件地址** - Email Addresses  
- **Example： `^\w+([.-]?\w+)*@\w+([.-]?\w+)*(\.\w{2,3})+$`**  
* 位置定位符 `^`並`$`分別指定匹配輸入字串的開頭和結尾。也就是說，該正規表示式應符合**整個輸入字串**，而不是輸入字串的一部分（子字串）。
* `\w+`符合 1 個或多個單字字元（與`[a-zA-Z0-9_]+`相同）。
* `[.-]?`匹配可選字元`.`或`-`.雖然 點 (`.`) 在正規表示式中具有特殊意義，但在字元類別（方括號）中，除了`^`, `-`, `]` 或`\`之外的任何字元都是文字，且不需要轉義序列。
* `([.-]?\w+)*`配對 0 次或多次出現的`[.-]?\w+`。
* 子表達式`\w+([.-]?\w+)*`用於匹配電子郵件中@符號之前的使用者名稱。它以至少一個單字字元開頭`[a-zA-Z0-9_]`，後面跟著更多單字字元或`.`或`-`。然而，`.`或`-`後面必須跟有單字字元`[a-zA-Z0-9_]`。即輸入字串不能以`.`或`-`開頭；且不能包含".."、"--"、".-"或'-.'。有效字串的範例是"a.1-2-3"。
* @匹配它本身。在正規表示式中，除了具有特殊意義的字元之外的所有字元都與自身匹配，例如a匹配a、b匹配b等。
* 同樣，子表達式\w+([.-]?\w+)*用於匹配電子郵件域名，其模式與上述使用者名稱相同。
* 子表達式`\.\w{2,3}`匹配`.`後跟兩個或三個單字字符，例如".com"、".edu"、".us"、".uk"、".co"。
* `(\.\w{2,3})+`指定上述子表達式可以出現一次或多次，例如".com"、".co.uk"、".edu.sg"等。  
- **練習**：  
解釋此正規表示式，它提供了電子郵件地址的另一種表示形式：`^[\w\-\.\+]+\@[a-zA-Z0-9\.\-]+\.[a-zA-z0-9]{2,4}$`。

#### **1.10 使用括號的反向引用交換單字** - Swapping Words using Parenthesized Back-References  
- **Example： `^(\S+)\s+(\S+)$` and `$2 $1`**  
* `^`和`$`分別匹配輸入字串的開頭和結尾。
* `\s`(小寫s)匹配空格（空白、跳格符`\t`和 換行符`\r`或`\n`）。另一方面，`\S+`(大寫S)匹配非符合`\s`的任何內容，即非空格。在正規表示式中，大寫元字元表示小寫對應字元的反義詞，例如，`\w`對於單字字元和`\W`非單字字元；`\d`對於數字和`\D`非數字。
* 上述正規表示式符合由一個或多個空格分隔的兩個單字（沒有空格）。
* 正規表示式中的括號()有兩種意義：
    - 將子表達式分組，例如(abc)*
    - 為捕獲和提取匹配項提供所謂的反向引用。
* `(\S+)`中的括號、稱為帶括號的反向引用，用於從輸入字串中提取匹配的子字串。在此正規表示式中，有兩個`(\S+)`, 匹配前兩個單詞，它是由一個或多個空格`\s+`分隔的。兩個符合的單字是從輸入字串中提取的，通常分別保存在特殊變數 `$1` and `$2`（或Python中的`\1` and `\2`）中。
* 要交換兩個單字，您可以存取特殊變量，並列印 `$2` `$1` （透過程式語言）；或替換運算子“ s/(\S+)\s+(\S+)/$2 $1/”（在 Perl 中）。

#### **Code Example in Python**
Python keeps the parenthesized back references in \1, \2, .... Also, \0 keeps the entire match.

`$ python3`
`re.findall(r'^(\S+)\s+(\S+)$', 'apple orange')`  #[('apple', 'orange')] 
# A list of tuples if the pattern has more than one back references
# Back references are kept in \1, \2, \3, etc.

# Prefix r for raw string which ignores escape
`re.sub(r'^(\S+)\s+(\S+)$', r'\2 \1', 'apple orange')`   #'orange apple'

# Need to use \\ for \ for regular string
`re.sub(r'^(\S+)\s+(\S+)$', '\\2 \\1', 'apple orange')`  #'orange apple

In [4]:
import re

back_ref1 = re.findall(r'^(\S+)\s+(\S+)$', 'apple orange')  #[('apple', 'orange')] 
print(back_ref1,type(back_ref1))

back_ref2 = re.sub(r'^(\S+)\s+(\S+)$', r'\2 \1', 'apple orange')   #'orange apple'
print(back_ref2,type(back_ref2))

back_ref3 = re.sub(r'^(\S+)\s+(\S+)$', '\\2 \\1', 'apple orange')  #'orange apple
print(back_ref3,type(back_ref3))

[('apple', 'orange')] <class 'list'>
orange apple <class 'str'>
orange apple <class 'str'>


#### **Code Example in Java**

pass


pass