<參考> https://zh.wikipedia.org/zh-tw/正则表达式  
### 正規表示式  

#### 基本語法  
##### 數量限定  
* 加號+代表前面的字元必須至少出現一次。（1次或多次）。如，goo+gle可以符合google、gooogle、goooogle等
* 問號?代表前面的字元最多只可以出現一次。（0次或1次）。如，colou?r可以符合color或者colour
* 星號*代表前面的字元可以不出現，也可以出現一次或者多次。如，0*42可以符合42、042、0042、00042等。 

##### PCRE表達式  

字元      描述  
* `\`  : 將下一個字元標記為一個特殊字元  
     例如，「\n」符合一個換行符。序列「\\」符合「\」而「\(」則符合「(」。  
* `.`  : 符合除「\r」「\n」之外的任何單個字元。
     * 要符合包括「\r」「\n」在內的任何字元，請使用像「(.|\r|\n)」的模式。   
* `[^a-z]`    : 排除型的字元範圍。符合任何不在Unicode編碼表指定範圍內的任意字元。  
            例如，「[^a-z]」可以符合任何不在「a」到「z」範圍內的任意字元。  
* `\d`  : 符合一個數字字元。等價於[0-9]。注意Unicode正規表示式會符合全形數字字元。  
* `\D`  : 符合一個非數字字元。  
* `\r`  : 符合一個回車字元。  
* `\s`  : 符合任何空白字元，包括空格、制表符、換頁符等等。  
* `\S`  : 符合任何非空白字元。  
* `\t`  : 符合一個制表符。  
* `\n`  : 符合一個換行符。  
* `\w`  : 符合包括底線的任何單詞字元。等價於「`[A-Za-z0-9_]`」  
* `\W`  : 符合任何非單詞字元。等價於「`[^A-Za-z0-9_]`」。  

pass

<參考> https://docs.python.org/zh-tw/3/library/re.html
### re --- 正規表示式 (regular expression) 操作
pass

<參考> https://steam.oxxostudio.tw/category/python/library/re.html  
**[使用正規表達式 re]**  

##### import re 
要使用 re 必須先 import re 模組，或使用 from 的方式，單獨 import 特定的類型。  
```python
import re
from re import sample
```

##### compile(pattern)
* `re.compile(pattern)` 可以建立一個正規表達式的規則，規則建立後，就能使用 re 的其他方法執行套用這個規則的對象，  
舉例來說，下方的程式碼執行後，會建立找尋「連續三個數字」的規則，接著使用 search 的方法，就能找到 123 這三個字串
ps. 配對的規則通常會用「r」進行標示，例如 r'str'。
    ```python
    import re
    role = re.compile(r'\d\d\d')       # 連續三個數字
    result = role.search('abc123xyz')  # 使用 search 方法，使用建立的規則，搜尋 abc123xyz
    print(result.group())              # 123
    ```

* `re.compile(pattern)` 還有第二個參數 flags，預設不需要填寫，可以額外設定一些正規表達式的匹配方式，flags 有幾種參數可供設定：Ex. `re.I`    忽略字母大小寫。  
    ```python
    import re
    role = re.compile(r'hello', flags=re.I)  # 匹配 hello，不論大小寫
    result = role.search('HeLlo World')
    print(result.group())                    # HeLlo
    ```

In [13]:
# 進行正規表達式搜尋字串內容後，預設將匹配的資料分成同一組，也可在搜尋時使用「小括號」進行搜尋資料的「分組」，接著使用「group」或「groups」，將匹配到的資料內容取出。
import re
role1 = re.compile(r'(hello) (world)', flags=re.I)
result_match1 = role1.match('HeLlo World, Hello oxxo')
print(result_match1)            # <re.Match object; span=(0, 11), match='HeLlo World'>
print(result_match1.span())     # (0, 11)
print(result_match1.groups())   # ('HeLlo', 'World')  ## groups() 傳回所有括號符合的字符，以tuple格式。
print(result_match1.group())    ## group（0）和group（）效果相同，都是取得所取得的字串整體。
print(result_match1.group(1))   # HeLlo
print(result_match1.group(2))   # World

role2 = re.compile(r'hello', flags=re.I)
result_match2 = role2.match('HeLlo World, Hello oxxo')
print(result_match2)
print(result_match2.groups())   # ()
print(result_match2.group())    # HeLlo
print(result_match2.group(1))   # 發生錯誤  no such group

<re.Match object; span=(0, 11), match='HeLlo World'>
(0, 11)
('HeLlo', 'World')
HeLlo World
HeLlo
World
<re.Match object; span=(0, 5), match='HeLlo'>
()
HeLlo


IndexError: no such group

In [6]:
# 由於使用 group 或 groups 時，如果找不到 group 會發生錯誤 ( 沒有匹配就沒有 group )，所以可以先使用 if 判斷式先行篩選，避免錯誤狀況發生，下方的程式碼執行後，會判斷 result 是否為 None，如果是 None 就直接印出找不到資料的文字。

import re
role = re.compile(r'hello', flags=re.I)
result = role.fullmatch('HeLlo World, Hello oxxo')
if result == None:
    print('找不到資料')      # 沒有匹配就印出找不到資料
else:
    print(result.group())  # 有匹配就印出結果

找不到資料


### [緣由]<參考>
### [1 分鐘搞懂 Python 迴圈控制：break、continue、pass]
https://medium.com/@chiayinchen/1-分鐘搞懂-python-迴圈控制-break-continue-pass-be290cd1f9d8

#### 情境 2：比對
檢查 email 是否為公司官方信箱，如出現 hello、contact、sales、support、business、info 等關鍵字。
 Note：
 利用 break 告訴迴圈當 email 字串中包含 email_out 列表 (List) 中的關鍵字時，要強制結束迴圈。

 Note：
 利用 break 告訴迴圈當 email 字串中包含 email_out 列表 (List) 中的關鍵字時，要強制結束迴圈。

In [18]:
import re
# 定義函數
def detect_email(email):
    email_out = ['hello','contact','sales','support','business','info']
    for e_out in email_out:
        pattern = re.compile('.*' + e_out + '.*')
        r = re.match(pattern, email.lower())
        if r is not None:
            print('{} 中包含 {} 關鍵字，因此判斷為官方信箱'.format(email, e_out))
            break
    else:
            print('{} 為個人信箱'.format(email))
        
# 呼叫函數
detect_email('carol@gmail.com')
detect_email('Support@gmail.com')

carol@gmail.com 為個人信箱
Support@gmail.com 中包含 support 關鍵字，因此判斷為官方信箱


#### from chatgpt  
Question: '.*' 是正規表示式中的一個模式，它與'*' 的差異為何？  

**Answer:**  
##### `.*` 的意思：
* `.`: 代表任意單一字元（除了換行符號）。
* `*`: 代表前面的字元或子模式可以出現零次或多次。
組合在一起，`.*` 代表“零個或多個任意字元”，即可以匹配任意數量的任意字元（包括空字串）。
例如：正規表示式 .* 可以符合：
    空字串 ""
    任意單一字元 "a"
    多個字元 "abc"
    甚至是整行字元 "This is a test line"

##### `*` 的意思：  
`*` 單獨使用是沒有意義的，因為它必須跟在一個字元或子模式後面，表示該字元或子模式出現零次或多次。
正規表示式 (abc)* 表示零個或多個 'abc' 的重複：
    可以匹配空字串 ""
    單一 'abc' "abc"
    多 'abc' "abcabc"

#### from chatgpt
**Question**: 接上述，若email=carol@gmail.com時，r = re.match(pattern, email)用法為何？  

**Answer:**  
在你的範例中，如果我們有一個電子郵件地址 email = "carol@gmail.com"，而我們使用 `re.match` 方法來匹配這個電子郵件地址，具體的用法將取決於我們定義的 pattern。

假設我們繼續使用先前的 `pattern = re.compile('.*' + e_out + '.*')`，且 e_out = 'support'，那麼整個正規表示式模式將是 '.*support.*'。這個模式用來匹配任意包含 support 的字串。以下是具體的使用方法：
```python
import re

e_out = 'support'
pattern = re.compile('.*' + e_out + '.*')
email = "carol@gmail.com"
```

##### 使用 re.match() 方法
```python
r = re.match(pattern, email)

if r:
    print(f"Email matches: {email}")
else:
    print("Email does not match.")
```


In [16]:
import re

e_out = 'support'
pattern = re.compile('.*' + e_out + '.*')
email = "carol@gmail.com"

# 使用 re.match() 方法
r = re.match(pattern, email)

if r:
    print(f"Email matches: {email}")
else:
    print("Email does not match.")


Email does not match.


#### from chatgpt  
##### 更改 pattern 以符合電子郵件  
如果我們想要匹配電子郵件地址，我們需要一個不同的正規表示式模式。例如：

##### `pattern = re.compile(r'.*@.*\..*')`

這個模式的解釋如下：  
* `.*` 表示任意數量的任意字元（包括零個字元）。  
* `@` 是匹配字元 @。  
* `.*` 再次表示任意數量的任意字元。  
* `\.` 匹配字元 .。  
* `.*` 再次表示任意數量的任意字元。  


以下是使用該模式來匹配電子郵件地址的範例：
```python
import re

pattern = re.compile(r'.*@.*\..*')
email = "carol@gmail.com"

# 使用 re.match() 方法
r = re.match(pattern, email)

if r:
    print(f"Email matches: {email}")
else:
    print("Email does not match.")
```


**總結**  
使用 `re.match(pattern, email)` 可以檢查電子郵件地址是否符合給定的正規表示式模式。
正規表示式 '.*support.*' 用於匹配包含 support 的字串，  
而 `r'.*@.*\..*'` 則是一個通用的匹配電子郵件地址的正規表示式模式。

In [17]:
import re

pattern = re.compile(r'.*@.*\..*')
email = "carol@gmail.com"

# 使用 re.match() 方法
r = re.match(pattern, email)

if r:
    print(f"Email matches: {email}")
else:
    print("Email does not match.")


Email matches: carol@gmail.com


In [1]:
# 使用 loop 方法
import re

def detect_email(email):    
    pattern = re.compile(r'.*@.*\..*')
    email_match = re.match(pattern, email)  # 使用 re.match() 方法

    if  email_match:
        print(f"Email\t {email} : matches")
    else:
        print(f"Email\t {email} : does not match.")

emails=['GeoJSON@gmail.com','GeoPython@gmail.com','GeoGit.gmail.com']
for i in emails:
  detect_email(i)      

Email	 GeoJSON@gmail.com : matches
Email	 GeoPython@gmail.com : matches
Email	 GeoGit.gmail.com : does not match.


In [4]:
import re
mail_key=[]
def chk_mail(email):
    for mail_key in mail_keys:
        pattern=re.compile('.*' + mail_key + '@.*\..*')
        mail_match=re.match(pattern,email.lower())
        if mail_match:
            print(f'emali\t {email} : match')
            break
#    else:
    if mail_match is None:
            print(f"Email\t {email} : does not match.")

mail_keys = ['hello','contact','sales','support','business','info']
emails=['GeoJSON@gmail.com','GeoPython@gmail.com','GeoSales.gmail.com','GeoSales@gmail.com','GeoInf@gmail.com']
for i in emails:
  chk_mail(i)  

Email	 GeoJSON@gmail.com : does not match.
Email	 GeoPython@gmail.com : does not match.
Email	 GeoSales.gmail.com : does not match.
emali	 GeoSales@gmail.com : match
Email	 GeoInf@gmail.com : does not match.


In [5]:
# re.compile 使用 flags = re.I

import re
mail_key=[]
def chk_mail(email):
    for mail_key in mail_keys:
        pattern=re.compile('.*' + mail_key + '@.*\..*',flags=re.I)  #使用flags = re.I
        mail_match=re.match(pattern,email)  #email.lower()可省略成email
        if mail_match:
            print(f'emali\t {email} : match')
            break
#    else:
    if mail_match is None:
            print(f"Email\t {email} : does not match.")

mail_keys = ['hello','contact','sales','support','business','info']
emails=['GeoJSON@gmail.com','GeoPython@gmail.com','GeoSales.gmail.com','GeoSales@gmail.com','GeoInf@gmail.com']
for i in emails:
  chk_mail(i)  

Email	 GeoJSON@gmail.com : does not match.
Email	 GeoPython@gmail.com : does not match.
Email	 GeoSales.gmail.com : does not match.
emali	 GeoSales@gmail.com : match
Email	 GeoInf@gmail.com : does not match.


===============================================================
設定包含中英文字

#### 透過chatGPT -1
##### Question : 在re.search()如何設定包含中英文字？  
##### Answer:  
要在 Python 的 `re.search()` 中設置匹配包含中英文字符的字符串，可以使用 Unicode 字符類型。  
**Unicode 字符類型**  
* `\u4e00-\u9fff` 用於匹配中文字符，
* `\w` 用於匹配英文字符和數字（還包括下劃線 _）。

以下是一些示例：

In [1]:
import re

# 示例字符串
text = "Hello 你好 world 世界"

# 匹配包含中英文字符的模式
pattern = r'[\w\u4e00-\u9fff]+'

# 搜索匹配
match = re.search(pattern, text)

if match:
    print("匹配成功:", match.group())
else:
    print("未找到匹配")


匹配成功: Hello


### **解釋**
* `\w` 匹配字母、數字和下劃線，即 [a-zA-Z0-9_]
* `\u4e00-\u9fff` 匹配 Unicode 范圍內的中文字符
* `[\w\u4e00-\u9fff]+` 匹配一個或多個中英文字符
如果你想要更精確地匹配，可能需要根據實際需求進行調整。例如，如果你只想匹配中英文字符而不包括數字，可以使用 [a-zA-Z\u4e00-\u9fff]+。


更多示例：
* 只匹配中英文字符（不包括數字和下劃線）：  
`pattern = r'[a-zA-Z\u4e00-\u9fff]+'`

* 匹配中英文字符及空格（允許空格分隔的詞組）：  
`pattern = r'[a-zA-Z\u4e00-\u9fff\s]+'`

* 匹配中英文字符及標點符號：  
`pattern = r'[a-zA-Z\u4e00-\u9fff.,!?，。！？]+'`

使用這些模式可以靈活匹配各種包含中英文字符的字符串。根據具體需求選擇合適的正則表達式模式。

In [2]:
#完整代碼示例
#這段代碼會逐個檢查每個字符串中是否包含中英文字符並輸出匹配結果。
import re

# 示例字符串
texts = [
    "Hello 你好",
    "world 世界",
    "Python123 编程",
    "只包含中文",
    "Only English",
    "12345",
    "包含标点符号，! Hello！"
]

# 匹配包含中英文字符的模式
pattern = r'[a-zA-Z\u4e00-\u9fff]+'

for text in texts:
    match = re.search(pattern, text)
    if match:
        print(f"在 '{text}' 中匹配成功: {match.group()}")
    else:
        print(f"在 '{text}' 中未找到匹配")


在 'Hello 你好' 中匹配成功: Hello
在 'world 世界' 中匹配成功: world
在 'Python123 编程' 中匹配成功: Python
在 '只包含中文' 中匹配成功: 只包含中文
在 'Only English' 中匹配成功: Only
在 '12345' 中未找到匹配
在 '包含标点符号，! Hello！' 中匹配成功: 包含标点符号


設定包含中英文字
~~~~ End ~~~
===============================================================

## pass

======================================================================

### 給自己的Python小筆記 — 強大的數據處理工具 — 正則表達式 — Regular Expression — regex詳細教學  
https://chwang12341.medium.com/給自己的python小筆記-強大的數據處理工具-正則表達式-regular-expression-regex詳細教學-a5d20341a0b2  


+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

### **Regular Expressions (Regex)**
https://www3.ntu.edu.sg/home/ehchua/programming/howto/Regexe.html