In [2]:
import re

## **BIỂU THỨC CHÍNH QUY, `re` LIB PYTHON**

### **1. Tiền tố `r""`**

Đây là một **raw string** (chuỗi thô). Tiền tố `r` trước dấu nháy kép (`"`) có vai trò **vô hiệu hóa các ký tự escape**, nghĩa là Python sẽ **không xử lý các ký tự như `\n`, `\t`, `\\`... theo cách thông thường**.

 Nếu không dùng `r""`, ta sẽ phải **gõ thêm một dấu `\` để escape**, điều này khiến code khó đọc và dễ sai.

##### ***Ví dụ so sánh:***

| Mục tiêu                        | Không dùng `r""`             | Dùng `r""`                  |
|---------------------------------|------------------------------|-----------------------------|
| Tìm dấu xuống dòng              | `"\\n"`                      | `r"\n"`                     |
| Regex tìm chữ số                | `"\\d+"`                     | `r"\d+"`                    |
| Regex tìm ký tự không phải số   | `"\\D"`                      | `r"\D"`                     |

##### ***Ví dụ sử dụng:***

In [3]:
pattern = r"\d+"  # tìm chuỗi gồm 1 hoặc nhiều chữ số

result = re.findall(pattern, "Tuổi: 25, Số nhà: 123")
print(result)  # ['25', '123']

['25', '123']


### **2. Các phương thức phổ biến**

#### **2.1. Phương thức `re.compile()`**

Phương thức `re.compile()` được dùng để **biên dịch một biểu thức chính quy (regex)** thành một **đối tượng pattern**, giúp ta có thể tái sử dụng nhiều lần một cách hiệu quả và rõ ràng hơn.

##### ***Mục đích***
- Giúp **viết code rõ ràng và gọn gàng hơn** khi cần sử dụng cùng một biểu thức chính quy nhiều lần. 

- Tránh việc phải truyền lại chuỗi regex cho từng phương thức khác (`match()`, `search()`, `findall()`, ...).


##### ***Cú pháp***

```python
pattern = re.compile(r"biểu_thức_chính_quy")


In [5]:
# Biên dịch biểu thức chính quy tìm địa chỉ email
pattern = re.compile(r"\w+@\w+\.\w+")

text = "Liên hệ: alice@example.com hoặc bob@test.org"

# Tìm tất cả email trong chuỗi
emails = pattern.findall(text)
print(emails)  # ['alice@example.com', 'bob@test.org']

# Tìm vị trí đầu tiên có khớp
match = pattern.search(text)
if match:
    print("Tìm thấy:", match.group())  # alice@example.com

['alice@example.com', 'bob@test.org']
Tìm thấy: alice@example.com


#### **2.2. Phương thức `re.search()`**

Phương thức `re.search()` được dùng để **quét (scan) toàn bộ chuỗi**, tìm **vị trí đầu tiên** nơi biểu thức chính quy khớp. Nếu tìm được, hàm sẽ trả về một **đối tượng match** chứa thông tin chi tiết; nếu không tìm thấy, trả về `None`.

##### ***Chi tiết***
- `re.search()` sẽ quét toàn bộ chuỗi đầu vào để tìm **vị trí đầu tiên** mà biểu thức chính quy khớp với chuỗi. Nếu có khớp, nó trả về một **đối tượng match** tương ứng. Nếu **không có vị trí nào** trong chuỗi khớp với biểu thức, hàm sẽ trả về `None`.

🔸 Lưu ý: Điều này **khác với việc biểu thức chính quy khớp với một chuỗi rỗng (`zero-length match`)**. Ví dụ, nếu biểu thức được thiết kế để khớp với chuỗi rỗng, `re.search()` vẫn có thể trả về match object tại vị trí đó.


##### ***Cú pháp***

```python
re.search(pattern, string, flags=0)


In [9]:
import re

text = "Sản phẩm ABC có mã vạch là: 5394928472943 9558378578349"

match = re.search(r"\d{13}", text)

if match:
    print("Tìm thấy mã vạch:", match.group())  # 8934567890123
    print("Vị trí:", match.span())             # (29, 42)
else:
    print("Không tìm thấy mã vạch.")


Tìm thấy mã vạch: 5394928472943
Vị trí: (28, 41)


#### **2.3. Phương thức `re.match()`**

Phương thức `re.match()` trong Python dùng để **kiểm tra xem chuỗi có bắt đầu bằng mẫu regex hay không**. Nếu **một phần ở đầu chuỗi** khớp với biểu thức chính quy, nó trả về một **đối tượng match**; nếu không, trả về `None`.

##### ***Chi tiết***
> `re.match(pattern, string, flags=0)` sẽ kiểm tra xem **chuỗi đầu vào có khớp với biểu thức chính quy ngay từ vị trí đầu tiên (vị trí 0)** hay không. Nếu có, trả về một match object. Nếu không, trả về `None`.

🔸 Lưu ý:
- Dù ở chế độ `re.MULTILINE`, `re.match()` **chỉ kiểm tra tại vị trí bắt đầu của toàn bộ chuỗi**, **không áp dụng cho từng dòng**.

- Điều này **khác với `re.search()`**, vốn tìm khớp ở **bất kỳ vị trí nào** trong chuỗi.


##### ***Cú pháp***

```python
re.search(pattern, string, flags=0)


In [None]:
import re

text = "Python is powerful"
match = re.match(r"Python", text)

if match:
    print("Khớp:", match.group())  # Python
else:
    print("Không khớp")


text2 = "Ngôn ngữ Python rất phổ biến"
match = re.match(r"Python", text2)

print(match)  # None, vì "Python" không nằm ở đầu chuỗi

In [12]:
# Ví dụ nâng cao: MULTILINE không ảnh hưởng match()
text = "First line\nSecond line"

match = re.match(r"Second", text, flags=re.MULTILINE)
print(match)  # None, vì 'Second' không ở đầu toàn bộ chuỗi

None


#### **2.4. Phương thức `re.fullmatch()`**

Phương thức `re.fullmatch()` dùng để kiểm tra xem **toàn bộ chuỗi** có **hoàn toàn khớp** với biểu thức chính quy hay không. Nếu khớp toàn bộ, hàm trả về một **match object**; nếu không, trả về `None`.

##### ***Chi tiết***

- `re.fullmatch(pattern, string, flags=0)` sẽ kiểm tra xem **toàn bộ chuỗi (từ đầu đến hết)** có khớp chính xác với biểu thức chính quy hay không.  

- Nếu toàn chuỗi **khớp hoàn toàn**, trả về `match object`.  

- Nếu chỉ **một phần** chuỗi khớp, hoặc **không khớp**, trả về `None`.

🔸 Lưu ý: Trả về `None` nếu biểu thức không bao phủ **toàn bộ chuỗi** — đây là điểm khác với `re.match()` và `re.search()`.

##### ***Cú pháp***

```python
re.fullmatch(pattern, string, flags=0)


In [13]:
import re

# Kiểm tra xem chuỗi có phải là đúng 10 chữ số không
text = "0123456789"

match = re.fullmatch(r"\d{10}", text)

if match:
    print("Chuỗi hợp lệ:", match.group())  # 0123456789
else:
    print("Chuỗi không khớp hoàn toàn.")
  
#  Không khớp nếu chỉ khớp một phần  
text = "SĐT: 0123456789"

match = re.fullmatch(r"\d{10}", text)
print(match)  # None, vì chuỗi không hoàn toàn là 10 chữ số



Chuỗi hợp lệ: 0123456789
None


#### **2.5. Phương thức `re.split()`**

Phương thức `re.split()` được dùng để **tách chuỗi** dựa trên **mẫu biểu thức chính quy**. Tương tự như `str.split()`, nhưng mạnh mẽ hơn vì có thể tách theo mẫu phức tạp như ký tự đặc biệt, số, chuỗi con, v.v.

##### ***Chi tiết***
- Tách chuỗi `string` tại **các vị trí khớp với `pattern`**, và trả về một danh sách các chuỗi con.

- Nếu `pattern` có **dấu ngoặc (capturing group)**, **các phần khớp trong ngoặc cũng sẽ xuất hiện trong danh sách kết quả**.

- Nếu `maxsplit` > 0, giới hạn số lần tách chuỗi.

- Nếu phần phân tách nằm ở đầu hoặc cuối chuỗi, kết quả sẽ chứa chuỗi rỗng `''` ở đầu/cuối.

- Ví dụ, Mặc dù <code>re.split('x*', 'axbc')</code> `x*` có thể khớp cả với chuỗi rỗng, `re.split()` hiện tại không tách theo các khớp rỗng. Điều này có thể thay đổi trong các phiên bản Python tương lai.

##### ***Cú pháp***

```python
re.split(pattern, string, maxsplit=0, flags=0)

In [15]:
# Ví dụ cơ bản:
import re

text = "Words, words, words."

result = re.split(r'\W+', text)             # Tách chuỗi tại ký tự không phải chữ và số
print(result)                               # ['Words', 'words', 'words', '']

# Với nhóm ngoặc (capturing group):
result = re.split(r'(\W+)', text)
print(result)                               # ['Words', ', ', 'words', ', ', 'words', '.', '']

# Dùng flag IGNORECASE
re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)            # ['0', '3', '9']

# Tách ở đầu/cuối chuỗi => phần rỗng
re.split(r'(\W+)', '...words, words...')                    # ['', '...', 'words', ', ', 'words', '...', '']

# Không tách theo mẫu rỗng
re.split('x*', 'axbc')                                      # ['a', 'bc']

# Lỗi nếu pattern chỉ khớp chuỗi rỗng
re.split("^$", "foo\n\nbar\n", flags=re.M)                  # ValueError: split() requires a non-empty pattern match.



['Words', 'words', 'words', '']
['Words', ', ', 'words', ', ', 'words', '.', '']


['foo\n', '\nbar\n', '']

#### **2.6. Phương thức `re.findall()`**

Phương thức `re.findall()` trong Python dùng để **tìm tất cả các khớp không trùng lặp** của biểu thức chính quy trong chuỗi và trả về **danh sách các chuỗi hoặc tuple**.

##### ***Chi tiết***
- Phương thức này sẽ quét qua chuỗi từ trái sang phải và trả về danh sách tất cả các khớp của mẫu biểu thức chính quy trong chuỗi.

- Kết quả có thể là một **danh sách các chuỗi** (nếu không có nhóm bắt buộc nào trong biểu thức) hoặc một **danh sách các tuple** nếu biểu thức chứa nhiều nhóm bắt buộc.

- **Các nhóm không bắt buộc** không ảnh hưởng đến kết quả trả về. Chúng chỉ có tác dụng trong việc nhóm các phần tử nhưng không xuất hiện trong kết quả.

- Từ Python 3.7, các **khớp rỗng** cũng sẽ được bao gồm trong kết quả.

##### ***Cú pháp***

```python
re.findall(pattern, string, flags=0)


In [23]:
# Ví dụ cơ bản:
import re

text = "which foot or hand fell fastest"

result = re.findall(r'\bf[a-z]*', text)     # Tìm tất cả các từ bắt đầu bằng 'f'
print(result)                               # ['foot', 'fell', 'fastest']

# Ví dụ với nhóm bắt buộc (capturing groups)
text = "set width=20 and height=10 and width=20, depth=5"

result = re.findall(r'(\w+)=(\d+)', text)   # Tìm cặp key=value
print(result)                               # [('width', '20'), ('height', '10')]

# Lưu ý về các nhóm không bắt buộc
# Kết quả không thay đổi nếu sử dụng các nhóm không bắt buộc (non-capturing groups). 
# Chúng chỉ có tác dụng trong việc nhóm các phần tử nhưng không xuất hiện trong kết quả.
text = "width=20, height=10, depth= , "

result = re.findall(r'(?:\w+)=(\d+)', text)         # Sử dụng nhóm không bắt buộc
print(result)                                       # ['20', '10']



['foot', 'fell', 'fastest']
[('width', '20'), ('height', '10'), ('width', '20'), ('depth', '5')]
['20', '10']


#### **2.7. Phương thức `re.finditer()`**

Phương thức `re.finditer()` trong Python trả về **một iterator** cho các đối tượng **Match** của tất cả các khớp không trùng lặp của biểu thức chính quy trong chuỗi.

##### ***Chi tiết***
- Phương thức này quét chuỗi từ trái sang phải và trả về **iterator** (đối tượng có thể lặp qua) chứa các đối tượng **Match** cho mỗi khớp. 

- Mỗi đối tượng **Match** cung cấp thông tin chi tiết về phần khớp trong chuỗi, bao gồm vị trí bắt đầu, kết thúc, và chuỗi con khớp.

- **Khớp rỗng** cũng được bao gồm trong kết quả.

- Mỗi đối tượng Match có thể truy cập thông qua phương thức `group()` để lấy phần khớp.

##### ***Cú pháp***

```python
re.finditer(pattern, string, flags=0)


In [24]:
import re

text = "which foot or hand fell fastest"

# Tìm tất cả các từ bắt đầu bằng 'f'
matches = re.finditer(r'\bf[a-z]*', text)

# Lặp qua iterator và in ra thông tin về các khớp
for match in matches:
    print(f"Khớp: {match.group()}, Vị trí: {match.start()} - {match.end()}")


Khớp: foot, Vị trí: 6 - 10
Khớp: fell, Vị trí: 19 - 23
Khớp: fastest, Vị trí: 24 - 31


#### **2.8. Phương thức `re.sub()`**

Phương thức `re.sub()` trong Python được sử dụng để **thay thế các phần tử khớp với biểu thức chính quy** trong chuỗi bằng một chuỗi thay thế (`repl`). 

---

##### ***Chi tiết***
- Phương thức này thay thế các **khớp không trùng lặp đầu tiên** của mẫu trong chuỗi bằng một chuỗi thay thế.

- Nếu mẫu không được tìm thấy trong chuỗi, chuỗi ban đầu sẽ được trả về mà không thay đổi.

- Tham số `repl` có thể là một **chuỗi thay thế** hoặc một **hàm**. Nếu là chuỗi, các ký tự escape như `\n`, `\r` sẽ được xử lý. 

  - Ví dụ: `\n` sẽ được thay bằng ký tự xuống dòng.
  
  - Các **backreference** như `\6` sẽ được thay bằng chuỗi con khớp với nhóm 6 trong biểu thức chính quy.

- Phương thức re.sub() sẽ không thay thế các khớp rỗng khi chúng liền kề với nhau, ví dụ: `re.sub('x*', '-', 'abxd')  # '-a-b--d-'`
  
---

##### ***Cú pháp***

```python
re.sub(pattern, repl, string, count=0, flags=0)
```
- **pattern**: Biểu thức chính quy cần tìm kiếm và thay thế. 

- **repl**: Chuỗi thay thế hoặc một hàm để xử lý các khớp.

- **string**: Chuỗi đầu vào để thay thế các khớp.

- **count**: Số lần thay thế tối đa (mặc định là 0, tức thay thế tất cả các khớp).

- **flags**: Các giá trị tùy chọn như `re.IGNORECASE`, `re.MULTILINE`, v.v



In [35]:
#  Ví dụ cơ bản với chuỗi thay thế

import re

result = re.sub(r'myfunc', 'myfunction', 'def myfunc(): in my hello myfunc()')           # Thay thế 'myfunc' thành 'myfunction'
print(result)                                                       # 'def myfunction():'

# Ví dụ với backreference
# Thay thế các nhóm bắt buộc trong biểu thức chính quy
# \1 là tham chiếu đến nhóm con đầu tiên trong biểu thức chính quy (tên hàm). Ví dụ, nếu hàm là myfunc, \1 sẽ trở thành myfunc, do đó kết quả là py_myfunc.
result = re.sub(r'def\s+([a-zA-Z_][a-zA-Z_0-9]*)\s*\(\s*\):', 
                r'static PyObject*\npy_\1(void)\n{', 
                'hi chuyen def myfunc1(): def myfunc2():')         
         
print(result)                                   # 'static PyObject*\npy_myfunc(void)\n{'

def dashrepl(matchobj):
    if matchobj.group(0) == '-': 
        return ' '  # Thay thế dấu '-' bằng khoảng trắng
    else: 
        return '-'  # Thay thế khoảng trắng bằng dấu '-'

#  Ví dụ với hàm thay thế (repl là hàm)
result = re.sub('-{1,2}', dashrepl, 'pro----gram-files')    # Thay thế dấu '-' liên tiếp bằng dấu '- ' hoặc khoảng trắng
print(result)                                               # 'pro--gram files'

# Ví dụ sử dụng count
result = re.sub(r'\sAND\s', ' & ', 'Baked Beans And Spam', flags=re.IGNORECASE)
print(result)  # 'Baked Beans & Spam'

# Lưu ý về các khớp rỗng
re.sub('x*', '-', 'abxd')  # '-a-b--d-'


def myfunction(): in my hello myfunction()
hi chuyen static PyObject*
py_myfunc1(void)
{ static PyObject*
py_myfunc2(void)
{
pro--gram files
Baked Beans & Spam


'-a-b--d-'

#### **2.9. Phương thức `re.subn()`**

Phương thức `re.subn()` trong Python thực hiện **thay thế các khớp của biểu thức chính quy** trong chuỗi giống như `re.sub()`, nhưng thay vì chỉ trả về chuỗi kết quả, phương thức này trả về **một tuple** gồm chuỗi đã thay thế và **số lượng lần thay thế** đã thực hiện.

---

##### ***Chi tiết***
- Phương thức này thực hiện thay thế tất cả các khớp không trùng lặp của mẫu trong chuỗi.
- Kết quả trả về là một **tuple** chứa hai phần:
  - **Chuỗi kết quả** sau khi thay thế.
  - **Số lần thay thế** đã thực hiện.
- Tham số `count` có thể được sử dụng để giới hạn số lần thay thế (mặc định là 0, tức thay thế tất cả các khớp).

---

##### ***Cú pháp***

```python
re.subn(pattern, repl, string, count=0, flags=0)


In [60]:
import re

# Thay thế 'myfunc' thành 'myfunction' và trả về tuple (chuỗi kết quả, số lần thay thế)
result = re.subn(r'myfunc', 'myfunction', 'def myfunc(): myfunc1(): myfunc2():')
print(result)  # ('def myfunction():', 1)

('def myfunction(): myfunction1(): myfunction2():', 3)


#### **2.10. Phương thức `re.escape()`**

Phương thức `re.escape()` trong Python giúp **thoát các ký tự đặc biệt** trong biểu thức chính quy. Điều này rất hữu ích khi bạn muốn khớp một chuỗi văn bản tự do có thể chứa các ký tự đặc biệt trong biểu thức chính quy, như dấu chấm (.), dấu sao (*), dấu cộng (+), v.v.

##### ***Chi tiết***
- Phương thức này **thoát các ký tự đặc biệt** trong một chuỗi, giúp chuỗi trở thành một mẫu văn bản có thể tìm kiếm chính xác mà không cần lo lắng về các ký tự đặc biệt của biểu thức chính quy. 

- Đây là một công cụ hữu ích khi bạn muốn khớp một chuỗi chính xác mà không phải lo ngại về các ký tự đặc biệt trong đó.

##### ***Cú pháp***

```python
re.escape(pattern)


In [41]:
# Ví dụ cơ bản:
import re

escaped_url = re.escape('https://www.python.org')       # Thoát các ký tự đặc biệt trong URL
print(escaped_url)                                      # https://www\.python\.org

# Ví dụ với các ký tự đặc biệt
operators = ['+', '-', '*', '/', '**']
escaped_operators = '|'.join(map(re.escape, sorted(operators, reverse=True)))
print(escaped_operators)  # /\-|\+|\*\*|\*

import string

legal_chars = string.ascii_lowercase + string.digits + "!#$%&'*+-.^_`|~:"
escaped_chars = re.escape(legal_chars)
print('[%s]+' % escaped_chars)  # [abcdefghijklmnopqrstuvwxyz0123456789!\#\$%\&'\*\+\-\.\^_`\|\~:]+

https://www\.python\.org
/|\-|\+|\*\*|\*
[abcdefghijklmnopqrstuvwxyz0123456789!\#\$%\&'\*\+\-\.\^_`\|\~:]+


#### **2.11. Phương thức `re.purge()`**

Phương thức `re.purge()` trong Python được sử dụng để **xóa bộ nhớ cache của biểu thức chính quy**. Python sử dụng bộ nhớ cache để tối ưu hóa hiệu suất khi sử dụng các biểu thức chính quy. Tuy nhiên, nếu bạn muốn giải phóng bộ nhớ cache, phương thức này sẽ giúp làm điều đó.

##### ***Chi tiết***
- Phương thức này giúp xóa **bộ nhớ cache của các biểu thức chính quy** đã biên dịch trước đó, giúp tiết kiệm bộ nhớ khi không cần thiết.
- Bộ nhớ cache này thường được Python sử dụng để tăng tốc độ các lần tìm kiếm biểu thức chính quy sau khi đã biên dịch một lần.

##### ***Cú pháp***

```python
re.purge()


In [40]:
import re

# Biên dịch một biểu thức chính quy
pattern = re.compile(r'\d+')

# Kiểm tra bộ nhớ cache trước khi gọi purge
print(re._cache)  # Sẽ in ra bộ nhớ cache của các biểu thức chính quy

# Xóa bộ nhớ cache
re.purge()

# Kiểm tra bộ nhớ cache sau khi gọi purge
print(re._cache)  # Sẽ không còn bộ nhớ cache sau khi purge


{}


### **3. FLAGS**

Các flag trong biểu thức chính quy (regex) của Python giúp **tùy chỉnh hành vi tìm kiếm** của các biểu thức chính quy. Bạn có thể sử dụng các flag này khi biên dịch một biểu thức chính quy hoặc khi gọi các phương thức như `re.match()`, `re.search()`, `re.findall()`, và `re.sub()`.

##### ***Chi tiết***
Các flag giúp thay đổi cách thức biểu thức chính quy hoạt động, bao gồm các tùy chỉnh như tìm kiếm không phân biệt chữ hoa chữ thường, phù hợp với nhiều dòng, khớp với ký tự đặc biệt trong chuỗi, v.v. Bạn có thể kết hợp các flag với nhau thông qua toán tử bitwise OR (`|`).

#### **3.1. `re.IGNORECASE` hoặc `re.I`**  
   Flag này giúp **tìm kiếm không phân biệt chữ hoa chữ thường** trong chuỗi.


In [None]:
import re

pattern = r'hello'
text = 'HELLO World'

# Không phân biệt chữ hoa chữ thường
match = re.search(pattern, text, re.IGNORECASE)
print(match.group())  # Kết quả: 'HELLO'

#### **3.2. `re.MULTILINE` hoặc `re.M`**  
   Flag này thay đổi cách thức tìm kiếm, cho phép khớp với ký tự bắt đầu (`^`) và kết thúc (`$`) ở mỗi dòng trong một chuỗi nhiều dòng.

In [42]:
import re

text = '''Hello World
This is Python
Hello again'''

pattern = r'^Hello'
# Tìm kiếm 'Hello' ở đầu mỗi dòng
matches = re.findall(pattern, text, re.MULTILINE)
print(matches)  # Kết quả: ['Hello', 'Hello']

['Hello', 'Hello']


#### **3.3. `re.DOTALL` hoặc `re.S`**  
   Mặc định, dấu chấm (`.`) không khớp với ký tự xuống dòng (`\\n`). Flag này cho phép **dấu chấm khớp với mọi ký tự, bao gồm cả xuống dòng.**

In [None]:
import re

text = '''Hello
World'''

pattern = r'Hello.*World'

# Không sử dụng re.DOTALL, không khớp vì \\n không được .* khớp
match = re.search(pattern, text)
print(match)  # Kết quả: None

# Sử dụng re.DOTALL để khớp dấu xuống dòng
match = re.search(pattern, text, re.DOTALL)
print(match.group())  # Kết quả: 'Hello\\nWorld'

#### **3.4. `re.VERBOSE` hoặc `re.X`**  
   Cho phép **viết biểu thức chính quy có định dạng dễ đọc hơn**, với khoảng trắng và chú thích (bắt đầu bằng `#`)

In [None]:
import re

pattern = r"""
\\b          # Bắt đầu một từ
[a-zA-Z]+   # Một hoặc nhiều chữ cái
\\b          # Kết thúc một từ
"""

text = 'This is Python'
match = re.search(pattern, text, re.VERBOSE)
print(match.group())  # Kết quả: 'This'

#### **3.5. `re.ASCII` hoặc `re.A`**  
   Giới hạn các biểu thức chính quy **chỉ khớp với ký tự ASCII**, thay vì mở rộng ra các ký tự Unicode.

In [43]:
import re

pattern = r'\\w'  # Khớp với chữ cái, chữ số và dấu gạch dưới
text = 'abcé'

match = re.findall(pattern, text, re.ASCII)
print(match)  # Kết quả: ['a', 'b', 'c']

[]


#### **3.6. `re.LOCALE` hoặc `re.L`** 
   Thay đổi cách phân loại ký tự theo thiết lập ngôn ngữ của hệ thống (locale). Tuy nhiên, flag này không được khuyến nghị sử dụng trong môi trường đa nền tảng hoặc có Unicode.

### **4. META CHARACTERS**
|Meta character|Description|
|:----:|----|
|`.`|Khớp với tất cả các kí tự trừ dấu xuống dòng.|
|`[ ]`|Lớp kí tự. Khớp với bất kỳ ký tự nào nằm giữa dấu ngoặc vuông.|
|`[^ ]`|Lớp kí tự phủ định. Khớp với bất kỳ ký tự nào không có trong dấu ngoặc vuông.|
|`*`|Khớp 0 hoặc nhiều lần lặp lại của kí tự trước.|
|`+`|Khớp 1 hoặc nhiều lần lặp lại của kí tự trước.|
|`?`|Làm cho kí tự trước tùy chọn.|
|`{n,m}`|Braces. Khớp ít nhất là "n" nhưng không nhiều hơn "m" lặp lại của kí tự trước.|
|`(xyz)`|Nhóm kí tự. Khớp các ký tự xyz theo thứ tự chính xác đó.|
|`&#124;`|Thay thế. Khớp các ký tự trước hoặc ký tự sau ký hiệu.|
|`&#92;`|Thoát khỏi kí tự tiếp theo. Điều này cho phép khớp các ký tự dành riêng <code>[ ] ( ) { } . * + ? ^ $ \ &#124;</code>|
|`^`|Khớp với sự bắt đầu của đầu vào.|
|`$`|Khớp với kết thúc đầu vào.|
| `{n}`         | Lặp lại đúng `n` lần. |
| `()`          | Nhóm (capturing group). |
| `(?:...)`     | Nhóm không lưu (non-capturing group). |
| `(?P<name>...)` | Nhóm có tên (named capturing group). |


#### **4.1. Assertion: `^`, `$`**

- `^abc`: Khớp với chuỗi bắt đầu bằng "abc".

- `abc$`: Khớp với chuỗi kết thúc bằng "abc".

In [44]:
import re
re.match(r"^Hi", "Hi there!")  
re.search(r"world$", "hello world")  

<re.Match object; span=(6, 11), match='world'>

#### **4.2. Word Boundary: `\b`**

- `\bword\b`: Khớp chính xác từ "word", không nằm trong từ dài hơn.

In [47]:
print(re.search(r"\bcat\b", "the cat"))
print(re.search(r"\bcat\b", "concatenate"))

<re.Match object; span=(4, 7), match='cat'>
None


#### **4.3. Character Class: `\d`, `\w`, `\s`, `.`**

- `\d`: Chữ số (0-9).

- `\w`: Ký tự từ (a-z, A-Z, 0-9, _)

- `\s`: Ký tự khoảng trắng

- `.`: Mọi ký tự trừ xuống dòng

In [49]:
print(re.findall(r"\d+", "abc123xyz"))      # ['123']
print(re.findall(r"\w+", "Hi_123!"))        # ['Hi_123']

['123']
['Hi_123']


#### **4.4. Sets và Ranges: `[ ]`, `[a-c]`, `[^...]`**

- `[abc]`: Khớp với '`a`', '`b`' hoặc '`c`'.

- `[a-z]`: Khớp với bất kỳ chữ cái thường nào.

- `[^0-9]`: Khớp với bất kỳ ký tự nào không phải số.

In [50]:
print(re.findall(r"[aeiou]", "hello"))  # ['e', 'o']
print(re.findall(r"[^aeiou]", "hello")) # ['h', 'l', 'l']

['e', 'o']
['h', 'l', 'l']


#### **4.5. Quantifiers: `*`, `+`, `?`, `{n}`**

- `x*`: 0 hoặc nhiều lần

- `x+`: 1 hoặc nhiều lần

- `x?`: 0 hoặc 1 lần

- `x{3}`: Chính xác 3 lần

In [52]:
print(re.fullmatch(r"a*", ""))     # ✅
print(re.fullmatch(r"a+", "aaa"))  # ✅
print(re.fullmatch(r"a{2}", "aa")) # ✅

<re.Match object; span=(0, 0), match=''>
<re.Match object; span=(0, 3), match='aaa'>
<re.Match object; span=(0, 2), match='aa'>


#### **4.6. Greedy và Lazy Quantifiers**

- `x+`, `x*`: Greedy (tham lam)

- `x+?`, `x*?`: Lazy (tiết kiệm)

In [53]:
text = "<tag>abc</tag><tag>def</tag>"
print(re.findall(r"<tag>.*</tag>", text))    # ['<tag>abc</tag><tag>def</tag>']
print(re.findall(r"<tag>.*?</tag>", text))   # ['<tag>abc</tag>', '<tag>def</tag>']

['<tag>abc</tag><tag>def</tag>']
['<tag>abc</tag>', '<tag>def</tag>']


#### **4.7. Capturing Groups và Named Groups**

- `(x)`: Nhóm có lưu (capturing group)

- `(?:x)`: Nhóm không lưu (non-capturing)

- `(?P<name>x)` hoặc `(?<name>x)`: Nhóm có tên

In [54]:
m = re.match(r"(\d+)-(\d+)", "123-456")
print(m.group(1))  # '123'
print(m.group(2))  # '456'

m = re.match(r"(?P<area>\d+)-(?P<number>\d+)", "123-456")
print(m.group("area"))   # '123'
print(m.group("number")) # '456'


123
456
123
456


#### **4.8. Nhóm Lookaround trong Regex Python**

Các nhóm *lookaround* trong regex là các biểu thức cho phép kiểm tra phần văn bản đứng trước hoặc sau một chuỗi cụ thể mà **không tiêu thụ ký tự** trong quá trình so khớp.

| Nhóm Lookaround         | Cú pháp         | Mô tả                                                  |
|-------------------------|-----------------|--------------------------------------------------------|
| Positive Lookahead      | `(?=...)`       | Khớp nếu phía sau khớp với biểu thức `...`.            |
| Negative Lookahead      | `(?!...)`       | Khớp nếu phía sau **không** khớp với biểu thức `...`.  |
| Positive Lookbehind     | `(?<=...)`      | Khớp nếu phía trước khớp với biểu thức `...`.          |
| Negative Lookbehind     | `(?<!...)`      | Khớp nếu phía trước **không** khớp với biểu thức `...`.|



##### **4.8.1. Positive Lookahead `(?=...)`**

In [56]:
import re

text = "apple pie and apple tart"
matches = re.findall(r"apple(?=\s+tart)", text)
print(matches)  # ['apple']

['apple']


##### **4.8.2. Negative Lookahead `(?!...)`**

In [63]:
text = "apple pie akd tart and apple tart apple hel"
matches = re.findall(r"apple(?!\s+tart)", text)
print(matches)  # ['apple']

['apple', 'apple']


##### **4.8.3. Positive Lookbehind `(?<=...)`**

In [57]:
text = "pie apple and tart apple"
matches = re.findall(r"(?<=pie\s)apple", text)
print(matches)  # ['apple']

['apple']


##### **4.8.4. Negative Lookbehind `(?<!...)`**

In [59]:
# Negative Lookbehind: Tìm số không theo sau dấu $
re.findall(r'(?<!\$)\d+', "100 and $200")   # Output: ['100']

['100', '00']

#### **4.9. Tổng kết, tóm tắt**

##### **1. Ký tự khớp cơ bản**

| Ký tự đặc biệt | Ý nghĩa                                     | Ghi chú      |
|------|--------------------------------------------------------------|-----------------------------------------------------|
| `.`  | Khớp bất kỳ ký tự nào (trừ `\n` nếu không dùng `re.DOTALL`). | Có thể mở rộng với `re.DOTALL` để khớp cả ký tự xuống dòng.|
| `^`  | Khớp đầu chuỗi (hoặc đầu dòng nếu dùng `MULTILINE`).         |                                                     |
| `$`  | Khớp cuối chuỗi (hoặc cuối dòng nếu dùng `MULTILINE`).       |                                                     |
| `\`  | Thoát ký tự đặc biệt hoặc biểu thức đặc biệt như `\d`, `\w`, `\s`...| Nên dùng raw string (`r"pattern"`) để tránh lỗi escape. |

##### **2. Toán tử lặp (Quantifiers)**

| Ký tự đặc biệt | Ý nghĩa                             | Ghi chú                       |
|--------|-------------------------------------------|------------------------------------------------------|
| `*`    | Khớp 0 hoặc nhiều lần.                    | `ab*` khớp `'a'`, `'ab'`, `'abb'`...                 |
| `+`    | Khớp 1 hoặc nhiều lần.                    | `ab+` yêu cầu ít nhất một `'b'`.                     |
| `?`    | Khớp 0 hoặc 1 lần.                        | `ab?` khớp `'a'` hoặc `'ab'`.                        |
| `{m}`  | Khớp chính xác `m` lần.                   |                                                      |
| `{m,n}`| Khớp từ `m` đến `n` lần (tham lam).       | `{4,}` nghĩa là từ 4 trở lên. `{,5}` không hợp lệ.   |

***2.1. Phiên bản không tham lam (Non-Greedy)***

| Ký tự đặc biệt | Ý nghĩa                                   | Ghi chú           |
|----------|-------------------------------------------------|-------------------|
| `*?`     | Phiên bản không tham lam của `*`.               |                   |
| `+?`     | Phiên bản không tham lam của `+`.               |                   |
| `??`     | Phiên bản không tham lam của `?`.               |                   |
| `{m,n}?` | Phiên bản không tham lam của `{m,n}`.           |                   |

***2.2. Phiên bản chiếm hữu (Possessive – Python 3.11+)***

| Ký tự đặc biệt | Ý nghĩa                                         | Ghi chú                              |
|----------------|-------------------------------------------------|--------------------------------------|
| `*+`           | Phiên bản chiếm hữu của `*`.                    | Không backtrack nếu không khớp sau.  |
| `++`           | Phiên bản chiếm hữu của `+`.                    |                                      |
| `?+`           | Phiên bản chiếm hữu của `?`.                    |                                      |
| `{m,n}+`       | Phiên bản chiếm hữu của `{m,n}`.                |                                      |

#### **3. Nhóm và phân nhánh**

| Ký tự đặc biệt | Ý nghĩa                                               | Ghi chú                                     |
|----------------|--------------------------------------------------------|--------------------------------------------|
| `( ... )`      | Nhóm có thứ tự. Có thể dùng để truy cập nội dung khớp. |                                            |
| `(?: ... )`    | Nhóm không ghi nhớ (non-capturing).                    | Không thể dùng để truy xuất nội dung khớp. |
| `(?P<name>...)`| Nhóm có tên. Có thể truy cập bằng `m.group('name')`.   |                                            |
| `(?P=name)`    | Tham chiếu ngược đến nhóm có tên.                      |                                            |
| `\|`            | Toán tử "hoặc". Chọn nhánh đầu tiên khớp.              | `abc|def` khớp `'abc'` hoặc `'def'`.       |

#### **4. Nhóm điều kiện và chú thích**

| Ký tự đặc biệt         | Ý nghĩa                                           | Ghi chú                    |
|------------------------|---------------------------------------------------|----------------------------|
| `(?#...)`              | Ghi chú, không ảnh hưởng biểu thức chính.         | Ví dụ: `(?#chú thích)`     |
| `(?(id/name)yes\|no)`   | Điều kiện: nếu nhóm `id` hoặc `name` có tồn tại thì dùng nhánh `yes`, ngược lại `no`.|     |

#### **5. Nhóm lookaround**

| Ký tự đặc biệt | Ý nghĩa                                            | Ghi chú                          |
|----------------|----------------------------------------------------|----------------------------------|
| `(?=...)`      | Lookahead dương — kiểm tra phía sau có khớp không. | Không tiêu thụ chuỗi.            |
| `(?!...)`      | Lookahead âm — kiểm tra phía sau KHÔNG khớp.       |                                  |
| `(?<=...)`     | Lookbehind dương — kiểm tra phía trước có khớp.    | Biểu thức phải có độ dài cố định.|
| `(?<!...)`     | Lookbehind âm — kiểm tra phía trước KHÔNG khớp.    |                                  |

#### **6. Cờ (Flags)**

| Ký tự đặc biệt        | Ý nghĩa                            | Ghi chú                                                 |
|-----------------------|------------------------------------|---------------------------------------------------------|
| `(?aiLmsux)`          | Bật cờ toàn cục cho biểu thức.     | Ví dụ: `(?i)` để không phân biệt hoa thường.            |
| `(?aiLmsux-imsx:...)` | Bật/tắt cờ cục bộ trong nhóm.      | Ví dụ: `(?i:abc)` khớp `abc` không phân biệt hoa thường.|

#### **7. Nhóm nguyên tử (Atomic Group – Python 3.11+)**

| Ký tự đặc biệt | Ý nghĩa                                                | Ghi chú                                        |
|----------------|--------------------------------------------------------|------------------------------------------------|
| `(?>...)`      | Nhóm nguyên tử — khớp xong là khóa, không cho quay lui.| Hữu ích để tăng tốc hoặc ngăn backtracking sai.|

#### **8. Các ký tự khớp theo tập**

| Ký tự đặc biệt | Ý nghĩa                                          | Ghi chú                                      |
|----------------|--------------------------------------------------|----------------------------------------------|
| `[...]`        | Khớp một ký tự thuộc danh sách/khoảng.           | Ví dụ: `[a-zA-Z0-9]` khớp chữ và số.         |
| `[^...]`       | Khớp ký tự KHÔNG thuộc danh sách.                | Ví dụ: `[^0-9]` khớp mọi ký tự không phải số.|