# R01 Tìm kiếm cơ bản

## Mục đích

Giới thiệu các thành phần cơ bản của một chuỗi tìm kiếm RegEx. Làm quen với thư viện `re` trong Python.


## Bài toán

Nếu phải tìm tất cả các tên biến bắt đầu với `"tc_"` thì các chức năng tìm kiếm chuỗi kí tự cơ bản của Python thỏa mãn được yêu cầu của bạn. Nhưng nếu yêu cầu tìm kiếm phức tạp hơn, chẳng hạn: tất cả những ngày tháng năm mà năm chỉ có hai chữ số và phân cách với nhau bằng dấu `'/'` hoặc `'-'`, thì bạn sẽ cần đến Regular Expression, hay còn gọi tắt là RegEx. Chúng ta hãy xem ví dụ nêu trên nhé.

In [1]:
import re

pat = r"[0-9]{1,2}[/-][0-9]{1,2}[/-][0-9]{2}$"

dates = [
    "1/9/2012",
    "01/09/12",
    "01-09/2012",
    "01-09-12",
    "1/09-12"
]

for s in dates:
    print(f"{s:12}: {re.search(pat, s) is not None}")

1/9/2012    : False
01/09/12    : True
01-09/2012  : False
01-09-12    : True
1/09-12     : True


## Quy định về kí tự

Tất cả các chuỗi tìm kiếm của RegEx đều là một cách "mã hóa" nội dung tìm kiếm. Bạn có thể xem cách mã hóa đầy đủ trong Python [ở đây](https://docs.python.org/3/library/re.html).

Đầu tiên bạn cần làm quen với cách mã hóa kí tự muốn tìm. Bạn có thể gõ thẳng chuỗi kí tự muốn tìm vào trong chuỗi tìm kiếm của RegEx.

In [2]:
pat = r"tc_"
strings = ["tc_daunguc", "t0_tc_daunguc", "daunguc_tc"]

for s in strings:
    print(f"{s:15}: {re.search(pat, s) is not None}")

tc_daunguc     : True
t0_tc_daunguc  : True
daunguc_tc     : False


Giả sử bạn có 20 triệu chứng được đánh số từ 1 đến 20 (`"tc1_"` đến `"tc20_"`) và bạn muốn lọc ra các triệu chứng từ 1 đến 9, chuỗi tìm kiếm của bạn sẽ trông như sau.

In [3]:
pat = r"tc[1-9]_"

s_tc = ";".join([f"tc{i}_" for i in range(1, 21)])
print(s_tc)

print(re.findall(pat, s_tc))

tc1_;tc2_;tc3_;tc4_;tc5_;tc6_;tc7_;tc8_;tc9_;tc10_;tc11_;tc12_;tc13_;tc14_;tc15_;tc16_;tc17_;tc18_;tc19_;tc20_
['tc1_', 'tc2_', 'tc3_', 'tc4_', 'tc5_', 'tc6_', 'tc7_', 'tc8_', 'tc9_']


Ở đây, chúng ta dùng kí hiệu tập `[]` để thông báo cho RegEx biết rằng chỉ cần khớp (match) với một trong các kí tự trong tập. Các kí tự có thể là:

Kí hiệu       | Ý nghĩa
--------------|---------------------------------------------------
`0` đến `9`   | Kí tự số
`a` đến `z`   | Chữ cái in thường
`A` đến `Z`   | Chữ cái in hoa
`-`           | Ngăn cách giữa hai kí tự để chỉ "từ đâu đến đâu"

Ngoài ra chúng ta còn có một số kí hiệu như sau:

Kí hiệu       | Ý nghĩa
--------------|---------------------------------------------------
`\b`          | Các kí tự phân cách từ
`\d`          | Chữ số (tương đương với `[0-9]`)
`\D`          | Không phải chữ số
`\s`          | Dấu cách
`\S`          | Không phải dấu cách
`\w`          | Tất cả các kí tự có thể ở trong từ (tương đương với `[a-zA-Z0-9_]`)
`^`           | Đầu chuỗi kí tự, hoặc đầu dòng nếu ở chế độ MULTILINE
`$`           | Cuối chuỗi kí tự, hoặc cuối dòng nếu ở chế độ MULTILINE
`.`           | Bất kì kí tự nào trừ kí tự chỉ dòng mới

### Ví dụ

#### Ví dụ 1

Chúng ta sẽ thử ví dụ đầu tiên với hàm `re.match()`. Hàm này sẽ khớp chuỗi RegEx từ đầu chuỗi kí tự, có nghĩa là ngay cả những chuỗi có thể khớp ở giữa cũng được báo là không tìm thấy. Trong ví dụ này, chúng ta sẽ tìm những mã số bắt đầu bằng 0 hoặc 2, hoặc là chữ cái in hoa.

In [4]:
pat = r"[02A-Z]"
strings = ["003g", "21K3", "A421", "bc93", "1H11", "f_07"]

for s in strings:
    print(f"{s:6}: {re.match(pat, s) is not None}")

003g  : True
21K3  : True
A421  : True
bc93  : False
1H11  : False
f_07  : False


#### Ví dụ 2

Trong ví dụ này, chúng ta sẽ dùng hàm `re.search()`. Hàm này sẽ khớp chuỗi RegEx ở bất kì vị trí nào trong chuỗi kí tự. Hãy thử tìm các chuỗi kí tự chứa một kí tự chữ cái, sau đó là một chữ số.

In [5]:
pat = r"[a-zA-Z][0-9]"

for s in strings:
    print(f"{s:6}: {re.search(pat, s) is not None}")

003g  : False
21K3  : True
A421  : True
bc93  : True
1H11  : True
f_07  : False


Hãy để ý chuỗi `"bc93"`, nó được match là vì chuỗi `"c9"` thỏa mãn điều kiện của chuỗi RegEx. Điều này sẽ không xảy ra với hàm `re.match()`.

In [6]:
s = "bc93"
print(f"{s:6}: {re.match(pat, s) is not None}")

bc93  : False


#### Ví dụ 3

Quay trở lại danh sách các triệu chứng. Chúng ta đã dùng hàm `re.findall()` để tìm tất cả chuỗi kí tự con match với chuỗi RegEx. Bây giờ, chúng ta sẽ thay đổi điều kiện tìm kiếm: tất cả những triệu chứng dưới 10 là số lẻ và những triệu chứng từ 10 trở lên là số chẵn. Để làm việc này, chúng ta sẽ cần dùng đến kí hiệu hoặc "`|`".

In [7]:
pat = r"tc[13579]_|tc[12][02468]_"
print(re.findall(pat, s_tc))

['tc1_', 'tc3_', 'tc5_', 'tc7_', 'tc9_', 'tc10_', 'tc12_', 'tc14_', 'tc16_', 'tc18_', 'tc20_']


#### Ví dụ 4

Trong các ví dụ trên, chúng ta đã match các kí tự trong tập. Ngoài ra chúng ta có thể match nếu không có các kí tự trong tập bằng `[^]`. Ví dụ sau đây sẽ không match các tên triệu chứng có chữ số từ 0 đến 5 sau `"tc"`.

In [8]:
pat = r"tc[^0-5]"
print(re.findall(pat, s_tc))

['tc6', 'tc7', 'tc8', 'tc9']


## Lặp

Với những điều kiện như ở trên, chúng ta sẽ chỉ khớp được 1 kí tự. Trong trường hợp muốn khớp nhiều hơn một kí tự, bạn hãy dùng các kí hiệu lặp.

Kí hiệu       | Ý nghĩa
--------------|---------------------------------------------------
`*`           | Có 0, 1, hoặc nhiều lần xuất hiện
`?`           | Có 0 hoặc 1 lần xuất hiện
`+`           | Có từ 1 lần xuất hiện trở lên
`{m}`         | Có chính xác `m` lần xuất hiện
`{m,}`        | Có từ `m` lần xuất hiện trở lên
`{m,n}`       | Có từ `m` đến `n` lần xuất hiện
`{m,n}?`      | Có từ `m` đến `n` lần xuất hiện, nhưng match ít nhất có thể

Hãy cùng trải nghiệm một vài ví dụ. Bạn thử tự làm trước nhé.

1. Match **toàn bộ** chuỗi kí tự là số điện thoại (có 10 chữ số) đầu 090, 091, 097, và 098.
2. Match chuỗi kí tự có chứa mã số theo cú pháp `X-YY-ZZZ` trong đó: `X` là `'A'` hoặc `'B'`; `YY` là mã số các điểm nghiên cứu từ `12` đến `19`; và `ZZZ` là các mã số tăng dần từ `000` đến `299`.
3. Các từ không bắt đầu với chữ in hoa.

In [9]:
# Ví dụ 1

pat = r"09[0178][0-9]{7}$"
strings = ["0981234567", "0951234567", "1981234567", "098123456a", "09812345678", " 0981234567"]

for s in strings:
    print(f"{s:15}: {re.match(pat, s) is not None}")

0981234567     : True
0951234567     : False
1981234567     : False
098123456a     : False
09812345678    : False
 0981234567    : False


In [10]:
# Ví dụ 2

pat = r"[AB]-1[2-9]-[012][0-9]{2}\b"
strings = ["A-15-001", "E-15-001", "AE-15-001", "A-05-001", "A-15-301", "MSNC: A-15-201", "A-15-2001", "A-15-200a"]

for s in strings:
    print(f"{s:15}: {re.search(pat, s) is not None}")

A-15-001       : True
E-15-001       : False
AE-15-001      : False
A-05-001       : False
A-15-301       : False
MSNC: A-15-201 : True
A-15-2001      : False
A-15-200a      : False


In [11]:
# Ví dụ 3

pat = r"\b[a-z0-9]\w*\b"
s = "Chào mừng bạn tới Python."
print(re.findall(pat, s))

['mừng', 'bạn', 'tới']


---

[Bài trước](../04_data/18_multiindex.ipynb) - [Danh sách bài](../README.md) - [Bài sau]()