In [143]:
import re

Thêm phần phân biệt giữa không có *+ và string bth sử dụng các match trả về

# raw vs standard `str`

**Escape characters**

In [144]:
# \n for new line
print('Hello\n')
# \t for tab
print('\tHello')

Hello

	Hello


In [160]:
# Escape the \n to actually show \n.
print('Hello\\n')

Hello\n


**Error escape characters**

In [145]:
text = "All files are located in C:\Users\John\Documents\file.txt and other directories."

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 27-28: truncated \UXXXXXXXX escape (2960096649.py, line 1)

**Escape special characters using another backslash**

In [None]:
# Escaping special characters using backslahses
text = "All files are located in C:\\Users\John\Documents\\file.txt and other directories."
text

'All files are located in C:\\Users\\John\\Documents\\file.txt and other directories.'

**Raw string came to help**

In [None]:
# Auto backslash.
text = r"All files are located in C:\Users\John\Documents\file.txt and other directories."
text

'All files are located in C:\\Users\\John\\Documents\\file.txt and other directories.'

# `re` library

*findall* trả về list tất cả string phù hợp

In [None]:
re.findall(r'\w*apple', 'Pineapple and apple')

['Pineapple', 'apple']

*match* trả về Match object nếu chuỗi bắt đầu bằng pattern

In [None]:
re.match(r'\w*apple', 'Apple and pineapple', flags=re.IGNORECASE)

<re.Match object; span=(0, 5), match='Apple'>

In [None]:
re.match(r'\w*apple', 'Pineaple and apple')

*finditer* trả về list các Match object phù hợp

In [None]:
list(re.finditer(r'\w*apple', 'Pineapple and apple', flags=re.IGNORECASE))

[<re.Match object; span=(0, 9), match='Pineapple'>,
 <re.Match object; span=(14, 19), match='apple'>]

*search* 
* trả về 1 Match object phù hợp nếu có bất kỳ vị trí nào trong chuỗi phù hợp
* trả về None nếu không có chuỗi phù hợp

In [None]:
result = re.search(r'apple', 'Pineapple and apple')
result.group()

'apple'

In [None]:
re.search(r'lemon', 'Pineapple and apple') == None

True

*sub* thay thế pattern bằng 1 string khác

In [206]:
re.sub(r'lemon', 'apple', 'Lemon is also called lemonade', flags=re.IGNORECASE)

'apple is also called appleade'

# Metacharacters

In [146]:
def run_test_case(test_cases, regex_pattern):
    for test_case in test_cases:
        print(
            f"Test case: {test_case:5} ===> Result: {re.findall(regex_pattern, test_case)}")

## Theo số lượng

In [147]:
# Dot: match tất cả trừ ký tự newline.
run_test_case(['a*b', 'a\nb'], r'a.b')

Test case: a*b   ===> Result: ['a*b']
Test case: a
b   ===> Result: []


In [148]:
# *: match 0 hoặc nhiều hơn các kí tự/nhóm trước đó
run_test_case(['abc', 'abbbc', 'ac'], r'ab*c')

Test case: abc   ===> Result: ['abc']
Test case: abbbc ===> Result: ['abbbc']
Test case: ac    ===> Result: ['ac']


In [149]:
# +: match 1 hoặc nhiều hơn các kí tự/nhóm trước đó
run_test_case(['abc', 'abbbc', 'ac'], r'ab+c')

Test case: abc   ===> Result: ['abc']
Test case: abbbc ===> Result: ['abbbc']
Test case: ac    ===> Result: []


In [150]:
# ?: match 0 hoặc 1 các kí tự/nhóm trước đó
run_test_case(['abc', 'abbc', 'abbbbc'], r'ab?c')

Test case: abc   ===> Result: ['abc']
Test case: abbc  ===> Result: []
Test case: abbbbc ===> Result: []


In [151]:
# {n}: match n lần các kí tự/nhóm trước đó
run_test_case(['abc', 'abbc', 'abbbbc'], r'ab{4}c')

Test case: abc   ===> Result: []
Test case: abbc  ===> Result: []
Test case: abbbbc ===> Result: ['abbbbc']


In [152]:
# {n,}: match >= n lần các kí tự/nhóm trước đó
run_test_case(['abc', 'abbc', 'abbbbc'], r'ab{2,}c')

Test case: abc   ===> Result: []
Test case: abbc  ===> Result: ['abbc']
Test case: abbbbc ===> Result: ['abbbbc']


In [153]:
# {n,m}: match từ n đếm m lần các kí tự/nhóm trước đó
run_test_case(['abc', 'abbc', 'abbbbc'], r'ab{3,4}c')

Test case: abc   ===> Result: []
Test case: abbc  ===> Result: []
Test case: abbbbc ===> Result: ['abbbbc']


## Theo vị trí

In [154]:
# ^: match vị trí bắt đầu của một chuỗi.
run_test_case(['abcde', 'deabc'], r'^abc')

Test case: abcde ===> Result: ['abc']
Test case: deabc ===> Result: []


In [155]:
# $: match vị trí kết thúc của một chuỗi.
# Ngược lại với ^
run_test_case(['abcde', 'deabc'], r'abc$')

Test case: abcde ===> Result: []
Test case: deabc ===> Result: ['abc']


## Theo loại kí tự

In [157]:
# \d: match tất cả số từ 0 đến 9
run_test_case(['012345', 'abc', 'abc0'], r'\d')

Test case: 012345 ===> Result: ['0', '1', '2', '3', '4', '5']
Test case: abc   ===> Result: []
Test case: abc0  ===> Result: ['0']


In [158]:
# \D: ngược lại với \d
run_test_case(['012345', 'abc', 'abc0'], r'\D')

Test case: 012345 ===> Result: []
Test case: abc   ===> Result: ['a', 'b', 'c']
Test case: abc0  ===> Result: ['a', 'b', 'c']


In [None]:
# \w: match tất cả các chữ số
run_test_case(['012345', 'abc', 'abc0'], r'\w')

In [172]:
# \b: match các dấu cách
run_test_case(['01a a ', 'abc', 'abc0'], r'\s')

Test case: 01a a  ===> Result: [' ', ' ']
Test case: abc   ===> Result: []
Test case: abc0  ===> Result: []


## Theo nhóm/logic

In [174]:
# |: điều kiện hoặc, match 1 trong những pattern
run_test_case(['abcde bcad', 'bcad', 'cabd'], r'abc|bca|cab')

Test case: abcde bcad ===> Result: ['abc', 'bca']
Test case: bcad  ===> Result: ['bca']
Test case: cabd  ===> Result: ['cab']


**Group** giúp access đến những phần cần lấy trong chuỗi kết quả

In [191]:
text = "Today's date is 2023-08-27. Tomorrow is 2023/08/28. But 2023-08/29 is wrong."

# \d{4}: match tất cả số chính xác 4 lần
# [-/]: match 2 ký tự - và /
# \d{2}: match tất cả số chính xác 2 lần
# \2: reference tới group thứ 2 ([-/])
pattern = r'(\d{4})([-/])(\d{2})\2(\d{2})'

matches = re.findall(pattern, text)
for match in matches:
    year, separator, month, day = match
    print(f"Year: {year}, Month: {month}, Day: {day}")

Year: 2023, Month: 08, Day: 27
Year: 2023, Month: 08, Day: 28


In [193]:
text = "Today's date is 2023-08-27. Tomorrow is 2023/08/28. But 2023-08/29 is wrong."
ungroup_pattern = r'\d{4}[-/]\d{2}[-/]\d{2}'
matches = re.findall(ungroup_pattern, text)

print(matches)

['2023-08-27', '2023/08/28', '2023-08/29']


> Câu hỏi: Từng phần của công thức có ý nghĩa gì?

In [200]:
email = 'quangphamm1902@gmail.com'
# [a-z]+
# \d+
# @
# gmail|yahoo
# .com|.vn
email_pattern = r'([a-z]+)(\d+)@(gmail|yahoo)(.com|.vn)'

re.findall(email_pattern, email)

[('quangphamm', '1902', 'gmail', '.com')]

# Exercises

1. Viết function để check nếu chuỗi có chứa từ "Python" (trả về True, False)

In [213]:
# Solution.
def contains_python(s):
    return bool(re.search(r'Python', s))

In [216]:
def contains_python(s):
    pass


assert contains_python('Python') == True

AssertionError: 

2. Viết function để tìm tất cả những từ bắt đầu bằng chữ in hoa và sau đó là những chữ viết thường

Ví dụ: `"Python PHP Javascript"` => `["Python", "Javascript"]`

In [None]:
# Solution.
def find_capitalize_words(s):
    return re.findall(r'\b[A-Z][a-z]*\b', s)

In [212]:
def find_capitalize_words(s):
    pass


assert find_capitalize_words('Python PHP Javascript') == [
    'Python', 'Javascript']

['Python', 'Javascript']

3. Tìm tất cả các lần xuất hiện của chuỗi số số điện thoại xxx-xxx-xxxx.

Ví dụ `"Số điện thoại của tôi là 555-666-7777 và của cô ta là 555-999-1111"` => `["555-666-7777", "555-999-1111"]`

In [220]:
# Solution.
def find_phone_number(s):
    return re.findall(r'\b\d{3}-\d{3}-\d{4}', s)

In [221]:
def find_phone_number(s):
    pass


assert find_phone_number(
    'Số điện thoại của tôi là 555-666-7777 và của cô ta là 555-999-1111') == ['555-666-7777', '555-999-1111']

AssertionError: 

4. Extract các phần của một địa chỉ: tên đường, phường, quận

Ví dụ `"18 Ngo Duc Ke, Phuong 12, Quan Binh Thanh"` => `["Ngo Duc Ke", "12", "Binh Thanh"]`

In [257]:
# Solution
def extract_address_unit(s):
    return re.findall(r'\d+\s([\w\s]+), Phường ([\w\s]+), Quận ([\w\s]+)', s)

True

In [None]:
def extract_address_unit(s):
    pass


assert extract_address_unit('Nhà tui ở 18 Ngô Đức Kế, Phường 12, Quận Bình Thạnh. Còn nhà ông ở 22 Võ Văn Tần, Phường 14, Quận 3') == [
    ('Ngô Đức Kế', '12', 'Bình Thạnh'), ('Võ Văn Tần', '14', '3')]

5. Che các chữ số của thẻ ngân hàng bằng chữ X ngoại trừ 4 số cuối.

Ví dụ `"My credit cards are 1234-5678-9101-1121 and 4321-8765-1098-7654` => `"My credit cards are XXXX-XXXX-XXXX-1121 and XXXX-XXXX-XXXX-7654"`

---
**Hint**: Sử dụng group và group reference để giữa lại 4 số cuối cùng.

In [261]:
# Solution.
def hide_card_numbers(text):
    return re.sub(r'\d{4}-\d{4}-\d{4}-(\d{4})', r'XXXX-XXXX-XXXX-\1', text)

In [264]:
def hide_card_numbers(text):
    pass

# assert redact_credit_cards('My credit cards are 1234-5678-9101-1121 and 4321-8765-1098-7654') == 'My credit cards are XXXX-XXXX-XXXX-1121 and XXXX-XXXX-XXXX-7654'

6. Lấy giá trị của của các thẻ <p></p> 

Ví dụ: `"<p>Tu Minh dang</p>"` => `"Tu Minh Dang"`

In [284]:
# Solution.
def get_p_tag_content(text):
    return re.findall(r'<p>([\w\s]+)<\/p>', text)

In [286]:
def get_p_tag_content(text):
    pass


assert get_p_tag_content('<p>Tu Minh Dang 12</p>') == ['Tu Minh Dang 12']