# Regex trong Python


Biểu thức chính quy (Regular Expressions) hay Regex trong Python có thể được định nghĩa là chuỗi các ký tự được sử dụng để tìm kiếm một mẫu trong chuỗi. Mô-đun re cung cấp hỗ trợ để sử dụng regex trong chương trình python. Mô-đun re bắn ra một ngoại lệ nếu có lỗi xảy ra trong khi sử dụng biểu thức chính quy.

Bạn cần phải import mô-đun re để sử dụng các chức năng regex trong python.


In [1]:
import re

## Các hàm Regex


Các hàm regex sau được sử dụng trong Python.


<table class="alt">
<tbody><tr>
 <th width="20%">STT</th>
 <th width="20%">Hàm</th>
 <th>Mô tả</th>
</tr>

<tr>
 <td>1</td>
 <td>search</td>
 <td>Hàm này trả về đối tượng khớp nếu có một kết quả khớp được tìm thấy trong chuỗi. </td>
</tr>
<tr>
 <td>2</td>
 <td>findall</td>
 <td> Nó trả về một danh sách chứa tất cả các kết quả khớp của một mẫu trong chuỗi. </td>
</tr>
<tr>
 <td>3</td>
 <td>split</td>
 <td>Trả về một danh sách trong đó chuỗi đã được phân chia theo mỗi kết quả khớp. </td>
</tr>
<tr>
 <td>4</td>
 <td>sub</td>
 <td>Thay thế một hoặc nhiều kết quả khớp trong chuỗi.</td>
</tr>
</tbody></table>


## Xây dựng biểu thức chính quy


Một biểu thức chính quy có thể được hình thành bằng cách sử dụng kết hợp các meta-character, ký tự đặc biệt và set.


### Meta-Characters


Metacharacter là một ký tự có ý nghĩa nhất định:


<table class="alt">
<tbody><tr>
 <th width="20%">Metacharacter</th>
 <th width="60%">Mô tả</th>
 <th>Ví dụ</th>
</tr>
<tr>
 <td>[]</td>
 <td>Nó đại diện cho một tập các ký tự.</td>
 <td>"[a-z]"</td>
</tr>
<tr>
 <td>\</td>
 <td>Nó đại diện cho ký tự đặc biệt.</td>
 <td>"\r"</td>
</tr>
<tr>
 <td>.</td>
 <td>Nó đại diện cho bất kỳ ký tự nào xuất hiện ở một số nơi cụ thể. </td>
 <td>"Ja.v."</td>
</tr>
<tr>
 <td>^</td>
 <td>Nó đại diện cho mẫu có mặt ở đầu chuỗi.</td>
 <td>"^Java"</td>
</tr>
<tr>
 <td>$</td>
 <td>Nó đại diện cho mẫu có mặt ở cuối chuỗi.</td>
 <td>"mmc&#36;"</td>
</tr>
<tr>
 <td>*</td>
 <td>Nó đại diện cho không hoặc nhiều lần xuất hiện của một mẫu trong chuỗi.</td>
 <td>"hello*"</td>
</tr>
<tr>
 <td>+</td>
 <td>Nó đại diện cho một hoặc nhiều lần xuất hiện của một mẫu trong chuỗi.</td>
 <td>"hello+"</td>
</tr>
<tr>
 <td>{}</td>
 <td>Số lần xuất hiện đã chỉ định của một mẫu trong chuỗi.</td>
 <td>"java{2}"</td>
</tr>
<tr>
 <td>|</td>
 <td>Nó biểu diễn cho cái này hoặc cái kia (điều kiện or). </td>
 <td>"python2|python3"</td>
</tr>
<tr>
 <td>()</td>
 <td>Nhóm các thành phần.</td>
 <td></td>
</tr>
</tbody></table>


### Ký tự đặc biệt


Ký tự đặt biệt là các chuỗi có chứa \ theo sau là một trong các ký tự.


<table class="alt">
<tbody><tr>
 <th width="20%">Ký tự</th>
 <th>Mô tả</th>
</tr>
<tr>
 <td>\A</td>
 <td>Nó trả về một kết quả khớp nếu các ký tự được chỉ định có mặt ở đầu chuỗi.</td>
</tr>
<tr>
 <td>\b</td>
 <td>Nó trả về một kết quả khớp nếu các ký tự được chỉ định có mặt ở đầu hoặc cuối chuỗi.</td>
</tr>
<tr>
 <td>\B</td>
 <td>Nó trả về một kết quả khớp nếu các ký tự được chỉ định có mặt ở đầu chuỗi nhưng không ở cuối chuỗi. </td>
</tr>
<tr>
 <td>\d</td>
 <td>Nó trả về một kết quả khớp nếu chuỗi chứa các chữ số [0-9]. </td>
</tr>
<tr>
 <td>\D</td>
 <td>Nó trả về một kết quả khớp nếu chuỗi không chứa các chữ số [0-9].</td>
</tr>
<tr>
 <td>\s</td>
 <td>Nó trả về một kết quả khớp nếu chuỗi chứa bất kỳ ký tự khoảng trắng nào.</td>
</tr>
<tr>
 <td>\S</td>
 <td>Nó trả về một kết quả khớp nếu chuỗi không chứa bất kỳ ký tự khoảng trắng nào.</td>
</tr>
<tr>
 <td>\w</td>
 <td>Nó trả về một kết quả khớp nếu chuỗi chứa bất kỳ ký tự từ nào.</td>
</tr>
<tr>
 <td>\W</td>
 <td>Nó trả về một kết quả khớp nếu chuỗi không chứa bất kỳ từ nào.</td>
</tr>
<tr>
 <td>\Z</td>
 <td>Trả về một kết quả khớp nếu các ký tự được chỉ định ở cuối chuỗi. </td>
</tr>
</tbody></table>


### Set


Một set là một nhóm các ký tự được đưa ra bên trong một cặp dấu ngoặc vuông. Nó đại diện cho ý nghĩa đặc biệt.


<table class="alt">
<tbody><tr>
 <th width="10%">STT</th>
 <th width="20%">Set</th>
 <th>Mô tả</th>
</tr>
<tr>
 <td>1</td>
 <td>[arn]</td>
 <td>Trả về một kết quả khớp nếu chuỗi chứa bất kỳ ký tự nào được chỉ định trong tập hợp.</td>
</tr>
<tr>
 <td>2</td>
 <td>[a-n]</td>
 <td>Trả về một kết quả khớp nếu chuỗi chứa bất kỳ ký tự nào từ a đến n.</td>
</tr>
<tr>
 <td>3</td>
 <td>[^arn]</td>
 <td>Trả về một kết quả khớp nếu chuỗi chứa các ký tự ngoại trừ a, r và n. </td>
</tr>
<tr>
 <td>4</td>
 <td>[0123]</td>
 <td>Trả về một kết quả khớp nếu chuỗi chứa bất kỳ chữ số nào được chỉ định. </td>
</tr>
<tr>
 <td>5</td>
 <td>[0-9]</td>
 <td>Trả về một kết quả khớp nếu chuỗi chứa bất kỳ chữ số nào trong khoảng từ 0 đến 9. </td>
</tr>
<tr>
 <td>6</td>
 <td>[0-5][0-9]</td>
 <td>Trả về một kết quả khớp nếu chuỗi chứa bất kỳ chữ số nào trong khoảng từ 00 đến 59.</td>
</tr>
<tr>
 <td>10</td>
 <td>[a-zA-Z]</td>
 <td>Trả về một kết quả khớp nếu chuỗi chứa bất kỳ bảng chữ cái nào (chữ thường hoặc chữ hoa). </td>
</tr>
</tbody></table>


## Hàm findall()


Phương thức này trả về một danh sách chứa danh sách tất cả các kết quả khớp của mẫu trong chuỗi. Nó trả về các mẫu theo thứ tự chúng được tìm thấy. Nếu không có kết quả khớp, thì một danh sách trống được trả về. Ví dụ:


In [2]:
import re

str = "Xin chào Bạn! Bạn đang học bài Regex trong Python."
matches = re.findall("Bạn", str)
print(matches)

['Bạn', 'Bạn']


In [3]:
print(re.findall("[A-Z]", "MetaMind"))

['M', 'M']


## Đối tượng Match (kết quả khớp)


Đối tượng match chứa thông tin về tìm kiếm và đầu ra. Nếu không tìm thấy kết quả khớp, đối tượng None được trả về. Ví dụ:


In [None]:
import regex

print(re.search(r"\d{5}", "Mã OTP là 12345, có hiệu lực trong 1 phút."))
print()

print(re.findall(r"[A-Z]", "Thành viên gồm: Đăng, Linh, Nhã, Khôi, Tuấn"))
print(regex.findall(r"\p{Lu}", "Thành viên gồm: Đăng, Linh, Nhã, Khôi, Tuấn"))
print()

print(re.split(r": |, ", "Thành viên gồm: Đăng, Linh, Nhã, Khôi, Tuấn"))
print()

print(re.sub(r"[0-9]", "0", "Mã OTP là 12345, có hiệu lực trong 1 phút."))

<re.Match object; span=(10, 15), match='12345'>

['T', 'L', 'N', 'K', 'T']
['T', 'Đ', 'L', 'N', 'K', 'T']

['Thành viên gồm', 'Đăng', 'Linh', 'Nhã', 'Khôi', 'Tuấn']

Mã OTP là 00000, có hiệu lực trong 0 phút.


In [None]:
import re

pattern = "^a...s$"
test_string = "abyss"
result = re.match(pattern, test_string)

if result:
    print("Tim kiem thanh cong.")
else:
    print("Tim kiem khong thanh cong.")

Tim kiem thanh cong.


### Các phương thức đối tượng Match


Có các phương thức sau liên quan đến đối tượng Match.

- **span()**: Nó trả về bộ dữ liệu chứa vị trí bắt đầu và kết thúc của kết quả khớp.
- **string()**: Nó trả về một chuỗi được truyền vào hàm.
- **group()**: Một phần của chuỗi được trả về nơi tìm thấy kết quả khớp.


In [None]:
import re

str = "Xin chào Bạn! Bạn đang học bài Regex trong Python."
matches = re.search("Bạn", str)
print(matches.span())
print(matches.group())
print(matches.string)

(9, 12)
Bạn
Xin chào Bạn! Bạn đang học bài Regex trong Python.


In [None]:
import re

stri = "Ma xac thuc Tiki la 685708"
matches = re.search(r"\b\d{6}$", stri)
print(matches.span())
print(matches.group())
print(matches.string)

(20, 26)
685708
Ma xac thuc Tiki la 685708


## Bài tập


**Bài 1:** Mở file Ex1.py và hoàn thành đoạn code để lấy các dòng được bắt đầu bằng ký tự ">", kết quả sau khi chạy sẽ như sau:

`['>Venues', '>Marketing', '>medalists', '>Controversies', '>Paralympics', '>snowboarding', '>Netherlands', '>Norway', '>References', '>edit', '>Norway', '>Germany', '>Canada', '>Netherlands', '>Japan', '>Italy', '>Belarus', '>China', '>Slovakia', '>Slovenia', '>Belgium', '>Spain', '>Kazakhstan', '>1964', '>1968', '>1972', '>1992', '>1996', '>2000']`


In [2]:
import re

In [5]:
str = """
>Venues
>Marketing
>medalists
>Controversies
>Paralympics
>snowboarding
>[1]
>Netherlands
>[2]
>Norway
>[10]
>[11]
>References
>edit
>[12]
>Norway
>Germany
>Canada
>Netherlands
>Japan
>Italy
>Belarus
>China
>Slovakia
<$#%#$%
<#$#$$
<**&&^^
>Slovenia
>Belgium
>Spain
>Kazakhstan
>[15]
>1964
>1968
>1972
>1992
>1996
>2000"""

lst_str = str.split("\n")
lst_1 = []

# for s in lst_str:
#     if not (len(s)==0 or s[0]!='>' or s[1] == '['):
#         lst_1.append(s)


# print(lst_1)


# Type your answer here.
data = re.findall(">[\w]+", str)

print(data)

['>Venues', '>Marketing', '>medalists', '>Controversies', '>Paralympics', '>snowboarding', '>Netherlands', '>Norway', '>References', '>edit', '>Norway', '>Germany', '>Canada', '>Netherlands', '>Japan', '>Italy', '>Belarus', '>China', '>Slovakia', '>Slovenia', '>Belgium', '>Spain', '>Kazakhstan', '>1964', '>1968', '>1972', '>1992', '>1996', '>2000']


  data = re.findall('>[\w]+', str)


**Bài 2:** Mở file Ex2.py và hoàn thành đoạn code để lấy được các email có trong chuỗi đó. Kết quả sau khi chạy sẽ như sau:

`['franky@google.com', 'sinatra123@yahoo.com']`


In [6]:
str = "The advancements in biomarine studies franky@google.com with the investments necessary and Davos sinatra123@yahoo.com Then The New Yorker article on wind farms..."
# Type your answer here.

regex = r"\w+@\w+.\w+"


emails = re.findall(regex, str)


print(emails)

['franky@google.com', 'sinatra123@yahoo.com']


**Bài 3:** Mở file Ex3.py và hoàn thành đoạn code để lấy được các email có trong chuỗi đó (chỉ lấy phần ở trước ký tự '@' và ký tự '@'). Kết quả sau khi chạy sẽ như sau:

`['franky@', 'sinatra123@']`


In [7]:
str = "The advancements in biomarine studies franky@google.com, with the investments necessary and Davos sinatra123@yahoo.com Then The New Yorker article on wind farms..."
# Type your answer here.

regex = r"\w+@"

emails = re.findall(regex, str)


print(emails)

['franky@', 'sinatra123@']


**Bài 4:** Mở file Ex4.py và hoàn thành đoạn code tương tự như bài 3, nhưng lần này không lấy ký tự '@' nữa. Kết quả sau khi chạy sẽ như sau:

`['franky', 'sinatra123']`


In [8]:
str = "The advancements in biomarine studies franky@google.com, with the investments necessary and Davos sinatra123@yahoo.com Then The New Yorker article on wind farms..."
# Type your answer here.

regex = r"\w+@"

emails = re.findall(r"([\w]+)(@)", str)


print([i[0] for i in emails])

['franky', 'sinatra123']


**Bài 5:** Mở file Ex5.py và hoàn thành đoạn code để trích xuất những từ có đúng 8 ký tự từ chuỗi. Kết quả sau khi chạy sẽ như sau:

`['empourpr', 'palmiers']`


In [9]:
str = """Au pays parfume que le soleil caresse,
J'ai connu, sous un dais d'arbres tout empourpres
Et de palmiers d'ou pleut sur les yeux la paresse,
Une dame creole aux charmes ignores."""

# Type your answer here.

regex = r"\w{8}"

emails = re.findall(regex, str)


print(emails)

['empourpr', 'palmiers']


**Bài 6:** Mở file Ex6.py và hoàn thành đoạn code để trích xuất những số bắt đầu với '212'. Kết quả sau khi chạy sẽ như sau:

`['21299']`


In [10]:
str = """Ancient Script 21299: The Takenouchi documents are the ancient historical records that have been secretly preserved and passed down from generation to generation by the Takenouchi family, the head of family being the chief priest of the Koso Kotai Jingu shrine. 212-111-5932 """

# Type your answer here.

regex = r"\b212\w+"
data = re.findall(regex, str)


print(data)

['21299']


**Bài 7:** Mở file Ex7.py và hoàn thành đoạn code theo yêu cầu sau. Bạn được cung cấp giá cổ phiếu cho các mã tài chính liên quan. (Biểu tượng đại diện cho các công ty trên thị trường chứng khoán). Tìm cách trích xuất các mã được đề cập trong báo cáo. tức là: TSLA, NFLX ... Kết quả sau khi chạy sẽ như sau:

`['TSLA', 'ORCL', 'GE', 'MSFT', 'BIDU']`


In [11]:
str = """Some of the prices were as following TSLA:749.50, ORCL: 50.50, GE: 10.90, MSFT: 170.50, BIDU: 121.40. As the macroeconomic developments continue we will update the prices. """

# Type your answer here.

regex = r"(\w+):\s*(\d+\.\d+)"
data = re.findall(regex, str)


print([i[0] for i in data])

['TSLA', 'ORCL', 'GE', 'MSFT', 'BIDU']


**Bài 8:** Mở file Ex8.py và hoàn thành đoạn code để trích xuất các thẻ html có nhiều hơn 4 chữ cái. Các thẻ html mở có thể được tìm thấy bên trong các ký tự <> và các thẻ html đóng có thể được tìm thấy ở cùng một định dạng sau ký tự </>, ví dụ <param> </param>. Kết quả sau khi chạy sẽ như sau:

`['video', 'center', 'button']`


In [12]:
str = """<div class="tut-list tut-list-new tut-row ">
<div class="tut-list-primary"> <div class="tut-vote">
<video>intro</video>
<span class="count">50</span> <span class="tut-upvotes-text hidden">Upvotes</span> </a> </div>
<center>k="11" rel="nofollow"></center>
<span class="tutorial-title-txt">Automate the Boring Stuff with Python</span>
<span class="tut-title-link">  <span class="js-tutorial" data-id="3529"
title="Automate the Boring Stuff with Python" target="_blank">(udemy.com)</span>
</span>  </a></div> <div class="action-footer">
<form class="save-tutorial-form" method="post" <button></button> </form>"""

# Type your answer here.

regex = r"<\w{5,}"


data = re.findall(regex, str)

print([i.replace("<", "") for i in data])

['video', 'center', 'button']
