<h1 align="center">Python regular expression</h1>

<center><img src="https://learnbyexample.github.io/images/books/pyregex_example.png" alt="Regex example" /></center>

# <center>re module functions</center>

In [3]:
import re

### The function definitions are given below:

- re.search(pattern, string, flags=0)
- re.compile(pattern, flags=0)
- re.sub(pattern, repl, string, count=0, flags=0)
- re.escape(pattern)
- re.split(pattern, string, maxsplit=0, flags=0)
- re.findall(pattern, string, flags=0)
- re.finditer(pattern, string, flags=0)
- re.subn(pattern, repl, string, count=0, flags=0)

### **1. Example for ``re.search``**


In [4]:
sentence = 'This is a sample string'

In [5]:
# check if 'sentence' contains the pattern described by RE argument
type(re.search(r'is', sentence))

re.Match

In [9]:
bool(re.search(r'is',sentence))

True

In [8]:
# (2,4) <=> index at 2, 3
re.search(r'is', sentence)

<re.Match object; span=(2, 4), match='is'>

In [10]:
# * => kí tự trước lặp 0 hoặc nhiều lần
# . => bất kì kí tự nào ngoại trừ \n
re.search(r'b.*d', 'abc ac adc abbbc')

<re.Match object; span=(1, 9), match='bc ac ad'>

In [11]:
# () Khớp 1 nhóm kí tự đồng thời và nhớ kết quả khớp
# \b Ký tự thuộc a-z hoặc A-Z hoặc 0-9 hoặc _
match = re.search(r'\b(is).*(ple)', sentence)
match

<re.Match object; span=(5, 16), match='is a sample'>

In [12]:
# () Khớp 1 nhóm kí tự đồng thời và nhớ kết quả khớp
# \bX biên bắt đầu = X
match = re.search(r'(is).*(ple)', sentence)
match

<re.Match object; span=(2, 16), match='is is a sample'>

In [13]:
match.group()

'is is a sample'

In [14]:
match.groups()

('is', 'ple')

In [None]:
# ignore case while searching for a match
bool(re.search(r'this', sentence, flags=re.I))

In [None]:
# No output
re.search(r'this', sentence)

In [None]:
re.search(r'this', sentence, flags=re.I)

In [None]:
bool(re.search(r'xyz', sentence))

In [None]:
# re.search output can be directly used in conditional expressions
if re.search(r'ring', sentence):
    print('True')

In [None]:
# \w =>Thay thế cho [a-zA-Z0-9]
# ()\1 khớp và đồng thời nhớ kết quả
# * => Không có hoặc có nhiều lần 1 kí tự  
words = ['The effort', 'flee', 'facade', 'oddball', 'rat', 'tool']
[w for w in words if re.search(r'\b\w*(\w)\1\w*\b', w)]

In [None]:
words = ['effort', 'flee', 'facade', 'oddball', 'rat', 'tool']
[w for w in words if re.search(r'\b\w*(\w)\1\w(\w)\2\w*\b', w)]

In [None]:
words = ['effort', 'flee', 'facade', 'oddballkk', 'rat', 'tool']
[w for w in words if re.search(r'\b\w*(\w)\1\w*(\w)\2(\w)\3\w*\b', w)]

In [None]:
test = re.findall(r'\d{2, 3}')

### Use raw byte strings if input is of byte data type

In [None]:
bool(re.search(rb'is', b'This is a sample string'))

## Difference between string and line anchors

### - string anchors

In [None]:
# ^ => bắt đầu
# $ => Kết thúc
bool(re.search(r'^par$', 'spare\npar\ndare'))


In [None]:
# ^ => bắt đầu
# $ => Kết thúc
bool(re.search(r'^par$', 'par\n'))

In [None]:
# ^ => bắt đầu
# $ => Kết thúc
bool(re.search(r'^par$', 'par\t'))

In [None]:
re.search(r'^par$', 'spare\npar\ndare')

### - line anchors

In [None]:
# line anchors => Khớp vị trí chứ không khớp chuỗi
bool(re.search(r'^par$', 'spare\npar\ndare', flags=re.M))

In [None]:
bool(re.search(r'^par$', 'spar\npar\ndare', flags=re.M))

In [None]:
re.search(r'^par$', 'spare\npar\ndare', flags=re.M)

In [None]:
re.search(r'^par$', 'par\ndare', flags=re.M)

### **1. Example for ``re.findall``**

In [None]:
# ? Kí tự trước lặp không hoặc 1 lần
re.findall(r'\bs?pare?\b', 'par spar apparent spare part pare')

In [None]:
# 0 => có số hoặc không => 
re.findall(r'\b0*[1-9]\d{1,3}.\d{1,3}\b', '0501 035 154 12 26 98234')

In [None]:
# Lặp lại 0 hoặc nhiều lần
re.findall(r'(x*):(y*)', 'xx:yyy x: x:yy :y')

In [None]:
re.findall(r'\b\w*(?:ách|au)\b', 'bao giờ mới hết cách ly để anh em ta gặp nhau')

In [None]:
re.findall(r'\b\w(?:ách|au)\b', 'bao giờ mới hết cách ly để anh em ta gặp nhau')

### **2. Example for ``re.split``**

In [None]:
# X+ Kí tự X có thể lặp 1 hoặc nhiều lần
# \D => Thay thế cho [^0-9]
re.split(r'\D+', 'Sample123string42with777numbers')

In [None]:
# \d => Thay thế cho [0-9]
re.split(r'\d+', 'Sample123string42with777numbers')

In [None]:
# \s kí tự khoảng trắng có cả \f, \n, \t
re.split(r'[\d\s]+', '**1\f2\n3star\t7 77\r**')

In [None]:
# () => get it
re.split(r'(\d+)', 'Sample123string42with777numbers')

In [None]:
# | either or
re.split(r'(hand(?:y|ful))', '123handed42handy777handful500')

In [None]:
words = ['effort', 'flee', 'facade', 'oddball', 'rat', 'tool']
ff = re.findall(r'\b\w*(\w)\1\w*\b', words[0])
print(ff)

### **3. Example for ``re.finditer``**


In [None]:
# numbers < 350
m_iter = re.finditer(r'[0-9]+', '45 349 651 593 4 204')
[m for m in m_iter]

In [None]:
# + => Kí tự trước xuất hiện 1 hoặc nhiều lần
m_iter = re.finditer(r'[0-9]+', '45 349 651 593 4 204')
[m[0] for m in m_iter if int(m[0])<350]

In [None]:
# start and end+1 index of each matching portion
m_iter = re.finditer(r'ab+c', 'abc ac adc abbbc')
[m for m in m_iter]

In [None]:
m_iter = re.finditer(r'ab+c', 'abc ac adc abbbc')
for m in m_iter:
     print(m.span())

### **4. Example for ``re.sub``**


In [None]:
ip_lines = "catapults\nconcatenate\ncat"

In [None]:
# ^: starting word
# re.sub => replace
# line anchors => khớp vị trí
print(re.sub(r'^', r'* ', ip_lines, flags=re.M))


In [None]:
# ^: starting word
# re.sub => replace
# line anchors => khớp vị trí
print(re.sub(r'^', r'* ', ip_lines))

In [None]:
# replace 'par' only at start of word
# \b biên, khác vị trí bắt dầu và kết thúc
re.sub(r'\bpar', r'X', 'par spar apparent spare part')

In [None]:
# replace 'par' all "par" words
re.sub(r'par', r'X', 'par spar apparent spare part')

In [None]:
# same as: r'part|parrot|parent'
# X? => X xuất hiện 0 hoặc 1 lần
re.sub(r'par(en|ro)?t', r'X', 'par part parrot parent')


In [None]:
# remove first two columns where : is delimiter
re.sub(r'\A([^:]+:){2}', r'', ' foo:123:bar:baz', count=1)

In [None]:
# backreferencing in replacement section
# remove any number of consecutive duplicate words separated by space
re.sub(r'\b(\w+)(\s+\1)+\b', r'\1', 'aa a aa a a 42 f_1 f_1 f_13.14')

In [None]:
# add something around the matched strings
re.sub(r'(\d+)', r'(\g<0>0)', '52 apples and 31 mangoes')


In [None]:
# swap words that are separated by a comma
re.sub(r'(\w+),(\w+)', r'\2,\1', 'good,bad 42,24')


### **5. Quick test**
Cho chuỗi sau:
``Sau khi dịch covid-19 bùng phát giá dầu giảm 10.5%, giá điện giảm 15%, giá khẩu trang tăng 300%``
Trích xuất phần trăm tăng và giảm

In [4]:
text = u'Sau khi dịch covid-19 bùng phát giá dầu giảm 10.5%, giá điện giảm 15%, giá khẩu trang tăng 300%'

In [5]:
import re

In [None]:
# liệt kê danh sách phần trăm giảm


In [None]:
# liệt kê danh sách phần trăm tăng


In [6]:
re.findall(r'gi(?:á)\s.*\%', text)

['giá dầu giảm 10.5%, giá điện giảm 15%, giá khẩu trang tăng 300%']

In [7]:
re.findall(r'\bgi(?:á)\s.*[^\w]', text)

['giá dầu giảm 10.5%, giá điện giảm 15%, giá khẩu trang tăng 300%']

In [None]:
tt = u'tăng từ 10%. tăng 10.5%. giảm còn 10%'
