**Python regular expression, Python Regex, Python re**
正則表示式或規則表示式  
藉由給出想要尋找內容的組合模式或規則，來請 Python RE 引擎理解後，  
為我們在資料中找出要的內容。

- []: each one in []
- a|b: a or b
- .: any char but newline
- \d: 0-9
- \D: non digit
- [0-9a-zA-Z]
- ^: head begins with
- $: ends with
- \b: words bound, begin or end
- 數量內容:
    - \* 0,1,2,3,...
    - ? 有或沒有，0,1
    - \+ 正的自然數，1以上, 1,2,3,...
    - {n}  剛好 n 次
    - {m,}  至少 m 次
    - {m,n} m 到 n 次

- 當需要取得長串資料中的某些部分，以便稍後進行重組時，  
就可以使用group來分別進行擷取，提供後續組合引用。  
(): it means the group to get the part that match the specified pattern
- greedy search: try to find the most content that still matching the condition,   
to stop the greedy search: put a ? as the suffix

reference: [Python regular expression](https://www.w3schools.com/python/python_regex.asp#matchobject)

In [None]:
import re

msg = "cacat, cbt, cct, caat, cdt, cba";

''' 
search:
return re.Match object: 
span(): (form,to)
group(): found string
string: the text to search in it,

if not found return None
'''
items = re.search("cat", msg)
#items = re.search("貓", msg)
# cat -> c[a]t -> c[ab]t -> c[abcd]t -> c[a-d]t, -> c.t -> c.+t

print(items)
print('span():', items.span())
print('string:', items.string)
print('group():', items.group())

In [None]:
import re

msg = "cat, cbt, cct, caat, cdt, cba";

'''
findall:
return list of found items

if not found return []
'''
items = re.findall("c[ab]t", msg)
#items = re.findall("cat|cbt", msg)

print(items)

In [None]:
import re

msg = "cat, cbt, cct, caat, cdt, cba";
#msg = "a, b,   c,  d,    e";
     # 012345678901234567

'''
split:
return list of split items by delimiter

if not found return []
'''
items = re.split(",", msg)
#items = re.split(",\s", msg)
#items = re.split(",\s+", msg)

print(items)

In [None]:
import re

msg = "cat, cbt, cct, caat, cdt, cba";

'''
sub:
replace the fuond by specified value

if not found return []
'''
items = re.sub("c[ab]t", "貓", msg)
#items = re.sub("c.t", "貓", msg)

print(items)

In [1]:
'''
有的時候，我們想尋找與選取的部分可能分散在附近，因此需要分別設定其規則，等找到後再將它們組合起來。
所以可以將這些分開的部份用括號括起來當成一群(group)，RE如果有找到也會依序記住這些分群，屆時
再依我們期望的形式進行組合！
此外，凡是屬於RE中的運算符號，如果要當成一般內容時，要在其前加上反斜線(backslash)。
'''
import re

msg = "0930 919321, 0930919321, 0930 919-321, 0930-919321, 0930 919 321, 0930-919-321"

items = re.findall("([0123456789]{4}).?([0123456789]{6})", msg)

# 上述的 "(xyz)" 是指將 xyz 所指稱或表示的內容，整個當成一個群組來看待的意思！
# 這些設定群組找到的資料，會依序傳回來，我們再來進行組合與應用。
#items = re.findall("([0-9]{4}).?([0-9]{6})", msg)

#items = re.findall("(\d{4}).?(\d{3})(\d{3})", txt)

#items = re.findall("(\d{4}).?(\d{3})(\d{3})", txt)
print(items)

for it in items:
	print(it[0], "-", it[1], sep="")

[('0930', '919321'), ('0930', '919321'), ('0930', '919321')]
0930-919321
0930-919321
0930-919321


In [2]:
'''
有的時候，我們想尋找與選取的部分可能分散在附近，因此需要分別設定其規則，等找到後再將它們組合起來。
所以我們可以將這些分開的部份用括號括起來當成一群(group)，RE如果有找到也會依序記住這些分群，接著
再依我們期望的形式進行組合！
此外，凡是屬於RE中的運算符號，如果要當成一般內容時，要在其前加上反斜線(backslash)。
'''
import re

# back-slash 用來表示程式內容接續的意思！
phoneNos = "0212345678, 02 66571234, 02-2911-5637, " +  \
           "(02) 66571256, (02)66571278, (02)6657-1290, " +  \
           "(02) 6657-1298, (02) 6657 1299"

# 上述的 "(xyz)" 是指將 xyz 所指稱或表示的內容，整個當成一個群組來看待的意思！
# 這些設定群組找到的資料，會依序傳回來，我們再來進行組合與應用。

items = re.findall("(\d{2})(\d{8})", phoneNos)
print(items)

for it in items:
	print(f"({it[0]}) {it[1]}")

[('02', '12345678')]
(02) 12345678


In [None]:
import re

# another format to define a string in Python
msg = '''
<table border=1>
    <tr> <th>1</th> <th>2</th> <th>3</th> </tr>
    <tr> <th>4</th> <th>5</th> <th>6</th> </tr>
</table>
'''

result = re.sub("<th>", "", msg)   # search！

#result = re.sub("<.+>", "", msg)   # greedy search: 盡可能地往下去找！
#result = re.sub("<.+?>", "", msg)  # use ? to stop the greedy search.
print(result)

'''
請截取 msg 中的所有包含其所在路徑的影像檔資料標籤(角括號<>及其括住的內容)移除！
'''
# 完成移除的工作！

In [None]:
'''
請截取 msg 中的所有包含其所在路徑的影像檔資料標籤(角括號<>及其括住的內容)移除！
'''
import re

msg = """
<table>
<tr>
  <th> <img src='.\images2Move\alarmclock256.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\birds.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\Brick_wall.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\Conan-4.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\CountryKitchen.jpg' height=150 /> </th>
</tr>
<tr>
  <th> <img src='.\images2Move\Porsche 911 GT3 R Hybrid-1.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\rock-wall.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\RunningHorse.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\SantaFe-2015.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\Apple-1.jpg' height=150 /> </th>
</tr>
<tr>
  <th> <img src='.\images2Move\Apple-2.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\德國 ZEPPELIN 齊柏林經典機械腕錶 ( ZN-7636-1 ).jpg' height=150 /> </th>
  <th> <img src='.\images2Move\碧潭夜景.jpg' height=150 /> </th>
</tr>
</table>
"""
#print(msg)

result = re.findall("(<img.+?/>)", msg)  # \ is also the control character

print(result)

In [None]:
'''
請截取 msg 中的所有包含其所在路徑的影像檔資料標籤(角括號<>及其括住的內容)移除！
'''
import re

msg = """
<table>
<tr>
  <th> <img src='.\images2Move\alarmclock256.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\birds.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\Brick_wall.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\Conan-4.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\CountryKitchen.jpg' height=150 /> </th>
</tr>
<tr>
  <th> <img src='.\images2Move\Porsche 911 GT3 R Hybrid-1.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\rock-wall.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\RunningHorse.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\SantaFe-2015.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\Apple-1.jpg' height=150 /> </th>
</tr>
<tr>
  <th> <img src='.\images2Move\Apple-2.jpg' height=150 /> </th>
  <th> <img src='.\images2Move\德國 ZEPPELIN 齊柏林經典機械腕錶 ( ZN-7636-1 ).jpg' height=150 /> </th>
  <th> <img src='.\images2Move\碧潭夜景.jpg' height=150 /> </th>
</tr>
</table>
"""
print(msg)

# 上述的 "(xyz)" 是指將 xyz 所指稱或表示的內容，整個當成一個群組來看待的意思！
# 這些設定群組找到的資料，會依序傳回來，我們再來進行組合與應用。
#    src='.\images2Move\碧潭夜景.jpg'
#    "src='.\\images2Move\\碧潭夜景.jpg'"
#result = re.findall("src='\.\\images2Move\\(.+\.jpg)'", msg)

'''
因為 backslash(\) 是 RE 中的控制字元，所以如果需要將其當成一般的字元時，必須在其前再加上一個反斜線！
字串中的反斜線本來就要寫成連續兩個，所以在 pattern 中會變成四個！

想找: \(xyz.jpg) => \(.+.jpg) => \(.+\.jpg) => 放入字串中變成 "\\(.+\.jpg)"。
         任意字元 <-- ^  ^ --> 這是點！
'''

# \images2Move\碧潭夜景.jpg
# \.+\.jpg -> \\.+
result = re.findall("\\\\(.+?\.jpg)", msg)  # \ is also the control character
#result = re.findall(r"\\(.+?\.jpg)", msg)  # \ is also the control character
print(result)