In [1]:
import re 

In [17]:
def RegexMatchingTest(regex, input_text):
    #將正規表達式轉換成pattern
    pattern = re.compile(regex)
    # pattern = re.compile(regex, flags=re.IGNORECASE)  #若要忽略大小寫，在編譯時加上flags=re.IGNORECASE
    
    # 帶入編譯後的pattern，來測試是否匹配
    # 這裡也可以用match()、split()、findall()、sub()等其他函數來測試匹配
    result = re.search(pattern, input_text)

    if result:
        # 匹配完的結果會儲存在group()的屬性中，我們可以把匹配的結果列印出來
        print("Matched: %s" % (result.group()))
        
        if result.lastindex is not None:
            # group(0)代表整個字串，group(1)、group(2)...代表分組中，匹配的內容
            for i in range(0, result.lastindex+1):
                print("  group(%d): %s" % (i, result.group(i)))
                print(result.lastindex)
    else:
        print("Not matched.")

# 範例1:使用「\w」匹配字母，「\d」匹配數字，「\s」匹配空白

In [19]:
test_string = "My plate number is XYZ-1234."
regex = 'My plate number is \w\w\w-\d\d\d\d'
RegexMatchingTest(regex, test_string)

Matched: My plate number is XYZ-1234


In [20]:
test_string = "My phone number is 0912-345 678."
regex = 'My phone number is \d\d\d\d-\d\d\d\s\d\d\d'
RegexMatchingTest(regex, test_string)


Matched: My phone number is 0912-345 678


In [21]:
#利用量詞{n,m}來簡化寫法
test_string = "My phone number is 0912-345 678."
regex = 'My phone number is \d{4}-\d{3}\s{1}\d{3}'
RegexMatchingTest(regex, test_string)

Matched: My phone number is 0912-345 678


In [22]:
# 更偷懶的寫法，用「.」來代表任何字元
test_string = "My phone number is 0912-345 678."
regex = 'My phone number is .{4}-.{3}.{1}.{3}'
RegexMatchingTest(regex, test_string)

Matched: My phone number is 0912-345 678


# 範例2:使用[...]匹配在[ ]裡面所列出的字元


In [23]:
test_string = "I love dogs."
regex = 'I love [acdgnost]'
RegexMatchingTest(regex, test_string)

Matched: I love d


In [24]:
test_string = "I love cats."
regex = 'I love [acdgnost]'
RegexMatchingTest(regex, test_string)

Matched: I love c


In [25]:
test_string = "I love dogs."
regex = 'I love [acdgnost]+'
RegexMatchingTest(regex, test_string)

Matched: I love dogs


In [26]:
test_string = "I love people."
regex = 'I love [acdgnost]+'
RegexMatchingTest(regex, test_string)
# people裡面只有'p'、'e'、'o'、'l'等字元，無法滿足[acdgnost]裡面所列出的條件

Not matched.


# 範例3:分組及捕捉

In [27]:
test_string = "I like baseball sport."
regex = 'I like (hiking|baseball) sport'
RegexMatchingTest(regex, test_string)

Matched: I like baseball sport
  group(0): I like baseball sport
1
  group(1): baseball
1


In [28]:
test_string = "I like hiking sport."
regex = 'I like (hiking|basketball) sport'
RegexMatchingTest(regex, test_string)

Matched: I like hiking sport
  group(0): I like hiking sport
1
  group(1): hiking
1


# 範例4:使用跳脫符號「\」

In [13]:
test_string = "Please call number (02)2882-5252."
regex = 'Please call number \([0-9]{2}\)[0-9]{4}-[0-9]{4}'  #用「\(」來匹配左括號"("，用「\)」來匹配右括號")"
RegexMatchingTest(regex, test_string)

Matched: Please call number (02)2882-5252


# 範例5:比對中文字

In [14]:
test_string = "Here are 中文字 and English"  #中英夾雜的句子
regex = '[\u4e00-\u9fa5]+'                  #中文的UNICODE，範圍是0x4E00 ~ 0x9FA5
RegexMatchingTest(regex, test_string)

Matched: 中文字


# HW
## 正規表達式常常用來過濾以及搜尋特定的pattern字串。

## 用正規表達式過濾IP address。

In [15]:
import re
# 定義一個函數，用來測試是否能匹配正規表達式
def RegexMatchingTest(regex, input_text):
    #將正規表達式轉換成pattern
    pattern = re.compile(regex)
    
    # 使轉換後的pattern，來測試是否匹配
    result = re.search(pattern, input_text)

    if result:
        # 匹配完的結果會儲存在group()的屬性中，我們可以把匹配的結果列印出來
        print("Matched: %s" % (result.group()))
        
        if result.lastindex is not None:
            # group(0)代表整個字串，group(1)、group(2)...代表分組中，匹配的內容
            for i in range(0, result.lastindex+1):
                print("  group(%d): %s" % (i, result.group(i)))
    else:
        print("Not matched.")

In [16]:
test_string = "Google IP address is 216.58.200.227"

# 過濾IP address的regex pattern
regex = '(\d{1,3}).(\d{1,3}).(\d{1,3}).(\d{1,3})'
RegexMatchingTest(regex, test_string)

Matched: 216.58.200.227
  group(0): 216.58.200.227
  group(1): 216
  group(2): 58
  group(3): 200
  group(4): 227


In [34]:
regex = '(\d[0-255]{1,3}).(\d[0-255]{1,3}).(\d[0-255]{1,3}).(\d[0-255]{1,3})'

test_string1 = "Test IP 216.58.200.227"
RegexMatchingTest(regex, test_string1)  #測試表達式是否會匹配此合法IP

test_string2 = "Test IP 999.888.777.666"
RegexMatchingTest(regex, test_string2)  #測試表達式是否會匹配此不合法IP

Not matched.
Not matched.


## 訂正

In [36]:
# [01]? =>只能是0、1、無
# \d? => 任意數或無


regex = '([01]?\d?\d|2[0-4]\d|25[0-5])\.([01]?\d?\d|2[0-4]\d|25[0-5])\.([01]?\d?\d|2[0-4]\d|25[0-5])\.([01]?\d?\d|2[0-4]\d|25[0-5])'

test_string1 = "Test IP 216.58.200.227"
RegexMatchingTest(regex, test_string1)  #測試表達式是否會匹配此合法IP

test_string2 = "Test IP 999.888.777.666"
RegexMatchingTest(regex, test_string2)  #測試表達式是否會匹配此不合法IP

Matched: 216.58.200.22
  group(0): 216.58.200.22
4
  group(1): 216
4
  group(2): 58
4
  group(3): 200
4
  group(4): 22
4
Not matched.


# 用正規表達式過濾URL。
## 我們要把"href="之後的URL擷取出來，用來做後續處理。

In [None]:
html_a_tag = "<a href=https://movies.yahoo.com.tw/movietime_result.html/id=9467> 時刻表 </a>"

regex = 
RegexMatchingTest(regex, html_a_tag)

## 訂正

In [37]:
html_a_tag = "<a href=https://movies.yahoo.com.tw/movietime_result.html/id=9467> 時刻表 </a>"
regex = '((http|https|ftp):\/\/)([a-z0-9]\.|[a-z0-9][-a-z0-9]*[a-z0-9]\.)+(tw|cn|com|edu|gov|net|org|biz|info|name)[-a-z0-9_:@&?=+,.!\/~*\'%$]*'
RegexMatchingTest(regex, html_a_tag)


Matched: https://movies.yahoo.com.tw/movietime_result.html/id=9467
  group(0): https://movies.yahoo.com.tw/movietime_result.html/id=9467
4
  group(1): https://
4
  group(2): https
4
  group(3): com.
4
  group(4): tw
4


In [38]:
'''

一個標準的URL形式是：http://hostname/path，我們分4段來解釋匹配URL的regex：

1. URL都是以http://、https://、ftp://開頭，因此我們寫成：
(http|https|ftp):\/\/)  

2. hostname的名稱是以句號區隔所組成，每一個部分可以是ASCII字元、數字、連字號，但不能以連字號開始或結束，因此我們寫成：
([a-z0-9]\.|[a-z0-9][-a-z0-9]*[a-z0-9]\.)+  

3. hostname結尾的部分，只有幾種可能性(如果有新的名稱，可以再自己添加)，因此我們寫成：
(tw|cn|com|edu|gov|net|org|biz|info|name)

4. URL的path部分，可以有除了空白字元、控制字元<>(){}以外的大部分ASCII字元，因此我們寫成：
[-a-z0-9_:@&?=+,.!\/~*\'%$]*

之所以寫得那麼複雜的原因，是希望正規表達式能夠精準匹配我們希望匹配的，而且不要匹配我們不希望匹配的。

'''

"\n\n一個標準的URL形式是：http://hostname/path，我們分4段來解釋匹配URL的regex：\n\n1. URL都是以http://、https://、ftp://開頭，因此我們寫成：\n(http|https|ftp):\\/\\/)  \n\n2. hostname的名稱是以句號區隔所組成，每一個部分可以是ASCII字元、數字、連字號，但不能以連字號開始或結束，因此我們寫成：\n([a-z0-9]\\.|[a-z0-9][-a-z0-9]*[a-z0-9]\\.)+  \n\n3. hostname結尾的部分，只有幾種可能性(如果有新的名稱，可以再自己添加)，因此我們寫成：\n(tw|cn|com|edu|gov|net|org|biz|info|name)\n\n4. URL的path部分，可以有除了空白字元、控制字元<>(){}以外的大部分ASCII字元，因此我們寫成：\n[-a-z0-9_:@&?=+,.!\\/~*'%$]*\n\n之所以寫得那麼複雜的原因，是希望正規表達式能夠精準匹配我們希望匹配的，而且不要匹配我們不希望匹配的。\n\n"