# 正規表達式練習
## 過濾IP address，以及URL。

In [1]:
import re  #載入re模組

In [2]:
# 定義一個函數，用來測試是否能匹配正規表達式
def RegexMatchingTest(regex, input_text):
    #將正規表達式轉換成pattern
    pattern = re.compile(regex)
    
    # 使轉換後的pattern，來測試是否匹配
    result = re.search(pattern, input_text)

    if result:
        # 匹配完的結果會儲存在group()的屬性中，我們可以把匹配的結果列印出來
        print("Matched: %s" % (result.group()))
        
        if result.lastindex is not None:
            # group(0)代表整個字串，group(1)、group(2)...代表分組中，匹配的內容
            for i in range(0, result.lastindex+1):
                print("  group(%d): %s" % (i, result.group(i)))
    else:
        print("Not matched.")

## 用正規表達式過濾IP address。
#### 一個合法的網路IP address，其格式為：X.X.X.X, 其中X是0~255的數字。我們可以用一個regex，來表達IP address的內容。

In [3]:
test_string = "Google IP address is 216.58.200.227"

# 過濾IP address的regex pattern
regex = '(\d{1,3})\.(\d{1,3})\.(\d{1,3})\.(\d{1,3})'
RegexMatchingTest(regex, test_string)

Matched: 216.58.200.227
  group(0): 216.58.200.227
  group(1): 216
  group(2): 58
  group(3): 200
  group(4): 227


#### 上面的regex也能夠匹配444.555.666.777這種無效的IP address。
#### 必須只接受[0~255].[0~255].[0~255].[0~255]這種合法的IP address，而過濾不合法的IP。

In [4]:
'''
    hint: 把IP可能出現的數字範圍，分開來思考
          1. 000 ~ 199   分為三種:(0~9的數字)、(0~9的數字)+(0~9的數字)、1+(0~9的數字)+(0~9的數字)
          2. 200 ~ 249   2+(0~4的數字)+(0~9的數字)
          3. 250 ~ 255   2+5+(0~5的數字)
'''
#這裡會有判斷先後的問題，如果先判斷1個數字的放前面，會造成3個數字的只判斷第一個後就match，所以判斷順序要從嚴謹->寬鬆
#舉例：判斷227，如果把\d{1,2}放前面，就會match 22 出來，導致判斷不到25[0-5]
regex = "(25[0-5]|2[0-4]\d|1\d{2}|\d{1,2})\.(25[0-5]|2[0-4]\d|1\d{2}|\d{1,2})\.(25[0-5]|2[0-4]\d|1\d{2}|\d{1,2})\.(25[0-5]|2[0-4]\d|1\d{2}|\d{1,2})"
test_string1 = "Test IP 216.58.200.227"
RegexMatchingTest(regex, test_string1)  #測試表達式是否會匹配此合法IP

test_string2 = "Test IP 999.888.777.666"
RegexMatchingTest(regex, test_string2)  #測試表達式是否會匹配此不合法IP

Matched: 216.58.200.227
  group(0): 216.58.200.227
  group(1): 216
  group(2): 58
  group(3): 200
  group(4): 227
Not matched.


## 用正規表達式過濾URL。
#### 在網頁爬蟲中，常常會有外部連結的A tag，例如：
< a href="https://movies.yahoo.com.tw/movietime_result.html/id=9467"> 時刻表 < /a >
#### 我們要把"href="之後的URL擷取出來，用來做後續處理。

In [5]:
html_a_tag = "<a href=https://movies.yahoo.com.tw/movietime_result.html/id=9467> 時刻表 </a>"

'''
    過濾URL的regex pattern
    . ->除了\r\n之外的任何單個字元
    + ->符合前面表達式的一次或多次
    * ->符合前面表達式的0次或多次
    [^xyz] ->符合未列出的任意字元
'''
regex = "(http|https)\:\/\/(.+)\.(com|edu|gov|org|int|net)\.([^<>{}()]+)"   #因為遇到<就停了所以後面的沒有出來
RegexMatchingTest(regex, html_a_tag)

Matched: https://movies.yahoo.com.tw/movietime_result.html/id=9467
  group(0): https://movies.yahoo.com.tw/movietime_result.html/id=9467
  group(1): https
  group(2): movies.yahoo
  group(3): com
  group(4): tw/movietime_result.html/id=9467
