# 作業目標: 利用正規表達式達到預期配對
本次作業將以互動式網站[Regex101](https://regex101.com/)來做練習，請將所需配對文本複製貼上到Regex101的**TEST STRING**區塊來做練習

In [1]:
import re

### HW1: 電話號碼配對

抓出在電話號碼的所在地區以及號碼

```
ex: 02-33334444 --> 配對02, 33334444
```


**所需配對文本:**
```
02-27208889
04-2220-3585
(06)-2991111
(07)799-5678
```

**應配對出的結果為**
```
02, 27208889
04, 22203585
06, 2991111
07, 7995678
```

In [2]:
tel = ['02-27208889', '04-2220-3585', '(06)-2991111', '(07)799-5678']
regex = re.compile('^[0]\d|(?<=\()[0]\d|\d{3,4}-*\d{4}')                 # 判斷區域號碼 : 0開頭加一個數字 或是 
                                                                         # 在 '(' 後面的 0加一個數字
                                                                         # 判斷非區域號碼 : (三到四個數字) 串 (0或1個 '-')
for t in tel:                                                            # 串 (四個數字)
    result = regex.findall(t)
    for item in result:
        if '-' in item:
            print(item.replace('-', ''))                                 # 再把非區域數字中的 '-' 去除掉
        else:
            if result.index(item) == 1:
                print(item)
            else:
                print(item, end=', ')


02, 27208889
04, 22203585
06, 2991111
07, 7995678


### HW2: 身分證字號配對
請配對出找出桃園(H), 台南(D), 嘉義(Q)中為男生的身分證字號(數字為1開頭)

**所需配對文本:**
```
A121040176
L186856359
Z127598010
I114537095
D279884447
L186834359
D243736345
I114537095
Q146110887
D187217314
I114537095
Q243556025
Z127598010
H250077453
Q188367037
```

**應配對出的結果為**
```
Q146110887
D187217314
Q188367037
```

In [3]:
ID = ['A121040176', 'L186856359', 'Z127598010', 'I114537095', 'D279884447', 'L186834359', 'D243736345'
      'I114537095', 'Q146110887', 'D187217314', 'I114537095', 'Q243556025', 'Z127598010', 'H250077453', 'Q188367037']

regex_id = re.compile('[HDQ]1\d{8}')                             # 第一個字母是 H, D, Q, 第一個數字是 1

for i in ID:
    result = regex_id.findall(i)
    if len(result)!= 0:
        print(i)

Q146110887
D187217314
Q188367037


### HW3: 電子郵件配對
請抓出非gmail的電子郵件

**所需配對文本:**
```
foobar@gmail.com
NoOneCareMe@gmail.com
SaveTheWorld@hotmail.com
zzzGroup@yahoo.com
eagle1963@gmail.com
maythefourthwithyiu@starwars.com
```

**應配對出的結果為**
```
SaveTheWorld@hotmail.com
zzzGroup@yahoo.com
maythefourthwithyiu@starwars.com
```


In [4]:
mail_list = ['foobar@gmail.com', 'NoOneCareMe@gmail.com', 'SaveTheWorld@hotmail.com', 'zzzGroup@yahoo.com', 
             'eagle1963@gmail.com', 'maythefourthwithyiu@starwars.com']

regex_mail = re.compile('\w+@(?!gmail).+')              # 滿足後面接 gmail 的 @ 即不配對 (Negative Lookahead)
                                                        # 另外再配對 @ 的前後
for adrs in mail_list:
    result = regex_mail.findall(adrs)
    if len(result) != 0:
        print(adrs)
    


SaveTheWorld@hotmail.com
zzzGroup@yahoo.com
maythefourthwithyiu@starwars.com


### HW4: HTML格式配對

請抓出<TAG>當中的Tag就好，裡面的屬性請排除。

```
ex: <p class='test'> --> 抓出 p
```

**所需配對文本:**
```
<h1>This is a header 1</h1>
<a>This is a hyperlink</a>
<div class='test'>This is a text block</div>
<a href="https://regexisfun.com.tw/">Learning Regular Expression</a>
```

**應配對出的結果為**
```
h1
a
div
a
```

In [5]:
html = ['<h1>This is a header 1</h1>', '<a>This is a hyperlink</a>', '<div class="test">This is a text block</div>', 
        '<a href="https://regexisfun.com.tw/">Learning Regular Expression</a>']

regex_tag = re.compile('(?<=\<)\w+')

for h in html:
    result = regex_tag.findall(h)
    if len(result) != 0:
        for i in result:
            print(i)

h1
a
div
a


### HW5: 特定檔案名稱與格式配對

在所有檔案中，抓出屬於 gif 或 jpg 的檔名。


**所需配對文本:**
```
.bash_profile
workShop.ai
file_folderName_num.jpg
favicon.png
IMG_002.png
IMG_003.gif
qoo.jpg.tmp
index.html
foobar.bmp
foobar.jpg
account.html
access.lock
```

**應配對出的結果為**
```
IMG_003.gif
file_folderName_num.jpg
foobar.jpg
```

In [6]:
file = ['.bash_profile', 'workShop.ai', 'file_folderName_num.jpg', 'favicon.png', 'IMG_002.png', 'IMG_003.gif',
        'qoo.jpg.tmp', 'index.html', 'foobar.bmp', 'foobar.jpg', 'account.html', 'access.lock']

regex_format = re.compile('\w+\.gif$|\w+\.jpg$')              # gif 或 jpg 結尾

for f in file:
    result = regex_format.findall(f)
    if len(result) != 0:
        print(f)

file_folderName_num.jpg
IMG_003.gif
foobar.jpg


### HW6: URL配對

請抓出 Url 中的協定方式, 網址, 與埠

```
ex: Https://localhost:4200/ --> 抓取 Https, localhost, 4200
```

**所需配對文本:**
```
ftp://file_server.com:21/account/customers.xml
https://hengxiuxu.blogspot.tw/
file://localhost:4200
https://s3cur3-server.com:9999/
```

**應配對出的結果為**
```
ftp, file_server, 21
https, hengxiuxu.blogspot.tw
file, localhost, 4200
https, s3cur3-server.com, 9999
```

In [7]:
url = ['ftp://file_server.com:21/account/customers.xml', 'https://hengxiuxu.blogspot.tw/', 
       'file://localhost:4200', 'https://s3cur3-server.com:9999/']

regex_url = re.compile('\w+(?=:\/\/)|(?<=:\/\/)[^:\/]+|(?<=:)\d+')  # https => :// 前面的字母 (Positive Lookahead)
                                                                    # localhost => :// 後面的字直到 : 或 / (Positive Lookbehind)
                                                                    # 4200 => : 後面的數字 (Positive Lookbehind)

for u in url:
    result = regex_url.findall(u)
    if result != 0:
        for a in result:
            if result[-1] != a:
                print(a, end=', ')
            else:
                print(a)

ftp, file_server.com, 21
https, hengxiuxu.blogspot.tw
file, localhost, 4200
https, s3cur3-server.com, 9999
