# 正規表達式 Regular Expression

[正規表達式線上說明文件](https://docs.python.org/3.7/library/re.html)

[正規表達式wiki](https://zh.wikipedia.org/wiki/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F)

[正規表達式檢測工具](https://regexr.com/41vj9)

正規表達式非常適合用於尋找及搜尋特定字串，設定好的文字格式可以讓我們檢查特定字是否與給定的正規表達式配對。

正規表達式可以包含特殊字元和普通字元。

普通字元如：'A','a' or '0'是非常簡單而且普通的字元。

. 可以表示任何字元，除了換行以外。

^ 表示會出現在字串的開頭。

\$ 表示會出現在字串的結尾。

* 表示出現0次以上。

+ 表示出現1次以上。

? 表示出現0或1次。

*? +? ?? 通常 * + ? 都是以貪婪(greedy)演算法處理，永遠找出長度最長的符合表達式的字串，但是後面加上了?，就會變成不婪貪(non-greedy)的演算法，永遠找出長度最短符合表達式的字串。
    例如：.* 拿來檢視 abc，則abc都是被選擇出來。但如果是.*?就是只篩出最前面的a。

{m} 代表欲檢視的表達式出現6次，例如a{6}就是指連續出現6個a。

{m,n} 代表欲檢視的表達式出現m至n次，例如a{3,5}就是指連續出現3~5個a。
    a{4,}b 代表'aaaab' 或4個以上的'a'後面跟著一個'b',但不能是'aaab'.

{m,n}? 代表欲檢視的表達式出現m~n次，可是後面多了?號，則變成不貪婪的演算法。舉例而言：如果以字串'aaaaaa'而言，a{3,5}會找出'aaaaa'，但a{3,5}?就會找出'aaa'而已。

\ 跳脫字元，用來處理特殊字元之用，例如：'*','?'等等有特殊意義的字元但必須使用在表達式中，就要使用跳脫字元。

[] 用以處理一組字元：
    1.[amk]可以找出'a'或'm'或'k'。
    2.也可以使用'-'指定範圍，如[a-z],[0-9]。[0-5][0-9]可以用以找出00 to 59的二位數字，[0-9A-Fa-f]可以找出16進位數字表示法。
    3.特殊字元在[]內或失去特殊意義，如：[(+*)]可以找出'(', '+', '*', or ')'。
    4.'^'放在[]中的首字元可用於否定，如 [^5]可以配對除了'5'以外的任何字元。[^^]可以配對除了'^'以外的任何字元。'^'若未放在首字元則沒有任何意義。
    5.如果要匹配']'字元，請在前方加上反斜線或是直接放在首字。例如[()[\]{}]和[]()[{}]都可以找出所有的括號符號。
    
| 任一表達式，例如： A|B 就是找出'A'或'B'。而且它會從左到右去匹配，如果'A'已出現，則不會再尋找'B'。若要找出'|'字元，請使用反斜線 \| ，或放在[|]中。

\number 群組的序號

\A 字串的開頭字元。

\d 數字0~9

\D 非數字

\s 各種空白符號，包括換行符號\n

\S 非空白符號

\w 任意文字字元，包括數字。

\W 非文字字元，包括空白符號。

\Z 字串的結尾字元。    

In [10]:
# 載入正規表達式套件
import re
with open('livetream.sbv','r',encoding='utf8') as f: #開啟檔案，因為編碼的問題，所以要指定為utf8，才不會有鐘誤訊息
    for line in f.readlines():
        reg='\d{2}:\d{2}:\d{2}\.\d{3}'#將時間戳記找出來。
#         print(line) 
        result=re.findall(reg,line)
        if len(result)>0:
            print(result)

['00:01:27.257', '00:01:30.257']
['00:01:55.371', '00:01:58.371']
['00:02:23.949', '00:02:26.949']
['00:03:00.934', '00:03:03.934']
['00:04:04.381', '00:04:07.381']
['00:04:28.804', '00:04:31.804']
['00:04:47.529', '00:04:50.529']
['00:05:03.483', '00:05:06.483']
['00:05:17.880', '00:05:20.880']
['00:05:27.913', '00:05:30.913']
['00:05:35.404', '00:05:38.404']
['00:05:39.914', '00:05:42.914']
['00:05:43.004', '00:05:46.004']
['00:06:13.322', '00:06:16.322']
['00:06:16.422', '00:06:19.422']
['00:06:24.567', '00:06:27.567']
['00:06:26.973', '00:06:29.973']
['00:06:34.408', '00:06:37.408']
['00:06:37.644', '00:06:40.644']
['00:06:48.368', '00:06:51.368']
['00:06:50.511', '00:06:53.511']
['00:07:17.170', '00:07:20.170']
['00:07:21.075', '00:07:24.075']
['00:07:30.977', '00:07:33.977']
['00:07:36.206', '00:07:39.206']
['00:07:38.376', '00:07:41.376']
['00:07:49.024', '00:07:52.024']
['00:07:53.976', '00:07:56.976']
['00:08:00.613', '00:08:03.613']
['00:08:05.875', '00:08:08.875']
['00:08:09

In [11]:
# 載入正規表達式套件
import re
with open('livetream.sbv','r',encoding='utf8') as f: #開啟檔案，因為編碼的問題，所以要指定為utf8，才不會有鐘誤訊息
    for line in f.readlines():
        reg='ck108\d{4}\w{3}'#學號及姓名撈出來
#         print(line) 
        result=re.findall(reg,line)
        if len(result)>0:
            print(result)

['ck1080373徐啟皓']
['ck1080375張博翔']
['ck1080389鄭承瀚']
['ck1080369林若渝']
['ck1080364李秉杰']
['ck1080362吳懷恩']
['ck1080369林若渝']
['ck1080369林若渝']
['ck1080366周昕磊']
['ck1080369林若渝']
['ck1080360朱冠宇']
['ck1080383黃泫儒']
['ck1080373徐啟皓']
['ck1080390薛耀智']
['ck1080369林若渝']
['ck1080363李志桓']
['ck1080386廖宇軒']
['ck1080373徐啟皓']
['ck1080363李志桓']
['ck1080381游博安']
['ck1080363李志桓']
['ck1080363李志桓']
['ck1080357毛柏毅']
['ck1080371金漢霖']
['ck1080363李志桓']
['ck1080371金漢霖']
['ck1080377許竣閎']
['ck1080363李志桓']
['ck1080363李志桓']
['ck1080379陳勇任']
['ck1080373徐啟皓']
['ck1080363李志桓']
['ck1080363李志桓']
['ck1080371金漢霖']
['ck1080371金漢霖']
['ck1080371金漢霖']
['ck1080380陳禹廷']
['ck1080363李志桓']
['ck1080370武勁州']
['ck1080370武勁州']
['ck1080363李志桓']
['ck1080380陳禹廷']
['ck1080371金漢霖']
['ck1080363李志桓']
['ck1080370武勁州']
['ck1080380陳禹廷']
['ck1080390薛耀智']
['ck1080376梁方維']
['ck1080371金漢霖']
['ck1080370武勁州']
['ck1080377許竣閎']
['ck1080376梁方維']
['ck1080380陳禹廷']
['ck1080364李秉杰']
['ck1080357毛柏毅']
['ck1080376梁方維']
['ck1080390薛耀智']
['ck1080369林若渝']
['ck1080380陳禹廷

In [19]:
# 載入正規表達式套件
import re
names=[] #用來存放出現的姓名之用
with open('livetream.sbv','r',encoding='utf8') as f: #開啟檔案，因為編碼的問題，所以要指定為utf8，才不會有鐘誤訊息
    for line in f.readlines():
        reg='ck108\d{4}\w{3}'#學號及姓名撈出來
#         print(line) 
        result=re.findall(reg,line)
        if len(result)>0:
#             print(result)
            names+=result
    print(names)
    print(set(names)) #將重覆的人名去掉

['ck1080373徐啟皓', 'ck1080375張博翔', 'ck1080389鄭承瀚', 'ck1080369林若渝', 'ck1080364李秉杰', 'ck1080362吳懷恩', 'ck1080369林若渝', 'ck1080369林若渝', 'ck1080366周昕磊', 'ck1080369林若渝', 'ck1080360朱冠宇', 'ck1080383黃泫儒', 'ck1080373徐啟皓', 'ck1080390薛耀智', 'ck1080369林若渝', 'ck1080363李志桓', 'ck1080386廖宇軒', 'ck1080373徐啟皓', 'ck1080363李志桓', 'ck1080381游博安', 'ck1080363李志桓', 'ck1080363李志桓', 'ck1080357毛柏毅', 'ck1080371金漢霖', 'ck1080363李志桓', 'ck1080371金漢霖', 'ck1080377許竣閎', 'ck1080363李志桓', 'ck1080363李志桓', 'ck1080379陳勇任', 'ck1080373徐啟皓', 'ck1080363李志桓', 'ck1080363李志桓', 'ck1080371金漢霖', 'ck1080371金漢霖', 'ck1080371金漢霖', 'ck1080380陳禹廷', 'ck1080363李志桓', 'ck1080370武勁州', 'ck1080370武勁州', 'ck1080363李志桓', 'ck1080380陳禹廷', 'ck1080371金漢霖', 'ck1080363李志桓', 'ck1080370武勁州', 'ck1080380陳禹廷', 'ck1080390薛耀智', 'ck1080376梁方維', 'ck1080371金漢霖', 'ck1080370武勁州', 'ck1080377許竣閎', 'ck1080376梁方維', 'ck1080380陳禹廷', 'ck1080364李秉杰', 'ck1080357毛柏毅', 'ck1080376梁方維', 'ck1080390薛耀智', 'ck1080369林若渝', 'ck1080380陳禹廷', 'ck1080375張博翔', 'ck1080373徐啟皓', 'ck1080357毛柏毅', 'ck1080