# Python 正則表達 RegEx

用於匹配文本、字符

## 導入模塊

In [1]:
import re

## 簡單 Python 匹配

In [2]:
# matching string
pattern1 = "cat"
pattern2 = "bird"
string = "dog runs to cat"
print(pattern1 in string)    
print(pattern2 in string)    

True
False


## 用正則尋找配對

In [3]:
# regular expression
pattern1 = "cat"
pattern2 = "bird"
string = "dog runs to cat"
print(re.search(pattern1, string))  
print(re.search(pattern2, string)) 

<re.Match object; span=(12, 15), match='cat'>
None


## 匹配多種可能 使用 []

將可能出現的情況放到 [ ] 中

In [4]:
# multiple patterns ("run" or "ran")
ptn = r"r[au]n"       
print(re.search(ptn, "dog runs to cat"))    

<_sre.SRE_Match object; span=(4, 7), match='run'>


## 匹配更多種可能

當可能情況有非常多種時，可以使用 `-`

In [6]:
# continue
print(re.search(r"r[A-Z]n", "dog runs to cat"))     
print(re.search(r"r[a-z]n", "dog runs to cat"))     
print(re.search(r"r[0-9]n", "dog r2ns to cat"))     
print(re.search(r"r[0-9a-z]n", "dog runs to cat"))  

None
<_sre.SRE_Match object; span=(4, 7), match='run'>
<_sre.SRE_Match object; span=(4, 7), match='r2n'>
<_sre.SRE_Match object; span=(4, 7), match='run'>


## 特殊種類匹配

### 數字

In [8]:
# \d : decimal digit
print(re.search(r"r\dn", "run r4n"))                
# \D : any non-decimal digit
print(re.search(r"r\Dn", "run r4n"))                

<re.Match object; span=(4, 7), match='r4n'>
<re.Match object; span=(0, 3), match='run'>


### 空白

所有空白符：
 - \t：horizontal tab
 - \n：new line
 - \r：carriage return (windows)
 - \v：vertical tab

In [7]:
# \s : any white space [\t\n\r\f\v]
print(re.search(r"r\sn", "r\nn r4n"))               
# \S : opposite to \s, any non-white space
print(re.search(r"r\Sn", "r\nn r4n"))               

<re.Match object; span=(0, 3), match='r\nn'>
<re.Match object; span=(4, 7), match='r4n'>


### 所有字母數字和"_"

In [9]:
# \w : [a-zA-Z0-9_]
print(re.search(r"r\wn", "r\nn r4n"))               
# \W : opposite to \w
print(re.search(r"r\Wn", "r\nn r4n"))               


<_sre.SRE_Match object; span=(4, 7), match='r4n'>
<_sre.SRE_Match object; span=(0, 3), match='r\nn'>


### 空白字符

比對英文字的邊界，如「空格」

In [65]:
# \b : empty string (only at the start or end of the word)
print(re.search(r"\bruns\b", "dog runs to cat"))    
# \B : empty string (but not at the start or end of a word)
print(re.search(r"\B runs \B", "dog  runs  to cat"))  

<re.Match object; span=(4, 8), match='runs'>
<re.Match object; span=(4, 10), match=' runs '>


### 特殊字符 任意字符

In [11]:
# \\ : match \
print(re.search(r"runs\\", "runs\ to me"))          
# . : match anything (except \n)
print(re.search(r"r.n", "r[ns to me"))              

<_sre.SRE_Match object; span=(0, 5), match='runs\\'>
<_sre.SRE_Match object; span=(0, 3), match='r[n'>


### 是否

In [13]:
# ? : may or may not occur
print(re.search(r"Mon(day)?", "Monday"))            
print(re.search(r"Mon(day)?", "Mon"))               

<_sre.SRE_Match object; span=(0, 6), match='Monday'>
<_sre.SRE_Match object; span=(0, 3), match='Mon'>


### 句尾句首

In [12]:
# ^ : match line beginning
print(re.search(r"^dog", "dog runs to cat"))        
# $ : match line ending
print(re.search(r"cat$", "dog runs to cat"))       

<_sre.SRE_Match object; span=(0, 3), match='dog'>
<_sre.SRE_Match object; span=(12, 15), match='cat'>


## 多行匹配

In [14]:
# multi-line
string = """
dog runs to cat.
I run to dog.
"""
print(re.search(r"^I", string))                     
print(re.search(r"^I", string, flags=re.M)) 

None
<_sre.SRE_Match object; span=(18, 19), match='I'>


## 0或多次

In [15]:
# * : occur 0 or more times
print(re.search(r"ab*", "a"))                       
print(re.search(r"ab*", "abbbbb"))                  


<_sre.SRE_Match object; span=(0, 1), match='a'>
<_sre.SRE_Match object; span=(0, 6), match='abbbbb'>


## 1或多次

In [16]:
# + : occur 1 or more times
print(re.search(r"ab+", "a"))                       
print(re.search(r"ab+", "abbbbb"))                  


None
<_sre.SRE_Match object; span=(0, 6), match='abbbbb'>


## 可選次數

知道字符出現的次數範圍

In [17]:
# {n, m} : occur n to m times
print(re.search(r"ab{2,10}", "a"))                  
print(re.search(r"ab{2,10}", "abbbbb"))             


None
<_sre.SRE_Match object; span=(0, 6), match='abbbbb'>


## group 组

In [18]:
# group
match = re.search(r"(\d+), Date: (.+)", "ID: 021523, Date: Feb/12/2017")
print(match.group())                                
print(match.group(1))                               
print(match.group(2))                               

021523, Date: Feb/12/2017
021523
Feb/12/2017


給 group 自己的 id：`?P<name>`

In [71]:
match = re.search(r"(?P<id>\d+), Date: (?P<date>.+)", "ID: 021523, Date: Feb/12/2017")
print(match.group('id'))                            
print(match.group('date'))                          

021523
Feb/12/2017


## 尋找所有匹配 

In [20]:
# findall
print(re.findall(r"r[ua]n", "run ran ren"))         

['run', 'ran']


In [21]:
# | : or
print(re.findall(r"(run|ran)", "run ran ren"))      

['run', 'ran']


## 替换

匹配內容進行轉換

In [22]:
# re.sub()：replace
print(re.sub(r"r[au]ns", "catches", "dog runs to cat"))     

dog catches to cat


## 分裂

In [23]:
# re.split()
print(re.split(r"[,;\.]", "a;b,c.d;e"))             


['a', 'b', 'c', 'd', 'e']


## compile

In [24]:
# compile
compiled_re = re.compile(r"r[ua]n") #先定義匹配形式
print(compiled_re.search("dog ran to cat"))     

<_sre.SRE_Match object; span=(4, 7), match='ran'>


## Example

抓出地號

In [76]:
txt = """桃園市8德區中華段40地號
彰化縣花壇鄉花壇段1418-0000地號
臺中市南屯區埔興段35-12地號
桃園市蘆竹區內興段32地號
桃園市楊梅區大金山下段月眉山下小段1地號
"""

### 處理判決書資料

In [79]:
import pickle

infile = open('securities_fraud_data.pkl','rb')
new_dict = pickle.load(infile)

In [82]:
txt = new_dict[1]['content']
print(txt)

最高法院刑事判決　　　　　　　　　 108年度台上字第4056號
　　　　　　　　　　　　　　　　　 109年度台上字第1719號
上　訴　人　臺灣高等檢察署檢察官黃騰耀
上　訴　人　
（被　告）　王宗立
選任辯護人　張簡勵如律師
　　　　　　林宗憲律師
上　訴　人　王安石（原名王宗貞）
（被　告）　　　　
原審辯護人　王寶蒞律師
上　訴　人　
（被　告）　劉玉增
選任辯護人　丁中原律師
　　　　　　林俊吉律師
被　　　告　楊善博（原名楊偉祥）
　　　　　　林憶慧（原名林月桂）
選任辯護人　王福民律師
上列上訴人等因被告等違反證券交易法等罪案件，不服臺灣高等
法院中華民國108年8月1日第二審判決（106年度金上重訴字第11
號、106 年度上訴字第1052號，起訴案號：臺灣臺北地方檢察署
90年度偵字第21111、23982 號，91年度偵字第9844、10256、25
181號，92年度偵字第1501、20496、24888號，93年度偵字第500
、10184、10344、13340號，94年度偵字第840、841、842、7661
、14564 號；追加起訴案號：105年度蒞追字第4號），提起上訴
（王安石部分由其原審辯護人代為提起上訴），本院判決如下：
    主  文
原判決關於王宗立犯其附表一㈠編號一、四部分；王安石犯其附
表一㈡編號一部分；及劉玉增有罪部分，均撤銷，發回臺灣高等
法院。
其他上訴駁回。
    理  由
壹、撤銷發回部分
一、本件原判決認定上訴人即被告王宗立有其事實欄（下稱事實
    欄）一、二㈠至㈢如其附表（下稱附表）一㈠編號一及事實
    欄六如附表一㈠編號四犯行；上訴人即被告王安石有事實欄
    一、二㈡如附表一㈡編號一犯行；上訴人即被告劉玉增有事
    實欄二㈡犯行，因而撤銷第一審對其等3 人關於此部分之科
    刑判決，經比較新舊法規定後，改判就王宗立附表一㈠編號
    一依修正前刑法想像競合犯規定從一重論處王宗立如附表一
    ㈠編號一所示修正前證券交易法第179條、第171條第1項第1
    款共同犯法人行為負責人詐偽出售有價證券罪刑、就附表一
    ㈠編號四依集合犯論處王宗立如附表一㈠編號四所示修正前
    銀行法第125條第1項前段、第3 項法人行為負責人，犯銀行
    法第125條第1項前段之

33 筆

In [88]:
reg = re.findall(r'\d.+元', txt)
reg

['995 元',
 '2,800 元',
 '12萬8,800 元',
 '1萬元',
 '3萬元，如未使用可要求公司以85折買回，即2萬5, 500元',
 '6萬8,800元，如每月繳交3,880元',
 '1萬元',
 '600元（含入會費19 萬7600元及後續保證金共20萬元',
 '198萬6,000元',
 '12萬9,044 元',
 '3萬5924元及後續保證金共9萬3120元',
 '610元（含入會費128,800元+一次繳交之保證金234,810元',
 '2年後，每年可獲得25,500元（旅遊券30,000元',
 '98,800元',
 '10,000元',
 '10份合計988,000元',
 '10元',
 '36,800元，夏工傑購買1份計36,800 元',
 '3,880 元',
 '0元，而非契約書所載之98,800 元',
 '3人犯罪所得共2,309萬5,995 元',
 '1單位劉玉增可分得5,000元',
 '98萬元（附表三共售出196 單位x5,000元',
 '98萬元',
 '2,052萬4,515 元（計算式：2,309萬5,995元-98萬元',
 '1,480元＝2,052萬4,515 元',
 '1,026萬2,257元',
 '604萬5,200元',
 '482 萬元',
 '251萬2,644元（計算式：39萬7,600元+198萬6,000元',
 '12萬9,044元=251萬2,644 元',
 '98萬元',
 '100 萬元']

In [91]:
def convert_text_to_number(content:str):
     return convert_num_list(re.findall("(共.*元|[0-9]+.*元)",content))
    
def convert_num_list(sentence:list):
    result,temp = [],[]
    
    digit_dict = {
    '餘' : '',
    '十' : '0+',
    '百' : '00+',
    '佰' : '00+',
    '千' : '000+',
    '仟' : '000+',
    '萬' : '0000+',
    '億' : '00000000+',
    '兆' : '000000000000+'
    }
    
    for words in sentence:
        for word in words.strip():
            if word == '元':
                temp[-1] = temp[-1][:-1] if temp[-1][-1] == '+' else temp[-1]
                result.append(eval(''.join(temp)))
                temp = []
            elif word.isdigit():# or word == '.':
                temp.append(word)
            elif word in digit_dict.keys():
                temp.append(digit_dict[word])
    return result

In [92]:
convert_text_to_number(txt)

[995,
 2800,
 128800,
 10000,
 30000,
 8525500,
 68800,
 3880,
 10000,
 600,
 197600,
 200000,
 1986000,
 129044,
 35924,
 93120,
 610,
 128800,
 234810,
 225500,
 30000,
 98800,
 10000,
 10988000,
 10,
 36800,
 136800,
 3880,
 0,
 98800,
 323095995,
 15000,
 980000,
 1965000,
 980000,
 20524515,
 23095995,
 980000,
 1480,
 20524515,
 10262257,
 6045200,
 4820000,
 2512644,
 397600,
 1986000,
 129044,
 2512644,
 980000,
 1000000]