In [1]:
%%html
<!-- 表格置中 -->
<style>table {float:left}</style>

## 常見的字元分類
| 分類符號 |                      規則含義                      |          符合的例子          |
|:--------:|:--------------------------------------------------|:----------------------------|
|    \d    | 從0到9的數字                                       | 123                          |
|    \w    | 任何的字母、數字及底線符號_                        | yes123_或YES123_             |
|    \s    | 空白字元，包括空格、定位符號空格(tab)、換行符號    | 空白鍵、tab鍵、CRLF(windows) *附註|
|    \D    | \d規則以外的字元。即除了數字以外的字元             | abc或ABC                     |
|    \W    | \w規則以外的字元。即除了數字、字母、底線以外的字元 | ，或 -                       |
|    \S    | \s規則以外的字元。即除了\d空白字元以外的字元       | 123或yes123_或，             |

* CR是carriage return的意思，也就是\r
* LF是line feed的意思，也就是\n

### 時間格式處理

In [2]:
import re
# 本例有9個日期格式
txt = '1.董事會、股東會決議或公司決定日期:壹零捌/柒/拾伍 \
       2.除權、息類別（請填入「除權」、「除息」或「除權息」）:除權息 \
       3.發放股利種類及金額: (1)普通股現金股利新台幣13,644,048,010元及股票股利2,728,809,600元。 (2)特別股股息新台幣350,000,000元。 \
       4.除權（息）交易日:109/08/12 \
       5.最後過戶日:109/08/13 \
       6.停止過戶起始日期:109/08/14 \
       7.停止過戶截止日期:109/08/18 \
       8.除權（息）基準日:109/08/18 \
       9.其他應敘明事項: (1)現金股利發放日：109/09/16 \
                        (2)107年度第一次海外無擔保可轉換公司債停止轉換期間：109/07/24至109/08/18。'

In [3]:
x = re.findall("\d\d\d/\d\d/\d\d", txt)
x

['109/08/12',
 '109/08/13',
 '109/08/14',
 '109/08/18',
 '109/08/18',
 '109/09/16',
 '109/07/24',
 '109/08/18']

|||  
|-|-|  
| \d | 從0到9的數字 |

In [4]:
x = re.findall("\d+/\d+/\d+", txt)
x

['109/08/12',
 '109/08/13',
 '109/08/14',
 '109/08/18',
 '109/08/18',
 '109/09/16',
 '109/07/24',
 '109/08/18']

|||  
|-|-|  
|\+ |比對符合1次或多次|

In [5]:
x = re.findall(".{3}\d+/\d+/\d+", txt)
x

['易日:109/08/12',
 '戶日:109/08/13',
 '日期:109/08/14',
 '日期:109/08/18',
 '準日:109/08/18',
 '放日：109/09/16',
 '期間：109/07/24',
 '至109/08/18']

|||  
|-|-|  
|. |比對任何字元|
|{3}| 3個. 比對任何字元|

In [6]:
x = re.findall(".{3}\w+/\w+/\w{2}?", txt)
x

['日期:壹零捌/柒/拾伍',
 '易日:109/08/12',
 '戶日:109/08/13',
 '日期:109/08/14',
 '日期:109/08/18',
 '準日:109/08/18',
 '放日：109/09/16',
 '期間：109/07/24',
 '至109/08/18']

|||  
|-|-|  
|\w | 任何的字母、數字及底線符號_|  
|  |已被採用的字元，後續比對不會再使用到該字元|  
| ? |比對符合0次或1次。比對最少的就停止|  

## 具有特殊功能的符號
| 符號 |                                               功能                                               |
|:----:|:------------------------------------------------------------------------------------------------|
|   .  | 比對任何字元，但是換行符號除外。                                                                 |
|  \|  | 可以比對多個規則，第一個符合為比對結果。                                                         |
|   ?  | 比對符合0次或1次。或者代表節儉的比對，比對最少的就停止。 .*? 比對到符合的就停止，不貪婪。        |
|   *  | 比對符合0次或多次，或者代表貪婪的比對，盡可能比對最多。 .*  代表比對所有字元，貪婪的一直找下去。 |
|   +  | 比對符合1次或多次。                                                                              |
|  [ ] | 自訂比對格式。如為除外的比對，左側中括號加上^。 [^123]，表示比對沒有123以外的字元。              |
|  { } | 指定比對的次數。 {3}代表三次，{3,5}代表三到五次，逗號前後可以擇一省略。                          |
|  ( ) | 將規則分組。   |
|   ^  | 比對開頭符合規則的字串。在[]中代表除外，位置必須緊接在[之後。|
|  \$  | 比對結尾符合規則的字串。 同時使用，^與$符號，代表模式要一模一樣。|

### 字元格式處理

In [7]:
words = '9.其他應敘明事項: (1)現金股利發放日：109/09/16'
x = re.findall("\(\d\)現金股利.*?(\w+/\w+/\w+)", words)
x

['109/09/16']

|||  
|-|-|  
| \\( | 括弧在正規表示式中式有意義的，要使其無效，使用\使特殊字元回復為一般字元|
| \.  |  比對任何字元|
| .\* | 比對符合0次或多次|
|\w |任何的字母、數字及底線符號_|
|\w+|所有字元並比對符合1次或多次。|
|/|時間的分隔符號|
|(\w+/\w+/\w+)|將規則分組或指定顯示區塊|

In [8]:
words = '9.其他應敘明事項: (1)現金股利發放日：109/09/16'
x = re.findall("\d\..*現金股利.*?(\w+/\w+/\w+)", words)
x

['109/09/16']

|||
|-|-|
|\d|0到9的數字|
|\\. | 正規表示式中式有意義的，要使其無效，使用\使特殊字元回復為一般字元|
| \.  |  比對任何字元|
| .\* | 比對符合0次或多次|
| .\*? | 比對符合0次或多次，比對最少的就停止|
|\w |任何的字母、數字及底線符號_|
|\w+|所有字元並比對符合1次或多次。|
|/|時間的分隔符號|
|(\w+/\w+/\w+)|將規則分組或指定顯示區塊|

## 使用sub()方法取代指定的字串

In [9]:
import re
nameRegex = re.compile(r'prize - \w+')
result = nameRegex.sub('HIDE', 'first prize - Phoebe, second prize - Vivi, third prize - Ming')
print(result)

first HIDE, second HIDE, third HIDE


|||
|-|-|
|\w+|表示-後的所有字元，皆以HIDE字串取代|

In [10]:
nameRegex = re.compile(r'prize - (\w)\w+')
result = nameRegex.sub(r'\1***', 'first prize - Phoebe, second prize - Vivi, third prize - Ming')
print(result)

first P***, second V***, third M***


|||
|-|-|
|\1|表示re.search(...).group(1)，與()配合使用| 