# ASCII編碼

- ASCII編碼是最早的電腦系統編碼
- 包含大小寫字母、數字、英文標點符號、數學運算符號與控制符號等等
- 總共有128個字

## 模組string

**模組string提供ASCII字碼，相似功能的字元分在一起，如以下分類**

In [1]:
import string
print(f'ascii_letters為{string.ascii_letters}')
print('=' * 40)
print(f'ascii_lowercase為{string.ascii_lowercase}')
print('=' * 40)
print(f'ascii_uppercase為{string.ascii_uppercase}')
print('=' * 40)
print(f'digits為{string.digits}')
print('=' * 40)
print(f'hexdigits為{string.hexdigits}') # 16進位
print('=' * 40)
print(f'octdigits為{string.octdigits}') # 8進位
print('=' * 40)
print(f'punctuation(標點符號)為{string.punctuation}')
print('=' * 40)


# 最後6個空白字元只有space可以顯示，其餘無法顯示，所以使用函式encode，將ascii字元轉換成byte的16進位表示
# 最後5個空白字元轉換成 \t\n\r\x0b\x0c
print(f'printable.encode("ascii")為{string.printable.encode("ascii")}')
print('=' * 40)
print(f'whitespace.encode("ascii")為{string.whitespace.encode("ascii")}')

ascii_letters為abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
ascii_lowercase為abcdefghijklmnopqrstuvwxyz
ascii_uppercase為ABCDEFGHIJKLMNOPQRSTUVWXYZ
digits為0123456789
hexdigits為0123456789abcdefABCDEF
octdigits為01234567
punctuation(標點符號)為!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
printable.encode("ascii")為b'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'
whitespace.encode("ascii")為b' \t\n\r\x0b\x0c'


## 密碼隨機產生器

**隨機產生長度為8到12的密碼，密碼由大小寫英文字母與數字所組成**

In [2]:
import random
import string
chs = string.ascii_letters + string.digits
pwd = ''
for i in range(random.randint(8, 12)):
    pwd += random.choice(chs)
print(f'隨機產生的密碼為{pwd}')

隨機產生的密碼為NVzfGMDOQ1K


# Unicode編碼

- Unicode編碼整合全世界各個國家的文字編碼，讓Unicode編碼可以通行全世界，支援多語言環境
- 不用每個國家都自訂一種編碼，讓資訊系統可以更簡單進行文字編碼與儲存
- Python3的預設文字編碼為Unicode編碼

## Unicode字元的表示

**一個Unicode字元可以經由16進位編碼表示，也可以使用標準名稱表示，其中16進位編碼又可以分成4個16進位或8個16進位表示**
- 使用`\u`表示使用4個16進位表示
- 使用`\U`表示使用8個16進位表示
- 使用`\N`表示使用標準名稱

- 使用模組`unicodedata`中的函式`name`，將Unicode字元轉換成Unicode標準名稱
- 使用函式`lookup`將Unicode標準名稱轉換成Unicode字元

In [3]:
import unicodedata
def unicode_name(value):
    name = unicodedata.name(value)
    print(f'value = {value}, name = {name}')
    return name
def unicode_lookup(name):
    value = unicodedata.lookup(name)
    print(f'name = {name}, value = {value}')
    return value

name = unicode_name('我')
value = unicode_lookup(name)
print('=' * 50)

name = unicode_name('\u6211')
value = unicode_lookup(name)
print('=' * 50)

name = unicode_name('\U00006211')
value = unicode_lookup(name)
print('=' * 50)

name = unicode_name('\N{CJK UNIFIED IDEOGRAPH-6211}')
value = unicode_lookup(name)

value = 我, name = CJK UNIFIED IDEOGRAPH-6211
name = CJK UNIFIED IDEOGRAPH-6211, value = 我
value = 我, name = CJK UNIFIED IDEOGRAPH-6211
name = CJK UNIFIED IDEOGRAPH-6211, value = 我
value = 我, name = CJK UNIFIED IDEOGRAPH-6211
name = CJK UNIFIED IDEOGRAPH-6211, value = 我
value = 我, name = CJK UNIFIED IDEOGRAPH-6211
name = CJK UNIFIED IDEOGRAPH-6211, value = 我


## 編碼與解碼

### 編碼(encode)

- 將字串轉換成位元組(byte)稱作`編碼(encode)`
- 將已編碼的位元組(byte)還原回原來的字串稱作`解碼(decode)`
- 目前最常使用的是UTF-8編碼，由Unicode編碼轉換而來，讓每個Unicode字元由1到4個位元組表示
- ASCII使用1個位元組表示
- 拉丁文、希臘文、阿拉伯文等使用2個位元組表示
- 大部分的中文使用3個位元組表示
- 古義大利字母(Old ltalic)、日文假名補充(Kana Supplement)、音樂符號(Musical Symbols)等使用4個位元組表示

**Python提供函式`encode`可以將字串根據指定的編碼轉換成16進位表示，1個位元組(byte)可以使用2個16進位表示**

**函式`encode`所支援的常見編碼，如下表**

- `字串.encode('ascii')`: 7位元的ASCII
- `字串.encode('utf-8')`: 將Unicode編碼轉換成可變長度的編碼，以1到4個位元組表示一個Unicode字元
- `字串.encode('unicode-escape')`: 將Unicode編碼使用`\u`與`\U`表示
- `字串.encode('latin-1')`: 也就是ISO 8859-1，以ascii為基礎，支援使用於歐洲的語言
- 任何字串加上`.encode('unicode-escape')`就可以轉換成Unicode編碼

In [4]:
# 找出`我`的Unicode編碼
print('我'.encode('unicode-escape'))

b'\\u6211'


### 解碼(decode)

- Python提供函式`decode`可以將16進位表示的位元組解碼回原來的字串，也需指定解碼代碼
- 解碼代碼與編碼代碼要相同
- 編碼時指定的編碼代碼，解碼時也要使用相同的代碼進行解碼

In [5]:
# 將 我 進行Unicode編碼與解碼
byte = '我'.encode('unicode-escape')
s = byte.decode('unicode-escape')
print(byte, s)

b'\\u6211' 我


- 將`我`使用utf-8進行編碼結果為`\xe6\x88\x91`
- 使用函式len測量字串`我`的長度會發現長度為1
- 使用utf-8進行編碼後為`\xe6\x88\x91`，長度為3
- 編碼後字串長度以byte計算，所以長度變長

In [6]:
# 使用函式len計算字串長度
print(len('我'))
byte = '我'.encode('utf-8')
print(byte, len(byte))

1
b'\xe6\x88\x91' 3


In [7]:
print('我'.encode('unicode-escape'))
print('=' * 40)
def utf8(data):
    data_byte = data.encode('utf-8')
    data2 = data_byte.decode('utf-8')
    print(f'將{data}經由utf-8編碼後為{data_byte}')
    print(f'將{data_byte}經由utf-8解碼後為{data2}')
    print(f'{data}的長度為{len(data)}')
    print(f'{data_byte}的長度為{len(data_byte)}')
    
utf8('我')
print('=' * 40)
utf8('\u6211')

b'\\u6211'
將我經由utf-8編碼後為b'\xe6\x88\x91'
將b'\xe6\x88\x91'經由utf-8解碼後為我
我的長度為1
b'\xe6\x88\x91'的長度為3
將我經由utf-8編碼後為b'\xe6\x88\x91'
將b'\xe6\x88\x91'經由utf-8解碼後為我
我的長度為1
b'\xe6\x88\x91'的長度為3


# 正規表示式(regular expression)

- 使用正規表示式找尋特定字串是否存在
- 找尋符合條件的字串，進行字串取代
- 正規表示式常用於字串的分析與擷取
- Python提供正規表示式的功能，需要匯入模組`re`

**模組`re`提供的重要函式如下**

- match(pattern, string): 找出string的開頭是否符合pattern格式，若找不到回傳None，若找到則回傳match物件
- search(pattern, string): 找出string中第一個符合pattern格式的字串，若找不到回傳None，若找到則回傳match物件
- findall(pattern, string): 找出string中所有符合pattern格式的字串，回傳串列(list)
- split(pattern, string): 將string使用pattern格式進行分割，最後回傳串列
- sub(pattern, repl, string): 將string中符合pattern格式的字串以字串repl取代，最後回傳取代後的字串

- 搜尋符合pattern格式的字串，pattern格式可以使用`.`表示任何字元
- 使用`*`串接在字元後面，表示該字元任何數量都符合
- 所以使用`.*`表示任何字串都符合，而且越長越好

In [8]:
# 使用 .*黃鶴 找尋符合條件的最長字串

import re
s = '昔人已乘黃鶴去，此地空餘黃鶴樓。'
ans = re.match('.*黃鶴', s)
if ans:
    print(ans.group())
else:
    print('找不到開頭是「.*黃鶴」')

昔人已乘黃鶴去，此地空餘黃鶴


In [9]:
import re
s = '昔人已乘黃鶴去，此地空餘黃鶴樓。\
黃鶴一去不復返，白雲千載空悠悠。'
print(s)
print('=' * 40)

ans = re.match('昔人', s)
if ans:
    print(ans.group())
    print('=' * 40)
else:
    print(f'找不到開頭是 昔人')

ans = re.match('黃鶴', s)
if ans:
    print(ans.group())
    print('=' * 40)
else:
    print('找不到開頭是 黃鶴')
    print('=' * 40)

ans = re.match('.*黃鶴', s)
if ans:
    print(ans.group())
    print('=' * 40)
else:
    print('找不到開頭是 .*黃鶴')

ans = re.search('黃鶴', s)
if ans:
    print(ans.group())
    print('=' * 40)
else:
    print('找不到 黃鶴')

ans = re.findall('黃鶴', s)
if ans:
    print(ans)
    print('=' * 40)
else:
    print('找不到 黃鶴')

ans = re.split('，', s)
print(ans)
print('=' * 40)

ans = re.sub('。', ';', s)
print(ans)

昔人已乘黃鶴去，此地空餘黃鶴樓。黃鶴一去不復返，白雲千載空悠悠。
昔人
找不到開頭是 黃鶴
昔人已乘黃鶴去，此地空餘黃鶴樓。黃鶴
黃鶴
['黃鶴', '黃鶴', '黃鶴']
['昔人已乘黃鶴去', '此地空餘黃鶴樓。黃鶴一去不復返', '白雲千載空悠悠。']
昔人已乘黃鶴去，此地空餘黃鶴樓;黃鶴一去不復返，白雲千載空悠悠;


## 正規表示式的關鍵字

**正規表示式定義了一些關鍵字，這些關鍵字對字元進行分類，是否為數字，是否為單字，是否為空白字符等。**

- `\d`: 匹配一個數字
- `\D`: 匹配一個非數字
- `\s`: 匹配一個空白字符
- `\S`: 匹配一個非空白字符
- `\w`: 匹配一個英文、數字或底線字元，也可以匹配一個中文字元
- `\W`: 匹配不是一個英文、數字或底線字元，也可以匹配一個中文的標點符號
- `\b`: 匹配`\w`與`\W`的邊界
- `\B`: 匹配不在`\w`與`\W`的邊界

**`\b`有另外一種解釋為backspace，若要指定為正規表示式的匹配`\w`與`\W`的邊界，需在前面加上`r`，變成`r\b`確定一定是正規表示式的匹配`\w`與`\W`的邊界，而非backspace**

In [10]:
import string
import re
pr = string.printable

print(re.findall('\d', pr))
print('=' * 80)

print(re.findall('\D', pr))
print('=' * 80)

print(re.findall('\s', pr))
print('=' * 80)

print(re.findall('\S', pr))
print('=' * 80)

print(re.findall('\w', pr))
print('=' * 80)

print(re.findall('\W', pr))
print('=' * 80)

print(re.findall(r'\b', 'abcd'))
print('=' * 80)

print(re.findall('\B', 'abcd'))

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']
['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', ':', ';', '<', '=', '>', '?', '@', '[', '\\', ']', '^', '_', '`', '{', '|', '}', '~', ' ', '\t', '\n', '\r', '\x0b', '\x0c']
[' ', '\t', '\n', '\r', '\x0b', '\x0c']
['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', ':', ';', '<', '=', '>', '?', '@', '[', '\\', ']', '^', '_', '

**正規表示式定義了另一些關鍵字，這些關鍵字表示出現的位置、出現的次數與有哪些字元符合條件等。**

- `^`: 位置在開頭
- `$`: 位置在結尾
- `.`: 配對除了Enter(\n)以外的字元
- `x|y`: 配對x或y
- `[xy]`: 配對x或y，x與y可以以任何字元取代，可以不只兩個字元，例如:[xyz]表示x、y或z
- `[^xy]`: 不是x且不是y，x與y可以以任何字元取代，可以不只兩個字元
- `x*`: 配對零個或多個x，越多越好，x可以以任何字元取代
- `x*?`: 配對零個或多個x，越少越好，x可以以任何字元取代
- `x+`: 配對1個或多個x，越多越好，x可以以任何字元取代
- `[0-9]+`: 配對1個或多個的0到9的數字，越多越好
- `[A-Za-z]`: 配對1個或多個的大小寫字母，越多越好
- `x+?`: 配對1個或多個x，越少越好，x可以以任何字元取代
- `x{a}`: 配對連續a個x，x可以以任何字元取代
- `x{a, b}`: 配對連續a到b個x，越多越好，x可以以任何字元取代
- `x{a, b}?`: 配對連續a到b個x，越少越好，x可以以任何字元取代
- `left(?=right)`: 配對left，若後面有right
- `left(?!right)`: 配對left，若後面沒有right
- `(?<=left)right`: 配對right，若right之前有left
- `(?<!left)right`: 配對right，若right之前沒有left

In [11]:
import re
s = '昔人已乘黃鶴去，此地空餘黃鶴樓。\
黃鶴一去不復返，白雲千載空悠悠。'
print(s)
print('=' * 40)

ans = re.findall('^昔人', s)
print(ans)
print('=' * 40)

ans = re.findall('空悠悠。$', s)
print(ans)
print('=' * 40)

ans = re.findall('[黃白]', s)
print(ans)
print('=' * 40)

ans = re.findall('\W', s)
print(ans)
print('=' * 40)

ans = re.findall('黃鶴樓\W', s)
print(ans)
print('=' * 40)

ans = re.findall('黃鶴.\W', s)
print(ans)
print('=' * 40)

ans = re.findall('[^黃鶴]', s)
print(ans)

昔人已乘黃鶴去，此地空餘黃鶴樓。黃鶴一去不復返，白雲千載空悠悠。
['昔人']
['空悠悠。']
['黃', '黃', '黃', '白']
['，', '。', '，', '。']
['黃鶴樓。']
['黃鶴去，', '黃鶴樓。']
['昔', '人', '已', '乘', '去', '，', '此', '地', '空', '餘', '樓', '。', '一', '去', '不', '復', '返', '，', '白', '雲', '千', '載', '空', '悠', '悠', '。']


In [12]:
# 進階正規表示式程式

import re
s = '昔人已乘黃鶴去，此地空餘黃鶴樓。\
黃鶴一去不復返，白雲千載空悠悠。'
print(s)
print('=' * 40)

ans = re.findall('[一去]?', s)
print(f'[一去]? {ans}')
print('=' * 40)

ans = re.findall('[一去]*', s)
print(f'[一去]* {ans}')
print('=' * 40)

ans = re.findall('[一去]*?', s)
print(f'[一去]*? {ans}')
print('=' * 40)

ans = re.findall('[黃鶴樓]+', s)
print(f'[黃鶴樓]+ {ans}')
print('=' * 40)

ans = re.findall('[黃鶴樓]+?', s)
print(f'[黃鶴樓]+? {ans}')
print('=' * 40)

ans = re.findall('[黃鶴樓]{2}', s)
print('[黃鶴樓]{2}', ans)
print('=' * 40)

ans = re.findall('[黃鶴樓]{1,2}', s)
print('[黃鶴樓]{1,2}', ans)
print('=' * 40)

ans = re.findall('[黃鶴樓]{1,2}?', s)
print('[黃鶴樓]{1,2}?', ans)
print('=' * 40)

ans = re.findall('黃鶴(?=樓)', s)
print(f'黃鶴(?=樓) {ans}')
print('=' * 40)

ans = re.findall('黃鶴(?!樓)', s)
print(f'黃鶴(?!樓) {ans}')
print('=' * 40)

ans = re.findall('(?<=黃鶴)樓', s)
print(f'(?<=黃鶴)樓 {ans}')
print('=' * 40)

ans = re.findall('(?<!黃鶴)樓', s)
print(f'(?<!黃鶴)樓 {ans}')

昔人已乘黃鶴去，此地空餘黃鶴樓。黃鶴一去不復返，白雲千載空悠悠。
[一去]? ['', '', '', '', '', '', '去', '', '', '', '', '', '', '', '', '', '', '', '一', '去', '', '', '', '', '', '', '', '', '', '', '', '', '']
[一去]* ['', '', '', '', '', '', '去', '', '', '', '', '', '', '', '', '', '', '', '一去', '', '', '', '', '', '', '', '', '', '', '', '', '']
[一去]*? ['', '', '', '', '', '', '', '去', '', '', '', '', '', '', '', '', '', '', '', '', '一', '', '去', '', '', '', '', '', '', '', '', '', '', '', '', '']
[黃鶴樓]+ ['黃鶴', '黃鶴樓', '黃鶴']
[黃鶴樓]+? ['黃', '鶴', '黃', '鶴', '樓', '黃', '鶴']
[黃鶴樓]{2} ['黃鶴', '黃鶴', '黃鶴']
[黃鶴樓]{1,2} ['黃鶴', '黃鶴', '樓', '黃鶴']
[黃鶴樓]{1,2}? ['黃', '鶴', '黃', '鶴', '樓', '黃', '鶴']
黃鶴(?=樓) ['黃鶴']
黃鶴(?!樓) ['黃鶴', '黃鶴']
(?<=黃鶴)樓 ['樓']
(?<!黃鶴)樓 []


In [13]:
# 查詢Unicode字元

import unicodedata
def unicode_name(value):
    name = unicodedata.name(value)
    return name

ch = '\u7a0b'
print(ch)
print(unicode_name(ch))
print(ch.encode(encoding = 'utf-8'))

程
CJK UNIFIED IDEOGRAPH-7A0B
b'\xe7\xa8\x8b'


In [14]:
# 配對整數與浮點數

import re
s = '123  ab 123.456 1d2.df -456'
nums = re.findall('-?\d+\.?\d+', s)
print(nums)

['123', '123.456', '-456']


In [15]:
# 配對英文單字

import re
s = 'The best fish swim near the bottom.'
words = re.findall('[A-Za-z]+', s)
print(words)

['The', 'best', 'fish', 'swim', 'near', 'the', 'bottom']


In [16]:
# 配對中文句子與英文單字

import re
s = '英文諺語「The best fish swim near the bottom.」，中文意思為「好酒沉甕底」。'
words = re.findall('\w+', s)
print(words)

['英文諺語', 'The', 'best', 'fish', 'swim', 'near', 'the', 'bottom', '中文意思為', '好酒沉甕底']


In [17]:
# 配對身份證字號
# 身份證字號由大小寫字母，接著數字1或數字2，最後串接8個數字

import re
s = 'B342232223 Z123456789 Z1234543'
id_card = re.findall('[A-Z][12][0-9]{8}', s)
print(id_card)

['Z123456789']


In [18]:
# 配對電話
# 假設電話由4個數字，串接 - ，串接3個數字，串接 - ，串接3個數字組成

import re
s = '1234-567-789 123-444-555 1234-55-5555'
phone_number = re.findall('\d{4}-\d{3}-\d{3}', s)
print(phone_number)

['1234-567-789']


In [19]:
# 配對電子郵件
# 電子郵件帳號由英文字母與數字組成，串接 @ ，串接英文、數字與字元「.」

import re
s = 'asss@ aaa@xxx.go ase2ss.xxx.go'
email = re.findall('[a-zA-Z0-9]+@[a-zA-Z0-9\.]+', s)
print(email)

['aaa@xxx.go']
