# 政府資料開放平台 Open Data http://data.gov.tw/

# 電腦的基本儲存單位是 位元組(byte)，可以在8個位元(bit)，儲存256各不同的值

# ASCII 只使用7個位元(128個不同的值)：26個大寫字母、26個小寫字母、10個數字、一些標點符號、一些空白字元、及一些非輸出用的控制碼

# 使用8個位元包括 Latin-1 或 ISO-8859-1、Windows代碼頁1252

# Unicode (http://www.unicode.org/)
# 為每一個字元提供唯一的名稱和識別號碼
# 最新版(10.0)總共定義 136,690個字元，預計 June 2017 釋出。

# Python 3 Unicode 字串

unicodedata模組有以下函式，可以做 Unicode ID 或 字元名稱 的雙向轉換：

lookup( ): 接受一個不分大小寫的名稱，回傳一個 unicode 字元

name( ): 接受一個 Unicode 字元，回傳一個大寫名稱 

In [1]:
def unicode_test(value):
    import unicodedata
    name = unicodedata.name(value)
    value2 = unicodedata.lookup(name)
    print("Unicode 字元(原輸入引數)：", value, "\nUnicode 名稱：", name, "\nUnicode 字元(反查後)：", value2, "\n")

In [2]:
unicode_test("A")

Unicode 字元(原輸入引數)： A 
Unicode 名稱： LATIN CAPITAL LETTER A 
Unicode 字元(反查後)： A 



In [3]:
unicode_test("$")

Unicode 字元(原輸入引數)： $ 
Unicode 名稱： DOLLAR SIGN 
Unicode 字元(反查後)： $ 



Unicode字元：\u後面加上四個16進位數字， 前兩個plane號碼(00至FF)，後面兩個是那一個字元在該plane內的索引

Unicode Code Charts (http://unicode.org/charts/) 目前定義字元集與圖像連結

In [4]:
unicode_test("\u00a2") # plane 00 是舊的ASCII

Unicode 字元(原輸入引數)： ¢ 
Unicode 名稱： CENT SIGN 
Unicode 字元(反查後)： ¢ 



In [5]:
unicode_test("\u20ac") # plane 20

Unicode 字元(原輸入引數)： € 
Unicode 名稱： EURO SIGN 
Unicode 字元(反查後)： € 



In [6]:
unicode_test("\u2603") # plane 26

Unicode 字元(原輸入引數)： ☃ 
Unicode 名稱： SNOWMAN 
Unicode 字元(反查後)： ☃ 



In [7]:
unicode_test("\u00e9")

Unicode 字元(原輸入引數)： é 
Unicode 名稱： LATIN SMALL LETTER E WITH ACUTE 
Unicode 字元(反查後)： é 



In [8]:
"caf\u00e9" # \u00e9

'café'

In [9]:
a = "caf\N{LATIN SMALL LETTER E WITH ACUTE}" # 所有字元都可以用\N{ name }來指定標準名稱
print(a)

café


In [10]:
len(a) # len函式計算unicdoe字元的數目，而不是byte是數目

4

# UTF-8 動態編碼格式，讓每個 Unicode字元 使用一至四個位元

ASCII一個byte

大部分的拉丁衍生語兩個byte(但不包含Cyrillic)

其餘的基本多語種plane三個byte

剩下的四個byte，包括一些亞洲語言與符號

# UTF-8 是 Python、Linux 與 HTML 的標準文字編碼
# 它是最快速、完整、且可良好運作的格式

# 編碼：一種將 字元字串 轉成 byte 的方式

# encode( )字串函式的第一個引數是編碼名稱

"ascii" 標準的七位元 ASCII

"utf-8" 八位元可變長度編碼

"latin-1" 也稱為 ISO 8859-1

"cp-1252" 一般的Windows編碼

"cp950" 繁體中文Big5編碼

"unicode-escape" Python Unicode 常值格式， \uxxxx 或 \Uxxxxxxxx

In [11]:
snowman = "\u2603"
print(snowman)
len(snowman)

☃


1

In [12]:
snowman_utf8 = snowman.encode("utf-8")
print(snowman_utf8)
len(snowman_utf8)

b'\xe2\x98\x83'


3

In [13]:
snowman.encode("cp950")

UnicodeEncodeError: 'cp950' codec can't encode character '\u2603' in position 0: illegal multibyte sequence

# encode( )字串函式的第二個引數是來幫助避免編碼例外

"strict" 預設值。如果看到非編碼字元的話，就會發出 UnicodeEncodeError 

"ignore" 丟棄任何無法編碼的東西

"replace" 將未知字元換成？

"backslashreplace" 來產生Python Unicode 字元字串，像 unicode-escape 一樣。

# 解碼：一種將 byte 轉成 字元字串 的方式
# 最困難的部分是暸解用的是哪一種編碼，才可以反推回去

In [14]:
snowman = "\u2603"
print(snowman)
type(snowman)

☃


str

In [15]:
snowman_utf8 = snowman.encode("utf-8")
print(snowman_utf8)
type(snowman_utf8)

b'\xe2\x98\x83'


bytes

In [16]:
snowman_str = snowman_utf8.decode("utf-8")
print(snowman_str)
type(snowman_str)

☃


str