In [23]:
import unicodedata

def unicode_test(value):
    # 用 unicodedata.name() 來取得 unicode 的名稱。
    name = unicodedata.name(value)
    
    # 用 unicodedata.lookup() 根據名稱來取得 unicode 的值。
    value2 = unicodedata.lookup(name)
    print(f"value={value}, name={name}, value2={value2}")

In [2]:
# 你可以用 unicode 來表示，也可以直接把他的符號貼上來。
unicode_test("A")
unicode_test("\u0041")
unicode_test("¢")
unicode_test("\u00a2")
unicode_test("我")
unicode_test("\u6211")

value=A, name=LATIN CAPITAL LETTER A, value2=A
value=A, name=LATIN CAPITAL LETTER A, value2=A
value=¢, name=CENT SIGN, value2=¢
value=¢, name=CENT SIGN, value2=¢
value=我, name=CJK UNIFIED IDEOGRAPH-6211, value2=我
value=我, name=CJK UNIFIED IDEOGRAPH-6211, value2=我


In [3]:
# 如果要用到第一輔助平面以後的 unicode，就要用大寫的 U 來表示。
unicode_test("\U0001f600")
unicode_test("😀")

value=😀, name=GRINNING FACE, value2=😀
value=😀, name=GRINNING FACE, value2=😀


In [4]:
# 可以直接用 unicode 來表示字串。
words = "\u6211\u597d\u68d2"
print(words)

我好棒


In [8]:
# len()數的有多少個unicode字元，而不是 byte 數。
print(len(words))

3


In [13]:
# 可以用 chr() 來取得 unicode 的字元。
print(chr(0x1f600))

# 可以用 ord() 來取得 unicode 的編碼。
print(ord("😀"))

😀
128512


In [22]:
# 用 unicodedata.name() 來取得 unicode 的名稱。
word_name = unicodedata.name("\u00e9")
print(word_name)

# 用 unicodedata.lookup() 來取得 unicode 的字元。
word = unicodedata.lookup("LATIN SMALL LETTER E WITH ACUTE")
print(word)

LATIN SMALL LETTER E WITH ACUTE
é


In [64]:
# UTF-8 : 用 1~4 個 byte 來表示 unicode。原因: 讓愈常用的 unicode 用愈少的 byte 來表示，節省空間。

# 用 encode() 來編碼。
# h
word = "\u0068"
print(word)

encoded_word = word.encode("utf-8")
print(encoded_word)
print(len(encoded_word))

# ☃
snowman = "\u2603"
print(snowman)

encoded_snowman = snowman.encode("utf-8")
print(encoded_snowman)
print(len(encoded_snowman))

# 😀
emoji = "😀"
print(emoji)

encoded_emoji = emoji.encode("utf-8")
print(encoded_emoji)
print(len(encoded_emoji))

h
b'h'
1
☃
b'\xe2\x98\x83'
3
😀
b'\xf0\x9f\x98\x80'
4


In [51]:
# ☃ 沒有辦法用 ascii 來表示，所以會出錯。
word = "☃"
encoded_word = word.encode("ascii")
print(encoded_word)

UnicodeEncodeError: 'ascii' codec can't encode character '\u2603' in position 0: ordinal not in range(128)

In [55]:
# 用 errors="ignore" 來把無法用 ascii 來表示的字元忽略。
word = "☃"
encoded_word = word.encode("ascii", errors="ignore")
print(encoded_word)

b''


In [56]:
# 用 errors="replace" 來把無法用 ascii 來表示的字元用 ? 來表示。
word = "☃"
encoded_word = word.encode("ascii", errors="replace")
print(encoded_word)

b'?'


In [60]:
# 用 errors="backslashreplace" 來把無法用 ascii 來表示的字元用 \uXXXX 來表示。
word = "☃"
encoded_word = word.encode("ascii", errors="backslashreplace")
print(encoded_word)

b'\\u2603'


In [61]:
# 用 errors="xmlcharrefreplace" 將無法用 ascii 來表示的字元用 &#XXXX; 來表示。
word = "☃"
encoded_word = word.encode("ascii", errors="xmlcharrefreplace")
print(encoded_word)

b'&#9731;'


In [80]:
# 用 decode() 來解碼。
# café (以 utf-8 編碼、解碼)
word = "caf\u00e9"
print(word)

encoded_word = word.encode("utf-8")
print(encoded_word)

decoded_word = encoded_word.decode("utf-8")
print(decoded_word)

café
b'caf\xc3\xa9'
café


In [81]:
# café (以 utf-8 編碼，以 asciii 解碼)
word = "caf\u00e9"
print(word)

encoded_word = word.encode("utf-8")
print(encoded_word)

decoded_word = encoded_word.decode("ascii")
print(decoded_word)

# 因為 é 無法用 ascii 來表示，所以會出錯。

café
b'caf\xc3\xa9'


UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 3: ordinal not in range(128)

In [None]:
# 開啟檔案時，可以指定編碼方式。
with open("cafe.txt", "w", encoding="utf-8") as f:
    f.write("café")

In [94]:
# HTML 實體 : 適合用來在 HTML 文件中表示 unicode 字元。
# 用 & 開頭，以 ; 結尾。
import html
html_code = html.escape("This HTML fragment contains a <script>script</script> tag. <p>Goodbye!</p>")
print(html_code)

# 可以使用字典的方式來指定要轉換的字元。
from html.entities import html5
print(html5["egrave"])

# 如果要反向轉換處理字元，需要先用 ord() 來取得 unicode 的編碼，再用 chr() 來取得 unicode 的字元。
char = "\u00e9"
print(char)

code = ord(char)
print(code)

print(html.entities.codepoint2name[code])

# 處理多個字元時，直接用 encode() 來編碼，再用 decode() 來解碼。
words = "caf\u00e9"
encoded_words = words.encode("ascii", errors="xmlcharrefreplace")
print(encoded_words)

decoded_words = encoded_words.decode()
print(decoded_words)

This HTML fragment contains a &lt;script&gt;script&lt;/script&gt; tag. &lt;p&gt;Goodbye!&lt;/p&gt;
è
é
233
eacute
b'caf&#233;'
caf&#233;


In [127]:
# 某些 unicode 字元可以用組合的方式來表示，超搞...，請小心處理。
word = "e"
symbol = "\u0301"
combined_word = word+symbol
print(combined_word)

true_word = "\u00e9"
print(true_word)

# 看起來都一樣，但是長度不一樣！實際上用　== 來檢查，或是用 utf-8 來編碼，都會發現是不一樣的。
print(len(combined_word))
print(len(true_word))
print(combined_word == true_word)
print(combined_word.encode("utf-8"))
print(true_word.encode("utf-8"))

# 為了避免這種問題，可以用 unicodedata.normalize() 來處理。
import unicodedata
combined_normalized = unicodedata.normalize("NFC", combined_word)
print(combined_normalized == true_word)
print(unicodedata.name(combined_normalized))


é
é
2
1
False
b'e\xcc\x81'
b'\xc3\xa9'
True
LATIN SMALL LETTER E WITH ACUTE
