# 文本和字节序列

> 人来使用文本，计算机使用字节序列  
> —— Esther Nam 和 Travis Fischer  "Character Encoding and Unicode in Python"

Python 3 明确区分了人类可读的文本字符串和原始的字节序列。  
隐式地把字节序列转换成 Unicode 文本（的行为）已成过去。

### 字符与编码
字符的标识，及**码位**，是 0~1114111 的数字，在 Unicode 标准中用 4-6 个十六进制数字表示，如 A 为 U+0041, 高音谱号为 U+1D11E，😂 为 U+1F602.  
字符的具体表述取决于所用的**编码**。编码时在码位与字节序列自减转换时使用的算法。  
把码位转换成字节序列的过程是**编码**，把字节序列转成码位的过程是**解码**。

### 序列类型
Python 内置了两种基本的二进制序列类型：不可变的 `bytes` 和可变的 `bytearray`

In [None]:
# 基本的编码
content = "São Paulo"
for codec in ["utf_8", "utf_16"]:
    print(codec, content.encode(codec))

# UnicodeEncodeError
try:
    content.encode('cp437')
except UnicodeEncodeError as e:
    print(e)

# 忽略无法编码的字符
print(content.encode('cp437', errors='ignore'))
# 把无法编码的字符替换成 ?
print(content.encode('cp437', errors='replace'))
# 把无法编码的字符替换成 xml 实体
print(content.encode('cp437', errors='xmlcharrefreplace'))

# 还可以自己设置错误处理方式
# https://docs.python.org/3/library/codecs.html#codecs.register_error

In [None]:
# 基本的解码
# 处理 UnicodeDecodeError
octets = b'Montr\xe9al'
print(octets.decode('cp1252'))
print(octets.decode('iso8859_7'))
print(octets.decode('koi8_r'))
try:
    print(octets.decode('utf-8'))
except UnicodeDecodeError as e:
    print(e)

# 将错误字符替换成 � (U+FFFD)
octets.decode('utf-8', errors='replace')

In [None]:
# Python3 可以使用非 ASCII 名称
São = 'Paulo'
# 但是不能用 Emoji…