Python 3 明确区分了人类可读的文本字符串和原始的字节序列。 隐式地
把字节序列转换成 Unicode 文本已成过去。 本章将要讨论 Unicode 字符
串、 二进制序列， 以及在二者之间转换时使用的编码

“字符串”是个相当简单的概念： 一个字符串是一个字符序列。 问题出
在“字符”的定义上。
在 2015 年， “字符”的最佳定义是 Unicode 字符。 因此， 从 Python 3 的
str 对象中获取的元素是 Unicode 字符， 这相当于从 Python 2 的
unicode 对象中获取的元素， 而不是从 Python 2 的 str 对象中获取的原
始字节序列。    
Unicode 标准把字符的标识和具体的字节表述进行了如下的明确区分。    
字符的标识， 即码位， 是 0~1 114 111 的数字（十进制） ， 在
Unicode 标准中以 4~6 个十六进制数字表示， 而且加前缀“U+”。 例
如， 字母 A 的码位是 U+0041， 欧元符号的码位是 U+20AC， 高音
谱号的码位是 U+1D11E。 在 Unicode 6.3 中（这是 Python 3.4 使用的
标准） ， 约 10% 的有效码位有对应的字符。     
字符的具体表述取决于所用的编码。 编码是在码位和字节序列之间
转换时使用的算法。 在 UTF-8 编码中， A（U+0041） 的码位编码成
单个字节 \x41， 而在 UTF-16LE 编码中编码成两个字节
\x41\x00。 再举个例子， 欧元符号（U+20AC） 在 UTF-8 编码中是
三个字节——\xe2\x82\xac， 而在 UTF-16LE 中编码成两个字
节： \xac\x20。  
把码位转换成字节序列的过程是编码； 把字节序列转换成码位的过程是
解码。

In [4]:
s = 'café'
print(len(s))
#使用 UTF-8 把 str 对象编码成 bytes 对象。(即把字符编码为字节)
b = s.encode('utf8')
print(b)

print(len(b) )

4
b'caf\xc3\xa9'
5


bytes 字面量以 b 开头。字节序列 b 有 5 个字节（在 UTF-8 中， “é”的码位编码成两个字
节） 。

In [6]:
#使用 UTF-8 把 bytes 对象解码成 str 对象。(即把字节解码为字符)
b.decode('utf8')

'café'

如果想帮助自己记住 .decode() 和 .encode() 的区别， 可
以把字节序列想成晦涩难懂的机器磁芯转储， 把 Unicode 字符串想
成“人类可读”的文本。 那么， 把字节序列变成人类可读的文本字符
串就是解码， 而把字符串变成用于存储或传输的字节序列就是编
码。

新的二进制序列类型在很多方面与 Python 2 的 str 类型不同。 首先要知
道， Python 内置了两种基本的二进制序列类型： Python 3 引入的不可变
bytes 类型和 Python 2.6 添加的可变 bytearray 类型。 （Python 2.6 也
引入了 bytes 类型， 但那只不过是 str 类型的别名， 与 Python 3 的
bytes 类型不同。 ）   
bytes 或 bytearray 对象的各个元素是介于 0~255（含） 之间的整
数， 而不像 Python 2 的 str 对象那样是单个的字符。 然而， 二进制序列
的切片始终是同一类型的二进制序列， 包括长度为 1 的切片， 如示例 4-
2 所示。

In [7]:
cafe = bytes('café', encoding='utf_8')
cafe

b'caf\xc3\xa9'

In [8]:
#❷ 各个元素是 range(256) 内的整数。

cafe[0]

99

In [13]:
type(cafe[0])

int

In [9]:
#❸ bytes 对象的切片还是 bytes 对象， 即使是只有一个字节的切片。
cafe[:1]

b'c'

In [14]:
type(cafe[:1])

bytes

In [10]:
cafe_arr = bytearray(cafe)
cafe_arr

bytearray(b'caf\xc3\xa9')

bytearray 对象没有字面量句法， 而是以 bytearray() 和字节序列
字面量参数的形式显示。

In [11]:
cafe_arr[-1:]

bytearray(b'\xa9')

bytearray 对象的切片还是 bytearray 对象

In [12]:
cafe_arr[-1]

169

my_bytes[0] 获取的是一个整数， 而 my_bytes[:1] 返回的
是一个长度为 1 的 bytes 对象——这一点应该不会让人意
外。 s[0] == s[:1] 只对 str 这个序列类型成立。 不过， str 类
型的这个行为十分罕见。 对其他各个序列类型来说， s[i] 返回一
个元素， 而 s[i:i+1] 返回一个相同类型的序列， 里面是 s[i] 元
素

In [15]:
print(type(cafe[0]))
print(type(cafe[:1]))

<class 'int'>
<class 'bytes'>


虽然二进制序列其实是整数序列， 但是它们的字面量表示法表明其中有
ASCII 文本。 因此， 各个字节的值可能会使用下列三种不同的方式显
示。
可打印的 ASCII 范围内的字节（从空格到 ~） ， 使用 ASCII 字符本
身。
制表符、 换行符、 回车符和 \ 对应的字节， 使用转义序列
\t、 \n、 \r 和 \\。
其他字节的值， 使用十六进制转义序列（例如， \x00 是空字
节） 。
因此， 在示例 4-2 中， 我们看到的是 b'caf\xc3\xa9'： 前 3 个字节
b'caf' 在可打印的 ASCII 范围内， 后两个字节则不然

除了格式化方法（format 和 format_map） 和几个处理 Unicode 数据的
方法（包括
casefold、 isdecimal、 isidentifier、 isnumeric、 isprintable
和 encode） 之外，      
str 类型的其他方法都支持 bytes 和 bytearray 类
型。 这意味着， 我们可以使用熟悉的字符串方法处理二进制序列， 如
endswith、 replace、 strip、 translate、 upper 等， 只有少数几个
其他方法的参数是 bytes 对象， 而不是 str 对象。 此外， 如果正则表
达式编译自二进制序列而不是字符串， re 模块中的正则表达式函数也
能处理二进制序列。 Python 3.0~3.4 不能使用 % 运算符处理二进制序
列， 但是根据“PEP 461—Adding % formatting to bytes and
bytearray”（https://www.python.org/dev/peps/pep-0461/） ， Python 3.5 应该
会支持

二进制序列有个类方法是 str 没有的， 名为 fromhex， 它的作用是解
析十六进制数字对（数字对之间的空格是可选的） ， 构建二进制序列：

In [16]:
bytes.fromhex('31 4B CE A9')

b'1K\xce\xa9'

In [18]:
#使用数组中的原始数据初始化 bytes 对象
import array
numbers = array.array('h', [-2, -1, 0, 1, 2])
print(numbers)
octets = bytes(numbers)
octets

array('h', [-2, -1, 0, 1, 2])


b'\xfe\xff\xff\xff\x00\x00\x01\x00\x02\x00'

➊ 指定类型代码 h， 创建一个短整数（16 位） 数组。  
➋ octets 保存组成 numbers 的字节序列的副本。  
➌ 这些是表示那 5 个短整数的 10 个字节。

使用缓冲类对象创建 bytes 或 bytearray 对象时， 始终复制源对象中
的字节序列。 与之相反， memoryview 对象允许在二进制数据结构之间
共享内存。 如果想从二进制序列中提取结构化信息， struct 模块是重
要的工具。 下一节会使用这个模块处理 bytes 和 memoryview 对象。

### 结构体和内存视图  
struct 模块提供了一些函数， 把打包的字节序列转换成不同类型字段
组成的元组， 还有一些函数用于执行反向转换， 把元组转换成打包的字
节序列。 struct 模块能处理 bytes、 bytearray 和 memoryview 对
象。  
memoryview 类不是用于创建或存储字节序列的， 而
是共享内存， 让你访问其他二进制序列、 打包的数组和缓冲中的数据切
片， 而无需复制字节序列， 例如 Python Imaging Library（PIL） 就是这
样处理图像的。

In [None]:
#使用 memoryview 和 struct 查看一个 GIF 图像的首部
import struct
>>> fmt = '<3s3sHH' # ➊
>>> with open('filter.gif', 'rb') as fp:
... img = memoryview(fp.read()) # ➋
...
>>> header = img[:10] # ➌
>>> bytes(header) # ➍
b'GIF89a+\x02\xe6\x00'
>>> struct.unpack(fmt, header) # ➎
(b'GIF', b'89a', 555, 230)
>>> del header # ➏
>>> del img

❶ 结构体的格式： < 是小字节序， 3s3s 是两个 3 字节序列， HH 是两个
16 位二进制整数。
❷ 使用内存中的文件内容创建一个 memoryview 对象……   
❸ ……然后使用它的切片再创建一个 memoryview 对象； 这里不会复
制字节序列。    
❹ 转换成字节序列， 这只是为了显示； 这里复制了 10 字节。  
❺ 拆包 memoryview 对象， 得到一个元组， 包含类型、 版本、 宽度和
高度。   
❻ 删除引用， 释放 memoryview 实例所占的内存。  
注意， memoryview 对象的切片是一个新 memoryview 对象， 而且不会
复制字节序列。 [ 本书的技术审校之一 Leonardo Rochael 指出， 如果使
用 mmap 模块把图像打开为内存映射文件， 那么会复制少量字节。 本书
不会讨论 mmap， 如果你经常读取和修改二进制文件， 可以阅读“mmap
—Memory-mapped file
support”（https://docs.python.org/3/library/mmap.html） 来进一步学习。 ]
本书不会深入介绍 memoryview 和 struct 模块， 如果要处理二进制数
据， 可以阅读它们的文档： “Built-in Types » Memory
Views”（https://docs.python.org/3/library/stdtypes.html#memory-views）
和“struct—Interpret bytes as packed binary
data”（https://docs.python.org/3/library/struct.html）

### 基本的编解码器
Python 自带了超过 100 种编解码器（codec, encoder/decoder） ， 用于在
文本和字节之间相互转换。 每个编解码器都有一个名称， 如 'utf_8'，
而且经常有几个别名， 如 'utf8'、 'utf-8' 和 'U8'。 这些名称可以传
给 open()、 str.encode()、 bytes.decode() 等函数的 encoding 参
数。 示例 4-5 使用 3 个编解码器把相同的文本编码成不同的字节序列。

In [19]:
for codec in ['latin_1', 'utf_8', 'utf_16']:
    print(codec, 'El Niño'.encode(codec), sep='\t')

latin_1	b'El Ni\xf1o'
utf_8	b'El Ni\xc3\xb1o'
utf_16	b'\xff\xfeE\x00l\x00 \x00N\x00i\x00\xf1\x00o\x00'


### 处理UnicodeEncodeError
多数非 UTF 编解码器只能处理 Unicode 字符的一小部分子集。 把文本转
换成字节序列时， 如果目标编码中没有定义某个字符， 那就会抛出
UnicodeEncodeError 异常， 除非把 errors 参数传给编码方法或函
数， 对错误进行特殊处理。

In [20]:
city = 'São Paulo'
city.encode('utf_8')

b'S\xc3\xa3o Paulo'

In [21]:
city.encode('iso8859_1')

b'S\xe3o Paulo'

In [22]:
city.encode('cp437') 

UnicodeEncodeError: 'charmap' codec can't encode character '\xe3' in position 1: character maps to <undefined>

In [23]:
#error='ignore' 处理方式悄无声息地跳过无法编码的字符； 这样做通常很是不妥。
city.encode('cp437', errors='ignore')

b'So Paulo'

In [24]:
#编码时指定 error='replace'， 把无法编码的字符替换成 '?'； 数据损坏了， 但是用户知道出了问题。
city.encode('cp437', errors='replace')

b'S?o Paulo'

In [26]:
#❻ 'xmlcharrefreplace' 把无法编码的字符替换成 XML实体。

city.encode('cp437', errors='xmlcharrefreplace')

b'S&#227;o Paulo'

### 处理UnicodeDecodeError      
不是每一个字节都包含有效的 ASCII 字符， 也不是每一个字符序列都是
有效的 UTF-8 或 UTF-16。 因此， 把二进制序列转换成文本时， 如果假
设是这两个编码中的一个， 遇到无法转换的字节序列时会抛出
UnicodeDecodeError。
另一方面， 很多陈旧的 8 位编码——如 'cp1252'、 'iso8859_1' 和
'koi8_r'——能解码任何字节序列流而不抛出错误， 例如随机噪声。
因此， 如果程序使用错误的 8 位编码， 解码过程悄无声息， 而得到的是无用输出。


In [27]:
octets = b'Montr\xe9al'
octets.decode('cp1252')

'Montréal'

In [28]:
octets.decode('utf_8')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 5: invalid continuation byte

In [29]:
octets.decode('utf_8', errors='replace')

'Montr�al'

使用 'replace' 错误处理方式， \xe9 替换成了“ ”（码位是U+FFFD） ， 这是官方指定的 REPLACEMENT CHARACTER（替换字
符） ， 表示未知字符。

### 如何找出字节序列的编码
如何找出字节序列的编码？ 简单来说， 不能。 必须有人告诉你。
有些通信协议和文件格式， 如 HTTP 和 XML， 包含明确指明内容编码
的首部。 可以肯定的是， 某些字节流不是 ASCII， 因为其中包含大于
127 的字节值， 而且制定 UTF-8 和 UTF-16 的方式也限制了可用的字节
序列。 不过即便如此， 我们也不能根据特定的位模式来 100% 确定二进
制文件的编码是 ASCII 或 UTF-8。
然而， 就像人类语言也有规则和限制一样， 只要假定字节流是人类可读
的纯文本， 就可能通过试探和分析找出编码。 例如， 如果 b'\x00' 字
节经常出现， 那么可能是 16 位或 32 位编码， 而不是 8 位编码方案， 因
为纯文本中不能包含空字符； 如果字节序列 b'\x20\x00' 经常出现，
那么可能是 UTF-16LE 编码中的空格字符（U+0020） ， 而不是鲜为人知
的 U+2000 EN QUAD 字符——谁知道这是什么呢！
统一字符编码侦测包 Chardet（https://pypi.python.org/pypi/chardet） 就是
这样工作的， 它能识别所支持的 30 种编码。 Chardet 是一个 Python 库，
可以在程序中使用， 不过它也提供了命令行工具 chardetect。

### BOM： 有用的鬼符

In [30]:
u16 = 'El Niño'.encode('utf_16')
u16

b'\xff\xfeE\x00l\x00 \x00N\x00i\x00\xf1\x00o\x00'

 b'\xff\xfe'。 这是 BOM， 即字节序标记（byte-order
mark） ， 指明编码时使用 Intel CPU 的小字节序。

UTF-8 的一大优势是， 不管设备使用哪种字节
序， 生成的字节序列始终一致， 因此不需要 BOM。 尽管如此， 某些
Windows 应用（尤其是 Notepad） 依然会在 UTF-8 编码的文件中添加
BOM； 而且， Excel 会根据有没有 BOM 确定文件是不是 UTF-8 编码，
否则， 它假设内容使用 Windows 代码页（codepage） 编码。 UTF-8 编码
的 U+FEFF 字符是一个三字节序列： b'\xef\xbb\xbf'。 因此， 如果文
件以这三个字节开头， 有可能是带有 BOM 的 UTF-8 文件。 然而，
Python 不会因为文件以 b'\xef\xbb\xbf' 开头就自动假定它是 UTF-8
编码的。

### 为了正确比较而规范化Unicode字符串    
因为
Unicode 有组合字符（变音符号和附加到前一个字符上的记号， 打
印时作为一个整体） ， 所以字符串比较起来很复杂。
例如， “café”这个词可以使用两种方式构成， 分别有 4 个和 5 个码位，
但是结果完全一样

In [31]:
s1 = 'café'
s2 = 'cafe\u0301'
s1, s2

('café', 'café')

In [32]:
s1 == s2

False

In [33]:
len(s1), len(s2)

(4, 5)

U+0301 是 COMBINING ACUTE ACCENT， 加在“e”后面得到“é”。 在
Unicode 标准中， 'é' 和 'e\u0301' 这样的序列叫“标准等价
物”（canonical equivalent） ， 应用程序应该把它们视作相同的字符。 但
是， Python 看到的是不同的码位序列， 因此判定二者不相等

这个问题的解决方案是使用 unicodedata.normalize 函数提供的
Unicode 规范化。 这个函数的第一个参数是这 4 个字符串中的一
个： 'NFC'、 'NFD'、 'NFKC' 和 'NFKD'。 下面先说明前两个

NFC（Normalization Form C） 使用最少的码位构成等价的字符串， 而
NFD 把组合字符分解成基字符和单独的组合字符。 这两种规范化方式都
能让比较行为符合预期：

In [34]:
from unicodedata import normalize
len(normalize('NFC', s1)), len(normalize('NFC', s2))

(4, 4)

In [35]:
len(normalize('NFD', s1)), len(normalize('NFD', s2))

(5, 5)

In [36]:
normalize('NFC', s1) == normalize('NFC', s2)

True

In [37]:
normalize('NFD', s1) == normalize('NFD', s2)

True

西方键盘通常能输出组合字符， 因此用户输入的文本默认是 NFC 形
式。 不过， 安全起见， 保存文本之前， 最好使用 normalize('NFC',
user_text) 清洗字符串。 NFC 也是 W3C 的“Character Model for the
World Wide Web: String Matching and Searching”规范
（https://www.w3.org/TR/charmod-norm/） 推荐的规范化形式。      
使用 NFC 时， 有些单字符会被规范成另一个单字符。 例如， 电阻的单
位欧姆（Ω） 会被规范成希腊字母大写的欧米加。 这两个字符在视觉上
是一样的， 但是比较时并不相等， 因此要规范化， 防止出现意外：

In [38]:
from unicodedata import normalize, name
ohm = '\u2126'
name(ohm), ohm

('OHM SIGN', 'Ω')

In [39]:
ohm_c = normalize('NFC', ohm)
name(ohm_c), ohm_c

('GREEK CAPITAL LETTER OMEGA', 'Ω')

In [40]:
ohm == ohm_c

False

In [41]:
normalize('NFC', ohm) == normalize('NFC', ohm_c)

True

在另外两个规范化形式（NFKC 和 NFKD） 的首字母缩略词中， 字母 K
表示“compatibility”（兼容性） 。 这两种是较严格的规范化形式， 对“兼
容字符”有影响。 虽然 Unicode 的目标是为各个字符提供“规范的”码位，
但是为了兼容现有的标准， 有些字符会出现多次。 例如， 虽然希腊字母
表中有“μ”这个字母（码位是 U+03BC， GREEK SMALL LETTER MU） ，
但是 Unicode 还是加入了微符号 'µ'（U+00B5） ， 以便与 latin1 相互
转换。 因此， 微符号是一个“兼容字符”。
在 NFKC 和 NFKD 形式中， 各个兼容字符会被替换成一个或多个“兼容
分解”字符， 即便这样有些格式损失， 但仍是“首选”表述——理想情况
下， 格式化是外部标记的职责， 不应该由 Unicode 处理。 下面举个例子。 二分之一 '½'（U+00BD） 经过兼容分解后得到的是三个字符序列
'1/2'； 微符号 'µ'（U+00B5） 经过兼容分解后得到的是小写字母
'μ'（U+03BC） 。

In [42]:
half = '½'
normalize('NFKC', half)

'1⁄2'

In [43]:
#但是把 '4²' 转换成 '42' 就改变原意了
four_squared = '4²'
normalize('NFKC', four_squared)

'42'

In [44]:
micro = 'μ'
micro_kc = normalize('NFKC', micro)
micro, micro_kc

('μ', 'μ')

In [47]:
#ord() 函数是 chr() 函数（对于8位的ASCII字符串）或 unichr() 函数（对于Unicode对象）的配对函数，它以一个字符（长度为1的字符串）作为参数，返回对应的 ASCII 数值，或者 Unicode 数值
ord(micro), ord(micro_kc)

(956, 956)

In [46]:
name(micro), name(micro_kc)

('GREEK SMALL LETTER MU', 'GREEK SMALL LETTER MU')

### 大小写折叠       
大小写折叠其实就是把所有文本变成小写， 再做些其他转换。 这个功能
由 str.casefold() 方法（Python 3.3 新增） 支持。    
对于只包含 latin1 字符的字符串 s， s.casefold() 得到的结果与
s.lower() 一样， 唯有一个例外：  德语 Eszett（“sharp s”， ß）
会变成“ss”。    

In [48]:
micro = 'μ'
name(micro)

'GREEK SMALL LETTER MU'

In [49]:
micro_cf = micro.casefold()
name(micro_cf)

'GREEK SMALL LETTER MU'

In [50]:
eszett = 'ß'
name(eszett)

'LATIN SMALL LETTER SHARP S'

In [51]:
eszett_cf = eszett.casefold()
eszett_cf

'ss'

### 规范化文本匹配实用函数
由前文可知， NFC 和 NFD 可以放心使用， 而且能合理比较 Unicode 字
符串。 对大多数应用来说， NFC 是最好的规范化形式。 不区分大小写的
比较应该使用 str.casefold()。如果要处理多语言文本， 工具箱中应该有 nfc_equal 和
fold_equal 函数。

In [52]:
from unicodedata import normalize

def nfc_equal(str1, str2):
    return normalize('NFC', str1) == normalize('NFC', str2)
def fold_equal(str1, str2):
    return (normalize('NFC', str1).casefold() ==normalize('NFC', str2).casefold())

In [53]:
s1 = 'café'
s2 = 'cafe\u0301'
s1 == s2

False

In [54]:
nfc_equal(s1, s2)

True

In [55]:
nfc_equal('A', 'a')

False

In [56]:
s3 = 'Straße'
s4 = 'strasse'
s3 == s4

False

In [57]:
nfc_equal(s3, s4)

False

In [58]:
fold_equal(s3, s4)

True

In [59]:
fold_equal(s1, s2)

True

In [60]:
fold_equal('A', 'a')

True

### 极端“规范化”： 去掉变音符号
Google 搜索涉及很多技术， 其中一个显然是忽略变音符号（如重音符、
下加符等） ， 至少在某些情况下会这么做。 去掉变音符号不是正确的规
范化方式， 因为这往往会改变词的意思， 而且可能误判搜索结果。 但是
对现实生活却有所帮助： 人们有时很懒， 或者不知道怎么正确使用变音
符号， 而且拼写规则会随时间变化， 因此实际语言中的重音经常变来变
去。
除了搜索， 去掉变音符号还能让 URL更易于阅读， 至少对拉丁语系语
言是如此。 下面是维基百科中介绍圣保罗市（São Paulo） 的文章的
URL：

http://en.wikipedia.org/wiki/S%C3%A3o_Paulo

其中， “%C3%A3”是 UTF-8 编码“ã”字母（带有波形符的“a”） 转义后得
到的结果。 下述形式更友好， 尽管拼写是错误的：

http://en.wikipedia.org/wiki/Sao_Paulo

如果想把字符串中的所有变音符号都去掉， 可以使用去掉全部组合记号的函数