##### 概念
* Unicode ：码位，是 0~1,114,111 的数字，在 Unicode 标准中以 4~6 个十六进制数字表示，并且加前缀 "U+"，如 A 的码位是 U+0041，约 10% 的有效码位有对应的字符，字符范围为人类可读的文本
* ASCII、utf-8、utf-16 等：编码，是码位和字节序列间转换使用的算法
* b'caf\xc\xa9'：字节序列，供以机器读取的文本
##### 各个字节值可能由以下三种方式显示
* 可打印的 ASCII 范围内的字节 (从空格到 ~ )，使用 ASCII 字符本身
* 制表符、换行符、回车符和 \ 对应的字节，使用转义序列 \t、\n、\r 和 \\
* 其他字节的值，使用十六进制转义序列，如 \x00 是空字节

In [1]:
# 'café' 字符串有 4 个 Unicode 字符
s  = 'café'
len(s)

4

In [2]:
# 使用 UTF-8 把 str 对象编码成 bytes 对象
b = s.encode('utf-8')
b

b'caf\xc3\xa9'

In [3]:
# 字节序列有5个字节，其中 'é' 在 UTF-8 编码中为 2 个字节
len(b)

5

In [4]:
# 使用 UTF-8 把 bytes 对象解码成 str 对象
b.decode('utf-8')

'café'

In [5]:
# 各个元素是 range(256) 内的整数
b[0]

99

In [6]:
# bytes 对象的切片仍是 bytes 对象，即时只是一个字节的切片
b[:1]

b'c'

二进制序列有个类方法是 str 没有的，名为 fromhex，它的作用是解析十六进制数字对(数字对之间的空格是可选的)，构建二进制序列

In [7]:
bytes.fromhex('31 4B CE A9')

b'1K\xce\xa9'

In [8]:
# 使用数组中的原始数据初始化 bytes 对象
import array
numbers = array.array('h', [-2, -1, 0, 1, 2])
otcets = bytes(numbers)
otcets

b'\xfe\xff\xff\xff\x00\x00\x01\x00\x02\x00'

##### 结构体和内存视图
struct 模块提供了一些函数，把打包的字节序列转换成不同类型字段组成的元组，还有一些函数用于执行反向转换，把元组转换成打包的字节序列。  
struct 模块能处理 bytes、bytearray 和 memoryview 对象

In [11]:
# 使用 memoryview 和 struct 查看一个 GIF 图像的首部
import struct
fmt = '<3s3sHH' # < 是小字节序，3s3s 是两个 3 字节序列，HH 是两个 16 位二进制整数
with open('filter.gif', 'rb') as fp:
    img = memoryview(fp.read())

header = img[:10]
bytes(header) 

b'GIF89a\xfa\x00\x02\x01'

In [12]:
# 拆包 memoryview 对象，得到一个元组，包含类型、版本、宽度和高度
struct.unpack(fmt, header)

(b'GIF', b'89a', 250, 258)

In [13]:
# 删除引用，释放内存
del header
del img