# 第4章 文本和字节序列

## 4.1 字符问题
在2015年, 字符的最佳定义是Unicode字符。因此, 从Python3的str对象中获取的元素是Unicode字符, 这相当于从Python2的unicode对象中获取的元素,
而不是从Python2的str对象中获取原始字节序列。

In [8]:
s = "caf诶"
len(s)

4

In [9]:
b = s.encode("utf-8")
b  # 诶这个字在utf-8中需要3个byte表示

b'caf\xe8\xaf\xb6'

In [10]:
len(b)

6

## 4.2 字节概要
新的二进制序列类型在很多方面与Python2的str类型不同。首先要知道, Python内置了两种基本的二进制序列类型: Python3引入的不可变bytes类型和Python2.6添加的可变bytearray类型。

In [12]:
cafe = bytes("café", encoding = "utf8")
cafe

b'caf\xc3\xa9'

In [14]:
len(cafe)

5

In [19]:
cafe[0]  # 每一个元素都是range(256)内的整数

99

In [15]:
cafe_arr = bytearray(cafe)
cafe_arr

bytearray(b'caf\xc3\xa9')

In [16]:
cafe_arr[-1:]  # bytearray的切片对象还是bytearray

bytearray(b'\xa9')

In [17]:
cafe_arr[-1]  # 获取元素

169

In [20]:
bytes.fromhex("31 4B CE A9")  # 在ASCII范围之内会被直接打印出来

b'1K\xce\xa9'

In [25]:
import array
numbers = array.array("h", [-2, -1, 0, 1, 2])  # 两个字节的短整形
octets = bytes(numbers)
octets

b'\xfe\xff\xff\xff\x00\x00\x01\x00\x02\x00'

结构体和内存视图

struct模块提供了一些函数, 把打包的字节序列转换成不同类型字段组成的元组, 还有一些函数用于执行反向转换。

In [36]:
import struct
fmt = "<3s3sHH"  # <表示小字节序, 3s3s表示两个3字节序列, HH是两个unsigned short
with open("timg.gif", "rb") as fp:
    img = memoryview(fp.read())
header = img[:10]
bytes(header)  # 转换为bytes, 为了显示

b'GIF89aO\x01\x94\x01'

In [37]:
print(struct.unpack(fmt, header))
del img

(b'GIF', b'89a', 335, 404)


## 4.3 基本的编解码器
Python自带了超过100种解码器, 用于在文本和字节之间相互转换。

In [40]:
for codec in ["latin_1", "utf8", "utf16"]:
    print(codec, "AAsss".encode(codec), sep = "\t")

latin_1	b'AAsss'
utf8	b'AAsss'
utf16	b'\xff\xfeA\x00A\x00s\x00s\x00s\x00'


## 4.4 了解编解码问题