# 文本和字节序列

## 字符问题

字符的最佳定义是Unicode字符。Unicode标准把字符的标识和具体的字节表达进行如下的明确区分:

+ 字符的标识,即码位，是0~1114111的数字。
+ 字符的具体表述取决于所用的编码。A(U+0041)的码位编码成单个字节\x41

In [1]:
s = 'a asas 我'
b=s.encode('utf-8')
b

b'a asas \xe6\x88\x91'

In [2]:
b.decode('utf-8')

'a asas 我'

## 字节概要

Python包含`bytes`和`bytearray`类型；

`bytes`和`bytearray`对象的各个元素是介于0~225之间的整数，但是它的切片却始终是同一个类型的二进制序列。

In [4]:
cafe = bytes('caf鹅', encoding='utf_8')
cafe

b'caf\xe9\xb9\x85'

In [6]:
cafe[3] # 某一个元素

233

In [8]:
cafe[:1]

b'c'

In [9]:
cafe[3:]

b'\xe9\xb9\x85'

### 结构体和内存视图

Struct 模块提供了一些函数，把打包的字节序列转换成不同类型字段组成的元组;

`memoryview`类不是用于创建或者存储字节序列的，而是共享内存，让你访问其他二进制序列.

## 基本的编解码器

Python自带超过了100中编解码器，每个编解码器都有一个名称，比如'utf_8'。
这些名称都可以传给`open`,`str.encode()`,`bytes.decode()`等函数中。


## 了解编解码问题

一般报错会有`UnicodeEncodeError`或者`UnicodeDecodeError`。

### UnicodeEncodeError

多数非UTF编解码器只能处理Unicode字符的一小部分子集，把文本转换为字节序列时，如果目标编码中没有定义某个字符，那就回抛出UnicodeEncodeError

In [10]:
city = '圣保罗'
city.encode('utf-8')

b'\xe5\x9c\xa3\xe4\xbf\x9d\xe7\xbd\x97'

In [11]:
city.encode('cp437')

UnicodeEncodeError: 'charmap' codec can't encode characters in position 0-2: character maps to <undefined>

In [13]:
city.encode('cp437',errors="replace")

b'???'

In [14]:
city.encode('cp437',errors="ignore")

b''

### UnicodeDecodeError

不是每一个字符序列都是有效的UTF-8或者UTF-16。
很多陈旧的8位编码，能解码任何字节序列而不抛出错误。

### 使用预期之外的编码加载模块时抛出的SyntaxError

引入py模块的时候，如果包含UTF-8之外的数据，没有声明编码，会得到报错.

### 处理文本文件

建议始终带encoding参数，不要依赖于默认值。并且读取文件的时候，就做解码。写入文件的时候，再去做编码。

### 为了正确比较二规范化Unicode字符串

In [5]:
from unicodedata import normalize

In [6]:
repr('asas')

"'asas'"