# Unicode和字节串

## 字符串基础知识

### 字符编码方案

字符集使将整数编码赋值给单独字符的标准，这样字符就可以在内存中标识。例如`ASCII`定义了从0-127的字符编码。

In [1]:
ord('a'), chr(97)

(97, 'a')

然而有些语言都的字母表无法使用ASCII表示，就需要使用`Unicode`,叫做宽字符字符串，因为字符可以根据需要表示多个字节。就可以用来表示中文等非英语字符集。  
为了确保字符和原始字节之间可以使用一种编码互相转换，而编码就是把一个Unicode字符转换为字节序列以及从一个字节序列提取字符串的规则。我们需要将字符串编码为原始字节，并且从原始字节解码为字符串。

ASCII是UTF-8的子集，是小于128的字符码，UTF-8则使用了多个字节表示字符串。

In [2]:
s = 'szq'

In [3]:
s.encode('ascii'), s.encode('latin1'), s.encode('utf-8')

(b'szq', b'szq', b'szq')

In [4]:
s.encode('utf-16'), len(s.encode('utf-16'))

(b'\xff\xfes\x00z\x00q\x00', 8)

### 内存中存储字符串

在内存中，python以编码中立的格式存储解码后的文本字符串。全部都得文本处理都以这种统一的内部格式进行。只有当文本被转移到外部文本文件、字节串或带有特定编码要求的API时，文本才被翻译为特定的编码格式。只要处理内存中，就没有任何编码。

## python的字符串类型

在python2中，str表示8为本文和二进制数据，unicode表示解码的Unicode文本。  
在python3中，有三种字符串对象类型：
- str表示解码的Unicode文本
- bytes 表示二进制数据
- bytearray 一种可变的bytes类型
### 文本和二进制文件

文本文件：以本文形式打开，会自动解码为str，依赖于平台默认名称或提供解码名称。  
二进制文件：通过添加 `b`参数，将以二进制模式打开一个文件，不以任何方式解码它，而是返回未经修改的原始内容，作为一个bytes对象。

## 编写基本的字符串



In [5]:
B = b'spam'
S = 'eggs'

In [6]:
type(B), type(S)

(bytes, str)

In [8]:
B[0], S[0] # python3的bytes对象实际上是一个短整数序列

(115, 'e')

In [9]:
list(B), list(S)

([115, 112, 97, 109], ['e', 'g', 'g', 's'])

### 字符串类型转换

在python3中，str和bytes类型对象禁止在表达式中自动地混合，并且当它们传递给函数地时候不会自动相互转换，需要手动执行显示转换。 

- str.encode()和 bytes(S, encoding)把一个字符串转换为其原始字节形式。
- bytes.decode() 和 str(B, encoding)把原始字节转换为字符串形式

In [10]:
S = 'eggs'
S.encode()

b'eggs'

In [11]:
bytes(S, encoding='ascii')

b'eggs'

In [12]:
B = b'spam'
B.decode(), str(B, encoding='ascii')

('spam', 'spam')

In [13]:
import sys
sys.platform, sys.getdefaultencoding()

('win32', 'utf-8')

In [14]:
len(str(B)), len(str(B, encoding='ascii')) # 默认以系统默认编码方式编码

(7, 4)

## 编写 Unicode字符串

### ascii文本

In [15]:
ord('X')

88

### 非ASCII文本

In [17]:
chr(0xc4)

'Ä'

In [23]:
s = '小可爱'
s.encode('utf-8'), len(s.encode('utf-8'))

(b'\xe5\xb0\x8f\xe5\x8f\xaf\xe7\x88\xb1', 9)

In [25]:
B = b'\xe5\xb0\x8f\xe5\x8f\xaf\xe7\x88\xb1'
B.decode('utf-8')

'小可爱'

python脚本文件默认使用`UTF-8`编码，但是它允许我们包含一个注释来指明想要地编码，从而将默认值修改为想要支持地任意字符集。
```python
# -*- coding: utf-8 -*-
```

## 使用bytes对象

bytes对象是一个小整数序列，其中每个整数都在0-255之间，并且在显示的时候恰好打印为ASCII字符。它支持序列操作以及str对象上可用的大多数方法。但是不支持格式化方法，而且不能不经过显式转换就将bytes和str对象混合和匹配。

In [28]:
set(dir('abc')) - set(dir(b'abc'))

{'casefold',
 'encode',
 'format',
 'format_map',
 'isdecimal',
 'isidentifier',
 'isnumeric',
 'isprintable'}

In [29]:
set(dir(b'abc')) - set(dir('abc'))

{'decode', 'fromhex', 'hex'}

In [32]:
B = b'spam'
B.find(b'pa')

1

In [33]:
B[:-1] # 序列操作

b'spa'

### 创建bytes对象的其他方式

In [35]:
B = bytes('abc', 'ascii')
B

b'abc'

In [38]:
B = bytes([97,98,99])
B

b'abc'

In [40]:
B = 'spam'.encode()
B

b'spam'

## bytearray对象

范围在0-255之间的一个可变序列，它是bytes的可变的变体。本身支持和bytes相同的字符串方法和序列操作，并且支持和列表同样多的可变的原处修改操作。

In [43]:
s = 'spam'
c = bytearray(s, 'utf-8')
c

bytearray(b'spam')

In [46]:
c[0] = ord('x')
c

bytearray(b'xpam')

In [47]:
c[0] = b'a'

TypeError: 'bytes' object cannot be interpreted as an integer

- 对文本数据使用str
- 对二进制数据使用bytes
- 对想要原处修改的二进制数据使用bytearray

## 文本文件和二进制文件

**文本模式文件**根据Unicode编码来解释文件内容，通过向open内置函数传递一个编码名，可以强行进行各种类型的转换。默认情况下所有的行末映射为脚本中一个单独的`\n`字符。也负责读取和写入某些写入文件开始处的字节顺序标记BOM，返回str对象  
**二进制模式文件**返回原始文件内容，作为表示字节值的一个整数序列。返回一个bytes对象

## 使用Unicode文件

python使用open调用打开文本文件时接受一个编码名称，在数据传输的时候，它能够自动为我们进行所需要的编码和解码。

### 读写Unicode 


In [49]:
s = 'A\xc4B\xe8c'
s

'AÄBèc'

In [50]:
# 手动编码

L = s.encode('latin-1')
L, len(L)

(b'A\xc4B\xe8c', 5)

In [51]:
U = s.encode('utf-8')
U, len(U)

(b'A\xc3\x84B\xc3\xa8c', 7)

In [None]:
# 文件输出编码

open('latindata', 'w', encoding='latin-1').write(s)

### 处理BOM

一些编码方式在文件开始处存储了一个特殊的字节顺序标记序列，来指定数据的大小尾方式或声明编码类型。
- UTF-16中，总是对`utf-16`进行BOM处理，而更为特定的编码名称`utf-16-le`标示小尾格式`utf-16-be`表示大尾
- UTF-8 中，更为特定的编码名称为`utf-8-sig`迫使python在输入和输出时分别跳过和写入BOM，使用默认的utf-8不会写入和跳过BOM

## 其他字符串工具

### re模式匹配

就是正则化，在python3中任何字符串类型都支持

In [52]:
import re

In [53]:
S = 'Bugger all down here on earth!'
B = b'Bugger all down here on earth!'

In [54]:
re.match('(.*) down (.*) on (.*)', S).groups()

('Bugger all', 'here', 'earth!')

In [55]:
re.match(b'(.*) down (.*) on (.*)', B).groups()

(b'Bugger all', b'here', b'earth!')

### struct二进制数据模块

用来从字符串中创建和提取打包的二进制数据

In [56]:
from struct import pack 

In [58]:
B = pack('>i4sh', 7, b'spam', 8)

In [59]:
import struct

In [61]:
vals = struct.unpack('>i4sh', B)
vals

(7, b'spam', 8)

### pickle对象序列化模块

pickle模块总是创建一个bytes对象，而不管默认的或传入的协议

In [62]:
import pickle

In [63]:
pickle.dumps([1, 2, 3])

b'\x80\x03]q\x00(K\x01K\x02K\x03e.'

In [65]:
pickle.dump([1, 2, 3], open('temp', 'wb')) # 所以必须以二进制形式写入文件,因此读取也必须使用r