## 计算机编码

### 数据本质
计算机中所有数据，不论是文字、图片、视频、还是音频等，本质上都是按 010101 之类的二进制形式储存的

### ASCII

1. 计算机发展初期，英语世界里字符个数非常有限，26个字母（大小写）、10个数字、标点符号、控制符，总共一百多个字符。

2. 一个字节的存储空间来表示一个字符绰绰有余，一个字节相当于8个比特位，8个比特位可以表示256个字符。

3. ASCII（American Standard Code for Information Interchange）,定义了128个字符编码，包括96个文字和32个控制符号。

4. ASCII只用了一个字节的后7位，最高位都为0。

### EASCII(ISO/8859-1)
1. 计算机普及到欧洲后，即对ASCII进行扩展，以包含很多西欧特有的符号
2. 编码从原来的7位字节扩展为8位，并完全兼容ASCII
3. 标准不统一，各个地区按自己的需求，实现自己的一套编码

### GBK
1. 计算机进入中国，常见的汉字成千上万
2. GBK编码，兼容ASCII，对于英文字符用1个字节表示，汉字用2个字节表示。不仅收录27484个汉字，还收录了藏文、满文等主要少数民族语言文字

### Unicode
1. 满足世界其他国家的需求，统一联盟国际组织提出Unicode编码（Universal Multipile-Octet Coded Character Set）
2. 最终Unicode4.0规范定义用4个字节（实际31位，最高位必须为0）编码，理论上涵盖了一切语言用的符号
3. 缺点1：很多字符一个字节编码就足够，用2个字节，浪费空间
4. 缺点2：Unicode字符最终保存为二进制编码后，如何判断一个4字节的Unicode是表示一个4字节的字符、还是4个1字节字符

### UTF-8
1. UTF-8（8-bit Unicode Transformation Format）是Unicode的一种实现方式，根据具体情况用1-4字节来表示一个字符
2. 可用ASCII码表示的英文字符，用UTF-8表示就只需1个字节
3. 对于n字节的字符，第一个字节的前n位都设为1、第n+1位设置为0，其它字节的前两位都设为10。剩下的二进制位全部用该字符的Unicode码填充
![](utf-8编码.jpg)

## Python编码

1. Python诞生时间远早于Unicode，Python2的默认编码是ASCII，Python3的默认编码是utf-8

In [6]:
import sys
sys.getdefaultencoding()

'utf-8'

2. 对于Python2，必须在脚本第一行或第二行中显式的指定编码格式 `# coding=utf-8`或
```
#！/usr/bin/python  
# -*- coding: utf-8 -*-  
```

3. Python和字符串相关的数据类型，分别是 str、unicode两种，都是basestring的子类：
> 汉字‘好’，用str表示时，对应的utf-8编码的‘\xe5\xa5\xbd’；用Unicode表示时，为u'\u597d',等同于u'好'  

- windows系统，cmd命令行中显示：
```
>>> a='好'
>>> type(a)
<type 'str'>
>>> a
'\xba\xc3'
```
```
>>> a=u'好'
>>> type(a)
<type 'unicode'>
>>> a
u'\u597d'
```

4. 大多数编程语言，Unicode编码都成为了默认的编码格式

5. Python中str和unicode之间的转换，靠decode和encode方法

In [12]:
a='好'
c=a.encode('utf-8')
print(type(c))
c

<class 'bytes'>


b'\xe5\xa5\xbd'

In [13]:
d=c.decode('utf-8')
print(type(d))
d

<class 'str'>


'好'

In [14]:
a='好'
a.encode('ascii')

UnicodeEncodeError: 'ascii' codec can't encode character '\u597d' in position 0: ordinal not in range(128)

6. str(s)和unicode(s)为两个工厂方法，分别返回str字符串和unicode字符串对象，最早期str(s)==s.encode('ascii')
7. 乱码，字符在编码解码的过程中使用的编码格式不一致

In [24]:
a='好'
b=a.encode('gbk')
print(b)
a_=b.decode('utf-8')
print(c)

b'\xba\xc3'


UnicodeDecodeError: 'utf-8' codec can't decode byte 0xba in position 0: invalid start byte

### Python编码底层原理 