# python的字符编码问题

## 什么是编码

将明文转换为计算机可以识别的编码文本称为“编码”。反之从计算机可识别的编码文本转回为明文为“解码”。

### 字节, 位和字的关系

1 byte = 8 bit

在16位的系统中（比如8086微机） 1字（word）= 2字节（byte）= 16（bit）

在32位的系统中（比如win32） 1字（word）= 4字节（byte）=32（bit）

在64位的系统中（比如win64）1字（word）= 8字节（byte）=64（bit）

## 常见编码格式

### ASCII（占一个字符，只支持英文）

1个字符占1个字节, 1个字节可表示2^8=256个字符,

ASCII码是西欧编码的方式，采取7位编码，所以是2^7=128,共可以表示128个字符，包括34个字符，（如换行LF，回车CR等），其余94位为英文字母和标点符号及运算符号等。 

计算机上的数据都是以二进制的形式存储的，1个字节（8比特）可以表示256种状态

把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号,注意从0开始,共128个符号.

其中编号从0开始的32种状态分别规定了特殊的用途, 于是0x20以下的字节状态被称为"控制码"。
如:00x10是终端就换行，0x07是终端发出嘟嘟叫，0x1b是打印机就打印反白的字，或者终端就用彩色显示字母。

这128个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位，最前面的1位统一规定为0。

后来为了保存其他字符，决定采用127号之后的空位来表示这些新的字母、符号，还加入了很多画表格时需要用下到的横线、竖线、交叉等形状，一直把序号编到了最后一个状态255。

从128到255这一页的字符集被称"扩展字符集"。

### GB2312（占两个字符，支持6700+汉字）

计算机进入中国后，无法显示中文，一个字节已经被占满了，我国重新制定了一个编码表，将扩展的第八位对应的拉丁文全部删掉，规定一个小于127的字符与原来的意义相同，当两个大于127的字符连接在一起的时候，就表示一个汉字，前面一个字节为高字节，后面一个字节为低字节，这样就可以表示7000多汉字，这种编码叫做GB2312。

特性：两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节（称之为高字节）从0xA1用到0xF7，后面一个字节（低字节）从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。

字符编码范围：16进制：0x0000-(中间有一部分是未使用的)-0xF7FE 

占用字节：英文 1字节 8bit 中文 2字节 16bit 

在这些编码里，我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的"全角"字符，而原来在127号以下的那些就叫"半角"字符了。

GB2312是对ASCII的中文扩展

### GBK和GB18030（GB2312的升级版，支持21000+汉字）

由于汉字的数量太大，GB2312是不能满足需求，干脆不再要求低字节一定是127号之后的内码, 后面规定只要第一个字节大于127就固定表示一个汉字，不管后面的是不是扩展字符里面的内容，扩展后的编码称为GBK，GBK包括了GB2312的所有内容，同时增加了近20000个新的汉字和符号

后来少数民族也要用电脑了，于是再扩展，又加了几千个新的少数民族的字，GBK 扩成了 GB18030。

### Unicode（2-4字节，已经收录了136690个字符，并一直扩展）

在uincode出现之前，每个国家都搞自己的编码，彼此之间互不支持，带来了许多不方便，unicode字符集不兼容gbk字符集 

国际标准组织提出来一个统一的编码标准：unicode

unicode用两个字节来表示一个字符，可以提供65535种字符，足够覆盖世界上所有的字符, 2^16 = 65536

对于ascii里的那些半角字符，UNICODE 包持其原编码不变，只是将其长度由原来的8位扩展为16位，而其他文化和语言的字符则全部重新统一编码。由于半角英文符号只需要用到低8位，所以其高8位永远是0，因此这种大气的方案在保存英文文本时会多浪费一倍的空间。

需要注意的是，Unicode只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。

### UTF-8（Unicode Transformation Format）

unicode的出现，提供了统一的标准，但对于英文世界来说，一个字节完全够用，如果使用unicode会浪费大量的空间，为了解决这个问题, 提出来utf-8，一种针对unicode的可变长度字符串，可以使用1-4个字符表示一个符号，根据不同的符号变化字节长度，当字符在ASCII编码范围内，用一个字节表示，兼用ASCII。

使用这样编码的好处是，虽然内存汇总的数据都是unicode，但是当数据保存到磁盘或者用于网络传输时，使用utf-8会节省更多的流量和硬盘空间。

1. UTF-8： 
    * 使用1-4个字节表示所有字符；优先使用1个字节、无法满足则使增加一个字节，最多4个字节。
    * 英文占1个字节、欧洲语系占2个、东亚占3个，其它及特殊字符占4个
2. UTF-16： 使用2-4个字节表示所有字符；优先使用2个字节，否则使用4个字节表示。
3. UTF-32： 使用4个字节表示所有字符；

UTF-8是在互联网上使用最广的一种unicode实现方式。其他实现方式包括UTF-16和UTF-32，不过在互联网上基本不用。

unicode和utf-8的关系：unicode是内存编码表示方案，而utf-8是如何保存和传输unicode的方案

重复一遍，这里的关系是，UTF-8是Unicode的实现方式之一。

### 其他国家编码

1. Shift-JIS 日本编码
2. TIS-620 泰国编码
3. ks_c_5601-1987 韩国编码

由于每个国家都有自己的字符，所以其对应关系也涵盖了自己国家的字符，但是以上编码都存在局限性，

即：仅涵盖本国字符，无其他国家字符的对应关系。

应运而生出现了万国码，他涵盖了全球所有的文字和二进制的对应关系