# 关于解决Python乱码问题的终极解决方案

> 这里打算讨论各种常用方法

简单来说，只要记住，在Python2里字符串只有两大阵营：

## `unicode`和`bytes`

如果`type(字符串)`显示结果是`str`，那么就是指的`bytes`二进制码。
而其它各种我们所说的`utf-8`，`gb2312`等等也都是Unicode的不同实现方式。
这里不要去考虑那么复杂，只要先记住这两大阵营就行。

## `encoding`和`decoding`

绝对要记住的：
从`unicode`转换到`bytes`，这个叫`encoding`，编码。
从`bytes`转换到`unicode`，这个叫`decoding`，解码。

来回记住这个问题，才能进入下一步！

然后来看个案例。

In [74]:
'你好'

'\xe4\xbd\xa0\xe5\xa5\xbd'

In [75]:
u'你好'

u'\u4f60\u597d'

In [76]:
len('你好')

6

In [77]:
len(u'你好')

2

In [78]:
type('你好')

str

In [79]:
type(b'你好')

str

In [80]:
type(u'你好')

unicode

> 通过上面两种格式的对比我们看到，str和unicode的各种区别。

那么，既然变量里面会出现两种不同的格式，如果我们把两种格式的字符串连在一起操作会发生什么呢？
如下：

In [81]:
uni = u'你好'
type(uni)

unicode

In [82]:
byt = b'你好'
type(byt)

str

In [83]:
uni + byt

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

> ### 看！著名的`UnicodeDecodeError: 'ascii' codec can't decode byte`编码错误就这样出现了！

以上是我们用`显性`字符串来比较两种格式字符串的区别。

但是，我们经常性处理python编码问题，都不是在这种`显性`的字符串上出现的，不是从网上爬取的就是从本地文件读取的，意思就是文件内容庞大，编码格式很难猜到是什么。
所以这里我们将问题再拆分为两部分讨论：本地文件和网络资源。

## 本地文件编码测试
首先在本地建立一个有中文的以`utf-8`格式保存的文本文件（实际上无论.txt还是.md等都无所谓，内容是一样的）。
内容只有'你好'。

### 然后我们来读取一下：

In [85]:
with open('test.txt', 'r') as f:
    ss = f.read()

In [86]:
type(ss)

str

> 上面看到，从文件读取出来的，就是bytes二进制格式。
那么如果要把bytes转化为unicode，就要解码，也就是decoding.

In [87]:
ss.decode('utf-8')

u'\u4f60\u597d'

### 这种时候实际上是最迷糊也最容易造成之后错误的，就是分不清该编码还是该解码。

> 所以上面提到，必须要记住这两个区别。
那么如果现在我搞反了怎么办？就会再次出现下面错误：

In [88]:
ss.encode('utf-8')

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

### 话说回来，我们该怎么统一他们呢？
> 为了避免两种格式的字符串在一起乱搞，统一他们是必须的。但是以哪一种为统一的呢，unicode还是bytes?

#### 下面我们来看看做常用的环境下字符串都是什么格式

In [89]:
# 文中声明的变量
type('你好')

str

In [90]:
# 读取本地文件
ff = open('test.txt', 'r')
type(ff.read())

str

In [125]:
# 获取网路资源
import requests
r = requests.get('http://pycoders-weekly-chinese.readthedocs.io/en/latest/issue5/unipain.html')
print type(r.text)
print type(r.content)

<type 'unicode'>
<type 'str'>


> 这样就明白了：除了r.text返回的内容外，其它几乎都是使用str格式，也就是bytes二进制码。所以我们只要转化requests相关的内容就行！

实际上，requests返回的response中, 除了用`response.text`获取内容，我们还可以用`response.content`获取同样的内容，只不过是bytes格式。

那就正和我们意，不用再去转化每一个地方的字符串，而只要盯紧这一个地方就足够了。

### 为什么我们不能把所有字符串变量统一为unicode呢？
提前说明，变成unicode的过程，叫`decoding`。不要记错。

因为像`response.text`经常把`ISO8859`等猜不到也检测不到编码(机率很低)的字符串扔过来，如果遇到的话，是很麻烦的。

`decoding`有两种方法：
```
unicode(b'你好‘）
b'你好'.decode('utf-8')
```

这里因为不知道来源的编码，所以必须用`unicode()`来解码，而不能用`.decode('utf-8')`，因为显然你不能乱写解码名称，如果来源果真是（很大几率是）`ISO8859`等方式，那么错误的解码肯定会产生乱码，或者直接程序报错。切记！

所以这里只能用`unicode()`解码。如下例：

In [124]:
type(unicode(r.text))

unicode

这里好像没问题，变成了unicode。但是！但是一旦我们需要输出字符串，那么就必须要str格式的才能输出。

这时候我们怎么办呢？只能用`bytes()`再把它转成str格式，同理，因为不知道来源的编码格式，不能用`.encode('utf-8')`这个方法来转换。

In [123]:
# 来看看
type(bytes( unicode(r.text) ))


UnicodeEncodeError: 'ascii' codec can't encode characters in position 276-281: ordinal not in range(128)

## 本阶段总结：一定记住，全文都统一用`str`格式字符串
### 只要盯紧requests等相关的网络操作就好了，只要控制好外来源的字符串，统一为`str`，其它一切都好说！

下面是一个从获取网络资源（含中文且被requests认为编码是ISO8850的网页）到本地操作且存储到本地文件的完整测试。

In [140]:
import requests

r = requests.get('http://pycoders-weekly-chinese.readthedocs.io/en/latest/issue5/unipain.html')

# write a webpage to local file
with open('test.html', 'w') as f:
    f.write( r.content )

# read from a local html file
with open('test.html', 'r') as f:
    ss = f.read()

### 再来试一个从网上获取json并转化为JSON格式变量然后又存为文件的例子

In [261]:
import requests,json

r = requests.get('https://api.github.com/repos/solomonxie/solomonxie.github.io/issues/25/comments')

# 获取到我的github中某条issue的所有评论，形式为<JSON格式的字符串>
comments = json.loads( r.content )
# 取某一条评论查看内容（中文）
cc = comments[0]['body'][0:10] # 取出的内容是'## 配置：先从配置'

In [242]:
# 可以看到是<unicode格式的字符串>
cc

u'## \u914d\u7f6e\uff1a\u5148\u4ece\u914d\u7f6e'

In [243]:
# <print大法>，即使是<unicode格式的字符串>也能直接显示出来
print cc

## 配置：先从配置


In [255]:
# 那么能不能在操作中正常使用这个unicode字符串呢？显然不行
'配' in cc

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe9 in position 0: ordinal not in range(128)

In [258]:
# <JSON对象>里unicode格式的数据，和<手动声明的str格式字符串>一起操作会怎么样？
cc + '你好'

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

In [253]:
'你好'.decode('utf-8') + cc

u'\u4f60\u597d## \u914d\u7f6e\uff1a\u5148\u4ece\u914d\u7f6e'

In [259]:
# 查看它转化为<str格式的字符串>的实质内容
cc.encode('utf-8')

'## \xe9\x85\x8d\xe7\xbd\xae\xef\xbc\x9a\xe5\x85\x88\xe4\xbb\x8e\xe9\x85\x8d\xe7\xbd\xae'

In [262]:
# 意思是，即使字符串本身显示的是'\xe9\x85\x8d` 也能直接匹配到
'配' in cc.encode('utf-8')

True

In [260]:
# <JSON对象>的某一部分数据取出来后，写入文本文档然后再读出来
with open('test.txt', 'w') as f:
    f.write( cc.encode('utf-8') )
with open('test.txt', 'r') as f:
    print f.read()[0:12]

## 配置：


也就是说，其实，从网络资源获取，到`json.load()`将json字符串转化为json对象的。

### 将`JSON对象`的某一段内容编码后，可以正常存取文件，那么再来试试将`JSON对象`整体存到文本文件中。
### 重点必须要在json.dumps()里把`ensure_ascii`参数选为False !否则它会将所有非ascii码用repr()强制转化为代号（而非汉字）

In [352]:
outgoing = json.dumps({"body": "你好"}, ensure_ascii=False)

outgoing

'{"body": "\xe4\xbd\xa0\xe5\xa5\xbd"}'

In [339]:
print outgoing[0:20], type(outgoing)

[{"body": "## 配置：先从配 <type 'unicode'>


In [349]:
# @网络资源到本地存储真实测试
outgoing = json.dumps( comments, ensure_ascii=False )

print outgoing[0:20], type(outgoing)

[{"body": "## 配置：先从配 <type 'unicode'>


In [348]:
with open('test.txt', 'w') as f:
    f.write(outgoing.encode('utf-8'))
with open('test.txt', 'r') as f:
    read = f.read()
    
print read[0:20], type(read)

[{"body": "## 配置 <type 'str'>


## 大功告成！

In [161]:
# @1 chardet库的方法
from chardet import detect
detect(b'\xe9\x85\x8d')

{'confidence': 0.505, 'encoding': 'utf-8', 'language': ''}

In [172]:
# @2 由BeautifulSoup制作的UnicodeDammit方法
from bs4 import UnicodeDammit
dammit = UnicodeDammit("Sacr\xc3\xa9 bleu!")
print dammit.original_encoding
# 'utf-8'

iso-8859-9


In [183]:
dammit.unicode_markup

u'Sacr\xc3\xa9 bleu!'

In [171]:
dammit = UnicodeDammit("Sacr\xe9 bleu!", ["latin-1", "iso-8859-1"])
print(dammit.unicode_markup)
# Sacré bleu!
dammit.original_encoding
# 'latin-1'

Sacré bleu!


'latin-1'