## 1. 原理

### 1.1 声明程序的编码类型为 utf-8

- `! /usr/bin/env python2.7`  
- `coding=utf-8`  
- 在所有程序的开头都声明使用的 Python 版本和编码


### 1.2 编码和解码的逻辑

- Python 编译器能**循环**处理的编码只有 unicode
- 处理编码前，用 `decode` 将 utf-8 编码成 unicode，处理完编码时，用 `encode` 将 unicode 编码回 utf-8

`sometext.decode("utf-8") # 成为 unicode 编码，Python 可以处理`  
`sometext.encode("utf-8") # 重新编码成 utf-8 编码 `  
`str(sometext) # 用 str 也可以把 unicode 重新编码 utf-8，因为一开始已经声明了编码类型为 utf-8`  

### 1.3 用 type() 查看字符编码



In [2]:
#! /home/evil_rabbit/anaconda2/bin python2.7
# coding = utf-8

token = "，.!?？：:"

In [3]:
print type(token)

<type 'str'>


In [4]:
print type(token.decode('utf-8'))

<type 'unicode'>


由于在开头声明了所有字符串类型的编码都为 utf-8，所以 <type 'str'> 的意思是该字符是字符串类型，编码为 utf-8，decode 之后则变为 unicode 编码。

## 2. 代码实践

### 2.1 要循环处理字符串的时候需要解码

In [5]:
#! /home/evil_rabbit/anaconda2/bin python2.7
# coding = utf-8

token = "，.!?？：:"

for t in token:
    print t

�
�
�
.
!
?
�
�
�
�
�
�
:


In [6]:
# 解码
for t in token.decode('utf-8'):
    print t

，
.
!
?
？
：
:


把字符串 decode 为 utf-8 后，就可以被遍历**循环**了。

### 2.2 字符匹配的时候需要解码

In [25]:
#! /home/evil_rabbit/anaconda2/bin python2.7
# coding = utf-8

token = "，。！？：；".decode('utf8')
string_list = ['我', '是', '中国', '人' ,'，', '我', '爱', '她', '。']

for t in token:
    
    for s1 in string_list:
        
        if t == s1: # 逗号和句号无法匹配的，因为编码不同
            print t



In [26]:
for t in token:
    
    for s1 in string_list:
        
        if t == s1.decode('utf-8'): # 编码相同，可以匹配
            print t

，
。


In [27]:
for t in token:
    
    for s1 in string_list:
        
        if t.encode('utf-8') == s1: # 编码相同，可以匹配
            print t

，
。


### 2.3 结巴分词

#### 2.3.1 jieba 分词后词语变为 unicode 编码

In [28]:
#! /home/evil_rabbit/anaconda2/bin python2.7
# coding = utf-8

import jieba

string = "我是中国人，我喜欢编程、音乐、运动、看书。"

string_list = []

seg = jieba.cut(string)

for word in seg:
    string_list.append(word)

print string_list

Building prefix dict from /home/evil_rabbit/anaconda2/lib/python2.7/site-packages/jieba/dict.txt ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.389403104782 seconds.
Prefix dict has been built succesfully.


[u'\u6211', u'\u662f', u'\u4e2d\u56fd', u'\u4eba', u'\uff0c', u'\u6211', u'\u559c\u6b22', u'\u7f16\u7a0b', u'\u3001', u'\u97f3\u4e50', u'\u3001', u'\u8fd0\u52a8', u'\u3001', u'\u770b\u4e66', u'\u3002']


#### 2.3.2 去掉标点符号

In [57]:
#! /home/evil_rabbit/anaconda2/bin python2.7
# coding = utf-8

import jieba

string = "我是中国人，我喜欢编程、音乐、运动、看书。"

string_list = []

seg = jieba.cut(string)

for i in seg:
    string_list.append(i)

token = "，。！？：；、".decode('utf-8')

filter_seg = [fil for fil in string_list if fil not in token]

for word in filter_seg:
    
    print word

我
是
中国
人
我
喜欢
编程
音乐
运动
看书


In [59]:
#! /home/evil_rabbit/anaconda2/bin python2.7
# coding = utf-8

import jieba

string = "我是中国人，我喜欢编程、音乐、运动、看书。"

string_list = []

seg = jieba.cut(string)

for i in seg:
    string_list.append(i)

token = "，。！？：；、".decode('utf-8')

for word in string_list:
    
    if word not in token:
        print word

我
是
中国
人
我
喜欢
编程
音乐
运动
看书


### 2.4 读取 txt 文档和存储 txt 文档时需注意的编码问题

#### 2.4.1 txt 文档存储时要另存为 utf-8 编码

txt 文档默认编码为 ascii

#### 2.4.2 列表内容存储回 txt 文档时，要把 Python 里的 unicode 编码为 utf-8

只有编码为 utf-8，才能正常在 txt 文档中显示出来  

- `encode('utf-8')`
- str()

In [73]:
#! /home/evil_rabbit/anaconda2/bin python2.7
# coding = utf-8

import jieba

string = "我是中国人，我喜欢编程、音乐、运动、看书。"

string_list = []

seg = jieba.cut(string)

for i in seg:
    string_list.append(i)

token = "，。！？：；、".decode('utf-8')

filter_seg = [fil for fil in string_list if fil not in token]

f = open('output.txt', 'w')

for word in filter_seg:
    f.write(word.encode('utf-8') + ' ')
    #f.write(str(word)+' ') # 不成功，采用 encode
f.close()

## 扩展阅读

[python 的中文编码_乱码问题的解决方法和探寻](http://blog.sina.com.cn/s/blog_6285b6f60100u15a.html)  
[ 初探 python 编码](http://blog.csdn.net/liuxincumt/article/details/8183391)