# pickle, cPickle 模块

<h1>Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#简介" data-toc-modified-id="简介-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>简介</a></span></li><li><span><a href="#编码和解码dumps|loads" data-toc-modified-id="编码和解码dumps|loads-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>编码和解码dumps|loads</a></span></li><li><span><a href="#编码协议" data-toc-modified-id="编码协议-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>编码协议</a></span></li><li><span><a href="#存储和读取-pickle-文件" data-toc-modified-id="存储和读取-pickle-文件-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>存储和读取 pickle 文件</a></span></li></ul></div>

## 简介

* **序列化 `Python` 对象**

* `pickle` 模块实现了一种算法，**可以将任意一个 `Python` 对象转化为一系列的字节**，也可以将这些字节**重构为一个有相同特征的新对象**。

* 由于字节可以被**传输或者存储**，因此 `pickle` 事实上实现了**传递或者保存 Python 对象**的功能。

* `cPickle` 使用 C 而不是 Python 实现了相同的算法，因此**速度上要比 pickle 快**一些。但是它**不允许用户从 `pickle` 派生子类**。如果子类对你的使用来说无关紧要，那么 cPickle 是个更好的选择。

In [1]:
try:
    import cPickle as pickle
except:
    import pickle

## 编码和解码dumps|loads

In [2]:
# pickle.dumps() 可以将一个对象转换为字符串（dump string）
data = [{'a':'A','b':'2','c':'3.0'}]

data_string = pickle.dumps(data)

print 'DATA:'
print data
print 'PICKLE:'
print data_string

DATA:
[{'a': 'A', 'c': '3.0', 'b': '2'}]
PICKLE:
(lp1
(dp2
S'a'
S'A'
sS'c'
S'3.0'
p3
sS'b'
S'2'
sa.


In [6]:
# 可以看到pickle编码的字符没有可读性
# 使用pickle.loads()解码
data_from_string = pickle.loads(data_string)
print data_from_string

[{'a': 'A', 'c': '3.0', 'b': '2'}]


## 编码协议

`dumps` 可以接受一个可省略的 `protocol` 参数（默认为 0），目前有 3 种编码方式：
* 0：原始的 ASCII 编码格式，默认
* 1：二进制编码格式
* 2：更有效的二进制编码格式

In [7]:
# 查看当前最高级编码
print pickle.HIGHEST_PROTOCOL

2


In [8]:
data

[{'a': 'A', 'b': '2', 'c': '3.0'}]

In [9]:
data_string_1 = pickle.dumps(data,1) # 二进制编码
data_string_2 = pickle.dumps(data,2) # 更有效的二进制编码格式
print "Pickle 1:",data_string_1
print "Pickle 2:",data_string_2

Pickle 1: ]q}q(UaUAUcU3.0UbU2ua.
Pickle 2: �]q}q(UaUAUcU3.0UbU2ua.


In [10]:
# 注意这里不存在-3，负数它会使用最高级编码，即上面说的protocol=2
print pickle.dumps(data,-3)

�]q}q(UaUAUcU3.0UbU2ua.


In [11]:
# 解码
print "load 1:",pickle.loads(data_string_1)
print "load 2:",pickle.loads(data_string_2)

load 1: [{'a': 'A', 'c': '3.0', 'b': '2'}]
load 2: [{'a': 'A', 'c': '3.0', 'b': '2'}]


## 存储和读取 pickle 文件

`pickle` 支持将对象写入一个文件中，通常我们将这个文件命名为 `xxx.pkl`，以表示它是一个 `pickle` 文件：
* `pickle.dump(obj, file, protocol=0)` 将对象序列化并存入 `file` 文件中
* `pickle.load(file)` 从 `file` 文件中的内容恢复对象

In [12]:
data

[{'a': 'A', 'b': '2', 'c': '3.0'}]

In [14]:
# 存储
with open('data.pkl','wb')as fp:
    pickle.dump(data,fp)

In [15]:
# 读取
with open('data.pkl')as fp:
    data_from_file = pickle.load(fp)
    print data_from_file

[{'a': 'A', 'c': '3.0', 'b': '2'}]


In [16]:
import os
os.remove('data.pkl')