#### pickle, cPickle模块：序列化python对象
pickle作用：将任意的python对象转化为一系列字节，或将这些字节重构为具有相同特征的新对象
cPickle作用：将使用C实现相同算法，因此速度更快，但不允许派生子类

In [1]:
try:
    import cPickle as pickle
except:
    import pickle

##### pickle.dump(obj, file, [,protocol])
含义：pickle.dump（对象，文件，[使用协议]）
将要持久化的数据“对象”，保存到“文件”中，使用有3种协议，索引0为ASCII，1为旧式二进制，2为新式二进制协议，不同之处在于2要更高效一些。
默认dump方法使用0做协议

##### pickle.load(file)
含义：pickle.load(文件)，将file中的对象序列化读出。
从“文件”中读取字符串，将他们反序列化转换为python的数据对象，可以像操作数据类型的这些方法来操作它们；　　

##### pickle.dumps(obj[, protocol])
函数的功能：将obj对象序列化为string形式，而不是存入文件中。
obj：想要序列化的obj对象。
protocal：如果该项省略，则默认为0。如果为负值或HIGHEST_PROTOCOL，则使用最高的协议版本。

##### pickle.loads(string)
函数的功能：从string中读出序列化前的obj对象。
string：文件名称。

In [5]:
data = [ { 'a':'A', 'b':2, 'c':3.0 } ]

data_string = pickle.dumps(data)

print("DATA:")
print(data)
print("PICKLE:")
print(data_string)

DATA:
[{'a': 'A', 'b': 2, 'c': 3.0}]
PICKLE:
b'\x80\x03]q\x00}q\x01(X\x01\x00\x00\x00aq\x02X\x01\x00\x00\x00Aq\x03X\x01\x00\x00\x00bq\x04K\x02X\x01\x00\x00\x00cq\x05G@\x08\x00\x00\x00\x00\x00\x00ua.'


##### pickle.load()可以从字符串中恢复对象

In [6]:
data_from_string = pickle.loads(data_string)

print(data_from_string)

[{'a': 'A', 'b': 2, 'c': 3.0}]


##### 关于参数file，有一点需要注意，必须是以二进制的形式进行操作（读取）。

In [20]:
import pickle

a = ['apple', 'mango', 'carrot']

with open('shoplist', 'wb') as file:
    pickle.dump(a, file)

with open("shoplist", 'rb') as f:
    b = pickle.load(f)

print(b)
print(type(b))

['apple', 'mango', 'carrot']
<class 'list'>


##### 一个列表info，用 pickle.dumps()方法将info序列化为string形式，而不是存入文件中。用pickle.loads()方法从string（文件名称data1）读出序列化前的对象。

In [21]:
import pickle
import pprint

info = [1, 2, 3, 'egz', 'iloveu']
print('原始数据：')
pprint.pprint(info)

data1 = pickle.dumps(info)
data2 = pickle.loads(data1)

print("序列化：%r" % data1)
print("反序列化：%r" % data2)

原始数据：
[1, 2, 3, 'cpx', 'iloveu']
序列化：b'\x80\x03]q\x00(K\x01K\x02K\x03X\x03\x00\x00\x00cpxq\x01X\x06\x00\x00\x00iloveuq\x02e.'
反序列化：[1, 2, 3, 'cpx', 'iloveu']


In [22]:
import pickle
import pprint

dataList = [[8, 1, 'python'],
            [8, 1, 'python'],
            [8, 0, 'python'],
            [8, 1, 'c++'],
            [8, 1, 'c++']]
dataDic = {0: [1, 2, 3, 4],
           1: ('a', 'b'),
           2: {'c': 'yes', 'd': 'no'}}
print("原始数据dataList: ")
pprint.pprint(dataList)
print('\n')
print("原始数据dataDic: ")
pprint.pprint(dataDic)

原始数据dataList: 
[[8, 1, 'python'],
 [8, 1, 'python'],
 [8, 0, 'python'],
 [8, 1, 'c++'],
 [8, 1, 'c++']]


原始数据dataDic: 
{0: [1, 2, 3, 4], 1: ('a', 'b'), 2: {'c': 'yes', 'd': 'no'}}


In [24]:
 # 使用dump()将数据序列化到文件中
fw = open('dataFile.txt', 'wb')
pickle.dump(dataList, fw)
pickle.dump(dataDic, fw)
fw.close()

# 使用load()将数据从文件中序列化读出
fr = open('dataFile.txt', 'rb')
data1 = pickle.load(fr)
print('\n'+"反序列化1：%r" % data1)
data2 = pickle.load(fr)
print("反序列化2：%r" % data2 + '\n')
fr.close()

# 使用dumps()和loads()举例
p = pickle.dumps(dataList)
print(pickle.loads(p))
p = pickle.dumps(dataDic)
print(pickle.loads(p))


反序列化1：[[8, 1, 'python'], [8, 1, 'python'], [8, 0, 'python'], [8, 1, 'c++'], [8, 1, 'c++']]
反序列化2：{0: [1, 2, 3, 4], 1: ('a', 'b'), 2: {'c': 'yes', 'd': 'no'}}

[[8, 1, 'python'], [8, 1, 'python'], [8, 0, 'python'], [8, 1, 'c++'], [8, 1, 'c++']]
{0: [1, 2, 3, 4], 1: ('a', 'b'), 2: {'c': 'yes', 'd': 'no'}}


##### pick.clear_memo()
序列化有备忘，如果没有清空备忘，对同一对象多次调用dump(obj)，pickle会调用已运行过的

#### 编码协议

dumps 可以接受一个可省略的 protocol 参数（默认为 0），目前有 3 种编码方式：

0：原始的 ASCII 编码格式
1：二进制编码格式
2：更有效的二进制编码格式
当前最高级的编码可以通过 HIGHEST_PROTOCOL 查看：

In [16]:
print(pickle.HIGHEST_PROTOCOL)

4


In [17]:
data_string_1 = pickle.dumps(data, 1)
print("Pickle 1:", data_string_1)

Pickle 1: b']q\x00}q\x01(X\x01\x00\x00\x00aq\x02X\x01\x00\x00\x00Aq\x03X\x01\x00\x00\x00bq\x04K\x02X\x01\x00\x00\x00cq\x05G@\x08\x00\x00\x00\x00\x00\x00ua.'


In [18]:
data_string_2 = pickle.dumps(data, 2)
print("Pickle 2:", data_string_2)

Pickle 2: b'\x80\x02]q\x00}q\x01(X\x01\x00\x00\x00aq\x02X\x01\x00\x00\x00Aq\x03X\x01\x00\x00\x00bq\x04K\x02X\x01\x00\x00\x00cq\x05G@\x08\x00\x00\x00\x00\x00\x00ua.'


In [19]:
print(Pickle.dumps(data, -1)

SyntaxError: unexpected EOF while parsing (<ipython-input-19-0c48ea44966f>, line 1)

In [25]:
print("Load 1:", pickle.loads(data_string_1))
print("Load 2:", pickle.loads(data_string_2))

Load 1: [{'a': 'A', 'b': 2, 'c': 3.0}]
Load 2: [{'a': 'A', 'b': 2, 'c': 3.0}]


In [30]:
data = [ { 'a':'A', 'b':2, 'c':3.0 } ]

with open("data.pkl", "wb") as f:
    pickle.dump(data, f)
    
with open("data.pkl", 'rb') as f:
    data_from_file = pickle.load(f)
    
print(data_from_file)

[{'a': 'A', 'b': 2, 'c': 3.0}]


In [31]:
import os 
os.remove("data.pkl")