# 序列化

序列化是最常见的字节应用.所谓序列化就是将特定对象转化为一串字节序列,用以存储,作为配置文件或者传输.它的反向操作被称为反序列化.

python有丰富的序列化工具如标准库中的base64,json,pickle,又如一些开源的第三方序列化工具如dill,msgpack等.
这些工具虽然都是序列化工具,但设计目的并不相同,本文将会对他们中有代表性的进行介绍


通常作为配置文件,常见的配置文件格式有这么几种:

+ xml

    常见于那些历史比较久的,尤其是java写的软件,像hadoop就是拿xml作为配置

+ json

    恐怕是js社区最喜欢的配置形式,每个js项目的`package.json`都是其配置

+ ini/conf

    也是比较历史悠久的配置形式,常见于C写的项目,python项目中最常见的配置形式

+ yaml

    几乎可以和json划等号的配置形式,似乎是ruby常用的配置形式.很多静态网站项目喜欢使用,github page默认的渲染器`jekyll`就是用的yaml来做配置的

python中,json在序列化部分已经讲过,xml可以使用标准库`xml`进行解析.而标准库的`ConfigParser`模块可以解析`.conf`或者`.ini`配置文件.`.yml`则需要使用第三方包`pyyaml`

而作为传输信息点载体,常见的有:

+ xml

    Java体系下普遍使用
    
+ json

    当前最常见的交互载体
    
+ messagepack

    一种新兴的交互载体,更快更小
    
+ base64

    通常用于传输字节流

## base64用于序列化文件


Base64是网络上最常见的用于传输8Bit字节代码的编码方式之一,常用于传输小文件,网址等.下面是使用base64序列化网址的例子(注意base64编码的参数只能是bytes)

In [1]:
import base64

In [2]:
url = b"http://blog.hszofficial.site"

In [3]:
url_b64 = base64.b64encode(url)#编码base64

In [4]:
url_b64

b'aHR0cDovL2Jsb2cuaHN6b2ZmaWNpYWwuc2l0ZQ=='

In [5]:
base64.b64decode(url_b64)#解码base64

b'http://blog.hszofficial.site'

很多时候base64被作为加密算法做简单的加密,当然这有点自欺欺人的意思,所谓的加密也只是让人无法直接读出而已

Base64更常见的使用场景之一就是在http协议中传输小图片.它的效果是将整个图片的信息都序列化到一串字节序中

In [6]:
with open("source/mysite.gif","rb") as f:
    pic = f.read()

In [7]:
pic_64 = base64.b64encode(pic)

In [8]:
pic_64[:5]

b'R0lGO'

In [9]:
isinstance(pic_64,bytes)

True

In [10]:
len(pic_64)

31092

In [11]:
pic_64.decode()[:5]

'R0lGO'

同学们可以扫描下面的二维码来访问我的主站

In [12]:
from IPython.display import HTML
HTML('<img src="data:image/gif;base64,{value}"/>'.format(value=pic_64.decode()))

显然这种方式传输大文件很不靠谱,但小图片还是可以的

## pickle用于持续化python的内置简单对象

有的时候我们想序列化的不光是数据和数据结构,还有对象,这种时候就需要将对象以一定的协议序列化为二进制数据.

python的pickle模块是标准库中最常用的序列化模块,它实现了基本的数据序列和反序列化.通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储;通过pickle模块的反序列化操作,我们能够从文件中创建上一次程序保存的对象.

需要注意,pickel的文件并不是默认跨版本支持的,可以对照这张表设定需要的参数

pickel到目前为止有5种序列化格式:

版本	|说明|	支持python版本
---|---|---
0	|人类可读的文本,用于最早期	|全部版本
1	|老的二进制版本文本同样用于早期|	全部版本
2	|出现于2.3版本,用以支持新类|	2.3+
3	|出现于3.0版本,用以支持bytes类型|	3.0+
4	|出现于Python 3.4.用于扩充pickel的支持类型和大对象|	3.4+

python3.5+默认使用的是版本4的pickle格式

要指定使用某一种pickle格式,可以在方法中使用`protocol:int=n`来指定

### pickle的局限性

pickle的兼容性问题一直让人诟病,除了python没有别的语言使用pickle,而如上表所示,pickle在各个版本的python中也不是默认通用的

pickle实际上并不能传递函数或者类,而是只能记录下它的状态信息而已,因此不能跨模块传递,除此之外,一些对象类型也是不可pickle的.例如Python不能 pickle文件对象(或者任何带有对文件对象引用的对象),因为 Python 在 unpickle 时不能保证它可以重建该文件的状态.

### pickle的接口

pickle的接口与json类似带s为序列化或反序列化为字符串,不带的则是处理文件对象

In [13]:
import pickle

In [14]:
exa_l=[1,2,3,4,5]

In [15]:
exa_b = pickle.dumps(exa_l)

In [16]:
exa_b

b'\x80\x03]q\x00(K\x01K\x02K\x03K\x04K\x05e.'

In [17]:
pickle.loads(exa_b)

[1, 2, 3, 4, 5]

In [18]:
with open("source/pickle_test.txt","wb") as f:
    pickle.dump(exa_l,f)

In [19]:
with open("source/pickle_test.txt","rb") as f:
    view_exam = pickle.load(f)
view_exam

[1, 2, 3, 4, 5]

### 命令行工具 `pickletools`

在python3中提供了一个命令行工具来管理pickle文件

In [20]:
!python -m pickle source/pickle_test.txt

[1, 2, 3, 4, 5]


In [21]:
!python -m pickletools source/pickle_test.txt

    0: \x80 PROTO      3
    2: ]    EMPTY_LIST
    3: q    BINPUT     0
    5: (    MARK
    6: K        BININT1    1
    8: K        BININT1    2
   10: K        BININT1    3
   12: K        BININT1    4
   14: K        BININT1    5
   16: e        APPENDS    (MARK at 5)
   17: .    STOP
highest protocol among opcodes = 2


可用的参数:

-a, –annotate
用简短的操作码描述来标注每一行。

-o, –output=
写入输出的文件的名称。

-l, –indentlevel=
用于缩进新的MARK级别的空白数。

-m, –memo
拆卸多个物体时，请在拆卸之间保留备注。

-p, –preamble=
当指定多于一个pickle文件时，在每次分解之前打印给定的前导码

## *[dill](https://github.com/uqfoundation/dill)用于序列化python对象*

dill支持几乎所有的python数据,按github上的说法,它支持:

none, type, bool, int, long, float, complex, str, unicode,
tuple, list, dict, file, buffer, builtin,
both old and new style classes,
instances of old and new style classes,
set, frozenset, array, functions, exceptions
functions with yields, nested functions, lambdas
cell, method, unboundmethod, module, code, methodwrapper,
dictproxy, methoddescriptor, getsetdescriptor, memberdescriptor,
wrapperdescriptor, xrange, slice,
notimplemented, ellipsis, quit


还不支持的有:

frame(帧),generator(生成器对象,因为包含帧状态),traceback(依然是因为无法保存帧状态)


与pickle不同,dill的序列化可以跨模块传递,事实上dill也是为了分布式计算传递python对象而设计的.

dill对python3.5+支持不错,它支持协程,也支持numpy数组,只是序列化的过程中typehint会被消除.



dill的设计目标是为分布式系统传输对象提供支持.因此支持的类型最多,但实际使用它的时候由于它序列化后的字节长度往往过大所以可能反而并不适合用于传输,而它的全面细致让它在用于保存时其实更有优势.

dill在windows上似乎并不是完全支持.因此跨平台使用时需要谨慎.

dill可以直接使用pip安装,使用也相当简单,只要替代pickle就行了,他们接口相同

In [22]:
import dill

In [23]:
from asyncio import sleep
import asyncio
async def asyng(n:int):
    print("n:"+str(n)+" wait")
    await sleep(1)
    print("n:"+str(n)+"done")

In [24]:
with open("source/dill_cor.txt","wb") as f:
    dill.dump(asyng,f)

In [25]:
with open("source/dill_cor.txt","rb") as f:
    s1 = dill.load(f)

In [26]:
loop = asyncio.new_event_loop()

In [27]:
loop.run_until_complete(asyncio.wait([s1(1),s1(2),s1(3)]))

n:2 wait
n:3 wait
n:1 wait
n:2done
n:3done
n:1done


({<Task finished coro=<asyng() done, defined at <ipython-input-23-badfb7211783>:3> result=None>,
  <Task finished coro=<asyng() done, defined at <ipython-input-23-badfb7211783>:3> result=None>,
  <Task finished coro=<asyng() done, defined at <ipython-input-23-badfb7211783>:3> result=None>},
 set())

## *[cloudpickle](https://github.com/cloudpipe/cloudpickle)另一个pickle序列化工具*

cloudpickle的开发目的也是一样而且现在已经在pyspark和dask中实用(dask中之前使用的是dill),它相较于dill,cloudpickle更加健壮,从目前来看应该是更加适合用于传输的工具.实际上它只是实现了序列化,而反序列化是交给自带的pickle的,这种设计可以在反序列化一端减少依赖,也让反序列化更加快速.

从指标上来说:

+ cloudpickle 序列化更加快速,比dill快大约10%
+ cloudpickle 反序列化更加快速,比dill块大约85%
+ cloudpickle 序列化出的bytes长度大约比dill长20%(带typehints的情况)
+ cloudpickle 支持typehits


### 序列化

In [28]:
class A:
    test:str
    def __init__(self,text:str)->None:
        self.text = text

In [29]:
import cloudpickle

In [30]:
AP = cloudpickle.dumps(A)

### 反序列化

In [31]:
import pickle

In [32]:
AO = pickle.loads(AP)

In [33]:
AO.__annotations__

{'test': str}

## `.ini/.conf`文件解析

`.ini`文件形如下面

```ini
[DEFAULT]
serveraliveinterval = 45
compression = yes
compressionlevel = 9
forwardx11 = yes

[bitbucket.org]
user = hg

[topsecret.server.com]
port = 50022
forwardx11 = no
```

可以分为几个部分:

+ Sections 节,每个节代表一项配置系列

+ Case insensitivity 参数字段,具体要配置的字段对应的值

可以理解成一个两层的字典

### 写

`ConfigParser()`用于初始化一个解析器,这个解析器可以像字典一样使用

In [34]:
import configparser
config = configparser.ConfigParser()
config['DEFAULT'] = {'ServerAliveInterval': '45',
                    'Compression': 'yes',
                    'CompressionLevel': '9'}
config['bitbucket.org'] = {}
config['bitbucket.org']['User'] = 'hg'
config['topsecret.server.com'] = {}
topsecret = config['topsecret.server.com']
topsecret['Port'] = '50022'     # mutates the parser
topsecret['ForwardX11'] = 'no'  # same here
config['DEFAULT']['ForwardX11'] = 'yes'
with open('example.ini', 'w') as configfile:
    config.write(configfile)

### 读

初始化一个空的解析器后可以通过`.read`方法来读入一个已有的配置.

In [35]:
config = configparser.ConfigParser()
config.sections()

[]

In [36]:
config.read('example.ini')

['example.ini']

可以通过`sections`方法获取所有节

In [37]:
config.sections()

['bitbucket.org', 'topsecret.server.com']

In [38]:
'bitbucket.org' in config

True

In [39]:
'bytebong.com' in config

False

获取到节后,就可以像操作字典一样操作这个节内的内容了

In [40]:
for k,v in config['bitbucket.org'].items():
    print(k,v)

user hg
serveraliveinterval 45
compression yes
compressionlevel 9
forwardx11 yes


In [41]:
config['bitbucket.org']['User']

'hg'

In [42]:
config['DEFAULT']['Compression']

'yes'

In [43]:
topsecret = config['topsecret.server.com']
topsecret['ForwardX11']

'no'

In [44]:
topsecret['Port']

'50022'

In [45]:
for key in config['bitbucket.org']: print(key)

user
serveraliveinterval
compression
compressionlevel
forwardx11


## xml文件解析

xml即可扩展标记语言,它可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言,简单说它是html的爹.大约长这个样子:

    <?xml version="1.0" encoding="utf-8"?>
    <catalog>
        <maxid>4</maxid>
        <login username="pytest" passwd='123456'>
            <caption>Python</caption>
            <item id="4">
                <caption>测试</caption>
            </item>
        </login>
        <item id="2">
            <caption>Zope</caption>
        </item>
    </catalog>


它有如下特征:

+ 它是有标签对组成,
        
        <aa></aa>
 
+ 标签可以有属性:
        
        <aa id=’123’></aa>

+ 标签对可以嵌入数据:
        
        <aa>abc</aa>

+ 标签可以嵌入子标签(具有层级关系):

        <aa>

             <bb></bb>

        </aa>

和html特点上是差不多的.
 


对于xml的支持,python提供4种解析方式:DOM,SAX和ElementTree,具体特点归纳如下:


方法|对应模块|实现方式|特点
---|---|---|---
DOM|xml.dom|`W3C DOM API`的实现.将XML数据在内存中解析成一个树,通过对树的操作来操作XML.|高内存占用,但解析成树便于分析
SAX|xml.sax|`SAX API`的实现.用事件驱动模型,通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件.|低内存占用,局部加载,API不友好
ElementTree|xml.etree.ElementTree|一个轻量级的DOM,具有方便友好的API.代码可用性好速度快,消耗内存少|比DOM快,API友好,性能和SAX差不多,也支持文档局部加载

In [46]:
import requests
content = requests.get("http://www.w3school.com.cn/example/xmle/plant_catalog.xml").text
content[:100]

'<?xml version="1.0" encoding="ISO-8859-1"?>\r\n<!-- Edited with XML Spy v2007 (http://www.altova.com) '

### DOM方法:

在`xml.dom`模块中我们一般用`xml.dom.minidom`子模块来解析xml,其中`parse`用于解析文件,`parseString`用于解析字符串

In [47]:
from xml.dom.minidom import parse,parseString
dom = parseString(content)#解析xml文件,返回一个dom对象
root=dom.documentElement#返回xml生成树的根
root.nodeName#节点名

'CATALOG'

In [48]:
root.nodeValue#节点值

In [49]:
root.nodeType#节点类型

1

其中节点类型对应的意义

NodeType|	Named Constant
---|---
1|	ELEMENT_NODE
2|	ATTRIBUTE_NODE
3|	TEXT_NODE
4|	CDATA_SECTION_NODE
5|	ENTITY_REFERENCE_NODE
6	|ENTITY_NODE
7|	PROCESSING_INSTRUCTION_NODE
8|	COMMENT_NODE
9|	DOCUMENT_NODE
10|	DOCUMENT_TYPE_NODE
11|	DOCUMENT_FRAGMENT_NODE
12|	NOTATION_NODE


In [50]:
root.hasAttributes()   # 判断标签是否有属性

False

In [51]:
commoneles=root.getElementsByTagName('COMMON')#获取已知标签名的元素(按顺序返回元素)
#item = commoneles[0].getAttribute("id") #获得标签属性值
commonele0 = commoneles[0]
commonele0.firstChild.data#获取到第一个子节点的值

'Bloodroot'

再看一个更加简单的例子,我们有一个配置文件`plant_catalog.xml`用于配置所有植物对应的价格:

```xml
<?xml version="1.0" encoding="ISO-8859-1"?>
<!-- Edited with XML Spy v2007 (http://www.altova.com) -->
<CATALOG>
	<PLANT>
		<COMMON>Bloodroot</COMMON>
		<BOTANICAL>Sanguinaria canadensis</BOTANICAL>
		<ZONE>4</ZONE>
		<LIGHT>Mostly Shady</LIGHT>
		<PRICE>$2.44</PRICE>
		<AVAILABILITY>031599</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Columbine</COMMON>
		<BOTANICAL>Aquilegia canadensis</BOTANICAL>
		<ZONE>3</ZONE>
		<LIGHT>Mostly Shady</LIGHT>
		<PRICE>$9.37</PRICE>
		<AVAILABILITY>030699</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Marsh Marigold</COMMON>
		<BOTANICAL>Caltha palustris</BOTANICAL>
		<ZONE>4</ZONE>
		<LIGHT>Mostly Sunny</LIGHT>
		<PRICE>$6.81</PRICE>
		<AVAILABILITY>051799</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Cowslip</COMMON>
		<BOTANICAL>Caltha palustris</BOTANICAL>
		<ZONE>4</ZONE>
		<LIGHT>Mostly Shady</LIGHT>
		<PRICE>$9.90</PRICE>
		<AVAILABILITY>030699</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Dutchman's-Breeches</COMMON>
		<BOTANICAL>Dicentra cucullaria</BOTANICAL>
		<ZONE>3</ZONE>
		<LIGHT>Mostly Shady</LIGHT>
		<PRICE>$6.44</PRICE>
		<AVAILABILITY>012099</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Ginger, Wild</COMMON>
		<BOTANICAL>Asarum canadense</BOTANICAL>
		<ZONE>3</ZONE>
		<LIGHT>Mostly Shady</LIGHT>
		<PRICE>$9.03</PRICE>
		<AVAILABILITY>041899</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Hepatica</COMMON>
		<BOTANICAL>Hepatica americana</BOTANICAL>
		<ZONE>4</ZONE>
		<LIGHT>Mostly Shady</LIGHT>
		<PRICE>$4.45</PRICE>
		<AVAILABILITY>012699</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Liverleaf</COMMON>
		<BOTANICAL>Hepatica americana</BOTANICAL>
		<ZONE>4</ZONE>
		<LIGHT>Mostly Shady</LIGHT>
		<PRICE>$3.99</PRICE>
		<AVAILABILITY>010299</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Jack-In-The-Pulpit</COMMON>
		<BOTANICAL>Arisaema triphyllum</BOTANICAL>
		<ZONE>4</ZONE>
		<LIGHT>Mostly Shady</LIGHT>
		<PRICE>$3.23</PRICE>
		<AVAILABILITY>020199</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Mayapple</COMMON>
		<BOTANICAL>Podophyllum peltatum</BOTANICAL>
		<ZONE>3</ZONE>
		<LIGHT>Mostly Shady</LIGHT>
		<PRICE>$2.98</PRICE>
		<AVAILABILITY>060599</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Phlox, Woodland</COMMON>
		<BOTANICAL>Phlox divaricata</BOTANICAL>
		<ZONE>3</ZONE>
		<LIGHT>Sun or Shade</LIGHT>
		<PRICE>$2.80</PRICE>
		<AVAILABILITY>012299</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Phlox, Blue</COMMON>
		<BOTANICAL>Phlox divaricata</BOTANICAL>
		<ZONE>3</ZONE>
		<LIGHT>Sun or Shade</LIGHT>
		<PRICE>$5.59</PRICE>
		<AVAILABILITY>021699</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Spring-Beauty</COMMON>
		<BOTANICAL>Claytonia Virginica</BOTANICAL>
		<ZONE>7</ZONE>
		<LIGHT>Mostly Shady</LIGHT>
		<PRICE>$6.59</PRICE>
		<AVAILABILITY>020199</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Trillium</COMMON>
		<BOTANICAL>Trillium grandiflorum</BOTANICAL>
		<ZONE>5</ZONE>
		<LIGHT>Sun or Shade</LIGHT>
		<PRICE>$3.90</PRICE>
		<AVAILABILITY>042999</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Wake Robin</COMMON>
		<BOTANICAL>Trillium grandiflorum</BOTANICAL>
		<ZONE>5</ZONE>
		<LIGHT>Sun or Shade</LIGHT>
		<PRICE>$3.20</PRICE>
		<AVAILABILITY>022199</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Violet, Dog-Tooth</COMMON>
		<BOTANICAL>Erythronium americanum</BOTANICAL>
		<ZONE>4</ZONE>
		<LIGHT>Shade</LIGHT>
		<PRICE>$9.04</PRICE>
		<AVAILABILITY>020199</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Trout Lily</COMMON>
		<BOTANICAL>Erythronium americanum</BOTANICAL>
		<ZONE>4</ZONE>
		<LIGHT>Shade</LIGHT>
		<PRICE>$6.94</PRICE>
		<AVAILABILITY>032499</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Adder's-Tongue</COMMON>
		<BOTANICAL>Erythronium americanum</BOTANICAL>
		<ZONE>4</ZONE>
		<LIGHT>Shade</LIGHT>
		<PRICE>$9.58</PRICE>
		<AVAILABILITY>041399</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Anemone</COMMON>
		<BOTANICAL>Anemone blanda</BOTANICAL>
		<ZONE>6</ZONE>
		<LIGHT>Mostly Shady</LIGHT>
		<PRICE>$8.86</PRICE>
		<AVAILABILITY>122698</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Grecian Windflower</COMMON>
		<BOTANICAL>Anemone blanda</BOTANICAL>
		<ZONE>6</ZONE>
		<LIGHT>Mostly Shady</LIGHT>
		<PRICE>$9.16</PRICE>
		<AVAILABILITY>071099</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Bee Balm</COMMON>
		<BOTANICAL>Monarda didyma</BOTANICAL>
		<ZONE>4</ZONE>
		<LIGHT>Shade</LIGHT>
		<PRICE>$4.59</PRICE>
		<AVAILABILITY>050399</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Bergamot</COMMON>
		<BOTANICAL>Monarda didyma</BOTANICAL>
		<ZONE>4</ZONE>
		<LIGHT>Shade</LIGHT>
		<PRICE>$7.16</PRICE>
		<AVAILABILITY>042799</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Black-Eyed Susan</COMMON>
		<BOTANICAL>Rudbeckia hirta</BOTANICAL>
		<ZONE>Annual</ZONE>
		<LIGHT>Sunny</LIGHT>
		<PRICE>$9.80</PRICE>
		<AVAILABILITY>061899</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Buttercup</COMMON>
		<BOTANICAL>Ranunculus</BOTANICAL>
		<ZONE>4</ZONE>
		<LIGHT>Shade</LIGHT>
		<PRICE>$2.57</PRICE>
		<AVAILABILITY>061099</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Crowfoot</COMMON>
		<BOTANICAL>Ranunculus</BOTANICAL>
		<ZONE>4</ZONE>
		<LIGHT>Shade</LIGHT>
		<PRICE>$9.34</PRICE>
		<AVAILABILITY>040399</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Butterfly Weed</COMMON>
		<BOTANICAL>Asclepias tuberosa</BOTANICAL>
		<ZONE>Annual</ZONE>
		<LIGHT>Sunny</LIGHT>
		<PRICE>$2.78</PRICE>
		<AVAILABILITY>063099</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Cinquefoil</COMMON>
		<BOTANICAL>Potentilla</BOTANICAL>
		<ZONE>Annual</ZONE>
		<LIGHT>Shade</LIGHT>
		<PRICE>$7.06</PRICE>
		<AVAILABILITY>052599</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Primrose</COMMON>
		<BOTANICAL>Oenothera</BOTANICAL>
		<ZONE>3 - 5</ZONE>
		<LIGHT>Sunny</LIGHT>
		<PRICE>$6.56</PRICE>
		<AVAILABILITY>013099</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Gentian</COMMON>
		<BOTANICAL>Gentiana</BOTANICAL>
		<ZONE>4</ZONE>
		<LIGHT>Sun or Shade</LIGHT>
		<PRICE>$7.81</PRICE>
		<AVAILABILITY>051899</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Blue Gentian</COMMON>
		<BOTANICAL>Gentiana</BOTANICAL>
		<ZONE>4</ZONE>
		<LIGHT>Sun or Shade</LIGHT>
		<PRICE>$8.56</PRICE>
		<AVAILABILITY>050299</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Jacob's Ladder</COMMON>
		<BOTANICAL>Polemonium caeruleum</BOTANICAL>
		<ZONE>Annual</ZONE>
		<LIGHT>Shade</LIGHT>
		<PRICE>$9.26</PRICE>
		<AVAILABILITY>022199</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Greek Valerian</COMMON>
		<BOTANICAL>Polemonium caeruleum</BOTANICAL>
		<ZONE>Annual</ZONE>
		<LIGHT>Shade</LIGHT>
		<PRICE>$4.36</PRICE>
		<AVAILABILITY>071499</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>California Poppy</COMMON>
		<BOTANICAL>Eschscholzia californica</BOTANICAL>
		<ZONE>Annual</ZONE>
		<LIGHT>Sun</LIGHT>
		<PRICE>$7.89</PRICE>
		<AVAILABILITY>032799</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Shooting Star</COMMON>
		<BOTANICAL>Dodecatheon</BOTANICAL>
		<ZONE>Annual</ZONE>
		<LIGHT>Mostly Shady</LIGHT>
		<PRICE>$8.60</PRICE>
		<AVAILABILITY>051399</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Snakeroot</COMMON>
		<BOTANICAL>Cimicifuga</BOTANICAL>
		<ZONE>Annual</ZONE>
		<LIGHT>Shade</LIGHT>
		<PRICE>$5.63</PRICE>
		<AVAILABILITY>071199</AVAILABILITY>
	</PLANT>
	<PLANT>
		<COMMON>Cardinal Flower</COMMON>
		<BOTANICAL>Lobelia cardinalis</BOTANICAL>
		<ZONE>2</ZONE>
		<LIGHT>Shade</LIGHT>
		<PRICE>$3.02</PRICE>
		<AVAILABILITY>022299</AVAILABILITY>
	</PLANT>
</CATALOG>
```

让我们来解析它

In [52]:
dom = parse("plant_catalog.xml")#解析xml文件,返回一个dom对象
root=dom.documentElement#返回xml生成树的根
plantes = root.getElementsByTagName('PLANT')
result = map(lambda x:(x.getElementsByTagName('COMMON')[0].firstChild.data,
              x.getElementsByTagName('PRICE')[0].firstChild.data),plantes)
for i in result:
    print(i[0],":",i[1])

Bloodroot : $2.44
Columbine : $9.37
Marsh Marigold : $6.81
Cowslip : $9.90
Dutchman's-Breeches : $6.44
Ginger, Wild : $9.03
Hepatica : $4.45
Liverleaf : $3.99
Jack-In-The-Pulpit : $3.23
Mayapple : $2.98
Phlox, Woodland : $2.80
Phlox, Blue : $5.59
Spring-Beauty : $6.59
Trillium : $3.90
Wake Robin : $3.20
Violet, Dog-Tooth : $9.04
Trout Lily : $6.94
Adder's-Tongue : $9.58
Anemone : $8.86
Grecian Windflower : $9.16
Bee Balm : $4.59
Bergamot : $7.16
Black-Eyed Susan : $9.80
Buttercup : $2.57
Crowfoot : $9.34
Butterfly Weed : $2.78
Cinquefoil : $7.06
Primrose : $6.56
Gentian : $7.81
Blue Gentian : $8.56
Jacob's Ladder : $9.26
Greek Valerian : $4.36
California Poppy : $7.89
Shooting Star : $8.60
Snakeroot : $5.63
Cardinal Flower : $3.02


### SAX方法

SAX方法是事件驱动的,所以第一个就是继承回调类并重载回调函数,这和`html.parser`类似

ContentHandler类常用方法介绍:

+ characters(content)方法

    调用时机:
    从行开始,遇到标签之前,存在字符,content的值为这些字符串.
    从一个标签,遇到下一个标签之前,存在字符,content的值为这些字符串.
    从一个标签,遇到行结束符之前,存在字符,content的值为这些字符串.
    标签可以是开始标签,也可以是结束标签.
  
  
+ startDocument()方法

    文档启动的时候调用.
    
    
+ endDocument()方法

    解析器到达文档结尾时调用.
    
    
+ startElement(name, attrs)方法

    遇到XML开始标签时调用,name是标签的名字,attrs是标签的属性值字典.
    
    
+ endElement(name)方法

    遇到XML结束标签时调用.

+ startElementNS(name, qname, attrs)方法

    遇到XML命名空间开始时调用
    
+ endElementNS(name, qname)方法
    
    遇到XML命名空间结束时调用
    
    
之后只要创建解析器对象就可以像解析html一样解析xml了,我们依然用上面的例子

In [53]:
import xml.sax.handler

class PlanteHandler(xml.sax.handler.ContentHandler):
    def __init__(self):
        self.CurrentData = ""
        self.type = ""
        self.format = ""
        self.year = ""
        self.rating = ""
        self.stars = ""
        self.description = ""
        
    # 元素开始事件处理
    def startElement(self, tag, attributes):
        self.CurrentData = tag
        chidren = {
            "PlANTE":lambda :print("*****PlANTE*****"),
            "COMMON":lambda :print("name:",end=''),
            "PRICE":lambda :print("price:",end='')
        }
        chidren.get(self.CurrentData,lambda : None)()
    
    # 元素结束事件处理
    def endElement(self, tag):
        self.CurrentData = ""

    # 内容事件处理
    def characters(self, content):
        chidren = {
            "COMMON":lambda:print(content),
            "PRICE":lambda:print(content)
        }
        chidren.get(self.CurrentData,lambda :None)()

In [54]:
parser = xml.sax.make_parser()#创建解析器对象
Handler = PlanteHandler()#创建回调对象
parser.setContentHandler(Handler)#设置回调对象到解析器对象
parser.parse("plant_catalog.xml")

name:Bloodroot
price:$2.44
name:Columbine
price:$9.37
name:Marsh Marigold
price:$6.81
name:Cowslip
price:$9.90
name:Dutchman's-Breeches
price:$6.44
name:Ginger, Wild
price:$9.03
name:Hepatica
price:$4.45
name:Liverleaf
price:$3.99
name:Jack-In-The-Pulpit
price:$3.23
name:Mayapple
price:$2.98
name:Phlox, Woodland
price:$2.80
name:Phlox, Blue
price:$5.59
name:Spring-Beauty
price:$6.59
name:Trillium
price:$3.90
name:Wake Robin
price:$3.20
name:Violet, Dog-Tooth
price:$9.04
name:Trout Lily
price:$6.94
name:Adder's-Tongue
price:$9.58
name:Anemone
price:$8.86
name:Grecian Windflower
price:$9.16
name:Bee Balm
price:$4.59
name:Bergamot
price:$7.16
name:Black-Eyed Susan
price:$9.80
name:Buttercup
price:$2.57
name:Crowfoot
price:$9.34
name:Butterfly Weed
price:$2.78
name:Cinquefoil
price:$7.06
name:Primrose
price:$6.56
name:Gentian
price:$7.81
name:Blue Gentian
price:$8.56
name:Jacob's Ladder
price:$9.26
name:Greek Valerian
price:$4.36
name:California Poppy
price:$7.89
name:Shooting Star
price:$

### ElementTree方法

从总结上来看可以说ElementTree方法是最好的方法,Dom处理大文本的时候会相当吃内存,而SAX无法全面解析文档结构.ElementTree怎两者兼而有之,加上友好的api.这也是我最推荐的方法.

**将 XML 解析为树的形式:**

XML 是一种分级的数据形式,所以最自然的表示方法是将它表示为一棵树.ET有两个对象来实现这个目的

+ ElementTree 

    将整个 XML 解析为一棵树
    
    
+ Element

    将单个结点解析为树


如果是整个文档级别的操作(比如说读,写,找到一些有趣的元素)通常用ElementTree.单个 XML 元素和它的子元素通常用 Element.

`xml.etree.ElementTree`提供接口`parse`对文件进行解析,也可以使用类`xml.etree.ElementTree.ElementTree`通过指定file关键字指定文件进行解析


如果想要解析文本,则可以使用接口`fromstring`来进行解析

In [55]:
import xml.etree.ElementTree as ET
tree = ET.ElementTree(file='plant_catalog.xml')
root = tree.getroot()

In [56]:
root.tag, root.attrib#标签和属性

('CATALOG', {})

In [57]:
#查看子节点
for child in root:
    print(child.tag, child.attrib)

PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}
PLANT {}


In [58]:
root[0].tag, root[0].attrib#进入一个子节点查看

('PLANT', {})

In [59]:
# 找元素
#以一个节点为根深度优先遍历
for elem in tree.iter():
    print(elem.tag, elem.attrib,elem.text)

CATALOG {} 
	
PLANT {} 
		
COMMON {} Bloodroot
BOTANICAL {} Sanguinaria canadensis
ZONE {} 4
LIGHT {} Mostly Shady
PRICE {} $2.44
AVAILABILITY {} 031599
PLANT {} 
		
COMMON {} Columbine
BOTANICAL {} Aquilegia canadensis
ZONE {} 3
LIGHT {} Mostly Shady
PRICE {} $9.37
AVAILABILITY {} 030699
PLANT {} 
		
COMMON {} Marsh Marigold
BOTANICAL {} Caltha palustris
ZONE {} 4
LIGHT {} Mostly Sunny
PRICE {} $6.81
AVAILABILITY {} 051799
PLANT {} 
		
COMMON {} Cowslip
BOTANICAL {} Caltha palustris
ZONE {} 4
LIGHT {} Mostly Shady
PRICE {} $9.90
AVAILABILITY {} 030699
PLANT {} 
		
COMMON {} Dutchman's-Breeches
BOTANICAL {} Dicentra cucullaria
ZONE {} 3
LIGHT {} Mostly Shady
PRICE {} $6.44
AVAILABILITY {} 012099
PLANT {} 
		
COMMON {} Ginger, Wild
BOTANICAL {} Asarum canadense
ZONE {} 3
LIGHT {} Mostly Shady
PRICE {} $9.03
AVAILABILITY {} 041899
PLANT {} 
		
COMMON {} Hepatica
BOTANICAL {} Hepatica americana
ZONE {} 4
LIGHT {} Mostly Shady
PRICE {} $4.45
AVAILABILITY {} 012699
PLANT {} 
		
COMMON {} Li

In [60]:
#以一个节点为根深度优先遍历,查找有没有符合要求的元素
for elem in tree.iter(tag="COMMON"):
    print(elem.tag, elem.attrib,elem.text)

COMMON {} Bloodroot
COMMON {} Columbine
COMMON {} Marsh Marigold
COMMON {} Cowslip
COMMON {} Dutchman's-Breeches
COMMON {} Ginger, Wild
COMMON {} Hepatica
COMMON {} Liverleaf
COMMON {} Jack-In-The-Pulpit
COMMON {} Mayapple
COMMON {} Phlox, Woodland
COMMON {} Phlox, Blue
COMMON {} Spring-Beauty
COMMON {} Trillium
COMMON {} Wake Robin
COMMON {} Violet, Dog-Tooth
COMMON {} Trout Lily
COMMON {} Adder's-Tongue
COMMON {} Anemone
COMMON {} Grecian Windflower
COMMON {} Bee Balm
COMMON {} Bergamot
COMMON {} Black-Eyed Susan
COMMON {} Buttercup
COMMON {} Crowfoot
COMMON {} Butterfly Weed
COMMON {} Cinquefoil
COMMON {} Primrose
COMMON {} Gentian
COMMON {} Blue Gentian
COMMON {} Jacob's Ladder
COMMON {} Greek Valerian
COMMON {} California Poppy
COMMON {} Shooting Star
COMMON {} Snakeroot
COMMON {} Cardinal Flower


**用XPath查找元素**

`XPath`是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历.
XPath 是 W3C XSLT 标准的主要元素,对XPath 的理解是很多高级 XML 应用的基础.ElementTree支持XPath语法查找元素.

什么是 XPath?

XPath可以说是使用路径表达式在 XML 文档中进行导航的一个标准

支持的路径表达式有:

表达式|	描述
---|---
`tag`|选取此节点的所有子节点。
`/`	|从根节点选取。(绝对路径)
`//`	|从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。(相对路径)
`.`|选取当前节点。
`..`|选取当前节点的父节点。
`@`|选取属性。
`@ xxx=aaa`|选取属性值为aaa的属性
`*`|匹配任意元素节点
`@*`|匹配任意元素
`node()`|匹配任意类型节点
`[]`|筛选
竖条|和


`iterfind()`方法可以使用XPath来查找需要的元素.


我们来试着打印出所有植物和他的对应价格并为大于5美元的计数

In [61]:
countmony = 0 
for elem in zip(tree.iterfind("*/COMMON"),tree.iterfind("*/PRICE")):
    print(elem[0].tag, elem[0].text)
    print(elem[1].tag, elem[1].text)
    if float(elem[1].text[1:]) > 5:
        countmony += 1
print(countmony)

COMMON Bloodroot
PRICE $2.44
COMMON Columbine
PRICE $9.37
COMMON Marsh Marigold
PRICE $6.81
COMMON Cowslip
PRICE $9.90
COMMON Dutchman's-Breeches
PRICE $6.44
COMMON Ginger, Wild
PRICE $9.03
COMMON Hepatica
PRICE $4.45
COMMON Liverleaf
PRICE $3.99
COMMON Jack-In-The-Pulpit
PRICE $3.23
COMMON Mayapple
PRICE $2.98
COMMON Phlox, Woodland
PRICE $2.80
COMMON Phlox, Blue
PRICE $5.59
COMMON Spring-Beauty
PRICE $6.59
COMMON Trillium
PRICE $3.90
COMMON Wake Robin
PRICE $3.20
COMMON Violet, Dog-Tooth
PRICE $9.04
COMMON Trout Lily
PRICE $6.94
COMMON Adder's-Tongue
PRICE $9.58
COMMON Anemone
PRICE $8.86
COMMON Grecian Windflower
PRICE $9.16
COMMON Bee Balm
PRICE $4.59
COMMON Bergamot
PRICE $7.16
COMMON Black-Eyed Susan
PRICE $9.80
COMMON Buttercup
PRICE $2.57
COMMON Crowfoot
PRICE $9.34
COMMON Butterfly Weed
PRICE $2.78
COMMON Cinquefoil
PRICE $7.06
COMMON Primrose
PRICE $6.56
COMMON Gentian
PRICE $7.81
COMMON Blue Gentian
PRICE $8.56
COMMON Jacob's Ladder
PRICE $9.26
COMMON Greek Valerian
PRICE $4

**iterparse(source, events=None, parser=None)处理XML流**

我们刚讲过如何使用 ET 来将 XML 读入内存并且处理.但它就不会碰到和 DOM 一样的内存问题么？当然会.这也是为什么这个包提供一个特殊的工具,用来处理大型文档,并且解决了内存问题,这个工具叫 iterparse.

他有4个关键字:

+ start---元素开始
+ end---元素结束
+ start-ns---命名空间开始
+ end-ns---命名空间结束

iterparse每次返回一个(event, elem)对,可以用这些返回和关键字做匹配,调用回调函数达到解析的目的,还是上面的例子


In [62]:
countf = 0
def counter():
    def count():
        global countf
        if float(elem.text[1:]) >5:
            countf += 1
        return countf
    return count
mycounter = counter()

for event,elem in ET.iterparse('plant_catalog.xml'):        
    keywords={
        "PRICE":mycounter
    }
    events={
        "start":lambda :False,
        "end":lambda :(keywords.get(elem.tag,lambda :False)()),
        "start-ns":lambda :False,
        "end-ns":lambda :False
    }
    events.get(event,lambda :False)()
    
print(countf)

23


### 建立XML文档

ElementTree 对象提供了 write 方法可以用来建立xml文档,另外俩虽然也可以,但没这个方便.

我们要建立一个xml,需要从元素入手

In [63]:
a = ET.Element("elema")# 创建一个元素
b = ET.Element("elemb")
sub1 = ET.Element("sub1")
sub2 = ET.Element("sub2")
root = ET.Element('root')
a.text = "text"#为元素创建数据
a.attrib = {"class":"a"}#创建属性
sub1sub1 = ET.SubElement(sub1,"sub1sub1")#创建一个节点的子节点
root.extend((a,b))#扩展节点
b.extend((sub1,sub2))
tree = ET.ElementTree(root)

In [64]:
tree.write("output.xml")

In [65]:
!cat output.xml

<root><elema class="a">text</elema><elemb><sub1><sub1sub1 /></sub1><sub2 /></elemb></root>

顺道一提,因为html是xml的子集所以理论上也可以当xml一样解析.

xml是一种比较老的格式化文本协议,至今流行于java项目中,常作为配置文件的格式,像hadoop,spark都还是使用的xml来做配置文件的格式.
在早期,xml也作为网络通信或者对象描述序列化时常常使用的文本协议,但是因为过重现在已经基本被json取代.因此我将它放在这里顺带一提.个人认为xml即便是作为配置文件也过于重了,很难想象除了java社区因为思维惯性还用它以为其他人还用它.

## json用于消息传输

json是当今网络数据传递的标准格式之一,相比较于xml,它更轻量,因此更加便于传输,而且其本身就可以被javascript识别为js对象,更加便于前端处理.

python的标准变量类型与js十分相像因此有天然的Json支持,也就是他的json模块了.

python标准库中有json模块专门用于序列化和反序列化json

与其他序列化不太一样的地方在于,python中json序列化出来并不是bytes而是字符串.其实json作为一种标准格式其实应该和html,xml这些放在一起类比才对,但这里作为序列化工具主要是因为它可以直接对应python中的list和dict

In [66]:
import json

In [67]:
d = dict(name='Bob', age=20, score=88)
json_str = json.dumps(d)

In [68]:
json_str

'{"name": "Bob", "age": 20, "score": 88}'

In [69]:
json.loads(json_str)

{'age': 20, 'name': 'Bob', 'score': 88}

json模块可以直接处理json格式的文件,使用的接口与处理json格式字符串类似,只是方法名后面没有`s`

In [70]:
with open('source/new.json', 'w') as f:
    cont = json.dump(d,f)

In [71]:
with open('source/new.json', 'r') as f:
    cont = json.load(f)
print(cont)

{'name': 'Bob', 'age': 20, 'score': 88}


### ujson

虽然Python自带这个json序列化工具,但因为它的代码是纯净的python代码,因此比较慢,如果想有更快的序列化和反序列化速度的话,可以使用ujson,这个快很多因为是C写的底层.

他们接口完全相同

In [72]:
import ujson

In [73]:
%timeit json.loads(json_str)

2.59 µs ± 52 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [74]:
%timeit ujson.loads(json_str)

543 ns ± 4.43 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [75]:
%timeit json.dumps(d)

2.83 µs ± 13.6 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [76]:
%timeit ujson.dumps(d)

530 ns ± 2.89 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


可以看到ujson无论是序列化还是反序列化都比自带的json模块快上一个数量级

## `.yml`文件解析



`.yml`文件需要使用第三方包`pyyaml`来解析,据说效率很高.

`.yml`文件形如:

```yml
name: Silenthand Olleander
race: Human
traits: [ONE_HAND, ONE_EYE]
```

yml是一种与json等价的格式,很多现代项目的标准配置格式.比如gitpage默认的静态页面生成框架`jekyll`就是使用这种格式配置项目

### 写

pyyml可以像json一样直接将字典写成配置文件,甚至可以将pyhton对象写成配置文件

In [77]:
import yaml

In [78]:
so = {'name': 'Silenthand Olleander', 
      'race': 'Human',
      'traits': ['ONE_HAND', 'ONE_EYE']
     }

In [79]:
so

{'name': 'Silenthand Olleander',
 'race': 'Human',
 'traits': ['ONE_HAND', 'ONE_EYE']}

In [80]:
print(yaml.dump(so))

name: Silenthand Olleander
race: Human
traits: [ONE_HAND, ONE_EYE]



In [81]:
with open("exsample.yml",'w') as f:
    f.write(yaml.dump(so))

In [82]:
class Hero:
    def __init__(self, name, hp, sp):
        self.name = name
        self.hp = hp
        self.sp = sp
    def __repr__(self):
        return "%s(name=%r, hp=%r, sp=%r)" % (self.__class__.__name__, self.name, self.hp, self.sp)


In [83]:
h= Hero("Galain Ysseleg", hp=-3, sp=2)
print(yaml.dump(h))

!!python/object:__main__.Hero {hp: -3, name: Galain Ysseleg, sp: 2}



### 读

In [84]:
with open("exsample.yml") as f:
    result = yaml.load(f)

In [85]:
result

{'name': 'Silenthand Olleander',
 'race': 'Human',
 'traits': ['ONE_HAND', 'ONE_EYE']}

## *[msgpack](https://github.com/msgpack/msgpack-python)用于更好的传递消息*

`msgpack`是现在最快最小的通用序列化协议,官方的说法是`It's like JSON.but fast and small.`有测试确实效率非常高.

但其实msgpack和json适用范围并不完全重叠,json作为通用传输协议活跃于web应用,它传递的是字符串,而mspack传递的更多的是bytes,用途也更加底层,常用于分布式服务的消息传递,rpc等

In [86]:
import msgpack

## 序列化为bytes

msgpack可以序列化list和dict

In [87]:
pack = msgpack.packb([1, 2, 3])

In [88]:
pack

b'\x93\x01\x02\x03'

In [89]:
msgpack.unpackb(pack)

[1, 2, 3]

In [90]:
msgpack.unpackb(pack,use_list=False)# 指定use_list为False则会返回tuple

(1, 2, 3)

In [91]:
pack = msgpack.packb(dict(a=1,b=2,c=3))

In [92]:
pack

b'\x83\xa1a\x01\xa1b\x02\xa1c\x03'

In [93]:
msgpack.unpackb(pack)

{b'a': 1, b'b': 2, b'c': 3}

### 反序列化为字符串

In [94]:
pack = msgpack.packb(["你", "我", "他"])

In [95]:
pack

b'\x93\xa3\xe4\xbd\xa0\xa3\xe6\x88\x91\xa3\xe4\xbb\x96'

In [96]:
msgpack.unpackb(pack)

[b'\xe4\xbd\xa0', b'\xe6\x88\x91', b'\xe4\xbb\x96']

In [97]:
msgpack.unpackb(pack,encoding='utf-8')

['你', '我', '他']

### 序列化流

unpacker可以反序列化流,它可以从一个流(或从通过其feed方法提供的字节)中分离多个对象.

In [98]:
import msgpack
from io import BytesIO

buf = BytesIO()
for i in range(10):
    buf.write(msgpack.packb(list(range(i))))

buf.seek(0)

unpacker = msgpack.Unpacker(buf)
for unpacked in unpacker:
    print(unpacked)

[]
[0]
[0, 1]
[0, 1, 2]
[0, 1, 2, 3]
[0, 1, 2, 3, 4]
[0, 1, 2, 3, 4, 5]
[0, 1, 2, 3, 4, 5, 6]
[0, 1, 2, 3, 4, 5, 6, 7]
[0, 1, 2, 3, 4, 5, 6, 7, 8]


### 自定义对象序列化

也可以序列化自定义数据类型.以下是datetime.datetime的示例.

我们可以用`default`来指定自定义序列化和反序列化的方法.

需要注意的是序列化后的对象字段和值都会被变成bytes,因此需要适当的decode

In [99]:
import datetime
import msgpack

useful_dict = {
    "id": 1,
    "created": datetime.datetime.now(),
}

In [100]:
def decode_datetime(obj):
    if b'__datetime__' in obj:
        obj = datetime.datetime.strptime(obj[b"as_str"].decode(), "%Y%m%dT%H:%M:%S.%f")
    return obj

def encode_datetime(obj):
    if isinstance(obj, datetime.datetime):
        return {b'__datetime__': True, b'as_str': obj.strftime("%Y%m%dT%H:%M:%S.%f")}
    return obj

In [101]:
packed_dict = msgpack.packb(useful_dict, default=encode_datetime)

In [102]:
packed_dict

b'\x82\xa2id\x01\xa7created\x82\xac__datetime__\xc3\xa6as_str\xb820180607T18:13:21.312504'

In [103]:
this_dict_again = msgpack.unpackb(packed_dict, object_hook=decode_datetime)

In [104]:
this_dict_again

{b'created': datetime.datetime(2018, 6, 7, 18, 13, 21, 312504), b'id': 1}

如上面的自定义方法,序列化是将容器中的对象找出来,一个一个执行自定义的序列化方法,因此需要用`isinstance`方法来判别出类型来再做特殊处理.
而反序列化则是需要通过指定的字段找出序列化的内容,再执行反序列化

### 结合dill传递对象

In [105]:
import dill
class Vector2D:
    def __repr__(self):
        return "Vector2D<{self.a},{self.b}>".format(self=self)
    def __dill__(self): 
        return dill.dumps(self)
    def __init__(self,a:int,b:int):
        self.a = a
        self.b = b
    def __add__(self,c):
        a = self.a+c.a
        b = self.b+c.b
        return Vector2D(a,b)

In [106]:
def encode_v2d(obj):
    if isinstance(obj, Vector2D):
        return {b'__Vector2D__': True, b'as_bytes': obj.__dill__()}
    return obj

def decode_v2d(obj):
    if b'__Vector2D__' in obj:
        obj = dill.loads(obj[b"as_bytes"])
    return obj

In [107]:
useful_dict = {
    "id": 1,
    "created": Vector2D(1,2),
}

In [108]:
packed_dict = msgpack.packb(useful_dict, default=encode_v2d)

In [109]:
packed_dict

b'\x82\xa2id\x01\xa7created\x82\xac__Vector2D__\xc3\xa8as_bytes\xda\x03\x87\x80\x03cdill.dill\n_create_type\nq\x00(cdill.dill\n_load_type\nq\x01X\x04\x00\x00\x00typeq\x02\x85q\x03Rq\x04X\x08\x00\x00\x00Vector2Dq\x05h\x01X\x06\x00\x00\x00objectq\x06\x85q\x07Rq\x08\x85q\t}q\n(X\n\x00\x00\x00__module__q\x0bX\x08\x00\x00\x00__main__q\x0cX\x08\x00\x00\x00__repr__q\rcdill.dill\n_create_function\nq\x0e(h\x01X\x08\x00\x00\x00CodeTypeq\x0f\x85q\x10Rq\x11(K\x01K\x00K\x01K\x03KCC\x0cd\x01j\x00|\x00d\x02\x8d\x01S\x00q\x12NX\x1b\x00\x00\x00Vector2D<{self.a},{self.b}>q\x13X\x04\x00\x00\x00selfq\x14\x85q\x15\x87q\x16X\x06\x00\x00\x00formatq\x17\x85q\x18h\x14\x85q\x19X \x00\x00\x00<ipython-input-105-a84ef107df8c>q\x1ah\rK\x03C\x02\x00\x01q\x1b))tq\x1cRq\x1dc__builtin__\n__main__\nh\rNN}q\x1etq\x1fRq X\x08\x00\x00\x00__dill__q!h\x0e(h\x11(K\x01K\x00K\x01K\x02KCC\nt\x00j\x01|\x00\x83\x01S\x00q"N\x85q#X\x04\x00\x00\x00dillq$X\x05\x00\x00\x00dumpsq%\x86q&h\x14\x85q\'h\x1ah!K\x05C\x02\x00\x01q())tq)Rq*c__b

In [110]:
this_dict_again = msgpack.unpackb(packed_dict, object_hook=decode_v2d)

In [111]:
this_dict_again

{b'created': Vector2D<1,2>, b'id': 1}

In [112]:
v1 = this_dict_again[b"created"]

In [113]:
v2 = Vector2D(2,2)

In [114]:
v1+v2

Vector2D<3,4>