# XML与XPATH基础

## XML

1. XML 的含义是可扩展标记语言（eXtensible Markup Language）。
2. XML的作用：    
    | -  作为网络传输数据格式（Web Service采用XML作为数据通信格式）；     
    | -  数据存储格式（比如Oracle DB支持XML存储格式）。    
    | -  配置文件格式（Tomcat等服务器经常采用XML配置文件格式）。        

### XML基本概念

1. XML文档结构
&emsp;&emsp;XML文档由两个部分构成      
&emsp;&emsp;&emsp;&emsp;|-   声明部分
&emsp;&emsp;&emsp;&emsp;|-   序言部分
&emsp;&emsp;&emsp;&emsp;|-   文档正文     

2. XML例子

```xml
<!--声明-->
<?xml version="1.0" encoding="UTF-8"?>
<!--序言-->
<!DOCTYPE books SYSTEM "books.dtd">
<!--正文-->
<books>
    <book category="Python">
        <title lang="zh">网络爬虫开发</title>
        <author>蜘蛛精</author>
        <year>2018</year>
        <price>66.50</price>
        <publisher>清华大学出版社</publisher>
    </book>
    <book category="系统运维">
        <title lang="zh">K8S运维指南r</title>
        <author>马哥教育</author>
        <year>2018</year>
        <price>99.00</price>
        <publisher>机械版社</publisher>
    </book>
        <book category="区块链">
        <title lang="en">以太坊智能合约开发</title>
        <author>钱多多</author>
        <year>2019</year>
        <price>88.95</price>
        <publisher>邮电出版社</publisher>
    </book>
</books>
```

3. xml基本单元      
&emsp;&emsp;XML的基本单位是标签构成。标签分成**成对标签**与**独标签**；   
&emsp;&emsp;&emsp;&emsp;成对标签：开始标签<标签>与结束标签</标签>     
&emsp;&emsp;&emsp;&emsp;独标签：没有内容体，结束标签与开始标签可以简写成<标签/>      
&emsp;&emsp;     
&emsp;&emsp;**注意：**开始标签与结束标签明必须一样，才认为是一个标签。    


4. 标签      

&emsp;&emsp;标签也称元素，标签一般由四个部分构成：    
&emsp;&emsp;&emsp;&emsp;| -  开始标签：<标签>       
&emsp;&emsp;&emsp;&emsp;| -  结束标签：</标签>     
&emsp;&emsp;&emsp;&emsp;| -  标签属性：<标签  属性=属性值>     
&emsp;&emsp;&emsp;&emsp;| -  文本体：<标签  属性=属性值>文本体</标签>     
&emsp;&emsp;    
&emsp;&emsp;**注意：**如果没有文本体，标签可以缩写写成独标签：<标签  属性=属性值/>
&emsp;&emsp;     
&emsp;&emsp;这是一个标签例子：
```xml
<book category="区块链">
```
&emsp;&emsp;     
&emsp;&emsp;标签的命名规则：      
&emsp;&emsp;&emsp;&emsp;|-   名称可以包含字母、数字以及其他的字符     
&emsp;&emsp;&emsp;&emsp;|-   名称不能以数字或者标点符号开始     
&emsp;&emsp;&emsp;&emsp;|-   名称不能以字母 xml（或者 XML、Xml 等等）开始    
&emsp;&emsp;&emsp;&emsp;|-   名称不能包含空格     
&emsp;&emsp;&emsp;&emsp;|-   可使用任何名称，没有保留的字词。    

### XML基本语法

1. XML声明部分      
&emsp;&emsp;<?xml ?>
&emsp;&emsp;声明部分有几个属性：   
&emsp;&emsp;&emsp;&emsp;| -  version='版本'：目前的版本唯一的就是1.0     
&emsp;&emsp;&emsp;&emsp;| -  encoding='编码'：可以指定utf-8，gb2312，iso-8859-1等编码。一般都是常用的utf-8。   
&emsp;&emsp;&emsp;&emsp;| -  standalone='yes' | 'no' ：是否独立文档，指是否可以引入外部DTD规范。     
&emsp;&emsp;       
&emsp;&emsp;**注意：**其中version属性是必须的。    
&emsp;&emsp;典型的例子是：
```xml
<?xml version="1.0" encoding="UTF-8"?>
```

2. XML 文档必须有根元素       
&emsp;&emsp;每个XML文档只能有一个根元素。      
&emsp;&emsp;上述例子中的标签<books>就是根元素。   

3. 所有的 XML 元素都必须有一个开始标签与结束标签

4. XML 标签对大小写敏感   

5. XML标签必须正确嵌套    
&emsp;&emsp;不能交错。只能成对嵌套。

6. XML 属性值必须加引号     
&emsp;&emsp;引号可以是双引号与单引号，但必须成对匹配，不能一个单引号一个双引号。   
&emsp;&emsp;XML中属性必须要有值。（这一点在HTML中可以具有没有属性值得属性的）

7. 实体引用   
&emsp;&emsp;实体引用类似Python中的转义字符，比如<>符号在xml中用来表示特殊的语义，不能直接使用<>字符，如果要使用，就必须使用实体引用。&gt; 比如空格是：`&emsp;`
&emsp;&emsp;在XML语言定义中内置5个实体引用：

实体引用|字符
-|-
`&lt;`	|<	
`&gt;`	|>	
`&amp;`	|&	
`&apos;`	|'	
`&quot;`	|"	


8. XML 中的注释
&emsp;&emsp;XML中注释语法：<!--注释-->。

9. 在 XML 中，空格会被保留 

10. XML 以 LF 存储换行
&emsp;&emsp;在 Windows 应用程序中，换行通常以一对字符来存储：回车符（CR）和换行符（LF）。     
&emsp;&emsp;在 Unix 和 Mac OSX 中，使用 LF 来存储新行。    
&emsp;&emsp;在Mac OS系统中，使用 CR 来存储新行。    
&emsp;&emsp;      
&emsp;&emsp;**XML 以 LF 存储换行。**    
&emsp;&emsp;      
&emsp;&emsp;**注意：**LT='\n',CR='\r'    

### CDATA
&emsp;&emsp;CDATA去的数据不会被XML解析器解释处理。


```xml
<![CDATA[
   .....
]]>
```

**注意**：满足以上语法的xml称为语法良好的xml文档。

## DTD与XSD   
&emsp;&emsp;上述语法良好的xml文档，未必是合理的，因为每个标签是随意的，每个标签的属性是随意的，导致xml的不稳定性。为了约定一个文档中，哪些标签是合法的，哪些属性是合法的，这就是DTD与XSD的职责。     
&emsp;&emsp;DTD（Document Type Definition）是XML标签定义文档，也称为XML校验。DTD校验是通过序言部分定义的。
```xml
<!DOCTYPE books SYSTEM "books.dtd">
```

&emsp;&emsp;DTD与XSD的区别在于：DTD使用非XML描述，XSD是使用XML描述，XSD描述更加精确，也更加复杂。我们仅仅是使用xml，所以对XSD不详细说明。
&emsp;&emsp;一般每个行业都会定义独立的DTD或者XSD。比如tomcat就提供独立的DTD与XSD（现在新版本主要提供XSD）

### DTD例子
```xml
<!DOCTYPE NEWSPAPER [

<!ELEMENT NEWSPAPER (ARTICLE+)>
<!ELEMENT ARTICLE (HEADLINE,BYLINE,LEAD,BODY,NOTES)>
<!ELEMENT HEADLINE (#PCDATA)>
<!ELEMENT BYLINE (#PCDATA)>
<!ELEMENT LEAD (#PCDATA)>
<!ELEMENT BODY (#PCDATA)>
<!ELEMENT NOTES (#PCDATA)> 

<!ATTLIST ARTICLE AUTHOR CDATA #REQUIRED>
<!ATTLIST ARTICLE EDITOR CDATA #IMPLIED>
<!ATTLIST ARTICLE DATE CDATA #IMPLIED>
<!ATTLIST ARTICLE EDITION CDATA #IMPLIED>

]>
```

### PCDATA与CDATA
&emsp;&emsp;PCDATA 的意思是被解析的字符数据（parsed character data）。可把字符数据想象为 XML 元素的开始标签与结束标签之间的文本。PCDATA 是会被解析器解析的文本。这些文本将被解析器检查实体以及标记。文本中的标签会被当作标记来处理，而实体会被展开。   
&emsp;&emsp;     
&emsp;&emsp;CDATA 的意思是字符数据（character data）。CDATA 是不会被解析器解析的文本。在这些文本中的标签不会被当作标记来对待，其中的实体也不会被展开。

### 元素声明
&emsp;&emsp;定义：
```
<!ELEMENT element-name 分类>
或
<!ELEMENT element-name (子元素)>
```

1. 空元素
```xml
<!ELEMENT element-name EMPTY>
```

2. 只有 PCDATA 的元素
```
<!ELEMENT element-name (#PCDATA)>
```

3. 带有任何内容的元素    
```
<!ELEMENT element-name ANY>
```

4. 带有子元素（序列）的元素
```
<!ELEMENT element-name (child1)>
或
<!ELEMENT element-name (child1,child2,...)>
```

5. 声明只出现一次的元素
```
<!ELEMENT element-name (child-name)>
```

6. 声明最少出现一次的元素
```
<!ELEMENT element-name (child-name+)>
```

7. 声明出现零次或多次的元素
```
<!ELEMENT element-name (child-name*)>
```

8. 声明出现零次或一次的元素
```
<!ELEMENT element-name (child-name?)>
```

9. 声明可选类型的内容
```
<!ELEMENT element-name (child-name | #PCDATA )>
```

10. 声明混合型的内容
```
<!ELEMENT element-name (child-name | #PCDATA )*>
```

### 属性声明
```
<!ATTLIST element-name attribute-name attribute-type attribute-value>
```

1. 属性类型

属性类型|类型说明
-|-
CDATA	|值为字符数据 (character data)
(en1|en2|..)	|此值是枚举列表中的一个值
ID	|值为唯一的 id
IDREF	|值为另外一个元素的 id
IDREFS	|值为其他 id 的列表
NMTOKEN	|值为合法的 XML 名称
NMTOKENS	|值为合法的 XML 名称的列表
ENTITY	|值是一个实体
ENTITIES	|值是一个实体列表
NOTATION	|此值是符号的名称
xml:	|值是一个预定义的 XML 值


2. 属性值

值格式|说明
-|-
值	|属性的默认值
#REQUIRED	|属性值是必需的
#IMPLIED	|属性不是必需的
#FIXED value	|属性值是固定的


3. 例子1-默认属性值
```
<!ELEMENT square EMPTY>
<!ATTLIST square width CDATA "0">
```
使用
```
<square width="100" />
```

4. 例子2- #REQUIRED
```
<!ATTLIST person number CDATA #REQUIRED>
```
使用
```
<person number="5677" />
```

5. 例子3-#IMPLIED
```
<!ATTLIST contact fax CDATA #IMPLIED>
```
使用
```
<contact fax="555-667788" />
或者
<contact />
```

6. 例子4-#FIXED
```
<!ATTLIST sender company CDATA #FIXED "Mage教育">
```
使用
```
<sender company="Mage教育" />
```

7. 例子5-枚举属性值
```
<!ATTLIST payment type (check|cash) "cash">
```
使用
```
<payment type="check" />
```

### 引用DTD

内部引用语法：

        <!DOCTYPE  根元素[
            <!ENTITY 实体名 "实体内容">
            <!ELEMENT 元素名 (内部模式)>   
             <!ATTLIST 元素名 属性名 属性类型 属性默认值/属性特点
                属性名 属性类型 属性默认值/属性特点
                ...
            >
        ]>
外部引用语法：

    <!DOCTYPE 根元素 SYSTEM "dtd文件路径">
    <!DOCTYPE 根元素 PUBLIC "dtd文件的描述信息" "dtd的url">


#### 内部引用
```
<?xml version="1.0"?>
<!DOCTYPE note [
    <!ELEMENT note (to,from,heading,body)>
    <!ELEMENT to (#PCDATA)>
    <!ELEMENT from (#PCDATA)>
    <!ELEMENT heading (#PCDATA)>
    <!ELEMENT body (#PCDATA)>
]>
<note>
     <to>Tove</to>
     <from>Jani</from>
     <heading>Reminder</heading>
     <body>Don't forget me this weekend</body>
</note>
```

#### 外部引用
```
<?xml version="1.0"?>
<!DOCTYPE note SYSTEM "note.dtd">
    <note>
        <to>Tove</to>
        <from>Jani</from>
        <heading>Reminder</heading>
        <body>Don't forget me this weekend!</body>
    </note>
```
其中DTD文件为
```
<!ELEMENT note (to,from,heading,body)>
<!ELEMENT to (#PCDATA)>
<!ELEMENT from (#PCDATA)>
<!ELEMENT heading (#PCDATA)>
<!ELEMENT body (#PCDATA)>
```

### XSD例子

```xml
<?xml version="1.0"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">

<xs:element name="note">
  <xs:complexType>
    <xs:sequence>
      <xs:element name="to" type="xs:string"/>
      <xs:element name="from" type="xs:string"/>
      <xs:element name="heading" type="xs:string"/>
      <xs:element name="body" type="xs:string"/>
    </xs:sequence>
  </xs:complexType>
</xs:element>

</xs:schema>
```

###  XML Schema元素
```xml
<?xml version="1.0"?>

<xs:schema>
...
...
</xs:schema>
```
下面是使用例子：

```xml
<?xml version="1.0"?>

<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"
targetNamespace="http://www.runoob.com"
xmlns="http://www.runoob.com"
elementFormDefault="qualified">
...
...
</xs:schema>
```

### 在XML文档使用Schema元素
```
<?xml version="1.0"?>

<note xmlns="http://www.runoob.com"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.runoob.com note.xsd">

<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don't forget me this weekend!</body>
</note>
```

### schema的解释

1. xmlns:xs="http://www.w3.org/2001/XMLSchema"
```
显示 schema 中用到的元素和数据类型来自命名空间 "http://www.w3.org/2001/XMLSchema"。同时它还规定了来自命名空间 "http://www.w3.org/2001/XMLSchema" 的元素和数据类型应该使用前缀 xs:
```

2. targetNamespace="http://www.runoob.com"
```
显示被此 schema 定义的元素 (note, to, from, heading, body) 来自命名空间： "http://www.runoob.com"。
```

3. xmlns="http://www.runoob.com"
```
指出默认的命名空间是 "http://www.runoob.com"。
```

4. elementFormDefault="qualified"
```
指出任何 XML 实例文档所使用的且在此 schema 中声明过的元素必须被命名空间限定。
```

### XSD元素定义
```
<xs:element name="xxx" type="yyy"/>
```
其中常用类型包含：

        xs:string
        xs:decimal
        xs:integer
        xs:boolean
        xs:date
        xs:time


### XSD属性定义
```
<xs:attribute name="xxx" type="yyy"/>
```

常用类型包含：

        xs:string
        xs:decimal
        xs:integer
        xs:boolean
        xs:date
        xs:time
        
可以对属性值进行限定
```
<xs:element name="age">
  <xs:simpleType>
    <xs:restriction base="xs:integer">
      <xs:minInclusive value="0"/>
      <xs:maxInclusive value="120"/>
    </xs:restriction>
  </xs:simpleType>
</xs:element>
```

### XSD指示器
```
七种指示器：
        Order 指示器：
        All
        Choice
        Sequence
        Occurrence 指示器：
        maxOccurs
        minOccurs
        Group 指示器：
        Group name
        attributeGroup name
```

1. All 指示器
```
<xs:element name="person">
  <xs:complexType>
    <xs:all>
      <xs:element name="firstname" type="xs:string"/>
      <xs:element name="lastname" type="xs:string"/>
    </xs:all>
  </xs:complexType>
</xs:element>
```

2. Choice 指示器
```
<xs:element name="person">
  <xs:complexType>
    <xs:choice>
      <xs:element name="employee" type="employee"/>
      <xs:element name="member" type="member"/>
    </xs:choice>
  </xs:complexType>
</xs:element>
```

3. Sequence 指示器
```
<xs:element name="person">
   <xs:complexType>
    <xs:sequence>
      <xs:element name="firstname" type="xs:string"/>
      <xs:element name="lastname" type="xs:string"/>
    </xs:sequence>
  </xs:complexType>
</xs:element>
```

4. maxOccurs 指示器
```
<xs:element name="person">
  <xs:complexType>
    <xs:sequence>
      <xs:element name="full_name" type="xs:string"/>
      <xs:element name="child_name" type="xs:string" maxOccurs="10"/>
    </xs:sequence>
  </xs:complexType>
</xs:element>
```

5. minOccurs 指示器
```
<xs:element name="person">
  <xs:complexType>
    <xs:sequence>
      <xs:element name="full_name" type="xs:string"/>
      <xs:element name="child_name" type="xs:string"
      maxOccurs="10" minOccurs="0"/>
    </xs:sequence>
  </xs:complexType>
</xs:element>
```

6. 元素组
```
<xs:group name="persongroup">
  <xs:sequence>
    <xs:element name="firstname" type="xs:string"/>
    <xs:element name="lastname" type="xs:string"/>
    <xs:element name="birthday" type="xs:date"/>
  </xs:sequence>
</xs:group>
```

7. 属性组
```
<xs:attributeGroup name="personattrgroup">
  <xs:attribute name="firstname" type="xs:string"/>
  <xs:attribute name="lastname" type="xs:string"/>
  <xs:attribute name="birthday" type="xs:date"/>
</xs:attributeGroup>
```

## XML DOM

### XML DOM结构



&emsp;&emsp;XML DOM就是把XML文档中每个元素当做一个编程对象，这对象按照XML本身的结构组织，也是一个可编程树状结构，我们称为XML DOM。    
&emsp;&emsp;    
&emsp;&emsp;XML所有元素抽象为Node类型，然后继承扩展成各种不同元素类型：Document，Element，Attr，Text，Notation等。    
&emsp;&emsp;      
&emsp;&emsp;多个节点使用NodeList对象表示。
&emsp;&emsp;      
&emsp;&emsp;每个节点类型提供标准的接口，不管使用什么语言实现，都遵循这些接口规范。所以这儿讲的技术，对其他预压也是大同小异的。

### XML DOM节点类型

节点类型|节点类型说明|子类型
-|-|-
Document	|代表整个文档（DOM 树的根节点）	|Element (max. one), ProcessingInstruction, Comment, DocumentType
DocumentFragment	|代表"轻量级"的 Document 对象，它可以保留文档中的一部分	|Element, ProcessingInstruction, Comment, Text, CDATASection, Entity参考手册
DocumentType	|为文档中定义的实体提供了一个接口	|None
ProcessingInstruction	|代表一个处理指令	|None
EntityReference	|代表一个实体引用	|Element, ProcessingInstruction, Comment, Text, CDATASection, EntityReference
Element	|表示一个元素	|Element, Text, Comment, ProcessingInstruction, CDATASection, EntityReference
Attr	|代表一个属性	|Text, EntityReference
Text	|代表元素或属性的文本内容	|None
CDATASection	|代表文档中的 CDATA 区段（文本不会被解析器解析）	|None
Comment	|代表一个注释	|None
Entity	|代表一个实体	|Element, ProcessingInstruction, Comment, Text, CDATASection, EntityReference
Notation	|定义一个在 DTD 中声明的符号	|None


### XML DOM节点名称与返回值

节点类型	|返回的节点名称	|返回的节点值
-|-|-
Document	|#document	|null
DocumentFragment	|#document fragment	|null
DocumentType	|文档类型名称	|null
Entity	|实体引用名称	|null
Element	|元素名称	|null
Attr	|属性名称	|属性值
ProcessingInstruction	|目标	|节点的内容
Comment	|#comment	|注释文本
Text	|#text	|节点的内容
CDATASection	|#cdata-section	|节点的内容
Entity	|实体名称	|null
Notation	|符号名称	|null

### XML DOM节点类型定义值

节点类型	|命名常量
-|-
1	|ELEMENT_NODE
2	|ATTRIBUTE_NODE
3	|TEXT_NODE
4	|CDATA_SECTION_NODE
5	|ENTITY_REFERENCE_NODE
6	|ENTITY_NODE
7	|PROCESSING_INSTRUCTION_NODE
8	|COMMENT_NODE
9	|DOCUMENT_NODE
10	|DOCUMENT_TYPE_NODE
11	|DOCUMENT_FRAGMENT_NODE
12	|NOTATION_NODE

## xml模块

### Python中XML DOM API结构
    
&emsp;&emsp;不管什么语言的API，对XML一般提供如下功能：    
&emsp;&emsp;&emsp;&emsp;|- 加载   
&emsp;&emsp;&emsp;&emsp;|- 遍历   
&emsp;&emsp;&emsp;&emsp;|- 查找   
&emsp;&emsp;&emsp;&emsp;|- 获取节点    
&emsp;&emsp;&emsp;&emsp;|- 修改节点    
&emsp;&emsp;&emsp;&emsp;|- 删除节点   
&emsp;&emsp;&emsp;&emsp;|- 增加节点    
&emsp;&emsp;&emsp;&emsp;|- 替换节点    
&emsp;&emsp;&emsp;&emsp;|- 操作节点

In [1]:
import xml
dir(xml)
help(xml)

Help on package xml:

NAME
    xml - Core XML support for Python.

MODULE REFERENCE
    https://docs.python.org/3.6/library/xml
    
    The following documentation is automatically generated from the Python
    source files.  It may be incomplete, incorrect or include features that
    are considered implementation detail and may vary between Python
    implementations.  When in doubt, consult the module reference at the
    location listed above.

DESCRIPTION
    This package contains four sub-packages:
    
    dom -- The W3C Document Object Model.  This supports DOM Level 1 +
           Namespaces.
    
    parsers -- Python wrappers for XML parsers (currently only supports Expat).
    
    sax -- The Simple API for XML, developed by XML-Dev, led by David
           Megginson and ported to Python by Lars Marius Garshol.  This
           supports the SAX 2 API.
    
    etree -- The ElementTree XML library.  This is a subset of the full
           ElementTree XML release.

PACKAGE C

Python标准库xml模块提供4个功能模块：

    
    sax    -- 基于事件的XML文档处理；
    dom   -- DOM接口实现；
    etree  -- 文档树
    parsers --  XML解析器的Python包装器


### sax功能模块

In [2]:
import xml.sax
# help(xml.sax)

#### sax API结构

sax提供四个模块来处理xml：
       
        xml.sax.xmlreader    — xml的解析接口规范，抽象的，需要继承实现才能使用。
        xml.sax.handler       — 回调处理器，如果与xmlreader绑定，当满足xml条件就会被调用，用来处理具体的xml内容。
        xml.sax.saxutils       — 一些数据处理工具，比如实体转换什么的。
        
        xml.parsers.expat     — xmlreader的具体实现，可以直接使用。也可以使用parse函数直接解析，或者使用make_parser返回解析器，或者直接构造ExpatParser解析器使用。【见下面例子】
        
下面对核心模块xmlreader与handler进一步说明。

1. xmlreader API结构
        
        提供如下几个类实现数据分析：
                |- AttributesImpl
                        |- AttributesNSImpl
                |- InputSource
                |- Locator
                |- XMLReader
                        |- IncrementalParser

2. handler API结构

        提供4个Handler来处理xml内容。
                |-  ContentHandler
                |-  DTDHandler
                |-  EntityResolver
                |-  ErrorHandler

#### sax解析器的三种使用方式

1. sax编程模式

In [3]:
# coding = utf-8
import xml.sax.handler


class MyHandler(xml.sax.handler.ContentHandler, xml.sax.handler.DTDHandler):
    def setDocumentLocator(self, locator):
        print('setDocumentLocator')

    def startDocument(self):
        print('startDocument')

    def endDocument(self):
        print('endDocument')

    def startPrefixMapping(self, prefix, uri):
        print('startPrefixMapping')

    def endPrefixMapping(self, prefix):
        print('endPrefixMapping')

    def startElement(self, name, attrs):
        print('startElement')

    def endElement(self, name):
        print('endElement')

    def startElementNS(self, name, qname, attrs):
        print('startElementNS')

    def endElementNS(self, name, qname):
        print('endElementNS')

    def characters(self, content):
        print('characters')

    def ignorableWhitespace(self, whitespace):
        print('ignorableWhitespace')

    def processingInstruction(self, target, data):
        print('processingInstruction')

    def skippedEntity(self, name):
        print('skippedEntity')

    def notationDecl(self, name, publicId, systemId):
        print('notationDecl')

    def unparsedEntityDecl(self, name, publicId, systemId, ndata):
        print('unparsedEntityDecl')


class MyError(xml.sax.ErrorHandler):

    def error(self, exception):
        print('error')
        return super().error(exception)

    def fatalError(self, exception):
        print('fatalError')
        return super().fatalError(exception)

    def warning(self, exception):
        print('warning')
        super().warning(exception)


xml.sax.parse(
    source='codes/note.xml',
    handler=MyHandler(),
    errorHandler=MyError())


setDocumentLocator
startDocument
startElement
characters
characters
startElement
characters
endElement
characters
characters
startElement
characters
endElement
characters
characters
startElement
characters
endElement
characters
characters
startElement
characters
endElement
characters
endElement
endDocument


2. 构造parser       

    注意：不能直接构造XMLReader，而是使用工厂模式函数：xml.sax.make_parser()来产生parser，要么直接调用parse函数解析处理xml。
    
    XMLReader是xml解析的接口规范，其实现就是：xml.sax.expatreader.ExpatParser

In [4]:
# coding = utf-8
import xml.sax.handler
import xml.sax.xmlreader

class MyHandler(xml.sax.handler.ContentHandler,xml.sax.handler.DTDHandler):
    def setDocumentLocator(self, locator):
        print('setDocumentLocator')

class MyError(xml.sax.ErrorHandler):

    def error(self, exception):
        print('error')
        return super().error(exception)

'''
xml.sax.parse(
    source='books.xml',
    handler=MyHandler(),
    errorHandler=MyError())
'''
handler = MyHandler()
error = MyError()
parser = xml.sax.make_parser()
print(parser)
parser.setContentHandler(handler)
parser.setErrorHandler(error)
parser.setDTDHandler(handler)
parser.parse('codes/note.xml')


<xml.sax.expatreader.ExpatParser object at 0x10f87b208>
setDocumentLocator


3. ExpatParser的使用
    
    ExpatParser实现的接口类：
    class ExpatParser(xml.sax.xmlreader.IncrementalParser, xml.sax.xmlreader.Locator)
    直接

In [5]:
# coding = utf-8
import xml.sax.handler
import xml.sax.xmlreader
import xml.sax.expatreader


class MyHandler(xml.sax.handler.ContentHandler,xml.sax.handler.DTDHandler):
    def setDocumentLocator(self, locator):
        print('setDocumentLocator')



class MyError(xml.sax.ErrorHandler):

    def error(self, exception):
        print('error')
        return super().error(exception)

'''
xml.sax.parse(
    source='books.xml',
    handler=MyHandler(),
    errorHandler=MyError())
'''
handler = MyHandler()
error = MyError()
# parser = xml.sax.make_parser()
parser = xml.sax.expatreader.ExpatParser(namespaceHandling=True)
print(parser)
parser.setContentHandler(handler)
parser.setErrorHandler(error)
parser.setDTDHandler(handler)
parser.parse('codes/note.xml')


<xml.sax.expatreader.ExpatParser object at 0x10f7937b8>
setDocumentLocator


#### handler的使用

    对DTDHandler这里不说明，

1. Locator的使用
    
        Locator是文档定位，其实现类是ExpatLocator类。
            |-  xml.sax.xmlreader.Locator(builtins.object)
                    |-  xml.sax.expatreader.ExpatLocator
        
        该类使用是个函数提供四个信息：
             |  - getColumnNumber(self)     xml当前列数
             |  - getLineNumber(self)          xml当前行数
             |  - getPublicId(self)                xml的public ID：在Python中通常是None
             |  - getSystemId(self)              xml的system ID：通常就是xml文件




In [6]:
# coding = utf-8
import xml.sax.expatreader


class MyHandler(xml.sax.handler.ContentHandler):
    def setDocumentLocator(self, locator):
        print(f'system ID：{locator.getSystemId()}')
        print(f'public ID：{locator.getPublicId()}')
        print('行列位置(%d,%d)' % (locator.getLineNumber(),locator.getColumnNumber()))


handler = MyHandler()
error = xml.sax.ErrorHandler()

parser = xml.sax.expatreader.ExpatParser(namespaceHandling=True)
parser.setContentHandler(handler)
parser.setErrorHandler(error)
parser.setDTDHandler(handler)
parser.parse('codes/web.xml')


system ID：codes/web.xml
public ID：None
行列位置(1,0)


2. startDocument与endDocument的文档解析事件函数
        
        在文档解析开始的时候触发解析事件函数：startDocument，在文档解析结束的时候触发解析事件函数：endDocument。


In [7]:
# coding = utf-8
import xml.sax.expatreader


class MyHandler(xml.sax.handler.ContentHandler):

    def startDocument(self):
        print('开始文档解析')

    def endDocument(self):
        print('文档解析结束')


handler = MyHandler()
error = xml.sax.ErrorHandler()

parser = xml.sax.expatreader.ExpatParser(namespaceHandling=True)
parser.setContentHandler(handler)
parser.setErrorHandler(error)
parser.setDTDHandler(handler)
parser.parse('codes/books.xml')


开始文档解析
文档解析结束


3. startElement与endElement元素解析事件函数        
    
        startElement函数在每个元素开始前触发。     
        endElement函数在每个元素结束后触发。     
        函数的原型如下：   
            |- def startElement(self, name, attrs):      
                    |-  name：类型是字符串str，表示元素名。    
                    |-  attrs：类型是xml.sax.xmlreader.AttributesImpl，表示元素的所有属性。    
            
            |- def endElement(self, name):    
            
       
         其中attrs是属性列表，本质是一个字典，还有一些其他成员，可以使用帮助方式查看。
         

In [8]:
# coding = utf-8
import xml.sax.expatreader


class MyHandler(xml.sax.handler.ContentHandler):

    def startElement(self, name, attrs):
        print('元素解析开始，元素名：', name)
        # attrs是属性列表
        print(type(attrs), type(name))
        # 属性列表
        print('属性数：%d' % attrs.getLength())
        for item in attrs.items():
            print('属性名：%s，属性值：%s' % item)


    def endElement(self, name):
        print('元素解析结束，元素名：', name)


handler = MyHandler()
error = xml.sax.ErrorHandler()

# namespaceHandling 对具有命名空间的元素处理，没有命名空间设置围为0。
parser = xml.sax.expatreader.ExpatParser(namespaceHandling=0)
parser.setContentHandler(handler)
parser.setErrorHandler(error)
parser.setDTDHandler(handler)
parser.parse('codes/books.xml')


元素解析开始，元素名： books
<class 'xml.sax.xmlreader.AttributesImpl'> <class 'str'>
属性数：0
元素解析开始，元素名： book
<class 'xml.sax.xmlreader.AttributesImpl'> <class 'str'>
属性数：1
属性名：category，属性值：Python
元素解析开始，元素名： title
<class 'xml.sax.xmlreader.AttributesImpl'> <class 'str'>
属性数：1
属性名：lang，属性值：zh
元素解析结束，元素名： title
元素解析开始，元素名： author
<class 'xml.sax.xmlreader.AttributesImpl'> <class 'str'>
属性数：0
元素解析结束，元素名： author
元素解析开始，元素名： year
<class 'xml.sax.xmlreader.AttributesImpl'> <class 'str'>
属性数：0
元素解析结束，元素名： year
元素解析开始，元素名： price
<class 'xml.sax.xmlreader.AttributesImpl'> <class 'str'>
属性数：0
元素解析结束，元素名： price
元素解析开始，元素名： publisher
<class 'xml.sax.xmlreader.AttributesImpl'> <class 'str'>
属性数：0
元素解析结束，元素名： publisher
元素解析结束，元素名： book
元素解析开始，元素名： book
<class 'xml.sax.xmlreader.AttributesImpl'> <class 'str'>
属性数：1
属性名：category，属性值：系统运维
元素解析开始，元素名： title
<class 'xml.sax.xmlreader.AttributesImpl'> <class 'str'>
属性数：1
属性名：lang，属性值：zh
元素解析结束，元素名： title
元素解析开始，元素名： author
<class 'xml.sax.xmlreader.AttributesImpl'> 

4. characters文本解析事件函数

        函数原型是：characters(self, content)
            参数：content是文本内容。

In [9]:
# coding = utf-8
import xml.sax.expatreader


class MyHandler(xml.sax.handler.ContentHandler):

    def characters(self, content):
        # 为了看见所有的字符，下面输出采用子节序列。
        # 下面的文本包含所有元素结束的换行字符。
        print(content.encode('utf-8'))


handler = MyHandler()
error = xml.sax.ErrorHandler()

# namespaceHandling 对具有命名空间的元素处理，没有命名空间设置围为0。
parser = xml.sax.expatreader.ExpatParser(namespaceHandling=0)
parser.setContentHandler(handler)
parser.setErrorHandler(error)
parser.setDTDHandler(handler)
parser.parse('codes/note.xml')


b'\n'
b'    '
b'Tove'
b'\n'
b'    '
b'Jani'
b'\n'
b'    '
b'Reminder'
b'\n'
b'    '
b"Don't forget me this weekend!"
b'\n'


5. startElementNS与endElementNS带命名空间名的元素解析事件函数

        startElementNS(self, name, qname, attrs)
            |- qname：命名空间，qname是qualified name 的简写，比如：<song:id>。
            |- name：与startElement不同，这里是一个元组，格式如下：(uri, localname)
            
            

In [10]:
# coding = utf-8
import xml.sax.expatreader


class MyHandler(xml.sax.handler.ContentHandler):

    def startElementNS(self, name, qname, attrs):
        print(name, qname)
    def endElementNS(self, name, qname):
        print('结束：', name)
    


handler = MyHandler()
error = xml.sax.ErrorHandler()

# namespaceHandling 对具有命名空间的元素处理，没有命名空间设置围为0。
parser = xml.sax.expatreader.ExpatParser(namespaceHandling=True)
parser.setContentHandler(handler)
parser.setErrorHandler(error)
parser.setDTDHandler(handler)
parser.parse('codes/song.xml')


('http://www.example.org/athena', 'body') None
('http://www.example.org/athena', 'id') None
结束： ('http://www.example.org/athena', 'id')
('http://www.example.org/athena', 'name') None
结束： ('http://www.example.org/athena', 'name')
('http://www.example.org/athena', 'birthday') None
结束： ('http://www.example.org/athena', 'birthday')
结束： ('http://www.example.org/athena', 'body')


6. startPrefixMapping与endPrefixMapping解析事件函数
        
        命名空间前缀映射解析事件。
        startPrefixMapping(self, prefix, uri):
            |- prefix ：前缀
            |- uri：uri
            

In [11]:
# coding = utf-8
import xml.sax.expatreader


class MyHandler(xml.sax.handler.ContentHandler):


    def startPrefixMapping(self, prefix, uri):
        print(prefix, uri)

    def endPrefixMapping(self, prefix):
        print(prefix)


handler = MyHandler()
error = xml.sax.ErrorHandler()

# namespaceHandling 对具有命名空间的元素处理，没有命名空间设置围为0。
parser = xml.sax.expatreader.ExpatParser(namespaceHandling=True)
parser.setContentHandler(handler)
parser.setErrorHandler(error)
parser.setDTDHandler(handler)
parser.parse('codes/song.xml')


song http://www.example.org/athena
xsi http://www.w3.org/2001/XMLSchema-instance
xsi
song


7. 其他
    
        还有一些其他事件函数，这里不详细解释。比如：
        processingInstruction(self, target, data)函数就是处理'<?xml version="1.0" encoding="UTF-8"?>'。但实际不触发该函数。

注意：
    SAX解析处理XML比较麻烦，我们都不直接使用，这里只是说明xml的处理底层细节。
    
总结：
    sax模块结构分成两个标准接口定义：handler与xmlreader，一个实现模块expatreader，一个工具模块saxutils。

### dom功能模块

#### dom API结构

查看xml.dom模块，可以看到xml.dom的API结构如下。
    
        NodeFilter             # NodeFilter接口，仅仅提供常量定义
        domreg                 # 不直接使用，提供DOM实现访问接口。
        expatbuilder          # 
        minicompat
        minidom                # dom的实现方式之一
        pulldom                 # dom的实现方式之二
        xmlbuilder
    定义了Node结构
        Node
        UserDataHandler



#### domreg  
        
        两个核心函数获取与注册实现工厂。
        
            getDOMImplementation(name=None, features=())    # 得到DOM实现
            registerDOMImplementation(name, factory)            # 注册DOM实现（需要自己实现一个DOMImplementation接口，并注册）
    
        提供两个数据：
            registered = {}
            well_known_implementations = {'4DOM': 'xml.dom.DOMImplementation', 'mi...
        

In [12]:
import xml.dom
import xml.dom.domreg

# 数据
print(xml.dom.domreg.well_known_implementations)
print(xml.dom.domreg.registered)

mini_dom = xml.dom.domreg.getDOMImplementation(name='minidom')
# '4DOM'没有提供实现，下面代码会产生异常。
# four_dom = xml.dom.domreg.getDOMImplementation(name='4DOM')
print(mini_dom)
# print(four_dom)


{'minidom': 'xml.dom.minidom', '4DOM': 'xml.dom.DOMImplementation'}
{}
<xml.dom.minidom.DOMImplementation object at 0x10f8b1ba8>


#### minidom模块

        该模块使用help可以得到帮助，该模块下提供三个函数，负责启动解析工作。
            |- getDOMImplementation(features=None)
            |- parse(file, parser=None, bufsize=None)
                    |-  返回document对象
            |- parseString(string, parser=None)
                    
        
        同时提供对DOM对象的封装：
            |-   builtins.object
                        |-  Childless
                                |-  CharacterData(Childless, Node)
                                |        |-  Comment
                                |        |-  Text
                                |                |-  CDATASection
                                |-  ProcessingInstruction(Childless, Node)
            |-  ElementInfo
            |-  Identified
                    |-  DocumentType(Identified, Childless, Node)
                    |-  Entity(Identified, Node)
                    |-  Notation(Identified, Childless, Node)
            |-  NamedNodeMap
            |-  ReadOnlySequentialNamedNodeMap
            |-  TypeInfo
        
        
            节点对象：
            |-  xml.dom.Node(builtins.object)
                    |-  Node
                            |-  Attr
                            |-  Document(Node, xml.dom.xmlbuilder.DocumentLS)
                            |-  DocumentFragment
                            |-  Element
            
            DOM解析实现：
            xml.dom.xmlbuilder.DOMImplementationLS(builtins.object)
                    |-  DOMImplementation

    具体每个接口的接口函数，可以通过help与dir查看到帮助。


In [13]:
import xml.dom
import xml.dom.minidom
import xml.sax

dom = xml.dom.minidom.parse(
    'note.xml',
    # parser=None,    # parser = xml.sax.make_parser()或者ExpatParser对象
    parser=xml.sax.make_parser(),
    bufsize=1024*10)
print(dom)


<xml.dom.minidom.Document object at 0x10f8c04c8>


#### Node与Element对象提供节点访问与遍历
        |  appendChild(self, node)
        |  
        |  cloneNode(self, deep)
        |  
        |  getInterface(self, feature)
        |  
        |  getUserData(self, key)
        |  
        |  hasChildNodes(self)
        |  
        |  insertBefore(self, newChild, refChild)
        |  
        |  isSameNode(self, other)
        |  
        |  isSupported(self, feature, version)
        |  
        |  normalize(self)
        |  
        |  removeChild(self, oldChild)
        |  
        |  replaceChild(self, newChild, oldChild)
        |  
        |  setUserData(self, key, data, handler)
        |  
        |  toprettyxml(self, indent='\t', newl='\n', encoding=None)
        |  
        |  toxml(self, encoding=None)
        |  
        |  unlink(self)

In [14]:
import xml.dom
import xml.dom.minidom
import xml.sax

dom = xml.dom.minidom.parse(
    'note.xml',
    # parser=None,    # parser = xml.sax.make_parser()或者ExpatParser对象
    parser=xml.sax.make_parser(),
    bufsize=1024*10)
children = dom.childNodes


def list_nodes(nd):
    if nd.nodeType == xml.dom.Node.ELEMENT_NODE:
        print("标签名：", nd.tagName)
        # print('节点名：', nd.nodeName)
        for attr_ in nd.attributes.items():
            print(attr_.name, attr_.value)

    if nd.nodeType == xml.dom.Node.TEXT_NODE:
        if  nd.wholeText.strip() != '':
            print('文本：', nd.wholeText.strip())

    if nd.nodeType == xml.dom.Node.ELEMENT_NODE and nd.hasChildNodes():
        for nd_ in nd.childNodes:
            list_nodes(nd_)


list_nodes(children[0])


标签名： note
标签名： to
文本： Tove
标签名： from
文本： Jani
标签名： heading
文本： Reminder
标签名： body
文本： Don't forget me this weekend!


Document对象提供文档创建操作
        
        |  appendChild(self, node)
        |  
        |  cloneNode(self, deep)
        |  
        |  createAttribute(self, qName)
        |  
        |  createAttributeNS(self, namespaceURI, qualifiedName)
        |  
        |  createCDATASection(self, data)
        |  
        |  createComment(self, data)
        |  
        |  createDocumentFragment(self)
        |  
        |  createElement(self, tagName)
        |  
        |  createElementNS(self, namespaceURI, qualifiedName)
        |  
        |  createProcessingInstruction(self, target, data)
        |        
        |  createTextNode(self, data)
        |  
        |  getElementById(self, id)
        |  
        |  getElementsByTagName(self, name)
        |  
        |  getElementsByTagNameNS(self, namespaceURI, localName)
        |  
        |  importNode(self, node, deep)
        |  
        |  isSupported(self, feature, version)
        |  
        |  removeChild(self, oldChild)
        |  
        |  renameNode(self, n, namespaceURI, name)
        |  
        |  unlink(self)
        |  
        |  writexml(self, writer, indent='', addindent='', newl='', encoding=None)
        

数据定义：

        |  childNodes
        |  
        |  doctype
        |  
        |  documentElement

        

DocumentLS

        |  abort(self)
        |  
        |  load(self, uri)
        |  
        |  loadXML(self, source)
        |  
        |  saveXML(self, snode)

#### DOMImplementation接口实现
    
        implementation = xml.dom.minidom.getDOMImplementation()
            |-  createDocument(self, namespaceURI, qualifiedName, doctype)
            |  
            |-  createDocumentType(self, qualifiedName, publicId, systemId)
            |  
            |-  getInterface(self, feature)
            |  
            |-  hasFeature(self, feature, version)
            
            下面的接口没有实现
            |
            |-  createDOMBuilder(self, mode, schemaType)
            |  
            |-  createDOMInputSource(self)
            |  
            |-  createDOMWriter(self)
            
  由于没有实现createDOMWriter接口，所以python中xml文件的读写使用Document对象提供的writexml函数实现。


In [15]:
# coding = utf-8
import xml.dom
import xml.dom.minidom

implementation = xml.dom.minidom.getDOMImplementation()
print(implementation)
doc_type = implementation.createDocumentType(
    qualifiedName='HH',
    publicId='-//mybatis.org//DTD Config 3.0//EN',
    systemId='http://mybatis.org/dtd/mybatis-3-config.dtd')
doc = implementation.createDocument(
    namespaceURI='http://xmlns.jcp.org/xml/ns/javaee',
    qualifiedName='HH',
    doctype=doc_type)
# writer = implementation.createDOMWriter()   # 没有实现，直接使用文件描述符号。
# 创建根节点
root_element = doc.createElement('myroot')
attr1 = doc.createAttribute('属性')
attr1.value = '属性值'
root_element.setAttributeNode(attr1)
# doc.documentElement只读，创建文档的时候唯一产生
doc.documentElement.appendChild(root_element)

# 产生文本子节点
txt = doc.createTextNode('我是文本')
root_element.appendChild(txt)

with open('my.xml','w') as fd:
    doc.writexml(fd,
                 indent='\t',
                 addindent='\t',
                 newl='\n',
                 encoding='utf-8')


<xml.dom.minidom.DOMImplementation object at 0x10f8b1ba8>


In [16]:
# 下面是读取产生的xml文件
with open('my.xml', 'r') as fd:
    print(fd.read())

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE HH
  PUBLIC '-//mybatis.org//DTD Config 3.0//EN'
  'http://mybatis.org/dtd/mybatis-3-config.dtd'>
	<HH>
		<myroot 属性="属性值">我是文本</myroot>
	</HH>



#### 使用Document直接构造xml DOM对象

        Document直接创建的对象，起产生的xml DOM不受documentURI与doctype属性影响。而且不会自动产生documentElement元素。这一点与上面createDocument函数产生的DOM是有差异的。所以建议使用上面的方式产生DOM文档。

In [17]:
# coding = utf-8
import xml.dom
import xml.dom.minidom

implementation = xml.dom.minidom.getDOMImplementation()
print(implementation)
doc_type = implementation.createDocumentType(
    qualifiedName='HH',
    publicId='-//mybatis.org//DTD Config 3.0//EN',
    systemId='http://mybatis.org/dtd/mybatis-3-config.dtd')

# writer = implementation.createDOMWriter()   # 没有实现，直接使用文件描述符号。
doc = xml.dom.minidom.Document()
doc.documentURI='http://xmlns.jcp.org/xml/ns/javaee'
doc.doctype=doc_type
# 创建根节点
root_element = doc.createElement('myroot')
attr1 = doc.createAttribute('属性')
attr1.value = '属性值'
root_element.setAttributeNode(attr1)
# doc.documentElement只读，创建文档的时候唯一产生
doc.appendChild(root_element)

# 产生文本子节点
txt = doc.createTextNode('我是文本')
root_element.appendChild(txt)

with open('your.xml','w') as fd:
    doc.writexml(fd,
                 indent='\t',
                 addindent='\t',
                 newl='\n',
                 encoding='utf-8')


<xml.dom.minidom.DOMImplementation object at 0x10f8b1ba8>


#### expatbuilder

        提供基本的builder实现：
                builtins.object
                        ElementInfo
                        ExpatBuilder
                                FragmentBuilder
                                InternalSubsetExtractor
                        FilterCrutch
                                Rejecter
                                Skipper
                        FilterVisibilityController
                        Namespaces
                                ExpatBuilderNS(Namespaces, ExpatBuilder)
                                FragmentBuilderNS(Namespaces, FragmentBuilder)
                                
        核心的是ExpatBuilder类的两个成员函数：
                parseFile(self, file)
                        返回Document对象
                parseString(self, string)
                        返回Document对象。

In [18]:
import xml.dom
import xml.dom.minidom
import xml.dom.expatbuilder

builder = xml.dom.expatbuilder.ExpatBuilder()
dom = builder.parseFile(open('note.xml', 'r'))
children = dom.childNodes
print(children)
print(dom.documentElement)

def list_nodes(nd):
    if nd.nodeType == xml.dom.Node.ELEMENT_NODE:
        print("标签名：", nd.tagName)
        # print('节点名：', nd.nodeName)
        for attr_ in nd.attributes.items():
            print(attr_.name, attr_.value)

    if nd.nodeType == xml.dom.Node.TEXT_NODE:
        print('文本：', nd.wholeText)

    if nd.nodeType == xml.dom.Node.ELEMENT_NODE and nd.hasChildNodes():
        for nd_ in nd.childNodes:
            list_nodes(nd_)


list_nodes(dom.documentElement)


[<xml.dom.minidom.DocumentType object at 0x10f8d9e10>, <DOM Element: note at 0x10f896af8>]
<DOM Element: note at 0x10f896af8>
标签名： note
文本： 
    
标签名： to
文本： Tove
文本： 
    
标签名： from
文本： Jani
文本： 
    
标签名： heading
文本： Reminder
文本： 
    
标签名： body
文本： Don't forget me this weekend!
文本： 



#### minicompat

        提供了NodeList接口的定义。
                builtins.list(builtins.object)
                        |- NodeList
                builtins.tuple(builtins.object)
                        |- EmptyNodeList
                        
       这个接口就是所有子节点的返回类型。本质是list类型。

In [19]:
import xml.dom
import xml.dom.minidom
import xml.dom.expatbuilder

builder = xml.dom.expatbuilder.ExpatBuilder()
dom = builder.parseFile(open('note.xml', 'r'))
children = dom.childNodes
print(type(children))

<class 'xml.dom.minicompat.NodeList'>


#### xmlbuilder      
    
        实现了DOM level-3特征。主要如下几个类：
            builtins.object
                    |- DOMBuilder：负责解析过程与处理。
                    |- DOMEntityResolver：负责解析DTD中的实体。
                    |- DOMInputSource：负责xml的数据输入。
        这三个类相互协作解析xml数据。
        
        下面是一个小例子，说明它们之间的协作关系。

In [20]:
import xml.dom
import xml.dom.xmlbuilder

builder = xml.dom.xmlbuilder.DOMBuilder()

input_stream = xml.dom.xmlbuilder.DOMInputSource()
# input_stream.encoding = 'utf-8'
# input_stream.systemId = 'http://mybatis.org/dtd/mybatis-3-config.dtd'
# input_stream.publicId = '-//mybatis.org//DTD Config 3.0//EN'
input_stream.byteStream = open('codes/books.xml', 'r')

result = builder.parse(input_stream)
print(result)
print(result.documentElement.nodeName)


<xml.dom.minidom.Document object at 0x10f8f6d68>
books


#### pulldom     
        
        提供在SAX基础上的DOM处理模型。
                |-  builtins.object
                        |-  DOMEventStream
                        |-  ErrorHandler
                |-  xml.sax.handler.ContentHandler(builtins.object)
                        |-  PullDOM
                                    |-  SAX2DOM
        提供两个函数来封装DOMEventStream的处理细节。
                |-parse(stream_or_string, parser=None, bufsize=None)
                |
                |- parseString(string, parser=None)
        
        两个函数返回DOMEventStream对象，通过getEvent返回事件命名与Document对象。

In [21]:
import xml.dom
import xml.dom.pulldom
import xml.sax.expatreader

# 方式一：
result = xml.dom.pulldom.parse('codes/books.xml')
e, doc = result.getEvent()
print(e)
print(doc.documentElement)

# 方式二：
parser = xml.sax.expatreader.ExpatParser(namespaceHandling=True)
fd = open('codes/books.xml','r')
ds = xml.dom.pulldom.DOMEventStream(fd, parser=parser, bufsize=1024*10)
e_, doc_ = ds.getEvent()
print(e_)


START_DOCUMENT
<DOM Element: books at 0x10f8fbd58>
START_DOCUMENT
