本文内容基本来自：
- http://outofmemory.cn/code-snippet/914/python-kinds-parse-xml-bao-usage-method-summary

In [1]:
input_xml_string = """ 
                   <root> 
                        <item> 
                            <data version="1.0" url="http://***" /> 
                            <data version="2.0" url="http://***" /> 
                         </item> 
                         <other> 
                             <data version="1.0" url="http://***" /> 
                             <data version="2.0" url="http://***" /> 
                          </other> 
                     </root> 
                     """  

## python自带的xml处理模块xml.dom.minidom 解析xml
可以使用该模块提供的”getElementsByTagName“接口找到需要的节点,实例“get_tagname”如下：

In [3]:
import xml.dom.minidom  
def get_tagname():  
    doc = xml.dom.minidom.parseString(input_xml_string)  
    for node in doc.getElementsByTagName("data"):  
        print (node, node.tagName, node.getAttribute("version"))  
get_tagname()

(<DOM Element: data at 0x1100f4680>, u'data', u'1.0')
(<DOM Element: data at 0x1100f4c20>, u'data', u'2.0')
(<DOM Element: data at 0x110121098>, u'data', u'1.0')
(<DOM Element: data at 0x1101213b0>, u'data', u'2.0')


观察上面的运行结果，”getElementsByTagName“接口查找名为data的所有节点，有时候，程序需要完成的功能是只需要某个节点下面的 data节点，如other节点下的data节点。也许您马上想到了，我们可以判断data节点的父节点是否为other来满足功能，实例 “get_tagname_other”如下：

In [4]:
def get_tagname_other():  
    doc = xml.dom.minidom.parseString(input_xml_string)  
    for node in doc.getElementsByTagName("data"):  
        if node.parentNode.tagName == "other":  
            print (node, node.tagName, node.getAttribute("version"))  
get_tagname_other()

(<DOM Element: data at 0x110125cb0>, u'data', u'1.0')
(<DOM Element: data at 0x110125f38>, u'data', u'2.0')


观察上面的运行结果，恩，很好，问题是解决了，但是如果我想查找other节点下的data节点且属性节点version等于1.0的那个data节点， 那么就需要添加更多的策略来筛选出我们需要的数据，显然这种方式不够灵活，因此我们想到了使用xpath的方式去搜索我们需要的节点。实例 “get_xpath”如下：

In [6]:
import xml.etree.ElementTree  
from StringIO import StringIO  
file = StringIO(input_xml_string)  
def get_xpath():  
    doc = xml.etree.ElementTree.parse(file)  
    for node in doc.findall("//item/data"):  
        print (node, node.tag, (node.items())) 
get_xpath()

(<Element 'data' at 0x1101f3190>, 'data', [('url', 'http://***'), ('version', '1.0')])
(<Element 'data' at 0x1101f31d0>, 'data', [('url', 'http://***'), ('version', '2.0')])


  


观察上面的运行结果，使用xpath的方式显然改善了程序的可读性，可依然没有解决上面的问题，这是由于python自带的xml模块对xpath方式的支持先天不足，如果想同时满足可读性与功能的正确性，我们需要使用针对python的第三方xml处理类库。

## 使用libxml2解析xml
libxml2是使用C语言开发的xml解析器，是一个基于MIT License的免费开源软件，多种编程语言都有基于它的实现，如本文将会介绍的lxml模块。实例“get_xpath_1”如下：

In [1]:
import libxml2
def get_xpath_1():
    doc = libxml2.parseFile("data.xml")#data.xml文件结构与上述的input_xml_string相同
    for node in doc.xpathEval("//item/data[@version = '1.0']"):
        print(node, node.name, (node.properties.name, node.properties.content))
doc.freeDoc()

ImportError: No module named libxml2

## 使用lxml解析xml
lxml是以上述介绍过的libxml2为基础采用python语言开发的，从使用层面上说比libxml2更适合python开发者(鄙人感受)，且"xpath"接口支持类似模板的用法，实例“get_xpath_2”如下：

In [1]:
import lxml.etree  
def get_xpath_2():  
   doc = lxml.etree.parse(file)  
   for node in doc.xpath("//item/data[@version = $name]", name = "1.0"):  
       print (node, node.tag, (node.items()))  

ImportError: No module named lxml.etree

In [2]:
import lxml

ImportError: No module named lxml