# lxml.etree的使用
以下是用`lxml.etree`处理XML文件的使用指导，主要简短描述了ElementTree API的主要功能。
首先，导入模块：

In [1]:
from lxml import etree
from lxml import objectify

### 元素类
ElementTree API的主要数据承载对象时元素。大部分XML树可以通过元素的方式访问。

In [2]:
# 创建一个ElementTree对象，根节点为root，对象名为root
root = etree.Element("root")

XML的标签名称可以通过`tag` 属性访问：

In [3]:
print(root.tag)

root


元素是XML树结构的主要组成部分，在树中加入子节点可以使用`append`

In [4]:
root.append(etree.Element("child1"))

当然，我们也有更简单的方法添加子节点： 

In [5]:
child2 = etree.SubElement(root, "child2")
child3 = etree.SubElement(root, "child3")

这样就形成了一个真实的XML文档，你可以查看他的结构：

In [6]:
print(etree.tostring(root, pretty_print=True))

b'<root>\n  <child1/>\n  <child2/>\n  <child3/>\n</root>\n'


### 元素以列表形式存在
想要简单直接的访问这些子节点，元素可以利用类似于普通Pyhton列表的一些方法。

In [7]:
child = root[0]
print(child.tag)

child1


In [8]:
print(len(root))

3


In [9]:
root.index(root[1])  # 需要导入objectify模块才可以使用！

1

In [10]:
children = list(root)
# 同样可以进行循环的操作
for child in root:
    print(child.tag)

child1
child2
child3


In [11]:
root.insert(0, etree.Element("child0"))
# 同样可以进行切片的操作
start= root[:1]
end = root[-1:]
print(start[0].tag)
print(end[0].tag)

child0
child3


查看是否是节点元素类型

In [12]:
print(etree.iselement(root))

True


查看根节点是否还有子节点 

In [13]:
if len(root):
    print("The root element has children")

The root element has children


### 元素节点的覆盖移动
这一点和列表不同，列表的赋值是拷贝，而ElementTree树的操作是直接覆盖移动

In [14]:
for child in root:
    print(child.tag)
root[0] = root[-1]
print("*"*30)
for child in root:
    print(child.tag)

child0
child1
child2
child3
******************************
child3
child1
child2


如果你想将节点元素拷贝到`lxml.etree`中的新位置，就要使用Python的copy模块中的深拷贝`deep copy`来完成。

In [15]:
from copy import deepcopy
# 创建一个名为elemet的对象，根节点名为neu
element = etree.Element("neu")
# 通过深拷贝（新内存地址）向对象添加子节点
element.append(deepcopy(root[1]))
print(element[0].tag)
# 显然，并没有移走原来的root[1]节点
print([c.tag for c in root])

child1
['child3', 'child1', 'child2']


通过兄弟节点也可以互相访问

In [16]:
root[0] is root[1].getprevious()
root[1] is root[0].getnext()

True

### 节点元素以字典的方式携带属性
XML元素支持属性，通过字典的方式携带元素属性

In [17]:
root = etree.Element("root", interesting="totally")
etree.tostring(root)

b'<root interesting="totally"/>'

元素的属性是无序的键值对，所以一个方便的方式来处理他们就是类似Python的字典处理方式 

In [18]:
# 使用 根节点.get("属性名") 来获取元素的属性信息
print(root.get("interesting"))
print(root.get("hello"))
# 可以使用set来设置属性
root.set("hello", "Hengheng")
print(root.get("hello"))
for name, value in sorted(root.items()):
    print('%s = %s' % (name, value))

totally
None
Hengheng
hello = Hengheng
interesting = totally


如果你想要的真的类字典操作，可以进行如下处理：

In [19]:
attributes = root.attrib
print(attributes["interesting"])
print(attributes.get("no-such-attribute"))
attributes["hello"] = "tag"
print(attributes.get("hello"))

totally
None
tag


# 从字符串或者文件解析

`lxml.tree`支持以各种方式解析XML文件，可以解析字符串、文件、URLs或者其他类文件对象。主要的解析函数是`fromstring()`和`parse()`。

### `fromstring()函数`

`fromstring()`可以轻松的解析一个字符串：

In [30]:
# 字符串
some_xml_data = "<root>data</root>"
# 使用fromstring来解析
root = etree.fromstring(some_xml_data)
print(root.tag)
etree.tostring(root)

root


b'<root>data</root>'

### `XML()`函数

`xml()`函数和`fromstring()`函数功能类似，

# 通过Xpath语法访问文本


树迭代器也可以使用： 

In [20]:
root = etree.Element("root")
etree.SubElement(root, "child").text = "Child 1"
etree.SubElement(root, "child").text = "Child 2"
etree.SubElement(root, "another").text = "Child 3"
for element in root.iter():
    print("%s - %s" % (element.tag, element.text))

root - None
child - Child 1
child - Child 2
another - Child 3


*暂略*

## lxml.objectify模块的使用
在使用`objectify`的时候，既会用到`lxml.etree`模块也会用到`lxml.object`模块。

In [21]:
from lxml import etree
from lxml import objectify

### 通过对象属性访问元素
`objectify`API和`ElementTree`API不同，一旦使用这个API就不应该与别的元素处理混合使用。
这个API的主要思想是将XML元素的访问方法隐藏于普通元素对象的访问方法中。通过元素属性访问，将返回带有相应标签名称的子元素序列。


In [22]:
root = objectify.Element("root")
b = objectify.SubElement(root, "b")
# 根节点下子节点b的第一个元素的标签值
print(root.b[0].tag)
# 节点b的第一个元素的下标
# root.index(root.b[0])
# 更简洁的写法，可以省略下标0来访问第一个孩子节点
root.index(root.b)

b


0

*暂略*

#  用lxml解析XML和HTML

对于XMl和HTMl的解析，lxml提供了一个简单有效的API。
简单的步骤如下：

In [23]:
from lxml import etree

In [24]:
# 下面的例子是使用IO模块进行文件的导入的
from io import StringIO, BytesIO

### 解析器

In [25]:
xml = '<a xmlns="test"><b xmlns="test"/></a>'
root = etree.fromstring(xml)
etree.tostring(root)

b'<a xmlns="test"><b xmlns="test"/></a>'

从一个文件读取对象，你可以使用`prase()`函数，会返回一个元素树对象

In [26]:
tree = etree.parse(StringIO(xml))
etree.tostring(tree.getroot())

b'<a xmlns="test"><b xmlns="test"/></a>'

**我们现在从本地读取文件：**

In [27]:
tree = etree.parse("C:\\Users\\Administrator\\Desktop\\CFturbo机器学习课题\\临时泵模型\\混流1.cft-batch")

### 解析的选项

解析时我们接受一个关键字参数作为设置选项，通过这个我们可以轻松的清理命名空间

In [28]:
parser = etree.XMLParser(ns_clean=True)
tree = etree.parse(StringIO(xml), parser)
etree.tostring(tree.getroot())

b'<a xmlns="test"><b/></a>'

In [29]:
tree = etree.parse("C:\\Users\\Administrator\\Desktop\\CFturbo机器学习课题\\临时泵模型\\混流1.cft-batch")
root = tree.getroot()

 **待更新**