# python操作xml文件--XML DOM

## 1、xml文件结构

XML 被设计用来传输和存储数据，其焦点是数据的内容。

```xml
<bookstore>
    <book category="CHILDREN">
        <title>Harry Potter</title>
        <author>J K. Rowling</author>
        <year>2005</year>
        <price>29.99</price>
    </book>
    <book category="WEB">
        <title>Learning XML</title>
        <author>Erik T. Ray</author>
        <year>2003</year>
        <price>39.95</price>
    </book>
</bookstore>
```
`<bookstore>`是根元素。下面4行是根的 4 个子元素。`</bookstore>`定义根元素的结尾。

`<bookstore>`和`<book>`都有元素内容，因为他们包含其他元素。

XML元素具有属性，属性（Attribute）提供有关元素的额外信息。

`<book>`元素的属性是`category="CHILDREN"`。

`<title>`、`<author>`、`<year>` 和 `<price>` 有文本内容，因为他们包含文本。

被用来操作xml文件的库有：

- [xml.dom](https://docs.python.org/3.7/library/xml.dom.html)
- [xml.dom.minidom](https://docs.python.org/3.7/library/xml.dom.minidom.html)
- [xml.sax](https://docs.python.org/3.7/library/xml.sax.html)
- [xml.etree.ElementTree](https://docs.python.org/3.7/library/xml.etree.elementtree.html)

## 2、XML DOM简介

DOM 定义了所有文档元素的对象和属性，以及访问它们的方法（接口）。

XML DOM 是 XML Document Object Model 的缩写，即 XML 文档对象模型。

XML DOM 定义了访问和处理 XML 文档的标准方法。

XML DOM 节点：XML 文档中的每个成分都是一个节点：

- 整个文档是一个文档节点
- 每个 XML 标签是一个元素节点
- 包含在 XML 元素中的文本是文本节点
- 每一个 XML 属性是一个属性节点
- 注释属于注释节点

在上面的 XML 中，根节点是`<bookstore>`。

文档中的所有其他节点都被包含在`<bookstore>`中。

根节点`<bookstore>`有两个`<book>`节点。

第一个`<book>`节点有四个节点：`<title>`，`<author>`，`<year>` 以及`<price>`，其中每个节点都包含一个文本节点，"Harry Potter"，"J K. Rowling"，"2005"以及"29.99"。

在 DOM 处理中一个普遍的错误是，认为元素节点包含文本。

元素节点的文本是存储在文本节点中的。在这个例子中，`<year>2005</year>`，元素节点`<year>`，拥有一个值为 "2005" 的文本节点。"2005"不是`<year>`元素的值！

[XML详细介绍](https://www.runoob.com/xml/xml-tutorial.html)

[XML DOM详细介绍及操作](https://www.runoob.com/dom/dom-tutorial.html)

# [xml.dom官网](https://docs.python.org/3/library/xml.dom.html)

## Node Objects

XML文档的所有组件都是它的子类。

方法：

- `Node.attributes`：属性对象的NamedNodeMap
- `Node.childNodes`：这个结点的包含的结点的列表。
- `Node.nodeName`：对不同的node类型有不同的含义。这个属性的值要么为字符串，要么为None。
- `Node.nodeValue`:对不同的node类型有不同的含义。这个属性的值要么为字符串，要么为None。
- `Node.hasAttributes()`：这个结点有属性，就返回True
- `Node.appendChild(newChild)`：往这个结点，添加孩子结点列表的末尾添加一个新的孩子结点。如果添加的结点已存在，就删除后再添加

## Attr Objects

继承至Node，所以继承它的所有属性。

- `Attr.name`：The attribute name. In a namespace-using document it may include a colon.
- `Attr.value`：The text value of the attribute. This is a synonym for the nodeValue attribute.

## NamedNodeMap Objects

不继承至Node

- `NamedNodeMap.length`:The length of the attribute list.
- `NamedNodeMap.item(index)`:Return an attribute with a particular index. 

## Document Objects

`Document` 表示整个XML文件，包含了它的组成元素、属性、处理指令、注释等。它继承了Node的属性。

方法：

- `Document.documentElement`: The one and only root element of the document.
- `Document.getElementsByTagName(tagName)`:Search for all descendants (direct children, children’s children, etc.) with a particular element type name.
- `Document.createElement(tagName)`：Create and return a new element node. 
- `Document.createTextNode(data)`:Create and return a text node containing the data passed as a parameter. 
- `Document.createComment(data)`:Create and return a comment node containing the data passed as a parameter.
- `Document.createAttribute(name)`:Create and return an attribute node. 

## Element Objects

Node的子类，所以继承Node的所有属性。

- `Element.tagName`：The element type name. In a namespace-using document it may have colons in it. The value is a string.
- `Element.hasAttribute(name)`:Return True if the element has an attribute named by name.
- `Element.setAttribute(name, value)`:Set an attribute value from a string.
- `Element.getAttribute(name)`:Return the value of the attribute named by name as a string. 
- `Element.removeAttribute(name)`:Remove an attribute by name.
- `Element.getElementsByTagName(tagName)`:Same as equivalent method in the Document class

In [15]:
from xml.dom.minidom import parse

DOMDocument = parse("data/movies.xml")

In [22]:
# 获取根结点
rootNode = DOMDocument.documentElement

print(rootNode.nodeName)
print(rootNode.childNodes)
print("------------------------")
# 获取根结点的所有属性，并打印出属性的名字和值
if rootNode.hasAttributes():
    nnm = rootNode.attributes
    print(nnm)
    for i in range(0,nnm.length):
        print(nnm.item(i).name)
        print(nnm.item(i).value)

collection
None
[<DOM Text node "'\n'">, <DOM Element: movie at 0x26a2e1f0b90>, <DOM Text node "'\n'">, <DOM Element: movie at 0x26a2e1fa048>, <DOM Text node "'\n   '">, <DOM Element: movie at 0x26a2e1fa470>, <DOM Text node "'\n'">, <DOM Element: movie at 0x26a2e1fa898>, <DOM Text node "'\n'">]
------------------------
<xml.dom.minidom.NamedNodeMap object at 0x0000026A2E1FDBC8>
shelf
New Arrivals


In [27]:
# 根据tagname获取根结点<collection>的<movie>结点，返回一个列表

movies = DOMDocument.getElementsByTagName("movie")
print(movies.length)
for movie in movies:
    if movie.hasAttribute("title"):  # <movie>结点是否有title属性
        print(movie.getAttribute("title")) # 获取title属性
        type = movie.getElementsByTagName("type")[0]
        print(type.nodeName+":"+type.childNodes[0].nodeValue)
        print("-------------")

4
Enemy Behind
type:War, Thriller
-------------
Transformers
type:Anime, Science Fiction
-------------
Trigun
type:Anime, Action
-------------
Ishtar
type:Comedy
-------------


In [38]:
# 往已有XML文件上追加一个元素信息

DOMDocument2 = parse("data/movies.xml")
rootNode2 = DOMDocument2.documentElement

# 新建一个movie节点
movie_node = DOMDocument2.createElement("movie")
movie_node.setAttribute("title","Enemy Behind2")

## 创建type节点
type_node = DOMDocument2.createElement("type")
typetext_node = DOMDocument2.createTextNode("War, Thriller")
type_node.appendChild(typetext_node)
movie_node.appendChild(type_node)

format_node = DOMDocument2.createElement("format")
formattext_node = DOMDocument2.createTextNode("DVD")
format_node.appendChild(formattext_node)
movie_node.appendChild(format_node)
year_node = DOMDocument2.createElement("year")
yeartext_node = DOMDocument2.createTextNode("2004")
year_node.appendChild(yeartext_node)
movie_node.appendChild(year_node)
rating_node = DOMDocument2.createElement("rating")
ratingtext_node = DOMDocument2.createTextNode("PG")
rating_node.appendChild(ratingtext_node)
movie_node.appendChild(rating_node)
stars_node = DOMDocument2.createElement("stars")
starstext_node = DOMDocument2.createTextNode("11")
stars_node.appendChild(starstext_node)
movie_node.appendChild(stars_node)
description_node = DOMDocument2.createElement("description")
descriptiontext_node = DOMDocument2.createTextNode("Talk about a US-Japan war")
description_node.appendChild(descriptiontext_node)
movie_node.appendChild(description_node)

rootNode2.appendChild(movie_node)

with open("data/movies_new.xml","w") as f:
    # 怎么换行？？
    DOMDocument2.writexml(f,addindent='  ', encoding='utf-8')