# python读写XML文件

XML是一种常用的结构化存储文件， Python提供了操作XML文件的三种库：SAX(Simple API for XML), DOM(Document Object Model) 和 ET(ElementTree). 其中SAX用于处理大规模的数据以及提取文件中的一部分数据，在一般的应用中不需要使用该库。DOM和ET是一般应用中常用的操作XML文件的库。下面我们展示几个例子来说明这两个库操作XML的具体过程。

### 基于ElementTree的XML文件读写
下面的例子是利用ET库来进行XML文件的读写操作，执行该代码将会产生xml文件。
```python
import xml.etree.ElementTree as et
from xml.dom.minidom import Document
# 读取xml文件
def load_xml_file(fileName):
	root = et.parse(fileName).getroot()

	# 获取文件描述
	intro = root.find('intro').text.encode('utf8').strip()
	print intro
	
	# 获取所有list节点
	all_users = root.findall('list')
	# 遍历list节点的子元素
	for user in all_users:
		# 得到head节点的文本
		head = user.find('head').text.strip()
		# 得到name节点的文本
		name = user.find('name').text.strip()
		# 得到sex节点的文本
		sex = user.find('sex').text.strip()
		# 得到age节点的文本
		age = user.find('age').text.strip()
		# 得到hobby节点的文本
		hobby = user.find('hobby').text.encode('utf8').strip()
		
		print head, name, sex, hobby, age


def write_xml_file(fileName):
	doc = Document()

	info = doc.createElement('info')

	intro = doc.createElement('intro')
	intro_text = doc.createTextNode(u'信息')
	intro.appendChild(intro_text)
	info.appendChild(intro)
	
	def createItem(head, name, number, age, sex, hobby):
		return {'head': head,
		'name': name,
		'number': number,
		'age': age,
		'sex': sex,
		'hobby': hobby}
	
	items = [createItem('auto_userone', 
	                    'JackLyu', 
	                    12345678, 
	                    20, 
	                    'Man', 
	                    u'看电影'),
	         createItem('auto_usertwo', 
	                    'JieLyu', 
	                    12345679, 
	                    24, 
	                    'Man', u
	                    '玩游戏')]
	cnt = 0
	for item in items:
		cnt += 1
		list = doc.createElement('list')
		list.setAttribute('id', '%0*d'%(3, cnt))
		for (key, value) in item.items():
			node = doc.createElement(key)
			# print key, value
			if isinstance(value, int):
			value = str(value)
			node_text = doc.createTextNode(value)
			node.appendChild(node_text)
			list.appendChild(node)
		
		info.appendChild(list)
	doc.appendChild(info)
	with open(fileName, 'w') as fid:
	fid.write(doc.toprettyxml(encoding='utf-8', indent='\t'))

if __name__ == '__main__':
	write_xml_file('./new_doc.xml')
	load_xml_file('./new_doc.xml')
# >> 信息
# >> auto_userone JackLyu Man 看电影 20
# >> auto_usertwo JieLyu Man 玩游戏 24
```

### 基于DOM的XML文件读写

```python
from xml.dom import minidom
def write_xml_file_by_dom(fileName):

	imp = minidom.getDOMImplementation()
	dom = imp.createDocument(None, 'info', None)
	info = dom.documentElement
	
	intro = dom.createElement('intro')
	intro_text = dom.createTextNode('信息')
	intro.appendChild(intro_text)
	info.appendChild(intro)
	
	def createItem(head, name, number, age, sex, hobby):
		return {'head': head,
		'name': name,
		'number': number,
		'age': age,
		'sex': sex,
		'hobby': hobby}
	items = [createItem('auto_userone', 
	                    'JackLyu', 
	                    12345678, 
	                    20, 
	                    'Man', 
	                    '看电影'),
	         createItem('auto_usertwo', 
	                    'JieLyu', 
	                    12345679, 
	                    24, 
	                    'Man', 
	                    '玩游戏')]
	cnt = 0
	for item in items:
		cnt += 1
		list = dom.createElement('list')
		list.setAttribute('id', '%0*d'%(3, cnt))
		for (key, value) in item.items():
			node = dom.createElement(key)
			# print key, value
			if isinstance(value, int):
				value = str(value)
			node_text = dom.createTextNode(value)
			node.appendChild(node_text)
			list.appendChild(node)
		info.appendChild(list)
	with open(fileName, 'w') as fid:
		dom.writexml(fid, addindent='\t', encoding='utf-8', newl='\n')


def load_xml_file_by_dom(fileName):
	dom = minidom.parse(fileName)
	root = dom.documentElement
	
	# 获取文件描述
	intro = root.getElementsByTagName('intro')
	print intro[0].childNodes[0].data.strip()
	
	# 获取所有list节点
	all_users = root.getElementsByTagName('list')
	# 遍历list节点的子元素
	for user in all_users:
		# 得到head节点的文本
		headNodes = user.getElementsByTagName('head')
		head = headNodes[0].childNodes[0].data.strip()
		# 得到name节点的文本
		nameNodes = user.getElementsByTagName('name')
		name = nameNodes[0].childNodes[0].data.strip()
		# 得到sex节点的文本
		sexNodes = user.getElementsByTagName('sex')
		sex = sexNodes[0].childNodes[0].data.strip()
		# 得到age节点的文本
		ageNodes = user.getElementsByTagName('age')
		age = ageNodes[0].childNodes[0].data.strip()
		# 得到hobby节点的文本
		hobbyNodes = user.getElementsByTagName('hobby')
		hobby = hobbyNodes[0].childNodes[0].data.strip()
	print head, name, sex, hobby, age

if __name__ == '__main__':
	write_xml_file_by_dom('./new_dom_doc.xml')
	load_xml_file_by_dom('./new_dom_doc.xml')
# >> 信息
# >> auto_userone JackLyu Man 看电影 20
# >> auto_usertwo JieLyu Man 玩游戏 24
```
以上两个例子产生的XML文件如下：
```xml
<?xml version="1.0" encoding="utf-8"?>
<info>
	<intro>
		信息
	</intro>
	<list id="001">
		<head>
			auto_userone
		</head>
		<name>
			JackLyu
		</name>
		<age>
			20
		</age>
		<number>
			12345678
		</number>
		<sex>
			Man
		</sex>
		<hobby>
			看电影
		</hobby>
	</list>
	<list id="002">
		<head>
			auto_usertwo
		</head>
		<name>
			JieLyu
		</name>
		<age>
			24
		</age>
		<number>
			12345679
		</number>
		<sex>
			Man
		</sex>
		<hobby>
			玩游戏
		</hobby>
	</list>
</info>

```