### XML

**Введение в XML**

XML — это язык разметки для описания иерархии структурированных данных. XML документ содержит один или более элементов разделённых открывающими и закрывающими тегами.

XML документ:

Элементы могут быть неограниченно вложены друг в друга. Так как элемент bar вложен в элемент foo, то его называют подэлементом или дочерним элементом элемента foo.

Пример представленный ниже не является XML документом, так как он имеет два корневых элемента:

Элементы могут иметь атрибуты состоящие из пары имя-значение.

Элементы могут иметь текст (текстовое содержание).

Элементы которые не содержат текста и дочерних элементов называются пустыми.

Существует сокращённая запись пустого элемента. Поместив знак дроби / в конце открывающего тега, вы можете пропустить закрывающий тег. XML документ предыдущего примера с пустым элементов может быть записан следующим образом:

Для объявления пространства имён по умолчанию используется директива xmlns. Объявление пространства имён очень похоже на атрибут, но имеет специальное значение.

XML документы могут содержать информацию о кодировке символов в первой строке до корневого элемента. 

**Синтаксический разбор XML**

In [26]:
>>> import xml.etree.ElementTree as etree   
>>> tree = etree.parse('feed.xml')  
>>> root = tree.getroot()                    
>>> root    

<Element '{http://www.w3.org/2005/Atom}feed' at 0x000002A060170220>

**Элементы XML есть списки Python**

В API ElementTree элементы представляются встроенным типом Python - списком. Каждый из элементов списка представляет собой дочерние XML элементы.

In [27]:
root.tag         

'{http://www.w3.org/2005/Atom}feed'

In [28]:
len(root)

9

In [29]:
for child in root: 
    print(root)

<Element '{http://www.w3.org/2005/Atom}feed' at 0x000002A060170220>
<Element '{http://www.w3.org/2005/Atom}feed' at 0x000002A060170220>
<Element '{http://www.w3.org/2005/Atom}feed' at 0x000002A060170220>
<Element '{http://www.w3.org/2005/Atom}feed' at 0x000002A060170220>
<Element '{http://www.w3.org/2005/Atom}feed' at 0x000002A060170220>
<Element '{http://www.w3.org/2005/Atom}feed' at 0x000002A060170220>
<Element '{http://www.w3.org/2005/Atom}feed' at 0x000002A060170220>
<Element '{http://www.w3.org/2005/Atom}feed' at 0x000002A060170220>
<Element '{http://www.w3.org/2005/Atom}feed' at 0x000002A060170220>


**Атрибуты XML есть словари Python**

Документ XML это не только набор элементов; каждый элемент так же имеет набор атрибутов. Имея конкретный XML элемент, Вы можете легко получить его атрибуты как словарь Python.

In [30]:
root.attrib     

{'{http://www.w3.org/XML/1998/namespace}lang': 'en'}

In [31]:
root[4]       

<Element '{http://www.w3.org/2005/Atom}link' at 0x000002A0601776D0>

In [32]:
root[4].attrib           

{'rel': 'alternate', 'type': 'text/html', 'href': 'http://diveintomark.org/'}

In [33]:
root[3] 

<Element '{http://www.w3.org/2005/Atom}updated' at 0x000002A0601779F0>

In [34]:
root[3].attrib 

{}

**Поиск узлов в XML документе**

In [35]:
root.findall('{http://www.w3.org/2005/Atom}entry') 

[<Element '{http://www.w3.org/2005/Atom}entry' at 0x000002A060177360>,
 <Element '{http://www.w3.org/2005/Atom}entry' at 0x000002A06013E540>,
 <Element '{http://www.w3.org/2005/Atom}entry' at 0x000002A06013E220>]

In [36]:
root.tag

'{http://www.w3.org/2005/Atom}feed'

In [37]:
root.findall('{http://www.w3.org/2005/Atom}feed')

[]

In [38]:
root.findall('{http://www.w3.org/2005/Atom}author')

[]

In [39]:
tree.findall('{http://www.w3.org/2005/Atom}entry') 

[<Element '{http://www.w3.org/2005/Atom}entry' at 0x000002A060177360>,
 <Element '{http://www.w3.org/2005/Atom}entry' at 0x000002A06013E540>,
 <Element '{http://www.w3.org/2005/Atom}entry' at 0x000002A06013E220>]

In [40]:
tree.findall('{http://www.w3.org/2005/Atom}author')

[]

In [41]:
entries = tree.findall('{http://www.w3.org/2005/Atom}entry')  
len(entries)

3

In [42]:
title_element = entries[0].find('{http://www.w3.org/2005/Atom}title')
title_element.text

'Dive into history, 2009 edition'

In [43]:
foo_element = entries[0].find('{http://www.w3.org/2005/Atom}foo')
foo_element
type(foo_element)

NoneType

In [46]:
all_links = tree.findall('.//{http://www.w3.org/2005/Atom}link') 
all_links

[<Element '{http://www.w3.org/2005/Atom}link' at 0x000002A0601776D0>,
 <Element '{http://www.w3.org/2005/Atom}link' at 0x000002A060177090>,
 <Element '{http://www.w3.org/2005/Atom}link' at 0x000002A060177680>,
 <Element '{http://www.w3.org/2005/Atom}link' at 0x000002A06013EDB0>,
 <Element '{http://www.w3.org/2005/Atom}link' at 0x000002A060185040>]

In [47]:
all_links[0].attrib

{'rel': 'alternate', 'type': 'text/html', 'href': 'http://diveintomark.org/'}

**Создание XML**

In [22]:
new_feed = etree.Element('{http://www.w3.org/2005/Atom}feed',     
    attrib={'{http://www.w3.org/XML/1998/namespace}lang': 'en'})  
print(etree.tostring(new_feed))                                   

b'<ns0:feed xmlns:ns0="http://www.w3.org/2005/Atom" xml:lang="en" />'
