![xml](../images/xml.png)

In [9]:
import xml.etree.ElementTree as ET

tree = ET.parse('menu.xml')
display(tree)

<xml.etree.ElementTree.ElementTree at 0x7f79685317c0>

#### КОРЕНЬ

In [10]:
root = tree.getroot()
display(root, type(root))

<Element 'menu' at 0x7f79682b1bd0>

xml.etree.ElementTree.Element

#### ПОТОМКИ

Для того чтобы посмотреть список потомков корневого узла, выполним следующий код:

In [11]:
display(list(root))

[<Element 'dish' at 0x7f79687159a0>, <Element 'dish' at 0x7f7968715b30>]

Итак, использование list(root) возвращает список потомков указанного узла. У узла root, который представляет меню, два потомка, а именно — два блюда, которые представлены тегами dish.

Для того чтобы получить список потомков второго блюда в нашем меню и вывести его на экран, выполним код:

In [12]:
display(list(root[1]))

[<Element 'price' at 0x7f7968715ae0>,
 <Element 'weight' at 0x7f7968715b80>,
 <Element 'class' at 0x7f7968715e50>]

#### АТРИБУТЫ И ТЕГИ

Как было сказано ранее, у узлов могут быть параметры, или атрибуты. Например, у узлов dish есть атрибут name, который хранит название блюда.

In [13]:
display(root[0].attrib)

{'name': 'Кура'}

В XML-узлах часто хранятся количественные показатели. Эти показатели хранятся в виде текста, и прочитать их можно, обратившись к атрибуту text у соответствующего объекта типа ElementTree.Element.

In [14]:
display(root[0][0].text)

'40'

Если вы хотите прочитать наименование тега конкретного узла, необходимо использовать tag. Например, получим наименование тега корневого узла:

In [16]:
display(root[0][2].tag)

'class'

#### ИСПОЛЬЗОВАНИЕ ЦИКЛОВ

На этом шаге мы решим задачу вывода на экран наименование всех блюд из меню, а также информацию о них (иными словами, нам необходимо обойти дерево и вывести на экран значения его листьев).

In [18]:
for dish in root:
    for param in dish:
        print(dish.attrib['name'], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



#### ЗАГРУЖАЕМ ДАННЫЕ ИЗ XML-ФАЙЛА В DATAFRAME

In [19]:
import pandas as pd

tree = ET.parse('menu.xml')
root = tree.getroot()

column_names = ['name', 'price', 'weight', 'class']
df_list = []

for dish in root:
    row = [dish.attrib['name'], dish[0].text, dish[1].text, dish[2].text]
    df_list.append(row)
    
df = pd.DataFrame(df_list, columns=column_names)
display(df)

Unnamed: 0,name,price,weight,class
0,Кура,40,300,Мясо
1,Греча,20,200,Крупа


#### СОЗДАЁМ XML-ФАЙЛ

→ Воссоздадим структуру нашего исходного XML-файла с нуля,  руководствуясь общими рекомендациями.

In [20]:
new_root = ET.Element('menu')
display(new_root)

<Element 'menu' at 0x7f79699efb80>

Теперь мы можем добавлять новые узлы в наше дерево, используя метод SubElement() из того же класса.

In [21]:
dish1 = ET.SubElement(new_root, 'dish', name='Кура')

dish2 = ET.SubElement(new_root, 'dish', name='Греча')

display(list(new_root))

[<Element 'dish' at 0x7f796871d770>, <Element 'dish' at 0x7f796821e090>]

Аналогичным образом можно добавлять новые узлы к любым существующим узлам, не только к корню.

In [22]:
price1 = ET.SubElement(dish1, "price").text = "40"
weight1 = ET.SubElement(dish1, "weight").text = "300"
class1 = ET.SubElement(dish1, "class").text = "Мясо"
display(list(dish1))

price2 = ET.SubElement(dish2, "price").text = "20"
weight2 = ET.SubElement(dish2, "weight").text = "200"
class2 = ET.SubElement(dish2, "class").text = "Крупа"
display(list(dish2))

[<Element 'price' at 0x7f796871d5e0>,
 <Element 'weight' at 0x7f7969a1a590>,
 <Element 'class' at 0x7f7969a1a450>]

[<Element 'price' at 0x7f7969a12f90>,
 <Element 'weight' at 0x7f796832b270>,
 <Element 'class' at 0x7f7969a1a860>]

In [23]:
for dish in new_root:
    for param in dish:
        print(dish.attrib['name'], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



#### СОХРАНЕНИЕ XML-ФАЙЛА

In [24]:
new_root_string = ET.tostring(new_root)
with open('new_menu.xml', 'wb') as f:
    f.write(new_root_string)

Возможно, вы увидите проблему, связанную с кодировкой. Что делать в этом случае? Как вариант — записать файл, используя сам класс ElementTree() :

In [None]:
ET.ElementTree(new_root).write('new_menu_decoded.xml', encoding='utf-8')