# Извлекаем контент из XML-файла

In [29]:
# Импортируем модуль ElementTree
import xml.etree.ElementTree as ET

In [30]:
tree = ET.parse('data_xml/menu.xml')

# Корень

In [31]:
root = tree.getroot()
display(root)

<Element 'menu' at 0x00000255EBAEECF0>

In [32]:
display(type(root))

xml.etree.ElementTree.Element

# Потомки

In [33]:
display(list(root))

[<Element 'dish' at 0x00000255EBAEF0B0>,
 <Element 'dish' at 0x00000255EC43EF20>]

In [34]:
display(list(root[1]))

[<Element 'price' at 0x00000255EC43EED0>,
 <Element 'weight' at 0x00000255FF46A390>,
 <Element 'class' at 0x00000255FF469E90>]

# Атрибуты и теги

In [35]:
display(root[0].attrib)

{'name': 'Кура'}

In [36]:
display(root[0][0])

<Element 'price' at 0x00000255EBAEF2E0>

In [37]:
display(root[0][0].text)

'40'

Все значения в XML, даже числовые, хранятся как строки, поэтому преобразовывать их к нужному типу вам нужно самим.

In [38]:
display(root.tag)

'menu'

In [39]:
display(root[0][2].tag)

'class'

# Использование циклов

→ Итак, мы научились обращаться к отдельным узлам дерева, представляющего XML-структуру, и извлекать информацию о его атрибутах, значении и потомках.

На этом шаге мы решим задачу вывода на экран наименование всех блюд из меню, а также информацию о них (иными словами, нам необходимо обойти дерево и вывести на экран значения его листьев).

Используя цикл for, автоматизируем обход дерева. Для этого напишем следующий код:

In [40]:
for dish in root:
    for param in dish:
        print(dish.attrib['name'], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



✍️ В этом коде реализован следующий алгоритм:

- В первом (внешнем) цикле перебираем потомков корня дерева (root). Потомки перебираются последовательно при помощи переменной dish. Это отдельные блюда из меню.
- Во втором (вложенном) цикле аналогичным образом перебираем потомков каждого блюда. Этими потомками являются параметры блюда — его цена (price), вес (weight) и класс (class).
- После этого выводим на экран название блюда (значение атрибута name), название очередного параметра (tag) и его значение (text).
- Дополнительная функция print() в цикле верхнего уровня предназначена для организации более удобного восприятия информации — между отдельными блюдами будет выведена пустая строка.

# Загружаем данные из XML-файла в DataFrame

Покажем, как это сделать, на примере работы с нашим файлом-меню.

✍ Реализуем следующий алгоритм:

- Загрузить данные из XML-файла menu.xml в переменную root.
- Создать пустой список df_list (в него будем добавлять строчки итоговой таблицы).
- Заранее создать список column_names с именами столбцов — название блюда (name), его цена (price), вес (weight) и класс (class).
- В цикле организовать обход xml-дерева из корня по всем потомкам.
- На каждой итерации цикла сформировать в виде списка строку таблицы, содержащую информацию: наименование блюда (атрибут name узла dish) и значения потомков этого узла — узлов price, weight, class.
- Добавить сформированную строку в список df_list, используя метод append().
- Сформировать из вложенного списка DataFrame. Имена для столбцов взять из списка column_names.

In [41]:
import xml.etree.ElementTree as ET
tree = ET.parse('data_xml/menu.xml')
root = tree.getroot()

import pandas as pd
column_names = ['name', 'price', 'weight', 'class']
df_list = []

for dish in root:
    row = [dish.attrib['name'], dish[0].text, dish[1].text, dish[2].text]
    df_list.append(row)

df = pd.DataFrame(df_list, columns=column_names)
display(df)

Unnamed: 0,name,price,weight,class
0,Кура,40,300,Мясо
1,Греча,20,200,Крупа


# Создаём XML-файл

→ Воссоздадим структуру нашего исходного XML-файла с нуля,  руководствуясь общими рекомендациями.

Чтобы создать корень дерева, используем метод Element() из класса ElementTree:

In [42]:
new_root = ET.Element('menu')
display(new_root)

<Element 'menu' at 0x00000255FF46B3D0>

Теперь мы можем добавлять новые узлы в наше дерево, используя метод SubElement() из того же класса.

Добавим в наше меню двух потомков корневого узла, которые будут представлять два блюда, то есть будут узлами dish:

In [43]:
dish1 = ET.SubElement(new_root, 'dish', name='Кура')

dish2 = ET.SubElement(new_root, 'dish', name='Греча')

display(list(new_root))

[<Element 'dish' at 0x00000255EC3BF970>,
 <Element 'dish' at 0x00000255FF46A390>]

В метод SubElement() мы передали первым аргументом узел, к которому добавляем потомка, вторым аргументом — наименование нового тега (dish),  третьим аргументом — наименование атрибута нового узла( name ) и его значение.

Аналогичным образом можно добавлять новые узлы к любым существующим узлам, не только к корню.

Добавим в создаваемую структуру по три потомка (атрибута) к двум новым узлам, которые будут содержать информацию о блюде — о его цене (price), весе (weight) и классе (class), а также значение этих атрибутов:

In [44]:
price1 = ET.SubElement(dish1, "price").text = "40"
weight1 = ET.SubElement(dish1, "weight").text = "300"
class1 = ET.SubElement(dish1, "class").text = "Мясо"
display(list(dish1))

price2 = ET.SubElement(dish2, "price").text = "20"
weight2 = ET.SubElement(dish2, "weight").text = "200"
class2 = ET.SubElement(dish2, "class").text = "Крупа"
display(list(dish2))

[<Element 'price' at 0x00000255FF46BCE0>,
 <Element 'weight' at 0x00000255FF46BC90>,
 <Element 'class' at 0x00000255FF468680>]

[<Element 'price' at 0x00000255FF46BDD0>,
 <Element 'weight' at 0x00000255FF46B2E0>,
 <Element 'class' at 0x00000255FF46BB50>]

Проверим визуально корректность созданной нами структуры, выполнив фрагмент кода, разработанного ранее:

In [45]:
for dish in new_root:    
    for param in dish:
        print(dish.attrib['name'], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



Созданная нами структура полностью идентична структуре исходного XML-файла.

# Сохранение XML-файла

→ В финале работы с файлом XML-формата запишем созданную нами структуру как XML-файл на диск.

Преобразуем созданный нами объект типа ElementTree.Element в строку c помощью метода tostring(), передав наше новое дерево как аргумент. Сохраним эту строку на диске, используя стандартные средства Python::

In [47]:
# new_root_string = ET.tostring(new_root)

# with open("data_xml/new_menu.xml", "wb") as f:
#     f.write(new_root_string)

✍️ Файл записан! Откройте его и посмотрите, что получилось.

Возможно, вы увидите проблему, связанную с кодировкой. Что делать в этом случае? Как вариант — записать файл, используя сам класс ElementTree() :

In [48]:
# ET.ElementTree(new_root).write('data_xml/new_menu_good.xml', encoding="utf-8")

Для этого мы передаём в класс ElementTree() наше дерево (не его строковое представление) и вызываем метод write(). В метод мы передаём путь к новому файлу и нужную нам кодировку.