In [1]:
import pandas as pd
import xml.etree.ElementTree as ET

ЗАГРУЖАЕМ ДАННЫЕ ИЗ XML-ФАЙЛА В DATAFRAME

Покажем, как это сделать, на примере работы с нашим файлом-меню.

✍ Реализуем следующий алгоритм:

Загрузить данные из XML-файла menu.xml в переменную root.
Создать пустой список df_list (в него будем добавлять строчки итоговой таблицы).
Заранее создать список column_names с именами столбцов — название блюда (name), его цена (price), вес (weight) и класс (class).
В цикле организовать обход xml-дерева из корня по всем потомкам.
На каждой итерации цикла сформировать в виде списка строку таблицы, содержащую информацию: наименование блюда (атрибут name узла dish) и значения потомков этого узла — узлов price, weight, class.
Добавить сформированную строку в список df_list, используя метод append().
Сформировать из вложенного списка DataFrame. Имена для столбцов взять из списка column_names.
Код, который реализует этот алгоритм:

In [5]:
tree = ET.parse('./data/menu.xml')
root = tree.getroot()
display(root)
columns_name = ['name', 'price', 'weight', 'class']
df_list = []

for dish in root:
  row = [dish.attrib['name'], dish[0].text , dish[1].text, dish[2].text]
  df_list.append(row)
df = pd.DataFrame(df_list, columns=columns_name)
display(df)

<Element 'menu' at 0x000001457F4F5170>

Unnamed: 0,name,price,weight,class
0,Кура,40,300,Мясо
1,Греча,20,200,Крупа


СОЗДАЁМ XML-ФАЙЛ

→ Воссоздадим структуру нашего исходного XML-файла с нуля,  руководствуясь общими рекомендациями.

Чтобы создать корень дерева, используем метод Element() из класса ElementTree:

In [6]:
new_root = ET.Element('menu')
display(new_root)


<Element 'menu' at 0x000001457F6A8BD0>

Теперь мы можем добавлять новые узлы в наше дерево, используя метод SubElement() из того же класса.

Добавим в наше меню двух потомков корневого узла, которые будут представлять два блюда, то есть будут узлами dish:



In [8]:
dish1 = ET.SubElement(new_root, 'dish', name='Кура')
dish2 = ET.SubElement(new_root, 'dish', name='Греча')
display(list(new_root))

[<Element 'dish' at 0x000001457F6D92B0>,
 <Element 'dish' at 0x000001457F6D9B70>,
 <Element 'dish' at 0x000001457F6DB830>,
 <Element 'dish' at 0x000001457F6D8040>]

В метод SubElement() мы передали первым аргументом узел, к которому добавляем потомка, вторым аргументом — наименование нового тега (dish),  третьим аргументом — наименование атрибута нового узла( name ) и его значение.

Аналогичным образом можно добавлять новые узлы к любым существующим узлам, не только к корню.


Добавим в создаваемую структуру по три потомка (атрибута) к двум новым узлам, которые будут содержать информацию о блюде — о его цене (price), весе (weight) и классе (class), а также значение этих атрибутов:

In [9]:
price1 = ET.SubElement(dish1, "price").text = "40"
weight1 = ET.SubElement(dish1, "weight").text = "300"
class1 = ET.SubElement(dish1, "class").text = "Мясо"
display(list(dish1))

price2 = ET.SubElement(dish2, "price").text = "20"
weight2 = ET.SubElement(dish2, "weight").text = "200"
class2 = ET.SubElement(dish2, "class").text = "Крупа"
display(list(dish2))

[<Element 'price' at 0x000001457F6D8130>,
 <Element 'weight' at 0x000001457F6DAB10>,
 <Element 'class' at 0x000001457F6D8590>]

[<Element 'price' at 0x000001457F4F68E0>,
 <Element 'weight' at 0x000001457F6A9210>,
 <Element 'class' at 0x000001457F6AA430>]

Проверим визуально корректность созданной нами структуры, выполнив фрагмент кода, разработанного ранее:

In [10]:
for dish in new_root:
  for param in dish:
    print(dish.attrib['name'] , param.tag, param.text)
  print()



Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



озданная нами структура полностью идентична структуре исходного XML-файла.

СОХРАНЕНИЕ XML-ФАЙЛА

→ В финале работы с файлом XML-формата запишем созданную нами структуру как XML-файл на диск.

Преобразуем созданный нами объект типа ElementTree.Element в строку c помощью метода tostring(), передав наше новое дерево как аргумент. Сохраним эту строку на диске, используя стандартные средства Python::

In [11]:
new_root_string = ET.tostring(new_root)

with open('new_menu.xml', 'wb') as f:
  f.write(new_root_string)

✍️ Файл записан! Откройте его и посмотрите, что получилось.

Возможно, вы увидите проблему, связанную с кодировкой. Что делать в этом случае? Как вариант — записать файл, используя сам класс ElementTree() :

In [12]:
ET.ElementTree(new_root).write('new_menu_good.xml', encoding="utf-8")

Для этого мы передаём в класс ElementTree() наше дерево (не его строковое представление) и вызываем метод write(). В метод мы передаём путь к новому файлу и нужную нам кодировку.