<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">→ Аббревиатура XML расшифровывается как eXtensible Markup Language — расширяемый язык разметки. Он (язык) позволяет описывать документы, используя теги.</div>

Если вы когда-нибудь сталкивались с HTML, языком разметки для создания веб-страниц, то можете заметить, что XML очень похож на него. Однако в отличие от HTML, где теги заранее чётко заданы, в XML мы можем задавать теги сами.

Например, если мы хотим описать меню в ресторане в формате XML-документа, мы можем сделать это так:

<img src='../static/img/data_extract_4.jpg'>

В примере выше довольно жёсткая структура: у нас есть меню  — тег &lt;menu>, где хранятся объекты, то есть конкретные блюда, помеченные тегом &lt;dish>. У каждого из блюд есть параметр name, в котором прописано имя блюда. Можно считать, что &lt;dish> — <b>класс</b> этого объекта.

Внутри каждого объекта-блюда находится набор значений, которые тоже задаются тегами. Например, внутри тега &lt;price> находится значение 20, означающее цену данного блюда. Тег &lt;price> и другие теги внутри можно рассматривать как <b>атрибуты</b> класса dish.

<div style="border: 3px dotted white; padding: 5px; margin-right: auto;  width: 80%;"> Файлы XML не всегда имеют жёсткую структуру и не обязаны её иметь, но чаще всего какая-то структура внутри файла будет. Почему? Потому что обычно XML не пишут вручную. Такие файлы генерируются кодом и читаются тоже кодом. Поэтому при наличии понятной структуры обработка файла становится намного проще.</div>

## Извлекаем контент из XML-файла

Данные в формате XML имеют древовидную структуру. 

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  <b>Что такое дерево?</b> Это структура, которая имеет узлы и связи между ними. Самый верхнеуровневый узел называется корнем, а всё, что находится в самом низу, называется листьями. 

В примере из прошлого юнита корнем является &lt;menu>, а листьями, например, &lt;price> и &lt;weight>.

Кроме того, у &lt;menu> есть дети (потомки) — это два узла &lt;dish>, имеющие разное значение атрибута &lt;name>.

Таким образом, в файле используется набор тегов, внутри которых могут находиться другие теги со своими значениями.

Для работы с XML-файлами мы будем использовать модуль ElementTree , входящий в стандартный пакет xml. Этот модуль позволит нам «перемещаться» по дереву XML и смотреть, что находится в каждом его узле, начиная с корня и заканчивая листьями.

Импортируем этот модуль под псевдонимом ET: 

In [1]:
# Импортируем модуль ElementTree
import xml.etree.ElementTree as ET

Для работы со структурой файла menu.xml считаем его содержимое в переменную tree, выполнив код:

In [3]:
tree = ET.parse("data/menu.xml")

## Корень

Запишем в переменную root корневой узел дерева tree и посмотрим, как выглядит содержимое переменной root, для чего выполним код:

In [4]:
root = tree.getroot()
display(root)

<Element 'menu' at 0x7f2361f9df30>

Мы видим, что в корне находится 'menu'. Всё правильно, мы и предполагали увидеть именно это. 

Какой тип у этого объекта? Если мы вызовем встроенный в Python метод type() и передадим ему root , то увидим, что это тип xml.etree.ElementTree.Element. Такой тип будет у любого узла в дереве.

In [5]:
display(type(root))

xml.etree.ElementTree.Element

## Потомки

Для того чтобы посмотреть список потомков корневого узла, выполним следующий код:

In [6]:
display(list(root))

[<Element 'dish' at 0x7f2361f9e020>, <Element 'dish' at 0x7f2361f17b50>]

Если у узла нет потомков, то вернётся пустой список — [].

Итак, использование list(root) возвращает список потомков указанного узла. У узла root, который представляет меню, два потомка, а именно — два блюда, которые представлены тегами dish.

Для того чтобы получить список потомков второго блюда в нашем меню и вывести его на экран, выполним код:

In [7]:
display(list(root[1]))

[<Element 'price' at 0x7f2361f17ba0>,
 <Element 'weight' at 0x7f2361f17bf0>,
 <Element 'class' at 0x7f2361f17c40>]

Таким образом, у второго потомка узла root —  три потомка.

## Атрибуты и теги

Как было сказано ранее, у узлов могут быть параметры, или атрибуты. Например, у узлов dish есть атрибут name, который хранит название блюда.

Мы можем непосредственно обратиться к атрибутам, используя attrib.

Выведем на экран атрибуты первого блюда из меню:

In [8]:
display(root[0].attrib)

{'name': 'Кура'}

В XML-узлах часто хранятся количественные показатели. Эти показатели хранятся в виде текста, и прочитать их можно, обратившись к атрибуту text у соответствующего объекта типа ElementTree.Element.

Например, возьмём узел price первого блюда из меню:

In [9]:
display(root[0][0])

<Element 'price' at 0x7f2361f9dfd0>

Теперь прочитаем значение этого узла с помощью text:

In [10]:
display(root[0][0].text)

'40'

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  Все значения в XML, даже числовые, хранятся как строки, поэтому преобразовывать их к нужному типу вам нужно самим.</div>

Например, в данном случае можно обернуть значение стоимости в int() или float().

Если вы хотите прочитать наименование тега конкретного узла, необходимо использовать tag. Например, получим наименование тега корневого узла:

In [11]:
display(root.tag)

'menu'

In [12]:
display(root[0][2].tag)

'class'

## Использование циклов

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  → Итак, мы научились обращаться к отдельным узлам дерева, представляющего XML-структуру, и извлекать информацию о его атрибутах, значении и потомках.</div>

На этом шаге мы решим задачу вывода на экран наименование всех блюд из меню, а также информацию о них (иными словами, нам необходимо обойти дерево и вывести на экран значения его листьев).

Используя цикл for, автоматизируем обход дерева. Для этого напишем следующий код:

In [13]:
for dish in root:
    for param in dish:
        print(dish.attrib["name"], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;">✍️ В этом коде реализован следующий алгоритм:

1.  В первом (внешнем) цикле перебираем потомков корня дерева (root). Потомки перебираются последовательно при помощи переменной dish. Это отдельные блюда из меню.
2. Во втором (вложенном) цикле аналогичным образом перебираем потомков каждого блюда. Этими потомками являются параметры блюда — его цена (price), вес (weight) и класс (class).
3.  После этого выводим на экран название блюда (значение атрибута name), название очередного параметра (tag) и его значение (text).
4. Дополнительная функция print() в цикле верхнего уровня предназначена для организации более удобного восприятия информации — между отдельными блюдами будет выведена пустая строка.
</div>

## Загружаем данные из XML-файла в DataFrame

Покажем, как это сделать, на примере работы с нашим файлом-меню.

<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;">

✍ Реализуем следующий алгоритм:

1. Загрузить XML-структуру файла menu.xml в переменную root.
2. Создать пустой список df_list (в него будем добавлять строчки итоговой таблицы).
3. Заранее создать список column_names с именами столбцов — название блюда (name), его цена (price), вес (weight) и класс (class).
4. В цикле организовать обход xml-дерева из корня по всем потомкам.
5. На каждой итерации цикла сформировать в виде списка строку таблицы, содержащую информацию: наименование блюда (атрибут name узла dish) и значения потомков этого узла — узлов price, weight, class.
6. Добавить сформированную строку в список df_list, используя метод append().
7. Сформировать из вложенного списка DataFrame. Имена для столбцов взять из списка column_names.
</idv>


Код, который реализует этот алгоритм:

In [15]:
import xml.etree.ElementTree as ET

tree = ET.parse("data/menu.xml")
root = tree.getroot()

import pandas as pd

column_names = ["name", "price", "weight", "class"]
df_list = []

for dish in root:
    row = [dish.attrib["name"], dish[0].text, dish[1].text, dish[2].text]
    df_list.append(row)
    df = pd.DataFrame(df_list, columns=column_names)
df

Unnamed: 0,name,price,weight,class
0,Кура,40,300,Мясо
1,Греча,20,200,Крупа


## Создаём XML-файл

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">→ Воссоздадим структуру нашего исходного XML-файла с нуля,  руководствуясь общими рекомендациями.</div>

Чтобы создать корень дерева, используем метод Element() из класса ElementTree:

In [16]:
import xml.etree.ElementTree as ET

new_root = ET.Element("menu")
display(new_root)

<Element 'menu' at 0x7f2349dce7a0>

Теперь мы можем добавлять новые узлы в наше дерево, используя метод SubElement() из того же класса.

Добавим в наше меню двух потомков корневого узла, которые будут представлять два блюда, то есть будут узлами dish:

In [17]:
dish1 = ET.SubElement(new_root, "dish", name="Кура")

dish2 = ET.SubElement(new_root, "dish", name="Греча")

display(list(new_root))

[<Element 'dish' at 0x7f2364095e90>, <Element 'dish' at 0x7f2313bdb420>]

В метод SubElement() мы передали первым аргументом узел, к которому добавляем потомка, вторым аргументом — наименование нового тега (dish),  третьим аргументом — наименование атрибута нового узла( name ) и его значение.

<div style="border: 3px dotted white; padding: 5px; margin-right: auto;  width: 80%;"> Аналогичным образом можно добавлять новые узлы к любым существующим узлам, не только к корню.</div>

Добавим в создаваемую структуру по три потомка (атрибута) к двум новым узлам, которые будут содержать информацию о блюде — о его цене (price), весе (weight) и классе (class), а также значение этих атрибутов:

In [18]:
price1 = ET.SubElement(dish1, "price").text = "40"
weight1 = ET.SubElement(dish1, "weight").text = "300"
class1 = ET.SubElement(dish1, "class").text = "Мясо"
display(list(dish1))

price2 = ET.SubElement(dish2, "price").text = "20"
weight2 = ET.SubElement(dish2, "weight").text = "200"
class2 = ET.SubElement(dish2, "class").text = "Крупа"
display(list(dish2))

[<Element 'price' at 0x7f23640967a0>,
 <Element 'weight' at 0x7f2313a204a0>,
 <Element 'class' at 0x7f2313a20540>]

[<Element 'price' at 0x7f2364096a20>,
 <Element 'weight' at 0x7f2364095cb0>,
 <Element 'class' at 0x7f23640977e0>]

Проверим визуально корректность созданной нами структуры, выполнив фрагмент кода, разработанного ранее:

In [19]:
for dish in new_root:
    for param in dish:
        print(dish.attrib["name"], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



Созданная нами структура полностью идентична структуре исходного XML-файла.

## Сохранение XML-файла

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">→ В финале работы с файлом XML-формата запишем созданную нами структуру как XML-файл на диск.</div>

Преобразуем созданный нами объект типа ElementTree.Element в строку c помощью метода tostring(), передав наше новое дерево как аргумент. Сохраним эту строку на диске, используя стандартные средства Python::

In [20]:
new_root_string = ET.tostring(new_root)

with open("data/new_menu.xml", "wb") as f:
    f.write(new_root_string)

Возможно, вы увидите проблему, связанную с кодировкой. Что делать в этом случае? Как вариант — записать файл, используя сам класс ElementTree() :

In [22]:
ET.ElementTree(new_root).write("data/new_menu_good.xml", encoding="utf-8")



Для этого мы передаём в класс ElementTree() наше дерево (не его строковое представление) и вызываем метод write(). В метод мы передаём путь к новому файлу и нужную нам кодировку.