# 8. XML. Что это?

Аббревиатура XML расшифровывается как eXtensible Markup Language — расширяемый язык разметки. Он (язык) позволяет описывать документы, используя теги.

# 9. XML. Контент XML-файла

### Извлекаем контент из XML-файла

Для работы с XML-файлами мы будем использовать модуль ElementTree , входящий в стандартный пакет xml. Этот модуль позволит нам «перемещаться» по дереву XML и смотреть, что находится в каждом его узле, начиная с корня и заканчивая листьями.

In [2]:
# 
import xml.etree.ElementTree as ET # Импортируем модуль ElementTree
tree = ET.parse('data/menu.xml')

### Корень

Запишем в переменную root корневой узел дерева tree и посмотрим, как выглядит содержимое переменной root, для чего выполним код:

In [4]:
root = tree.getroot()
display(root)
type(root)

<Element 'menu' at 0x7f95cd539180>

xml.etree.ElementTree.Element

### Потомки

Для того чтобы посмотреть список потомков корневого узла, выполним следующий код:

In [5]:
display(list(root))
#Если у узла нет потомков, то вернётся пустой список — [].

[<Element 'dish' at 0x7f95cd5391d0>, <Element 'dish' at 0x7f95cd539310>]

In [6]:
# Для того чтобы получить список потомков второго блюда в нашем меню и вывести его на экран, выполним код:
display(list(root[1]))

[<Element 'price' at 0x7f95cd539360>,
 <Element 'weight' at 0x7f95cd5393b0>,
 <Element 'class' at 0x7f95cd539400>]

### Атрибуты и теги

Мы можем непосредственно обратиться к атрибутам, используя attrib.

Выведем на экран атрибуты первого блюда из меню:

In [7]:
display(root[0].attrib)

{'name': 'Кура'}

В XML-узлах часто хранятся количественные показатели. Эти показатели хранятся в виде текста, и прочитать их можно, обратившись к атрибуту text у соответствующего объекта типа ElementTree.Element.

Например, возьмём узел price первого блюда из меню:

In [8]:
display(root[0][0].text)

'40'

Если вы хотите прочитать наименование тега конкретного узла, необходимо использовать tag. Например, получим наименование тега корневого узла:

In [12]:
display(root.tag)
display(root[0][2].tag)

'menu'

'class'

### Использование циклов
Используя цикл for, автоматизируем обход дерева. Для этого напишем следующий код:

In [13]:
for dish in root:
    for param in dish:
        print(dish.attrib['name'], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



✍️ В этом коде реализован следующий алгоритм:

    В первом (внешнем) цикле перебираем потомков корня дерева (root). Потомки перебираются последовательно при помощи переменной dish. Это отдельные блюда из меню.
    Во втором (вложенном) цикле аналогичным образом перебираем потомков каждого блюда. Этими потомками являются параметры блюда — его цена (price), вес (weight) и класс (class).
    После этого выводим на экран название блюда (значение атрибута name), название очередного параметра (tag) и его значение (text).
    Дополнительная функция print() в цикле верхнего уровня предназначена для организации более удобного восприятия информации — между отдельными блюдами будет выведена пустая строка.


## 10. XML. Загружаем, создаем, сохраняем

### Загружаем данные из XML-файла в DataFrame
Cтандартных средств для превращения XML-файла в DataFrame нет, но если XML-файл содержит чёткую структуру, сделать это средствами Python достаточно просто.

Реализуем следующий алгоритм:

            Загрузить XML-структуру файла menu.xml в переменную root.
            Создать пустой список df_list (в него будем добавлять строчки итоговой таблицы).
            Заранее создать список column_names с именами столбцов — название блюда (name), его цена (price), вес (weight) и класс (class).
            В цикле организовать обход xml-дерева из корня по всем потомкам.
            На каждой итерации цикла сформировать в виде списка строку таблицы, содержащую информацию: наименование блюда (атрибут name узла dish) и значения потомков этого узла — узлов price, weight, class.
            Добавить сформированную строку в список df_list, используя метод append().
            Сформировать из вложенного списка DataFrame. Имена для столбцов взять из списка column_names.


In [15]:
import xml.etree.ElementTree as ET
tree = ET.parse('data/menu.xml')
root = tree.getroot()

import pandas as pd
column_names = ['name', 'price', 'weight', 'class']
df_list = []

for dish in root:
    row = [dish.attrib['name'], dish[0].text, dish[1].text, dish[2].text]
    df_list.append(row)
    df = pd.DataFrame(df_list, columns=column_names)
display(df)

Unnamed: 0,name,price,weight,class
0,Кура,40,300,Мясо
1,Греча,20,200,Крупа


### Создаём XML-файл
Воссоздадим структуру нашего исходного XML-файла с нуля,  руководствуясь общими рекомендациями.

Чтобы создать корень дерева, используем метод Element() из класса ElementTree:

In [16]:
import xml.etree.ElementTree as ET

new_root = ET.Element('data/menu')
display(new_root)

<Element 'data/menu' at 0x7f95ccd4a770>

Теперь мы можем добавлять новые узлы в наше дерево, используя метод SubElement() из того же класса.

Добавим в наше меню двух потомков корневого узла, которые будут представлять два блюда, то есть будут узлами dish:

In [17]:
dish1 = ET.SubElement(new_root, 'dish', name='Кура')
dish2 = ET.SubElement(new_root, 'dish', name='Греча')
display(list(new_root))

[<Element 'dish' at 0x7f95b0bea770>, <Element 'dish' at 0x7f95cd539c20>]

В метод SubElement() мы передали первым аргументом узел, к которому добавляем потомка, вторым аргументом — наименование нового тега (dish),  третьим аргументом — наименование атрибута нового узла( name ) и его значение.


Добавим в создаваемую структуру по три потомка (атрибута) к двум новым узлам, которые будут содержать информацию о блюде — о его цене (price), весе (weight) и классе (class), а также значение этих атрибутов:

In [18]:
price1 = ET.SubElement(dish1, "price").text = "40"
weight1 = ET.SubElement(dish1, "weight").text = "300"
class1 = ET.SubElement(dish1, "class").text = "Мясо"
display(list(dish1))

price2 = ET.SubElement(dish2, "price").text = "20"
weight2 = ET.SubElement(dish2, "weight").text = "200"
class2 = ET.SubElement(dish2, "class").text = "Крупа"
display(list(dish2))

[<Element 'price' at 0x7f95e808f540>,
 <Element 'weight' at 0x7f95b0c241d0>,
 <Element 'class' at 0x7f95b0c242c0>]

[<Element 'price' at 0x7f95cd539a40>,
 <Element 'weight' at 0x7f95cd5694a0>,
 <Element 'class' at 0x7f95cd5694f0>]

Проверим визуально корректность созданной нами структуры, выполнив фрагмент кода, разработанного ранее:

In [19]:
for dish in new_root:
    for param in dish:
        print(dish.attrib['name'], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



## Сохранение XML-файла
В финале работы с файлом XML-формата запишем созданную нами структуру как XML-файл на диск.

Преобразуем созданный нами объект типа ElementTree.Element в строку c помощью метода tostring(), передав наше новое дерево как аргумент. Сохраним эту строку на диске, используя стандартные средства Python::

In [21]:
new_root_string = ET.tostring(new_root)
with open('data/new_menu.xml', 'wb') as f:
    f.write(new_root_string)
    
ET.ElementTree(new_root).write('data/new_menu_good.xml', encoding="utf-8")