Аббревиатура `XML` расшифровывается как `eXtensible Markup Language` — **расширяемый язык разметки**. Он (язык) позволяет описывать документы, используя теги.

Если вы когда-нибудь сталкивались с HTML, языком разметки для создания веб-страниц, то можете заметить, что XML очень похож на него. Однако в отличие от HTML, где теги заранее чётко заданы, в XML мы можем задавать теги сами.

Например, если мы хотим описать меню в ресторане в формате XML-документа, мы можем сделать это так:

<center> <img src='img/xml_0.jpg'> </center>

В примере выше довольно жёсткая структура: у нас есть меню  — тег `<menu>`, где хранятся объекты, то есть конкретные блюда, помеченные тегом `<dish>`. У каждого из блюд есть параметр name, в котором прописано имя блюда. Можно считать, что `<dish>` — класс этого объекта.

Внутри каждого объекта-блюда находится набор значений, которые тоже задаются тегами. Например, внутри тега `<price>` находится значение `20`, означающее цену данного блюда. Тег `<price>` и другие теги внутри можно рассматривать как атрибуты класса `dish`.

>Файлы XML не всегда имеют жёсткую структуру и не обязаны её иметь, но чаще всего какая-то структура внутри файла будет. Почему? >Потому что обычно XML не пишут вручную. Такие файлы генерируются кодом и читаются тоже кодом. Поэтому при наличии понятной >структуры обработка файла становится намного проще.

#### Извлекаем контент из XML-файла

Данные в формате XML имеют древовидную структуру. 

>Что такое дерево? Это структура, которая имеет узлы и связи между ними. Самый верхнеуровневый узел называется корнем, а всё, >что находится в самом низу, называется листьями. 

В примере из прошлого юнита корнем является `<menu>`, а листьями, например, `<price>` и `<weight>`.

Кроме того, у `<menu>` есть дети (потомки) — это два узла `<dish>`, имеющие разное значение атрибута `<name>`.

Таким образом, в файле используется набор тегов, внутри которых могут находиться другие теги со своими значениями.

Для работы с XML-файлами мы будем использовать модуль `ElementTree` , входящий в стандартный пакет xml. Этот модуль позволит нам «перемещаться» по дереву XML и смотреть, что находится в каждом его узле, начиная с корня и заканчивая листьями.

Импортируем этот модуль под псевдонимом `ET`: 

In [1]:
# Импортируем модуль ElementTree
import xml.etree.ElementTree as ET

✍ Мы будем работать с представленной выше структурой XML-файла. Скачайте [файл](https://lms-cdn.skillfactory.ru/assets/courseware/v1/01ea46ca75f69567ade68bc6ea5db17b/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/menu.xml), откройте его и посмотрите на содержимое (можно использовать любой текстовый редактор, например Блокнот). 

Скопируйте скачанный файл `menu.xml` в папку, в которой будете работать (в этой же папке вы будете создавать файлы Jupyter Notebook с кодом и запускать код на выполнение).

Для работы со структурой файла `menu.xml` считаем его содержимое в переменную tree, выполнив код:

In [2]:
tree = ET.parse('data/menu.xml')

#### Корень

Запишем в переменную `root` корневой узел дерева `tree` и посмотрим, как выглядит содержимое переменной `root`, для чего выполним код:

In [3]:
root = tree.getroot()
display(root)
display(type(root))

<Element 'menu' at 0x000001AC547598F0>

xml.etree.ElementTree.Element

Мы видим, что в корне находится `'menu'`. Всё правильно, мы и предполагали увидеть именно это. 

Какой тип у этого объекта? Если мы вызовем встроенный в Python метод `type()` и передадим ему `root` , то увидим, что это тип `xml.etree.ElementTree.Element`. Такой тип будет у любого узла в дереве.

### Потомки

Для того чтобы посмотреть список потомков корневого узла, выполним следующий код:

Если у узла нет потомков, то вернётся пустой список — [].

In [4]:
display(list(root))

[<Element 'dish' at 0x000001AC54759990>,
 <Element 'dish' at 0x000001AC54759B70>]

Итак, использование `list(root)` возвращает список потомков указанного узла. У узла `root`, который представляет меню, два потомка, а именно — **два блюда**, которые представлены тегами `dish`.

Для того чтобы получить список потомков второго блюда в нашем меню и вывести его на экран, выполним код:

In [5]:
display(list(root[1]))

[<Element 'price' at 0x000001AC54759BC0>,
 <Element 'weight' at 0x000001AC54759C10>,
 <Element 'class' at 0x000001AC54759C60>]

Таким образом, у второго потомка узла root —  три потомка.

#### Атрибуты и теги

Как было сказано ранее, у узлов могут быть параметры, или атрибуты. Например, у узлов `dish` есть атрибут `name`, который хранит **название блюда**.

Мы можем непосредственно обратиться к атрибутам, используя `attrib`.

Выведем на экран атрибуты первого блюда из меню:

In [6]:
display(root[0].attrib)

{'name': 'Кура'}

В XML-узлах часто хранятся количественные показатели. Эти показатели хранятся в виде текста, и прочитать их можно, обратившись к атрибуту `text` у соответствующего объекта типа `ElementTree.Element`.

> Все значения в XML, даже числовые, хранятся как строки, поэтому преобразовывать их к нужному типу вам нужно самим.


In [7]:
# Например, возьмём узел `price` первого блюда из меню:
display(root[0][0])

#Теперь прочитаем значение этого узла с помощью text:
display(root[0][0].text)

<Element 'price' at 0x000001AC547599E0>

'40'

Например, в данном случае можно обернуть значение стоимости в int() или float().

Если вы хотите прочитать наименование тега конкретного узла, необходимо использовать `tag`. Например, получим наименование тега корневого узла:

In [8]:
display(root.tag)

display(root[0][2].tag)

'menu'

'class'

### Использование циклов

Итак, мы научились обращаться к отдельным узлам дерева, представляющего XML-структуру, и извлекать информацию о его атрибутах, значении и потомках.

На этом шаге мы решим задачу вывода на экран наименование всех блюд из меню, а также информацию о них (иными словами, нам необходимо обойти дерево и вывести на экран значения его листьев).

Используя цикл `for`, автоматизируем обход дерева. Для этого напишем следующий код:

In [9]:
for dish in root:
    for param in dish:
        print(dish.attrib['name'], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



✍️ В этом коде реализован следующий алгоритм:

1. В первом (внешнем) цикле перебираем потомков корня дерева (root). Потомки перебираются последовательно при помощи переменной `dish`. Это отдельные блюда из меню.
2. Во втором (вложенном) цикле аналогичным образом перебираем потомков каждого блюда. Этими потомками являются параметры блюда — его цена (`price`), вес (`weight`) и класс (`class`).
3. После этого выводим на экран название блюда (значение атрибута name), название очередного параметра (`tag`) и его значение (`text`).
4. Дополнительная функция `print()` в цикле верхнего уровня предназначена для организации более удобного восприятия информации — между отдельными блюдами будет выведена пустая строка.

На выходе получаем:

<img src='data/xml_6.jpg'>

#### Загружаем данные из XML-файла в DataFrame

Покажем, как это сделать, на примере работы с нашим файлом-меню.

✍ Реализуем следующий алгоритм:

1. Загрузить данные из XML-файла `menu.xml` в переменную `root`.
2. Создать пустой список `df_list` (в него будем добавлять строчки итоговой таблицы).
3. Заранее создать список `column_names` с именами столбцов — название блюда (`name`), его цена (`price`), вес (`weight`) и класс (`class`).
4. В цикле организовать обход xml-дерева из корня по всем потомкам.
5. На каждой итерации цикла сформировать в виде **списка** строку таблицы, содержащую информацию: наименование блюда (атрибут `name` узла `dish`) и значения потомков этого узла — узлов `price`, `weight`, `class`.
6. Добавить сформированную строку в список `df_list`, используя метод `append()`.
7. Сформировать из вложенного списка `DataFrame`. Имена для столбцов взять из списка `column_names`.

In [12]:
# Код, который реализует этот алгоритм:

import xml.etree.ElementTree as ET
tree = ET.parse('data/menu.xml')
root = tree.getroot()

import pandas as pd
column_names = ['name', 'price', 'weight', 'class']
df_list = []

for dish in root:
    row = [dish.attrib['name'], dish[0].text, dish[1].text, dish[2].text]
    df_list.append(row)

df = pd.DataFrame(df_list, columns=column_names)
display(df)

Unnamed: 0,name,price,weight,class
0,Кура,40,300,Мясо
1,Греча,20,200,Крупа


#### Создаём XML-файл

Воссоздадим структуру нашего исходного XML-файла с нуля,  руководствуясь общими рекомендациями.

Чтобы создать корень дерева, используем метод `Element()` из класса `ElementTree`:

In [13]:
import xml.etree.ElementTree as ET

new_root = ET.Element('menu')
display(new_root)

<Element 'menu' at 0x000001AC54CB0FE0>

Теперь мы можем добавлять новые узлы в наше дерево, используя метод SubElement() из того же класса.

Добавим в наше меню двух потомков корневого узла, которые будут представлять два блюда, то есть будут узлами `dish`:

In [14]:
dish1 = ET.SubElement(new_root, 'dish', name='Кура')

dish2 = ET.SubElement(new_root, 'dish', name='Греча')

display(list(new_root))

[<Element 'dish' at 0x000001AC54791F80>,
 <Element 'dish' at 0x000001AC54792390>]

В метод `SubElement()` мы передали **первым аргументом** узел, к которому добавляем потомка, **вторым аргументом** — наименование нового тега (`dish`),  **третьим аргументом** — наименование атрибута нового узла( `name` ) и его значение.

> Аналогичным образом можно добавлять новые узлы к любым существующим узлам, не только к корню.

Добавим в создаваемую структуру по три **потомка** (атрибута) к двум новым узлам, которые будут содержать информацию о блюде — о его цене (`price`), весе (`weight`) и классе (`class`), а также значение этих атрибутов:

In [15]:
price1 = ET.SubElement(dish1, "price").text = "40"
weight1 = ET.SubElement(dish1, "weight").text = "300"
class1 = ET.SubElement(dish1, "class").text = "Мясо"
display(list(dish1))

price2 = ET.SubElement(dish2, "price").text = "20"
weight2 = ET.SubElement(dish2, "weight").text = "200"
class2 = ET.SubElement(dish2, "class").text = "Крупа"
display(list(dish2))

[<Element 'price' at 0x000001AC550BDC10>,
 <Element 'weight' at 0x000001AC550BD990>,
 <Element 'class' at 0x000001AC546A3F10>]

[<Element 'price' at 0x000001AC52F96BB0>,
 <Element 'weight' at 0x000001AC546A28E0>,
 <Element 'class' at 0x000001AC547924D0>]

Проверим визуально корректность созданной нами структуры, выполнив фрагмент кода, разработанного ранее:

In [16]:
for dish in new_root:    
    for param in dish:
        print(dish.attrib['name'], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



Созданная нами структура полностью идентична структуре исходного XML-файла.

#### Сохранение XML-файла

В финале работы с файлом XML-формата запишем созданную нами структуру как XML-файл на диск.

Преобразуем созданный нами объект типа `ElementTree.Element` в строку c помощью метода `tostring()`, передав наше новое дерево как аргумент. Сохраним эту строку на диске, используя стандартные средства Python:

In [17]:
new_root_string = ET.tostring(new_root)

with open("data/new_menu.xml", "wb") as f:
    f.write(new_root_string)

✍️ Файл записан! Откройте его и посмотрите, что получилось.

Возможно, вы увидите проблему, связанную с кодировкой. Что делать в этом случае? Как вариант — записать файл, используя сам класс `ElementTree()` :

In [19]:
ET.ElementTree(new_root).write('data/new_menu_good.xml', encoding="utf-8")

Для этого мы передаём в класс `ElementTree()` наше дерево (не его строковое представление) и вызываем метод `write()`. 

В метод мы передаём путь к новому файлу и нужную нам кодировку.

✍ В этом модуле мы с вами:

познакомились с библиотеками, методами и функциями, позволяющими работать с данными, поступающими из разных источников и в разных форматах;
освоили основные способы извлечения данных из файлов форматов CSV, TXT, XLS, XLSX, JSON, XML, ZIP-архивов и создания на их основе объектов DataFrame;
научились решать проблемы, связанные с кодировкой информации в исходном файле;
освоили способы создания оптимизированных структур для их последующего сохранения на диске.

#### Дополнительные материалы

#### ZIP
- [Working with zip files in Python (англ.)](https://www.geeksforgeeks.org/working-zip-files-python/)

#### Excel
- [Автоматизация Excel с помощью Python (рус.)](https://medium.com/nastia-shu/больше-не-нужно-открывать-сотни-файлов-в-excel-e0a1f5a9e9a7)
- [Использование Python и Excel для обработки и анализа данных (рус.)](https://habr.com/ru/company/otus/blog/331998/)
- [How to Work with Excel files in Pandas (англ.)](https://towardsdatascience.com/how-to-work-with-excel-files-in-pandas-c584abb67bfb)
- [Pandas read_excel() – Reading Excel File in Python (англ.)](https://www.journaldev.com/33306/pandas-read_excel-reading-excel-file-in-python)
- [Python Excel Tutorial: The Definitive Guide (англ.)](https://www.datacamp.com/community/tutorials/python-excel-tutorial)
- [Tutorial Using Excel with Python and Pandas (англ.)](https://www.dataquest.io/blog/excel-and-pandas/)

#### JSON
- [Парсинг JSON (рус.)](https://all-python.ru/osnovy/json.html)
- [Working With JSON Data in Python (англ.)](https://realpython.com/python-json/)
- [Python JSON (англ.)](https://www.programiz.com/python-programming/json)

#### XML
- [Работа с XML из Python (рус.)](https://codecamp.ru/blog/python-manipulating-xml/)
- [Processing XML in Python — ElementTree (англ.)](https://towardsdatascience.com/processing-xml-in-python-elementtree-c8992941efd2)