# <center> XML. Контент XML-файла

In [73]:
# Импортируем модуль ElementTree
import xml.etree.ElementTree as ET

In [74]:
tree = ET.parse('data/menu.xml')

In [75]:
root = tree.getroot()
display(root)
display(type(root))

<Element 'menu' at 0x00000286B36E7180>

xml.etree.ElementTree.Element

In [76]:
# Для того чтобы посмотреть список потомков корневого узла, 
# выполним следующий код:

display(f"Список потомков корневого узла: {list(root)}")

# Для того чтобы получить список потомков второго блюда в нашем меню 
# и вывести его на экран, выполним код:

display(f"Список потомков второго блюда: {list(root[1])}")

"Список потомков корневого узла: [<Element 'dish' at 0x00000286B36E79A0>, <Element 'dish' at 0x00000286C2ABF3B0>]"

"Список потомков второго блюда: [<Element 'price' at 0x00000286C2ABF1D0>, <Element 'weight' at 0x00000286C2ABF220>, <Element 'class' at 0x00000286C2ABF0E0>]"

In [77]:
# Выведем на экран атрибуты первого блюда из меню

display(root[0].attrib)

{'name': 'Кура'}

In [78]:
# В XML-узлах часто хранятся количественные показатели. Эти показатели хранятся в виде текста, 
# и прочитать их можно, обратившись к атрибуту text у соответствующего объекта типа ElementTree.Element.

# Например, возьмём узел price первого блюда из меню и прочитаем его с помощью аттрибута text:

display(root[0][0].text)

'40'

In [79]:
# Если вы хотите прочитать наименование тега конкретного узла, 
# необходимо использовать tag. Например, получим наименование тега корневого узла:

display(root.tag)

# Задание 9.3

display(root[0][2].tag)

'menu'

'class'

In [80]:
# Используя цикл for, автоматизируем обход дерева. Для этого напишем следующий код:
import xml.etree.ElementTree as ET

tree = ET.parse('data/menu.xml')

root = tree.getroot()

for dish in root:
    for param in dish:
        print(dish.attrib['name'], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



# <center> ЗАГРУЖАЕМ ДАННЫЕ ИЗ XML-ФАЙЛА В DATAFRAME

In [81]:
# Импортируем библиотеки
import xml.etree.ElementTree as ET
import pandas as pd

# Загружаем в нужном формате дерево
tree = ET.parse('data/menu.xml')
root = tree.getroot()

# Создаем списки для работы (для данных и для имен колонок в таблице)
menu_list = []
column_list = ['names']

# Проходимся по элементам дерева
for dish in root:
    item_list = [dish.attrib['name'], dish[0].text, dish[1].text, dish[2].text]
    # добавляем элемент список в общий список
    menu_list.append(item_list)
    # Добавляем категории-теги в список заголовок колонок
    column_list.append(dish[0].tag)
    column_list.append(dish[1].tag)
    column_list.append(dish[2].tag)

# Оставляем только нужные имена колонок
column_list = column_list[:4]

# Загружаем все это в DataFrame
df = pd.DataFrame(menu_list, columns=column_list)
display(df)

Unnamed: 0,names,price,weight,class
0,Кура,40,300,Мясо
1,Греча,20,200,Крупа


## Создаем свой XML

In [82]:
import xml.etree.ElementTree as ET

new_tree = ET.Element('menu')
display(new_tree)

<Element 'menu' at 0x00000286C2AE5130>

In [83]:
# Добавим потомков (в нашем случае блюда)

dish_1 = ET.SubElement(new_tree, 'dish', name='Кура')
dish_2 = ET.SubElement(new_tree, 'dish', name='Греча')

display(list(new_tree))

# В метод SubElement() мы передали первым аргументом узел, к которому добавляем потомка, 
# вторым аргументом — наименование нового тега (dish),  
# третьим аргументом — наименование атрибута нового узла( name ) и его значение.

[<Element 'dish' at 0x00000286B365B9A0>,
 <Element 'dish' at 0x00000286B365BB30>]

In [84]:
price_1 = ET.SubElement(dish_1, 'price').text = '40'
weight_1 = ET.SubElement(dish_1, 'weight').text = '300'
class_1 = ET.SubElement(dish_1, 'weight').text = 'Мясо'
display(list(dish_1))

price_2 = ET.SubElement(dish_2, 'price').text = '20'
weight_2 = ET.SubElement(dish_2, 'weight').text = '200'
class_2 = ET.SubElement(dish_2, 'class').text = 'Крупа'
display(list(dish_2))

# Проверим визуально корректность созданной нами структуры, выполнив фрагмент кода, разработанного ранее:
for dish in new_tree:
    for param in dish:
        print([dish.attrib['name'], param.tag, param.text])
    print()

[<Element 'price' at 0x00000286B365B400>,
 <Element 'weight' at 0x00000286C2A5FE50>,
 <Element 'weight' at 0x00000286C2A5FC20>]

[<Element 'price' at 0x00000286B36E71D0>,
 <Element 'weight' at 0x00000286B21D4950>,
 <Element 'class' at 0x00000286B365B6D0>]

['Кура', 'price', '40']
['Кура', 'weight', '300']
['Кура', 'weight', 'Мясо']

['Греча', 'price', '20']
['Греча', 'weight', '200']
['Греча', 'class', 'Крупа']



In [88]:
# Преобразуем созданный нами объект типа ElementTree.Element в строку c помощью метода tostring(), 
# передав наше новое дерево как аргумент. 
# Сохраним эту строку на диске, используя стандартные средства Python:

new_tree_string = ET.tostring(new_tree)

with open('data/new_menu.xml', 'wb') as write_xml:
    write_xml.write(new_tree_string)

In [89]:
# Возможно, вы увидите проблему, связанную с кодировкой. Что делать в этом случае? 
# Как вариант — записать файл, используя сам класс ElementTree() :

ET.ElementTree(new_tree).write('new_menu_good.xml', encoding="utf-8")