# XML

In [1]:
import xml.etree.ElementTree as ET # Импортируем модуль ElementTree

In [3]:
tree = ET.parse('data_16/menu.xml') # считываем файл, помещаем в переменную
display(tree)

<xml.etree.ElementTree.ElementTree at 0x22ab6148520>

## Корень

In [4]:
root = tree.getroot() # записываем корневой узел в переменную
display(root)

<Element 'menu' at 0x0000022AB61110E0>

In [5]:
display(type(root)) # тип данных в узлах

xml.etree.ElementTree.Element

## Потомки

In [6]:
display(list(root)) # список потомков корневого узла

[<Element 'dish' at 0x0000022AB6111360>,
 <Element 'dish' at 0x0000022AB6111090>]

In [7]:
display(list(root[1])) # список потомков первого потомка

[<Element 'price' at 0x0000022AB6111720>,
 <Element 'weight' at 0x0000022AB6111F40>,
 <Element 'class' at 0x0000022AB617B040>]

## Атрибуты и теги

In [8]:
display(root[0].attrib) # атрибуты первого блюда меню

{'name': 'Кура'}

In [9]:
display(root[0][0]) # если атрибут - число, так его не достать

<Element 'price' at 0x0000022AB6111590>

In [10]:
display(root[0][0].text)

'40'

In [11]:
display(root.tag) # вывод тега

'menu'

## Циклы

In [12]:
for dish in root: # перебор потомков корня
    for param in dish: # перебор потомков потомков
        print(dish.attrib['name'], param.tag, param.text) # вывод для каждого name(название), 
        # tag(параметр), param.text(значение параметра)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



## Из XML в DataFrame

In [13]:
import xml.etree.ElementTree as ET
tree = ET.parse('data_16/menu.xml') # считываем файл, помещаем в переменную
root = tree.getroot() # корень

import pandas as pd
column_names = ['name', 'price', 'weight', 'class'] # список названий столбцов
df_list = [] # список под итоговую структуру

for dish in root: # перебор потомков
    row = [dish.attrib['name'], dish[0].text, dish[1].text, dish[2].text] # достаем
    # наименование блюда (атрибут name узла dish) и значения потомков этого узла — узлов price, weight, class
    df_list.append(row) # складываем эти переменные в список
    df = pd.DataFrame(df_list, columns=column_names)
display(df)

Unnamed: 0,name,price,weight,class
0,Кура,40,300,Мясо
1,Греча,20,200,Крупа


## Создаем XML-файл

In [14]:
import xml.etree.ElementTree as ET

new_root = ET.Element('menu') # создание корня
display(new_root)

<Element 'menu' at 0x0000022AB605C090>

In [19]:
dish1 = ET.SubElement(new_root, 'dish', name='Кура') # добавление узлов
dish2 = ET.SubElement(new_root, 'dish', name='Греча')
display(list(new_root))

[<Element 'dish' at 0x0000022AB617BF90>,
 <Element 'dish' at 0x0000022AB617B2C0>]

In [20]:
# добаление к каждому новому узлу по 3 потомка (атрибута со значениями)
price1 = ET.SubElement(dish1, "price").text = "40"
weight1 = ET.SubElement(dish1, "weight").text = "300"
class1 = ET.SubElement(dish1, "class").text = "Мясо"
display(list(dish1))

price2 = ET.SubElement(dish2, "price").text = "20"
weight2 = ET.SubElement(dish2, "weight").text = "200"
class2 = ET.SubElement(dish2, "class").text = "Крупа"
display(list(dish2))

[<Element 'price' at 0x0000022AB614B900>,
 <Element 'weight' at 0x0000022AB617BEA0>,
 <Element 'class' at 0x0000022AB6046EA0>]

[<Element 'price' at 0x0000022ABE499680>,
 <Element 'weight' at 0x0000022AB6046BD0>,
 <Element 'class' at 0x0000022ABEF9DC70>]

In [21]:
# для проверки правильности запустим цикл
for dish in new_root:
    for param in dish:
        print(dish.attrib['name'], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



## Сохранение XML

In [22]:
new_root_string = ET.tostring(new_root) # перевод в строку
with open("data_16/new_menu.xml", "wb") as f:
    f.write(new_root_string) # запись в файл

In [24]:
# имя закодировано, поэтому декодируем без перевода в строку
ET.ElementTree(new_root).write('data_16/new_menu_good.xml', encoding="utf-8")