In [1]:
#модуль позволит нам ходить по дереву XML и смотреть, что находится в 
#каждом его узле, начиная с корня и заканчивая листьями. 
import xml.etree.ElementTree as ET

In [2]:
tree = ET.parse('menu.xml')
root = tree.getroot()

Здесь в переменной tree мы читаем всё дерево из XML файла. После этого в переменную root записываем корневой узел дерева tree. 

In [3]:
print(root)

<Element 'menu' at 0x000001AC960FFF98>


посмотреть список детей (потомков) этого узла

In [6]:
root.getchildren()

[<Element 'dish' at 0x000001AC96226C28>,
 <Element 'dish' at 0x000001AC96264F48>]

Ранее мы видели, что у узлов могут быть параметры (атрибуты). Например, у узлов <dish> мы видели атрибут name. Мы можем обратиться к атрибутам объекта с помощью команды attrib. Здесь может возникнуть небольшая путаница, потому что мы говорим о двух разных определениях слова "атрибут" в нашем контексте:

1. Атрибут у тега (как name у <dish>).
2. Атрибут объекта (переменная класса). 

В данном случае мы берем объект типа ElementTree.Element, у которого есть атрибут attrib. В этом атрибуте объекта хранится словарь с атрибутами данного узла.

Это значит, что если мы обратимся к attrib, то нам вернется словарь, в котором ключами будут названия атрибутов, а значениями — соответствующие значения. Чтобы стало яснее, давайте посмотрим на атрибуты у <dish>:



In [9]:
root[0].attrib

{'name': 'Кура'}

In [11]:
root[0][0]

<Element 'price' at 0x000001AC96264EF8>

In [13]:
root[0][0].tag

'price'

In [14]:
root[0][0].text

'40'

In [17]:
root[0][1].tag

'weight'

Например, если мы хотим напечатать все значения в листьях, то есть название блюда, название параметра этого блюда и значение параметра, то поможет следующий код:

In [19]:
for elem in root:
    for subelem in elem:
        print(elem.attrib['name'], subelem.tag, subelem.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



In [21]:
len(root[0])

3

#### Превращение XML в pd.DataFrame

In [23]:
import pandas as pd
df_index = ['name', 'price', 'weight', 'class']
df = pd.DataFrame(columns=df_index)

In [24]:
for elem in root:
    elements = [elem.get('name'), elem[0].text, elem[1].text, elem[2].text]
    df = df.append(pd.Series(elements, index=df_index), ignore_index=True)

In [25]:
df

Unnamed: 0,name,price,weight,class
0,Кура,40,300,Мясо
1,Греча,20,200,Крупа


Что здесь произошло?

1. Мы задали названия столбцов в новой таблице и создали пустой DataFrame.
2. Затем мы прошлись по всем детям из корня нашего дерева и составили строки (pd.Series), состоящие из содержимого этих элементов: взяли атрибут name у узла и значения всех его детей, которые содержат нужные нам данные. Можно заметить, что для получения названия продукта мы использовали метод get(). Это можно делать, так как атрибуты узла хранятся в виде словаря и get() — один из способов получить значения словаря, зная соответствующие ключи. 
3. После этого мы добавили новую строку в DataFrame с помощью метода append().

Таким образом мы можем трансформировать XML в DataFrame. К сожалению, стандартных средств для этого превращения не существует, но если XML файл содержит чёткую структуру, сделать это средствами Python очень просто, как вы увидели выше.

#### Превращение XML в JSON

In [27]:
import xmljson

In [28]:
xmljson.parker.data(root)

OrderedDict([('dish',
              [OrderedDict([('price', 40),
                            ('weight', 300),
                            ('class', 'Мясо')]),
               OrderedDict([('price', 20),
                            ('weight', 200),
                            ('class', 'Крупа')])])])

Если вы захотите использовать другое соглашение, просто замените в коде название одного соглашения на название другого. Например:

In [29]:
xmljson.gdata.data(root)

OrderedDict([('menu',
              OrderedDict([('dish',
                            [OrderedDict([('name', 'Кура'),
                                          ('price', OrderedDict([('$t', 40)])),
                                          ('weight',
                                           OrderedDict([('$t', 300)])),
                                          ('class',
                                           OrderedDict([('$t', 'Мясо')]))]),
                             OrderedDict([('name', 'Греча'),
                                          ('price', OrderedDict([('$t', 20)])),
                                          ('weight',
                                           OrderedDict([('$t', 200)])),
                                          ('class',
                                           OrderedDict([('$t',
                                                         'Крупа')]))])])]))])

Как превратить JSON обратно в XML? Использовать метод etree() у класса-соглашения:

In [35]:
parker_json = xmljson.badgerfish.data(root)
back_to_xml = xmljson.badgerfish.etree(parker_json)

#### Запись в XML-файл

In [38]:
new_root = ET.Element('menu')

In [39]:
dish_1 = ET.SubElement(new_root, 'dish')
dish_2 = ET.SubElement(new_root, 'dish')
new_root.getchildren()

[<Element 'dish' at 0x000001ACA6AF4E58>,
 <Element 'dish' at 0x000001ACA6AF4EA8>]

Атрибуты можно добавить с помощью метода set(), передав первым параметром название атрибута, а вторым — его значение:

In [40]:
dish_1.set('name', 'Chiken')

In [41]:
dish_1.text = 'Protein'

Теперь запишем получившийся XML-файл на диск, используя стандартные средства Python. Сначала превратим объект типа ElementTree.Element в строку (str) c помощью метода tostring(), передав наше новое дерево как аргумент:

In [42]:
new_root_string = ET.tostring(new_root)

In [43]:
with open('new_menu.xml', 'wb') as f:
    f.write(new_root_string)

In [44]:
#OR

In [45]:
ET.ElementTree(new_root).write('new_menu_good.xml', encoding='utf-8')