<a href="https://colab.research.google.com/github/CodeHunterOfficial/Python_Basics/blob/main/Lecture_6_JSON%2C_XML_%D0%B8_Pickle_%D1%81%D0%B5%D1%80%D0%B8%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_%D0%B8_%D0%B4%D0%B5%D1%81%D0%B5%D1%80%D0%B8%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Что такое JSON?

JSON, что является сокращенной аббревиатурой JavaScript Object Notation, — это удобный формат для обмена данными. Он прост для чтения и записи людьми, а также для машинного анализа и генерации. Это делает его одним из самых популярных форматов данных. В частности, JSON стал настоящим веб-языком, который широко используется для передачи данных между серверами и веб-приложениями через API.  

Вот пример JSON:



```
{
    "kwarg1": "value_1",
    "kwarg2": "value_2",
    "kwarg3": "value_3",
    "additional": ["value_4", "value_5", "value_6", ]
}
```



## Сериализация и десериализация
В Python есть множество библиотек, чтобы работать с JSON, но мы рассмотрим встроенную библиотеку JSON Python. Она позволяет приводить любые структуры данных к JSON-объекту — вплоть до пользовательских классов. А из него получать совместимую для работы в Python сущность — объект языка.

Упаковка объектов в байтовую последовательность называется сериализацией. А распаковка байтов в объекты языка программирования, приведение последовательности назад к типам и структурам, — десериализацией.
Python-р

В байты данные необходимо переводить, чтобы отправлять их по сети или локально другому приложению, так как иной формат передать невозможно. Вот так преобразовывают данные из объектов Python в JSON и обратно:

In [3]:
# Импортируем библиотеку
import json

# Объявляем переменные
string = "Some test string"
integer = 211
array = [1, 2, 3, 4, 5]

# Создаем словарь
mydict = {"title": string, "code": integer, "data": array}

# Сериализуем его в JSON-структуру, как строку
x = json.dumps(mydict)
print(x)


# Проводим десериализацию JSON-объекта
y = json.loads(x)
print(y)

print(y["title"])

{"title": "Some test string", "code": 211, "data": [1, 2, 3, 4, 5]}
{'title': 'Some test string', 'code': 211, 'data': [1, 2, 3, 4, 5]}
Some test string


### Функции

Dumps позволяет создать JSON-строку из переданного в нее объекта. Loads — преобразовать строку назад в объекты языка.

Dump и load используют, чтобы сохранить результат в файл или воссоздать объект. Работают они схожим образом, но требуют передачи специального объекта для работы с файлом — filehandler.

In [7]:
import json

# Создаем filehandler с помощью контекстного менеджера
with open("data.json", "w") as fh:
    json.dump([1, 2, 3, 4, 5], fh) # записываем структуру в файл

# Открываем тот же файл, но уже на чтение
with open("data.json", "r") as fh:
    json_res=json.load(fh) # загружаем структуру из файла
    print(json_res)

[1, 2, 3, 4, 5]


## Примеры

**Пример 1:** Запись и чтение строки:

In [8]:
import json

# Запись строки в JSON-файл
with open("string_data.json", "w") as file:
    json.dump("Hello, world!", file)

# Чтение строки из JSON-файла
with open("string_data.json", "r") as file:
    data = json.load(file)
    print(data)  # Вывод: Hello, world!

Hello, world!


**Пример 2:** Запись и чтение кортежа:

In [9]:
import json

# Запись кортежа в JSON-файл
my_tuple = (1, 2, 3)
with open("tuple_data.json", "w") as file:
    json.dump(my_tuple, file)

# Чтение кортежа из JSON-файла
with open("tuple_data.json", "r") as file:
    data = json.load(file)
    print(data)  # Вывод: [1, 2, 3]

[1, 2, 3]


**Пример 3:** Запись и чтение словаря (dictionary):

In [10]:
import json

# Запись словаря в JSON-файл
my_dict = {"name": "Alice", "age": 30}
with open("dict_data.json", "w") as file:
    json.dump(my_dict, file)

# Чтение словаря из JSON-файла
with open("dict_data.json", "r") as file:
    data = json.load(file)
    print(data)  # Вывод: {'name': 'Alice', 'age': 30}

{'name': 'Alice', 'age': 30}


**Пример 4:** Запись и чтение списка (list):

In [11]:
import json

# Запись списка в JSON-файл
my_list = ["Alice","Zukha", "Arina", "Karina"]
with open("list_data.json", "w") as file:
    json.dump(my_list, file)

# Чтение списка из JSON-файла
with open("list_data.json", "r") as file:
    data = json.load(file)
    print(data)

['Alice', 'Zukha', 'Arina', 'Karina']


**Пример 5:** Запись и чтение числа (integer):

In [12]:
import json

# Запись числа в JSON-файл
my_number = 42
with open("number_data.json", "w") as file:
    json.dump(my_number, file)

# Чтение числа из JSON-файла
with open("number_data.json", "r") as file:
    data = json.load(file)
    print(data)  # Вывод: 42

42


## Как работать с пользовательскими объектами
Пользовательские классы не относятся к JSON-сериализуемым. Это значит, что просто применить к ним функции dumps, loads или dump и load не получится:

In [14]:
import json

class Test:
    def __init__(self, title, body):
        self.title = title
        self.body = body

t = Test("Some string", "Here is a bit more text, but still isn't enough")

# пытаемся сериализовать его в JSON, но...
json.dumps(t)
# получаем ошибку TypeError, что класс несериализуем

TypeError: ignored

Решить эту проблему можно тремя способами.

### Написать функцию
Чтобы сериализовать пользовательский объект в JSON-структуру данных, нужен аргумент default. Указывайте вызываемый объект, то есть функцию или статический метод.

Чтобы получить аргументы класса с их значениями, нужна встроенная функция __dict__, потому что любой класс — это словарь со ссылками на значения по ключу.

Чтобы сериализовать аргументы класса и их значения в JSON, напишите функцию:

In [17]:
import json

class Test:
    def __init__(self, title, body):
        self.title = title
        self.body = body

t = Test("Some string", "Here is a bit more text, but still isn't enough")

# используем анонимную функцию (лямбду), которая
# в качестве сериализуемых данных указывает полученный __dict__ объекта
json.dumps(t, default=lambda x: x.__dict__)

'{"title": "Some string", "body": "Here is a bit more text, but still isn\'t enough"}'

Но можно создать отдельную функцию и указать ее в качестве аргумента:

In [18]:
import json

class Test:
    def __init__(self, title, body):
        self.title = title
        self.body = body

t = Test("Some string", "Here is a bit more text, but still isn't enough")


def to_json(obj):
     if isinstance(obj, Test):
         result = obj.__dict__
         result["className"] = obj.__class__.__name__
         return result

json.dumps(t, default=to_json)

'{"title": "Some string", "body": "Here is a bit more text, but still isn\'t enough", "className": "Test"}'

 Мы добавили название класса в получаемую структуру. Такой подход позволяет безошибочно понять: сущность какого класса нужно десериализовать в объект.

### Создать расширение классов
Такого же результата добьетесь, если примените расширения специальных классов библиотеки:

In [20]:
import json

class Test:
    def __init__(self, title, body):
        self.title = title
        self.body = body

class TestEncoder(json.JSONEncoder):
     def default(self, o):
         return {"TITLE": o.title, "BODY": o.body, "CLASSNAME": o.__class__.__name__}


t = Test("Some string", "Here is a bit more text, but still isn't enough")

x = json.dumps(t, cls=TestEncoder)
print(x)

y = json.loads(x)
print(y)
print(y["TITLE"])

{"TITLE": "Some string", "BODY": "Here is a bit more text, but still isn't enough", "CLASSNAME": "Test"}
{'TITLE': 'Some string', 'BODY': "Here is a bit more text, but still isn't enough", 'CLASSNAME': 'Test'}
Some string


Этот код почти верен, но есть одна важная деталь, которую нужно учесть. При использовании пользовательского JSON-кодера (JSONEncoder), вам также нужно обеспечить правильную десериализацию при загрузке JSON обратно в объекты Python.

Вот исправленный код с добавленным методом from_json для десериализации:

In [21]:
import json

class Test:
    def __init__(self, title, body):
        self.title = title
        self.body = body

class TestEncoder(json.JSONEncoder):
    def default(self, o):
        if isinstance(o, Test):
            return {"TITLE": o.title, "BODY": o.body, "CLASSNAME": o.__class__.__name__}
        return super().default(o)

def from_json(json_obj):
    if "CLASSNAME" in json_obj and json_obj["CLASSNAME"] == "Test":
        return Test(json_obj["TITLE"], json_obj["BODY"])
    return json_obj

t = Test("Some string", "Here is a bit more text, but still isn't enough")

# Сериализация
x = json.dumps(t, cls=TestEncoder)
print(x)

# Десериализация
y = json.loads(x, object_hook=from_json)
print(y)
print(y.title)

{"TITLE": "Some string", "BODY": "Here is a bit more text, but still isn't enough", "CLASSNAME": "Test"}
<__main__.Test object at 0x7ae6420ec8b0>
Some string


Такой подход можно использовать и в том случае, если класс состоит из нескольких других.

## Применить паттерн «Адаптер»
Идея в том, чтобы написать класс, который приводит к JSON пользовательские объекты и восстанавливает их. Определите класс фигуры, формы и цвета:

In [22]:
class Figure:
    def __init__(self, title, form, color):
        self.title = title
        self.form = form
        self.color = color

    def __str__(self):
        return f"Figure: {self.title}, {repr(self.form)}, {repr(self.color)}"

class Form:
    def __init__(self, name):
        self.name = name

    def __repr__(self):
        return f"<Form: {self.name}>"

class Color:
    def __init__(self, name):
        self.name = name

    def __repr__(self):
        return f"<Color: {self.name}>"

Теперь напишим класс, который будет приводить объекты фигуры к JSON, а из JSON воссоздавать полученный объект:

In [23]:
class JSONDataAdapter:
    @staticmethod
    def to_json(o):
        if isinstance(o, Figure):
            return json.dumps({
              "title": o.title,
              "form": o.form.name,
              "color": o.color.name,
            })

    @staticmethod
    def from_json(o):
        o = json.loads(o)

        try:
            form = Form(o["form"])
            color = Color(o["color"])
            figure = Figure(o["title"], form, color)
            return figure
        except AttributeError:
            print("Неверная структура")

Протестируйем решение:

In [25]:
if __name__ == '__main__':
    # создадим несколько цветов
    black = Color("Black")
    yellow = Color("Yellow")
    green = Color("Green")

    # несколько форм
    rountt = Form("Rounded")
    square = Form("Squared")

    # объекты фигур
    figure_one = Figure("Black Square", form=square, color=black)
    figure_two = Figure("Yellow Circle", form=rountt, color=yellow)

    print("Отображение объектов")
    print(figure_one)
    print(figure_two)
    print()

    # преобразуем данные в JSON
    jone = JSONDataAdapter.to_json(figure_one)
    jtwo = JSONDataAdapter.to_json(figure_two)

    print("Отображение JSON")
    print(jone)
    print(jtwo)
    print()

    # восстановим объекты
    restored_one = JSONDataAdapter.from_json(jone)
    restored_two = JSONDataAdapter.from_json(jtwo)

    print("Отображение восстановленных объектов")
    print(restored_one)
    print(restored_two)


Отображение объектов
Figure: Black Square, <Form: Squared>, <Color: Black>
Figure: Yellow Circle, <Form: Rounded>, <Color: Yellow>

Отображение JSON
{"title": "Black Square", "form": "Squared", "color": "Black"}
{"title": "Yellow Circle", "form": "Rounded", "color": "Yellow"}

Отображение восстановленных объектов
Figure: Black Square, <Form: Squared>, <Color: Black>
Figure: Yellow Circle, <Form: Rounded>, <Color: Yellow>


## Примеры

**Пример 1.** Создайте класс Student с реализацией сериализации и десериализации.

In [27]:
import json

class Student:
    def __init__(self, name, age, major):
        self.name = name
        self.age = age
        self.major = major

    def to_json(self):
        return {
            "name": self.name,
            "age": self.age,
            "major": self.major
        }

    @staticmethod
    def from_json(data):
        return Student(data["name"], data["age"], data["major"])

# Создаем экземпляр класса Student
student1 = Student("Alice", 20, "Computer Science")

# Сериализация экземпляра класса Student
json_str = json.dumps(student1.to_json())
print(json_str)

# Десериализация JSON в объект Student
json_data = '{"name": "Bob", "age": 21, "major": "Engineering"}'
restored_student = Student.from_json(json.loads(json_data))
print(restored_student.name, restored_student.age, restored_student.major)


{"name": "Alice", "age": 20, "major": "Computer Science"}
Bob 21 Engineering


**Пример 2.** Если класс Student унаследуется от класса Person, то вы можете включить это в определение класса Student следующим образом:

In [32]:
import json
from typing import Dict, Any

class Person:
    def __init__(self, name: str, age: int) -> None:
        self.name = name
        self.age = age

    def to_json(self) -> Dict[str, Any]:
        return {"name": self.name, "age": self.age}

class Student(Person):
    def __init__(self, name: str, age: int, major: str) -> None:
        super().__init__(name, age)
        self.major = major

    def to_json(self) -> Dict[str, Any]:
        data = super().to_json()
        data["major"] = self.major
        return data

    @staticmethod
    def from_json(data: Dict[str, Any]) -> 'Student':
        return Student(data["name"], data["age"], data["major"])

# Создаем экземпляр класса Student
student1 = Student("Alice", 20, "Computer Science")

# Сериализация экземпляра класса Student
json_str = json.dumps(student1.to_json())
print(json_str)

# Десериализация JSON в объект Student
json_data = '{"name": "Bob", "age": 21, "major": "Engineering"}'
restored_student = Student.from_json(json.loads(json_data))
print(restored_student.name, restored_student.age, restored_student.major)

{"name": "Alice", "age": 20, "major": "Computer Science"}
Bob 21 Engineering


**Пример 3.**  У вас есть JSON-объект, который содержит информацию о командах, игроках и их результаты. Вам нужно извлечь значение "score" для первого игрока первой команды из этого JSON-объекта с использованием сериализации и десериализации. JSON-объект должен быть сохранен в файле, и вы должны использовать модуль json в Python для записи и чтения данных из файла.

Задача состоит из следующих шагов:

1. Создание JSON-объекта с информацией о командах, игроках и их результаты.
2. Сериализация (запись) JSON-объекта в файл с использованием модуля json.
3. Чтение и десериализация JSON-объекта из файла с использованием модуля json.
4. Извлечение значения "score" для первого игрока первой команды из десериализованного JSON-объекта.

In [35]:
import json

# Создаем и записываем JSON в файл
data = {
    "data": {
        "teamStanding": [
            {
                "id": "team_1",
                "score": 103,
                "players": [
                    {
                        "user": {
                            "name": "player_1",
                            "id": "player_1"
                        },
                        "score": 35
                    }
                ]
            }
        ]
    }
}

# Записываем JSON в файл
with open('data.json', 'w') as file:
    json.dump(data, file)

# Чтение и десериализация JSON из файла
with open('data.json', 'r') as file:
    data_from_file = json.load(file)

# Извлечение значения score для первого игрока первой команды
player_score = data_from_file["data"]["teamStanding"][0]["players"][0]["score"]
print(player_score)  # Выведет: 35

35


# Создание, Редактирование и Парсинг XML файла

Python содержит встроенные XML инструменты для парсинга, к которым вы можете получить доступ при помощи модуля xml. В данной статье мы рассмотрим два подмодуля xml:

* minidom
* ElementTree
Мы начнем с minidom по той причине, что де-факто он используется в качестве метода парсинга XML. После этого, мы взглянем на то, как использовать ElementTree для этих целей.

## Работаем с minidom
Для начала, нам нужен XML для парсинга. Давайте взглянем на следующий небольшой пример XML:



```
<?xml version="1.0" ?>
<zAppointments reminder="15">
    <appointment>
        <begin>1181251680</begin>
        <uid>040000008200E000</uid>
        <alarmTime>1181572063</alarmTime>
        <state></state>
        <location></location>
        <duration>1800</duration>
        <subject>Bring pizza home</subject>
    </appointment>
</zAppointments>
```



Это типичный XML и читается он вполне интуитивно. В будущем вы, скорее всего, столкнетесь с более сложным примером XML, так что в нашем случае мы работаем с очень удобным материалом. В любом случае, сохраните описанный выше код XML под следующим названием: appt.xml

Давайте уделим больше времени на то, чтобы поближе познакомиться с парсингом данного файла в Python при помощи модуля minidom. Это достаточно длинный кусок кода, так что подготовьтесь:

In [40]:
class ApptParser(object):
    # Конструктор класса
    def __init__(self, url, flag='url'):
        self.appointments = []  # Список для хранения информации о встречах
        self.flag = flag  # Флаг для определения источника данных (URL или файл)
        self.rem_value = 0  # Переменная, которая не используется в предоставленном коде
        xml_data = self.get_xml(url)  # Получение XML-данных из URL или файла
        self.handle_xml(xml_data)  # Обработка XML-данных

    # Метод для получения XML-данных
    def get_xml(self, url):
        try:
            f = urllib.request.urlopen(url)  # Открытие URL и получение данных
        except:
            f = url  # Если не удалось открыть URL, предполагаем, что это путь к файлу

        doc = xml.dom.minidom.parse(f)  # Парсинг XML-данных
        node = doc.documentElement  # Получение корневого элемента (документа)
        if node.nodeType == xml.dom.Node.ELEMENT_NODE:
            print('Element: %s' % node.nodeName)  # Вывод информации о корневом элементе
            for (name, value) in node.attributes.items():
                print('Attr -- name: %s value: %s' % (name, value))  # Вывод информации об атрибутах элемента
        return node  # Возвращает корневой элемент

    # Метод для обработки XML-данных
    def handle_xml(self, xml_data):
        appointments = xml_data.getElementsByTagName("appointment")  # Получение всех элементов "appointment"
        self.handle_appointments(appointments)  # Обработка каждого элемента "appointment"

    # Метод для получения текстового содержимого элемента
    def get_element(self, element):
        return self.get_text(element.childNodes)  # Вызов метода get_text для получения текстового содержимого

    # Метод для обработки всех элементов "appointment"
    def handle_appointments(self, appointments):
        for appt in appointments:
            self.handle_appointment(appt)  # Обработка каждого элемента "appointment"

    # Метод для обработки одного элемента "appointment"
    def handle_appointment(self, appt):
        begin = self.get_element(appt.getElementsByTagName("begin")[0])  # Получение текстового содержимого элемента "begin"
        duration = self.get_element(appt.getElementsByTagName("duration")[0])  # Получение текстового содержимого элемента "duration"
        subject = self.get_element(appt.getElementsByTagName("subject")[0])  # Получение текстового содержимого элемента "subject"
        location = self.get_element(appt.getElementsByTagName("location")[0])  # Получение текстового содержимого элемента "location"
        uid = self.get_element(appt.getElementsByTagName("uid")[0])  # Получение текстового содержимого элемента "uid"

        appointment_info = [begin, duration, subject, location, uid]  # Формирование информации о встрече в виде списка

        if self.flag == 'file':  # Если источник данных - файл
            try:
                state = self.get_element(appt.getElementsByTagName("state")[0])  # Получение текстового содержимого элемента "state"
                appointment_info.append(state)  # Добавление информации о состоянии встречи в список
                alarm = self.get_element(appt.getElementsByTagName("alarmTime")[0])  # Получение текстового содержимого элемента "alarmTime"
                appointment_info.append(alarm)  # Добавление информации о времени напоминания в список
            except Exception as e:
                print(e)  # Обработка и вывод ошибки, если таковая возникла

        self.appointments.append(appointment_info)  # Добавление информации о встрече в список всех встреч

    # Метод для получения текстового содержимого элемента
    def get_text(self, nodelist):
        rc = ""
        for node in nodelist:
            if node.nodeType == node.TEXT_NODE:
                rc = rc + node.data  # Добавление текстового содержимого элемента к результату
        return rc  # Возвращает текстовое содержимое элемента

Этот код определяет класс ApptParser, который выполняет разбор и обработку XML-данных из URL или файла. Класс содержит методы для получения XML-данных, обработки XML-данных, извлечения текстового содержимого элементов и формирования информации о встречах.

При создании экземпляра класса ApptParser с указанием URL или пути к файлу, XML-данные извлекаются с использованием метода get_xml, а затем обрабатываются с использованием метода handle_xml. Информация о встречах сохраняется в списке self.appointments.

Методы класса ApptParser используются для извлечения информации о встречах из XML-документа и обработки этой информации в соответствии с заданным флагом (URL или файл).

Обратите внимание на то, что метод handleAppt вызывает метод getElement, который, в свою очередь, вызывает метод getText. Технически, вы можете пропустить вызов getElement и вызвать getText напрямую. С другой стороны, вам может понадобиться добавить дополнительную обработку в getElement для конвертации текста или чего-то другого перед возвратом. Например, вам может понадобиться конвертировать целые числа, числа с запятыми или объекты decimal.Decimal.

Чтобы использовать класс ApptParser для обработки данного XML-документа, вам нужно создать экземпляр класса и передать URL или файл с XML-данными в конструктор. Вот пример использования класса для данного XML-документа:

In [41]:
# Создание экземпляра класса ApptParser и обработка XML-документа
url = "/content/appointments.xml"  # Замените на реальный URL или путь к файлу
parser = ApptParser(url, flag='url')

# Вывод списка встреч
for appt in parser.appointments:
    print("Begin:", appt[0])
    print("Duration:", appt[1])
    print("Subject:", appt[2])
    print("Location:", appt[3])
    print("UID:", appt[4])
    if len(appt) > 5:
        print("State:", appt[5])
        print("Alarm Time:", appt[6])


Element: zAppointments
Attr -- name: reminder value: 15
Begin: 1181251680
Duration: 1800
Subject: Bring pizza home
Location: 
UID: 040000008200E000


Давайте попробуем еще один пример с minidom перед тем, как двигаться дальше. Мы используем пример XML с сайта MSDN Майкрософт: http://msdn.microsoft.com/en-us/library/ms762271%28VS.85%29.aspx. Сохраните следующий код под названием example.xml



```
<?xml version="1.0"?>
<catalog>
   <book id="bk103">
      <author>Corets, Eva</author>
      <title>Maeve Ascendant</title>
      <genre>Fantasy</genre>
      <price>5.95</price>
      <publish_date>2000-11-17</publish_date>
      <description>After the collapse of a nanotechnology
      society in England, the young survivors lay the
      foundation for a new society.</description>
   </book>
   <book id="bk104">
      <author>Corets, Eva</author>
      <title>Oberon's Legacy</title>
      <genre>Fantasy</genre>
      <price>5.95</price>
      <publish_date>2001-03-10</publish_date>
      <description>In post-apocalypse England, the mysterious
      agent known only as Oberon helps to create a new life
      for the inhabitants of London. Sequel to Maeve
      Ascendant.</description>
   </book>
   <book id="bk105">
      <author>Corets, Eva</author>
      <title>The Sundered Grail</title>
      <genre>Fantasy</genre>
      <price>5.95</price>
      <publish_date>2001-09-10</publish_date>
      <description>The two daughters of Maeve, half-sisters,
      battle one another for control of England. Sequel to
      Oberon's Legacy.</description>
   </book>
   <book id="bk106">
      <author>Randall, Cynthia</author>
      <title>Lover Birds</title>
      <genre>Romance</genre>
      <price>4.95</price>
      <publish_date>2000-09-02</publish_date>
      <description>When Carla meets Paul at an ornithology
      conference, tempers fly as feathers get ruffled.</description>
   </book>
   <book id="bk107">
      <author>Thurman, Paula</author>
      <title>Splish Splash</title>
      <genre>Romance</genre>
      <price>4.95</price>
      <publish_date>2000-11-02</publish_date>
      <description>A deep sea diver finds true love twenty
      thousand leagues beneath the sea.</description>
   </book>
   <book id="bk108">
      <author>Knorr, Stefan</author>
      <title>Creepy Crawlies</title>
      <genre>Horror</genre>
      <price>4.95</price>
      <publish_date>2000-12-06</publish_date>
      <description>An anthology of horror stories about roaches,
      centipedes, scorpions  and other insects.</description>
   </book>
   <book id="bk109">
      <author>Kress, Peter</author>
      <title>Paradox Lost</title>
      <genre>Science Fiction</genre>
      <price>6.95</price>
      <publish_date>2000-11-02</publish_date>
      <description>After an inadvertant trip through a Heisenberg
      Uncertainty Device, James Salway discovers the problems
      of being quantum.</description>
   </book>
   <book id="bk110">
      <author>O'Brien, Tim</author>
      <title>Microsoft .NET: The Programming Bible</title>
      <genre>Computer</genre>
      <price>36.95</price>
      <publish_date>2000-12-09</publish_date>
      <description>Microsoft's .NET initiative is explored in
      detail in this deep programmer's reference.</description>
   </book>
</catalog>
```



В этом примере мы выполнили парсинг XML, извлекли заголовки книги и вывели их в stdout. Давайте взглянем на код:



In [43]:
# -*- coding: utf-8 -*-
import xml.dom.minidom as minidom

def get_titles(xml_file):
    """
    Выводим все заголовки из xml.
    """
    doc = minidom.parse(xml_file)
    books = doc.getElementsByTagName("book")

    titles = []
    for book in books:
        title_obj = book.getElementsByTagName("title")[0]
        titles.append(title_obj)

    for title in titles:
        nodes = title.childNodes
        for node in nodes:
            if node.nodeType == node.TEXT_NODE:
                print(node.data)

if __name__ == "__main__":
    document = '/content/books.xml'
    get_titles(document)

XML Developer's Guide
Midnight Rain
Maeve Ascendant
Oberon's Legacy
The Sundered Grail
Lover Birds
Splish Splash
Creepy Crawlies
Paradox Lost
Microsoft .NET: The Programming Bible
MSXML3: A Comprehensive Guide
Visual Studio 7: A Comprehensive Guide


Данный код представляет собой короткую функцию, которая принимает один аргумент - файл XML. Мы импортируем модуль minidom и даем ему такое же название, чтобы упростить отсылки к нему. Затем мы парсим XML. Первые две строки функции очень похожи на те, что были в предыдущем примере. Мы используем метод getElementsByTagName, чтобы собрать нужные нам части XML, после чего выполняем итерацию над результатом и извлекаем заголовки книги. Таким образом, мы извлекаем объекты заголовков, поэтому нам нужно выполнить итерацию этих данных, а также извлечь обычный текст. Поэтому мы используем вложенный цикл.

Давайте уделаем немного времени на изучение унаследованного модуля ElementTree под названием "xml".

## Парсинг с ElementTree

В данном разделе, мы научимся создавать XML файлы, редактировать и выполнять парсинг при помощи ElementTree. Для сравнения, мы используем тот же XML, который мы использовали в предыдущем разделе для того, чтобы продемонстрировать разницу в использовании minidom и ElementTree. Вот наш код:



```
<?xml version="1.0" ?>
<zAppointments reminder="15">
    <appointment>
        <begin>1181251680</begin>
        <uid>040000008200E000</uid>
        <alarmTime>1181572063</alarmTime>
        <state></state>
        <location></location>
        <duration>1800</duration>
        <subject>Bring pizza home</subject>
    </appointment>
</zAppointments>
```



Давайте начнем с изучения того, как создавать такую XML структуру при помощи Python

### Как создавать XML при помощи ElementTree
Создание XML при помощи ElementTree – это очень просто. В данном разделе, мы попытаемся создать написанный выше XML в Python. Давайте посмотрим на код:

In [46]:
# -*- coding: utf-8 -*-
import xml.etree.ElementTree as ET

def createXML(filename):
    """
    Создает XML-файл с деталями о встрече.

    Аргументы:
    filename (str): Название создаваемого XML-файла.
    """
    # Создание корневого элемента для структуры XML
    root = ET.Element("zAppointments")

    # Создание элемента 'appointment' и добавление его к корню
    appt = ET.Element("appointment")
    root.append(appt)

    # Создание подэлементов для деталей о встрече
    begin = ET.SubElement(appt, "begin")
    begin.text = "1181251680"  # Установка текстового содержимого для элемента 'begin'

    uid = ET.SubElement(appt, "uid")
    uid.text = "040000008200E000"  # Установка текстового содержимого для элемента 'uid'

    alarmTime = ET.SubElement(appt, "alarmTime")
    alarmTime.text = "1181572063"  # Установка текстового содержимого для элемента 'alarmTime'

    state = ET.SubElement(appt, "state")  # Создание пустого элемента 'state'

    location = ET.SubElement(appt, "location")  # Создание пустого элемента 'location'

    duration = ET.SubElement(appt, "duration")
    duration.text = "1800"  # Установка текстового содержимого для элемента 'duration'

    subject = ET.SubElement(appt, "subject")  # Создание пустого элемента 'subject'

    # Создание объекта ElementTree с корневым элементом
    tree = ET.ElementTree(root)

    # Запись XML-структуры в файл
    with open(filename, "wb") as fh:  # Открытие файла в бинарном режиме для записи
        tree.write(fh, encoding="utf-8", xml_declaration=True)

if __name__ == "__main__":
    createXML("appt.xml")  # Вызов функции createXML для создания XML-файла

Если вы запустите этот код, вы должны получить что-то вроде нижеизложенного (возможно в одной строке):



```
<?xml version="1.0" encoding="UTF-8"?>
<zAppointments>
   <appointment>
      <begin>1181251680</begin>
      <uid>040000008200E000</uid>
      <alarmTime>1181572063</alarmTime>
      <state />
      <location />
      <duration>1800</duration>
      <subject />
   </appointment>
</zAppointments>
```



Это очень похоже на исходный код и это, безусловно, действенный XML. Само собой, наши коды отличаются, но весьма похожи. Давайте уделим время для разбора кода и убедиться в том, что мы его хорошо понимаем. Для начала мы создаем корневой элемент при помощи функции Element модуля ElementTree. Далее, мы создаем элемент назначения и добавляем его к root. Далее, мы создаем SubElements, выполнив парсинг назначения объекта Element (appt) в SubElement наряду с именем, например, begin. Далее, для каждого SubElement, мы назначаем их текстовые свойства, для передачи значения. В конце скрипта мы создаем ElementTree и используем его для написания XML в файле. Теперь мы готовы к тому, чтобы научиться редактировать файл!

### Как редактировать XML при помощи ElementTree
Редактирование XML при помощи ElementTree это также очень просто. Чтобы все было немного интереснее, мы добавим другой блок назначения в XML:



```
<?xml version="1.0" ?>
<zAppointments reminder="15">
    <appointment>
        <begin>1181251680</begin>
        <uid>040000008200E000</uid>
        <alarmTime>1181572063</alarmTime>
        <state></state>
        <location></location>
        <duration>1800</duration>
        <subject>Bring pizza home</subject>
    </appointment>
    <appointment>
        <begin>1181253977</begin>
        <uid>sdlkjlkadhdakhdfd</uid>
        <alarmTime>1181588888</alarmTime>
        <state>TX</state>
        <location>Dallas</location>
        <duration>1800</duration>
        <subject>Bring pizza home</subject>
    </appointment>
</zAppointments>
```



Теперь мы напишем код для того, чтобы изменить каждое значение тега begin от секунд, начиная с эпохи на что-нибудь более читабельное. Мы используем модуль time python, чтобы облегчить себе жизнь:



In [52]:
# -*- coding: utf-8 -*-
import time
import xml.etree.cElementTree as ET

def editXML(filename):
    """
    Функция для редактирования XML файла.

    Аргументы:
    filename (строка): Имя файла, который нужно отредактировать.
    """
    # Загружаем XML файл
    tree = ET.ElementTree(file=filename)
    root = tree.getroot()

    # Изменяем время начала встречи на текущее время
    for begin_time in root.iter("begin"):
        begin_time.text = time.ctime(int(begin_time.text))

    # Сохраняем изменения в новый XML файл
    with open("updated.xml", "wb") as f:
        tree.write(f, encoding="utf-8", xml_declaration=True)

if __name__ == "__main__":
    editXML("original_appt.xml")

Здесь мы создаем объект ElementTree с именем "tree" и извлекаем из него корневой элемент. Затем мы используем метод iter(), чтобы найти все теги с меткой "begin". Следует отметить, что метод iter() был добавлен в Python 2.7. В цикле for мы изменяем текстовое содержимое каждого элемента, чтобы преобразовать его в более читаемый формат времени с помощью метода time.ctime(). Также обратите внимание, что нам необходимо преобразовать строку в целое число перед передачей его в ctime. Результат будет примерно следующим:



```
<?xml version='1.0' encoding='utf-8'?>
<zAppointments reminder="15">
    <appointment>
        <begin>Thu Jun  7 21:28:00 2007</begin>
        <uid>040000008200E000</uid>
        <alarmTime>1181572063</alarmTime>
        <state />
        <location />
        <duration>1800</duration>
        <subject>Bring pizza home</subject>
    </appointment>
    <appointment>
        <begin>Thu Jun  7 22:06:17 2007</begin>
        <uid>sdlkjlkadhdakhdfd</uid>
        <alarmTime>1181588888</alarmTime>
        <state>TX</state>
        <location>Dallas</location>
        <duration>1800</duration>
        <subject>Bring pizza home</subject>
    </appointment>
</zAppointments>
```



Вы также можете использовать методы ElementTree, такие как find() или findall() для поиска конкретных тегов в вашем XML. Метод find() найдет только первый пример, в то время как findall() найдет каждый тег с указанной отметкой. Это очень полезно при решении задач, возникших при редактировании или при парсинге, что является темой нашего следующего раздела!

### Парсинг и ElementTree

Сейчас мы научимся тому, как выполнять базовый парсинг при помощи ElementTree. Сначала, мы пройдемся по коду в целом, затем разберем его кирпичик за кирпичиком, чтобы понять, как это работает. Обратите внимание на то, что этот код основан на оригинальном примере, и должен работать также и на втором примере.

In [54]:
# -*- coding: utf-8 -*-
import xml.etree.cElementTree as ET

def parseXML(xml_file):
    """
    Парсинг XML с использованием ElementTree.

    Аргументы:
    xml_file (строка): Имя XML файла для парсинга.
    """
    # Создаем объект ElementTree из XML файла
    tree = ET.ElementTree(file=xml_file)

    # Получаем корневой элемент и выводим его тег и атрибуты
    root = tree.getroot()
    print("tag=%s, attrib=%s" % (root.tag, root.attrib))

    # Итерируемся по дочерним элементам корневого элемента
    for child in root:
        print(child.tag, child.attrib)
        if child.tag == "appointment":
            # Если тег равен "appointment", итерируемся по его дочерним элементам
            for step_child in child:
                print(step_child.tag)

    # Парсинг всей XML структуры с использованием итератора дерева
    print("-" * 40)
    print("Итерация с использованием итератора дерева")
    print("-" * 40)
    iter_ = tree.iter()

    for elem in iter_:
        print(elem.tag)

    # Получаем данные, используя метод list(), чтобы получить список дочерних элементов
    print("-" * 40)
    print("Обработка дочерних элементов с помощью метода list()")
    print("-" * 40)
    appointments = list(root)

    for appointment in appointments:
        for appt_child in appointment:
            print("%s=%s" % (appt_child.tag, appt_child.text))

if __name__ == "__main__":
    parseXML("appt.xml")

tag=zAppointments, attrib={}
appointment {}
begin
uid
alarmTime
state
location
duration
subject
----------------------------------------
Итерация с использованием итератора дерева
----------------------------------------
zAppointments
appointment
begin
uid
alarmTime
state
location
duration
subject
----------------------------------------
Обработка дочерних элементов с помощью метода list()
----------------------------------------
begin=1181251680
uid=040000008200E000
alarmTime=1181572063
state=None
location=None
duration=1800
subject=None


Вы уже должны понять, как это работает, но в этом примере, так же как и в предыдущем, мы импортируем `cElementTree` вместо обычного `ElementTree`. Разница между этими двумя заключается в том, что `cElementTree` основан на языке C, а не на Python, поэтому он работает намного быстрее. В любом случае, мы снова создаем объект `ElementTree` и извлекаем из него корневой элемент. Обратите внимание, что мы выводим корневой элемент, его тег и атрибуты.

Далее мы покажем несколько способов итерации по тегам. Первый цикл просто итерирует XML, дочерний элемент за дочерним. Таким образом, выводятся только дочерние элементы (назначение) с наивысшим уровнем, поэтому мы добавили оператор if, чтобы проверить дочерний элемент и выполнить его итерацию.

Затем мы берем итератор из объекта `tree` и также итерируем его. В результате мы получаем ту же информацию, но без дополнительных шагов, как в первом примере. Третий метод использует метод `list()`, чтобы получить список дочерних элементов. Затем мы используем вложенный цикл, чтобы получить все теги дочерних элементов и назначений.

В последнем примере используется метод `iter()` для перебора всех тегов, соответствующих строке "begin".

Как было отмечено в последнем разделе, вы также можете использовать методы `find()` или `findall()`, чтобы облегчить поиск конкретных тегов или наборов тегов соответственно. Также обратите внимание на то, что каждый объект Element имеет свой тег и текстовое значение, что можно использовать для получения точной информации.