<img src="../Img/ФинУ.jpg">

# Алгоритмы и структуры данных в языке Python

# Лекция 8. Модули для работы с файлами

Лектор: Смирнов Михаил Викторович, доцент кафедры информационных технологий Финансового университета при Правительстве Российской Федерации

## Оглавление <a class="anchor" id="разделы"></a>
-
* [К оглавлению](#разделы)
-

* [Модуль Pickle](#pickle)
* [Модуль Shelve](#shelve)
* [Модуль JSON](#json)
* [Модуль XML](#xml)
-
* [К оглавлению](#разделы)

<a class="anchor" id="pickle"></a>

# Модуль *Pickle*
-
* [к оглавлению](#разделы)

Модуль *Pickle* обеспечивает сериализацию объектов Python.

Модуль *Pickle* предоставляет следующие функции:
* `dump(obj, file[, protocol=None][, fix_imports=True])` – производит сериализацию объекта *obj* и записывает данные в указанный файл. В параметре <Файл> указывается файловый объект, открытый на запись в бинарном режиме. 
* `load(file[, fix_imports=True][, encoding="ASCII"][, errors="strict"])` – читает данные из файла и преобразует их в объект. В параметре <Файл> указывается файловый объект, открытый на чтение в бинарном режиме.

<p style="color:gray">Необязательные аргументы fix_imports, encoding и errors используются для управления поддержкой совместимости для потока pickle, сгенерированного Python 2. Если fix_imports имеет значение true, pickle попытается сопоставить старые имена Python 2 с новыми именами, используемыми в Python 3. Кодировка и ошибки сообщают pickle, как декодировать 8-битные строковые экземпляры, сохраненные Python 2.</p>

In [7]:
import pickle

obj_1 = ['Строка', (1, 2, 3)] # Объект для сохранения в файле

with open('file_09.pkl', 'wb') as f:
    pickle.dump(obj_1, f)

Перезагрузим ядро Jupyter Notebook.

In [2]:
import pickle

with open('file_09.pkl', 'rb') as f:
    data = pickle.load(f)
data

['Строка', (1, 2, 3)]

В один файл можно сохранить сразу несколько объектов Python, последовательно вызывая функцию *dump()*. Создадим объекты разных типов и поместим их в *Pickle*-файл.

In [3]:
obj_1 = ['Строка', (1, 2, 3)]
obj_2 = (6, 7, 8, 9, 10)
obj_3 = {'fruits': 30, 'nuts': 50}
obj_4 = 77.9

with open('file_10.pkl', 'wb') as f:
    pickle.dump(obj_1, f)
    pickle.dump(obj_2, f)
    pickle.dump(obj_3, f)
    pickle.dump(obj_4, f)

Перезагрузим ядро Jupyter Notebook.

In [2]:
import pickle

with open('file_10.pkl', 'rb') as f:
    data_1 = pickle.load(f)
    data_2 = pickle.load(f)
    data_3 = pickle.load(f)
print(data_1)
print(data_2)
print(data_3)

['Строка', (1, 2, 3)]
(6, 7, 8, 9, 10)
{'fruits': 30, 'nuts': 50}


Получим все объекты в цикле.

In [3]:
with open('file_10.pkl', 'rb') as f:
    
    while True:
        try:
            print(pickle.load(f))
        except EOFError:
            break

['Строка', (1, 2, 3)]
(6, 7, 8, 9, 10)
{'fruits': 30, 'nuts': 50}
77.9


Таким образом, одним из подходов практического использования *Pickle* является сериализация объектов *Python* с целью передачи на другой компьютер с последующей десериализацией.

Вместо сохранения в файл, *Pickle* позволяет также преобразовать объект в последовательность байтов и восстановить объект из этой последовательности. Для этого предназначены функции *dumps* и *lоаds*: 

- `dumps(<Объект> [, <Протокол>] [, fix_imports=True])` – производит сериализацию объекта и возвращает последовательность байтов специального формата.

- `lоаds(<Последовательность байтов>[, fix_imports=True] [, errors="strict"])` – преобразует последовательность байтов 
обратно в объект (десериализация).

In [6]:
obj_1 = ['Строка', (1, 2, 3)]
bs = pickle.dumps(obj_1)
bs

b'\x80\x04\x95\x1c\x00\x00\x00\x00\x00\x00\x00]\x94(\x8c\x0c\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0\x94K\x01K\x02K\x03\x87\x94e.'

In [7]:
pickle.loads(bs)

['Строка', (1, 2, 3)]

<a class="anchor" id="shelve"></a>

# Модуль *Shelve*
-
* [к оглавлению](#разделы)

### Введение

Модуль *Shelve Python* – это инструмент хранения данных и управления данными в файлах. Модуль *Shelve* можно использоватьдля хранения данных в стиле реляционной базы данных.

С помощью *Shelve* создается файловый объект, который действует как объект типа словаря и хранится  в постоянной памяти компьютера. Таким образом мы можем создавать *Shelve*-хранилища данных и управлять ими.

В модуль *Shelve* входят следующие классы.

<table><tbody><tr><th style="text-align:left">№</th><th style="text-align:left">Класс</th><th style="text-align:left">Описание</th></tr><tr><td>1</td><td style="text-align:left">Класс Shelf</td><td style="text-align:left">Класс Shelf является базовым классом модуля Shelve.</td></tr><tr><td>2</td><td style="text-align:left">Класс DBFileNameShelf</td><td style="text-align:left">Это подкласс базового класса Shelf, он принимает имя файлов Shelf в качестве параметра своего конструктора</td></tr><tr><td>3</td><td style="text-align:left">Класс BsdDbShelf</td><td style="text-align:left">Класс BsdDbShelf также является подклассом базового класса Shelf, принимает объект типа dict в качестве параметра, что отличает этот подкласс от класса DBFileNameShelf. Параметр объекта типа dict, который мы передаем в качестве параметра его конструкторам, должен поддерживать методы first(), last(), previous(), next() и set_location().</td></tr></tbody></table>

Изучим следующие действия с файлами с помощью *Shelve*:

- Создание файла для хранения данных
- Извлечение данных из файла
- Обновление данных в файле

*Shelve*-файл создают с помощью функции *open()* модуля *Shelve*.

```python
shelve_file = open(NameOfFile, flag = 'c', protocol = None, writeback = True)
```

Эта функция возвращает объект класса *DBFileNameShelf* и использует следующие параметры:

- NameOfFile: это имя файла, который мы создаем или открываем.

- flag: Параметры флага для синтаксиса функции open() – *'c', 'w', 'n', 'r'*, где *'c'* – параметр по умолчанию – доступ на чтение и запись, *'w'* – доступ на запись, *'r'* – доступ на чтение, а *'n'* – создаем новый файл с именем *NameOfFile*.

- Writeback: Обратная запись. Параметр обратной записи по умолчанию имеет значение False, но если мы установим этот параметр как True, записи, которые мы передаем в файл *Shelve*, будут кэшироваться в кэш-памяти.

- protocol: Протокол обработки записей.

<u><i>Пример</i></u>. Создать *Shelve*-файл с данными.

In [1]:
# Импортируем модуль Shelve
import shelve  

# shelve-файл с данными о струдниках
with shelve.open('file_shelve') as shelveData: 

    # Вносим в файл данные
    shelveData['Employee Name'] = 'Василий Васильевич'
    shelveData['Employee Age'] = 30
    shelveData['Employee Department'] = 'Склад'
    shelveData['Employee Performance'] = 'Отлично'
    shelveData['Employee Score'] = 6

В результате выполнения данной программы на диске созданы файлы *.dir* и *.dat* с указанным содержимым.

**Методы библиотеки shelve**

<table class="alt"><tbody>
    <tr><th style="text-align:left">Sr No</th><th style="text-align:left">Method Name</th><th style="text-align:left">Описание</th></tr>
    <tr><td style="text-align:left">1</td><td style="text-align:left">get()</td><td style="text-align:left">Возвращает значение, связанное с ключом (указанным как аргумент метода).
    </td></tr><tr><td style="text-align:left">2</td><td style="text-align:left">keys()</td><td style="text-align:left">Возвращает имена ключей Shelve-файла.
    </td></tr><tr><td style="text-align:left">3</td><td style="text-align:left">values()</td><td style="text-align:left">The values() method works very similarly to the keys() method of the shelve module as it returns the values present in a shelve file.
    </td></tr><tr><td style="text-align:left">4</td><td style="text-align:left">items()</td><td style="text-align:left">If we want to get both keys and values from a shelve file in a single call, we can use this items() method by providing the name of the shelve file as an argument in the method.
    </td></tr><tr><td style="text-align:left">5</td><td style="text-align:left">close()</td><td style="text-align:left">The close method first synchronizes the items we gave for the shelve file, and then it closes the persistent dict object, which we initialized while opening/creating the shelve file.
    </td></tr><tr><td style="text-align:left">6</td><td style="text-align:left">update()</td><td style="text-align:left">If we want to update our shelve file and add more entries, we can use the update() method to do the same.
    </td></tr><tr><td style="text-align:left">7</td><td style="text-align:left">pop()</td><td style="text-align:left">Метод pop() является противоположностью методу update(), поскольку он используется для удаления записи (ключ и значение) из файла Shelve.
    </td></tr><tr><td style="text-align:left">8</td><td style="text-align:left">sync()</td><td style="text-align:left">sync() method is used to write back all the entries into the cache memory of the program whenever we set writeback to True while opening the shelve file.</td></tr></tbody></table>

## Извлечение данных из файла *Shelve*

После создания файла *Shelve* и внесения записей первое, что мы хотим сделать, это проверить, все ли записи успешно внесены в файл или нет. Наглядный способ проверки – распечатать эти записи. Мы можем получить доступ к данным из *Shelve* многими методами, такими как *get(), values(), items() и keys()*.

<u><i>Пример</i></u>. Получить значение по ключу, указав ключ внутри метода *get()*.

In [2]:
# Открываем shelve-файл
with shelve.open('file_shelve') as shelveData:

    # Распечатываем записи shelve-файла
    print('Имя:', shelveData.get('Employee Name')) # метод get()
    print('Возраст:', shelveData.get('Employee Age')) # метод get()
    print('Управление:', shelveData['Employee Department'])
    print('Словесная оценка:', shelveData['Employee Performance'])
    print('Оценка в баллах:', shelveData['Employee Score'])

Имя: Василий Васильевич
Возраст: 30
Управление: Склад
Словесная оценка: Отлично
Оценка в баллах: 6


Методу *get()* можно передать необязательный второй параметр – возвращаемое значение, если ключ не найден.

<u><i>Пример</i></u>. Попытаться получить значение по отсутсвующему ключу.

In [3]:
with shelve.open('file_shelve') as shelveData:

    print('Город:', shelveData.get('City', 'не указано'))

Город: не указано


## Получение пар ключей-значений из *Shelve*-файла

Если мы хотим получить все записи *Shelve*-файла, мы можем использовать метод *items()*.

<u><i>Пример</i></u>. Получить все записи *Shelve*-файла.

In [4]:
# Открываем Shelve-файл
with shelve.open('file_shelve') as shelveData:

    # Распечатываем все записи в виде списка кортежей
    print("Содержимое Shelve-файла: ", list(shelveData.items()))

Содержимое Shelve-файла:  [('Employee Name', 'Василий Васильевич'), ('Employee Age', 30), ('Employee Department', 'Склад'), ('Employee Performance', 'Отлично'), ('Employee Score', 6)]


## Извлечение только ключей из *Shelve*-файла

Если мы хотим напечатать только ключи, присутствующие в *Shelve*-файле, мы можем использовать метод *keys()*.

<u><i>Пример</i></u>. Получить список ключей *Shelve*-файла.

In [5]:
with shelve.open('file_shelve') as shelveData:
    # Распечатываем ключи
    print("Ключи Shelve-файла: ", list(shelveData.keys()))

Ключи Shelve-файла:  ['Employee Name', 'Employee Age', 'Employee Department', 'Employee Performance', 'Employee Score']


## Извлечение значений из *Shelve*-файла

<u><i>Пример</i></u>. Получить список значений *Shelve*-файла.

In [6]:
with shelve.open('file_shelve') as shelveData:
    print('Значения Shelve-файла:', list(shelveData.values()))

Значения Shelve-файла: ['Василий Васильевич', 30, 'Склад', 'Отлично', 6]


### Обновление данных в  *Shelve*-файле

Мы можем обновить данные, уже имеющиеся в *Shelve*-файле:

1) добавить новые записи;
2) изменить значения;
3) удалить записи.


### Добавление записей в *Shelve*-файл

Для добавления записей, сначала создадим словарь в программе. После этого мы используем метод *update()*, указав имя переменной словаря в качестве аргумента метода.

<u><i>Пример.</i></u> Добавить записи в *Shelve*-файл.

In [7]:
# Создаем словарь
sampleDict = {'Salary': 100000, 'Function': 'Организация хранения товаров'}

with shelve.open('file_shelve') as shelveData:
    shelveData.update(sampleDict)
    
    # Печать данных Shelve-файла
    print('Содержимое Shelve-файла:', list(shelveData.items()))

Содержимое Shelve-файла: [('Employee Name', 'Василий Васильевич'), ('Employee Age', 30), ('Employee Department', 'Склад'), ('Employee Performance', 'Отлично'), ('Employee Score', 6), ('Salary', 100000), ('Function', 'Организация хранения товаров')]


### Изменение значений

Изменим значение возраста сотрудника. Установим значение, равное 28.

<u><i>Пример.</i></u> Изменить значение возраста сотрудника в *Shelve*-файле.

In [8]:
with shelve.open('file_shelve') as shelveData:
    shelveData['Employee Age'] = 28
    
    print('Содержимое Shelve-файла:', list(shelveData.items()))

Содержимое Shelve-файла: [('Employee Name', 'Василий Васильевич'), ('Employee Age', 28), ('Employee Department', 'Склад'), ('Employee Performance', 'Отлично'), ('Employee Score', 6), ('Salary', 100000), ('Function', 'Организация хранения товаров')]


### Удаление записи из *Shelve*-файла

Для удаления существующей записи используем метод *pop(<ключ>)*.

<u><i>Пример</i></u>. Удалить запись по ключу.

In [9]:
# Удаление поля shelve-файла
with shelve.open('file_shelve') as shelveData:
    
    if 'Employee Performance' in shelveData.keys(): # Проверяем наличие ключа
        shelveData.pop('Employee Performance')
    
    # Печать
    print('Содержимое Shelve-файла:', list(shelveData.items()))

Содержимое Shelve-файла: [('Employee Name', 'Василий Васильевич'), ('Employee Age', 28), ('Employee Department', 'Склад'), ('Employee Score', 6), ('Salary', 100000), ('Function', 'Организация хранения товаров')]


Как видим, удаленная пара «ключ-значение» отсутствует в распечатке.

Также удалаять данные из *Shelve*-файла можно с помощью оператора *del*.

<u><i>Пример</i></u>. Удалить запись с помощью оператора *del*.

In [11]:
with shelve.open('file_shelve') as shelveData:
    
    if 'Employee Department' in shelveData.keys():
        del shelveData['Employee Department']
    
    print("Содержимое Shelve-файла: ", list(shelveData.items()))

Содержимое Shelve-файла:  [('Employee Name', 'Василий Васильевич'), ('Employee Age', 28), ('Employee Score', 6), ('Salary', 100000), ('Function', 'Организация хранения товаров')]


### Очистка содержимого *Shelve*-файла

Для удаления всех записей из *Shelve*-файла воспользуемся методом *clear*.

<u><i>Пример</i></u>. Очистить содержимое *Shelve*-файла.

In [12]:
with shelve.open('file_shelve') as shelveData:
    shelveData.clear()
    
    print("Содержимое Shelve-файла: ", list(shelveData.items()))

Содержимое Shelve-файла:  []


Источники литературы о модуле *Shelve*:

- https://metanit.com/python/tutorial/4.6.php
- https://www.javatpoint.com/python-shelve-module

<a class="anchor" id="json"></a>


# Модуль JSON
-
* [к оглавлению](#разделы)


JSON – это текст, написанный с помощью нотации объектов JavaScript. Синтаксис JSON удобен для хранения и обмена данными. В Python есть встроенный модуль JSON, который можно использовать для работы с данными JSON. Рвссмотрим слкдующие методы модуля JSON:

- json.dumps()
- json.loads()
- json.dump()
- json.load()


### Парсинг *JSON*

Парсинг JSON – это преобразование JSON-текста в объекты языка Python. Выполнить парсинг JSON можно с помощью метода json.loads().

In [13]:
import json

# Текст JSON
x = '{ "name": "John", "age": 30, "city": "New York"}'

# Парсинг x
y = json.loads(x)

# Результатом является словарь Python
print(y["age"])

30


### Из Python в JSON

Объекты Python можно преобразовать в форматированный JSON-текст с помощью метода *json.dumps()*.

In [3]:
import json

# Объект Python - словарь
x = {
  "name": "John",
  "age": 30,
  "city": "New York"
}

# convert into JSON:
y = json.dumps(x)

# Результатом является JSON-строка
print(y)
print(type(y))

{"name": "John", "age": 30, "city": "New York"}
<class 'str'>


Конвертировать в JSON-строку можно следующие объекты Python.

- dict
- list
- tuple
- string
- int
- float
- True
- False
- None

Каждый из этих объектов Python конвертируестя в соответсвующий эквивалент JavaScript.

```
-----------------
Python	   JSON
-----------------
dict	   Object
list	   Array
tuple	   Array
str        String
int        Number
float	   Number
True	   true
False	   false
None	   null
-----------------
```

In [4]:
print(json.dumps({"name": "John", "age": 30}))
print(json.dumps(["apple", "bananas"]))
print(json.dumps(("apple", "bananas")))
print(json.dumps("hello"))
print(json.dumps(42))
print(json.dumps(31.76))
print(json.dumps(True))
print(json.dumps(False))
print(json.dumps(None))

{"name": "John", "age": 30}
["apple", "bananas"]
["apple", "bananas"]
"hello"
42
31.76
true
false
null


<i><u>Пример</u></i>. Преобразовать в JSON объекты всех поддерживаемых для операции преобразования типов.

In [6]:
x = {
  "name": "John",
  "age": 30,
  "married": True,
  "divorced": False,
  "children": ("Ann","Billy"),
  "pets": None,
  "cars": [
    {"model": "BMW 230", "mpg": 27.5},
    {"model": "Ford Edge", "mpg": 24.1}
  ]
}

y = json.dumps(x)

print(y)
print(type(y))

{"name": "John", "age": 30, "married": true, "divorced": false, "children": ["Ann", "Billy"], "pets": null, "cars": [{"model": "BMW 230", "mpg": 27.5}, {"model": "Ford Edge", "mpg": 24.1}]}
<class 'str'>


### Форматирование результата преобразования

В примере выше выводится строка JSON, но ее не очень легко читать, так как нет отступов и переносов строк. Метод *json.dumps()* имеет параметры, облегчающие чтение результата. Один из таких параметров – *indent*, то есть отступ.

In [8]:
print(json.dumps(x, indent=4))

{
    "name": "John",
    "age": 30,
    "married": true,
    "divorced": false,
    "children": [
        "Ann",
        "Billy"
    ],
    "pets": null,
    "cars": [
        {
            "model": "BMW 230",
            "mpg": 27.5
        },
        {
            "model": "Ford Edge",
            "mpg": 24.1
        }
    ]
}


Вы также можете определить разделители JSON-текста. Значением по умолчанию является (", ", ": "), что означает использование запятой и пробела для разделения каждого объекта, а также двоеточия и пробела для разделения ключей и значений.

<i><u>Пример</u></i>. Использовать другие разделители, то есть, неиспользуемые по умолчанию.

In [10]:
print(json.dumps(x, indent=4, separators=(". ", " = ")))

{
    "name" = "John". 
    "age" = 30. 
    "married" = true. 
    "divorced" = false. 
    "children" = [
        "Ann". 
        "Billy"
    ]. 
    "pets" = null. 
    "cars" = [
        {
            "model" = "BMW 230". 
            "mpg" = 27.5
        }. 
        {
            "model" = "Ford Edge". 
            "mpg" = 24.1
        }
    ]
}


Метод *json.dumps()* имеет параметр *sort_keys* для упорядочивания ключей в результате.

<i><u>Пример</u></i>. Отсортировать результат преобразования по ключам.

In [12]:
print(json.dumps(x, indent=4, sort_keys=True))

{
    "age": 30,
    "cars": [
        {
            "model": "BMW 230",
            "mpg": 27.5
        },
        {
            "model": "Ford Edge",
            "mpg": 24.1
        }
    ],
    "children": [
        "Ann",
        "Billy"
    ],
    "divorced": false,
    "married": true,
    "name": "John",
    "pets": null
}


### Работа с файлами JSON

Метод *json.dump(obj, fp)* обеспечивает сохранение объектов Python в файлах в формате JSON.

In [24]:
import json

x = {
"name": "John",
"age": 30,
"married": True,
"divorced": False,
"children": ("Ann","Billy"),
"pets": None,
"cars": [
{"model": "BMW 230", "mpg": 27.5},
{"model": "Ford Edge", "mpg": 24.1}
  ]
}


with open('file_11.json', mode='w') as f:
    json.dump(x, f, indent = 4)

Метод *json.load(fp)* выполняет обратное преобразование – из файла в объекты Python.

In [36]:
with open('file_11.json') as f:
    x3 = json.load(f)
    print(x3)
    print(type(x3), type(x3[0]), type(x3[0]['age']))

[{'name': 'John', 'age': 30, 'married': True, 'divorced': False, 'children': ['Ann', 'Billy'], 'pets': None, 'cars': [{'model': 'BMW 230', 'mpg': 27.5}, {'model': 'Ford Edge', 'mpg': 24.1}]}, {'name': 'Ринат', 'age': 32, 'married': True, 'divorced': False, 'children': ['Катя', 'Иван'], 'pets': 'Yes', 'cars': [{'model': 'BMW 230', 'mpg': 27.5}, {'model': 'Ford Edge', 'mpg': 24.1}]}]
<class 'list'> <class 'dict'> <class 'int'>


Мы получили список, элементы которого являются объектами Python.

<a class="anchor" id="xml"></a>

<h1 style="text-align:center"> Модуль XML</h1>

-
* [к оглавлению](#разделы)


XML означает «Расширяемый язык разметки». XML создает древовидную структуру и поддерживает иерархию.

Документы XML имеют разделы, называемые элементами, определяемые начальным и конечным тегом. Тег – это конструкция разметки, которая начинается с < и заканчивается >. Символы между начальным и конечным тегом, если они есть, представляют собой содержимое элемента. Элементы могут содержать разметку, включая другие элементы, которые называются «дочерними элементами».

Элемент высшего уровня называется корнем, который содержит все остальные элементы.

Атрибуты представляют собой пару имя-значение, которая существует внутри начального тега или тега пустого элемента. Атрибут XML может иметь только одно значение, и каждый атрибут может появляться не более одного раза в каждом элементе.

Чтобы лучше это понять, взгляните на этот XML-файл:

```
<?xml version='1.0' encoding='utf8'?>
<collection>
    <genre category="Action">
        <decade years="1980s">
            <movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
                <format multiple="No">DVD</format>
                <year>1981</year>
                <rating>PG</rating>
                <description>
                'Archaeologist and adventurer Indiana Jones 
                is hired by the U.S. government to find the Ark of the 
                Covenant before the Nazis.'
                </description>
            </movie>
               <movie favorite="True" title="THE KARATE KID">
               <format multiple="Yes">DVD,Online</format>
               <year>1984</year>
               <rating>PG</rating>
               <description>None provided.</description>
            </movie>
            <movie favorite="False" title="Back 2 the Future">
               <format multiple="False">Blu-ray</format>
               <year>1985</year>
               <rating>PG</rating>
               <description>Marty McFly</description>
            </movie>
        </decade>
        <decade years="1990s">
            <movie favorite="False" title="X-Men">
               <format multiple="Yes">dvd, digital</format>
               <year>2000</year>
               <rating>PG-13</rating>
               <description>Two mutants come to a private academy for their kind whose resident superhero team must 
               oppose a terrorist organization with similar powers.</description>
            </movie>
            <movie favorite="True" title="Batman Returns">
               <format multiple="No">VHS</format>
               <year>1992</year>
               <rating>PG13</rating>
               <description>NA.</description>
            </movie>
               <movie favorite="False" title="Reservoir Dogs">
               <format multiple="No">Online</format>
               <year>1992</year>
               <rating>R</rating>
               <description>WhAtEvER I Want!!!?!</description>
            </movie>
        </decade>    
    </genre>

    <genre category="Thriller">
        <decade years="1970s">
            <movie favorite="False" title="ALIEN">
                <format multiple="Yes">DVD</format>
                <year>1979</year>
                <rating>R</rating>
                <description>"""""""""</description>
            </movie>
        </decade>
        <decade years="1980s">
            <movie favorite="True" title="Ferris Bueller's Day Off">
                <format multiple="No">DVD</format>
                <year>1986</year>
                <rating>PG13</rating>
                <description>Funny movie about a funny guy</description>
            </movie>
            <movie favorite="FALSE" title="American Psycho">
                <format multiple="No">blue-ray</format>
                <year>2000</year>
                <rating>Unrated</rating>
                <description>psychopathic Bateman</description>
            </movie>
        </decade>
    </genre>
	
	
    <genre category="Comedy">
        <decade years="1960s">
            <movie favorite="False" title="Batman: The Movie">
                <format multiple="Yes">DVD,VHS</format>
                <year>1966</year>
                <rating>PG</rating>
                <description>What a joke!</description>
            </movie>
        </decade>
        <decade years="2010s">
            <movie favorite="True" title="Easy A">
                <format multiple="No">DVD</format>
                <year>2010</year>
                <rating>PG--13</rating>
                <description>Emma Stone = Hester Prynne</description>
            </movie>
            <movie favorite="True" title="Dinner for SCHMUCKS">
                <format multiple="Yes">DVD,digital,Netflix</format>
                <year>2011</year>
                <rating>Unrated</rating>
                <description>Tim (Rudd) is a rising executive
                 who &#8220;succeeds&#8221; in finding the perfect guest, 
                 IRS employee Barry (Carell), for his boss&#8217; monthly event, 
                 a so-called &#8220;dinner for idiots,&#8221; which offers certain 
                 advantages to the exec who shows up with the biggest buffoon.
                 </description>
            </movie>
        </decade>
        <decade years="1980s">
            <movie favorite="False" title="Ghostbusters">
                <format multiple="No">Online,VHS</format>
                <year>1984</year>
                <rating>PG</rating>
                <description>Who ya gonna call?</description>
            </movie>
        </decade>
        <decade years="1990s">
            <movie favorite="True" title="Robin Hood: Prince of Thieves">
                <format multiple="No">Blu_Ray</format>
                <year>1991</year>
                <rating>Unknown</rating>
                <description>Robin Hood slaying</description>
            </movie>
        </decade>
    </genre>
</collection>
```

Структура XML документа подобна дереву. Единственным корнем является `<collection>`. Корень содержит все другие элементы, такие, как `<genre>` и `<movie>` – их называют потомками или подчиненными элементами.

Обратите внимание, что элементы-потомки также могут иметь своих потомков. Элементы XML-дерева могут содержать атрибуты, например, элемент `<movie>` содержит атрибут *title*.

После этого короткого ознакомления со струткурой XML документа познакомимся с библиотекой ElementTree.

<h2 style="text-align:center"> Библиотека ElementTree</h2>

Древовидная структура XML упращает навигацию, изменение и удаление данных с помощью программирования. В Python есть встроенная библиотека *ElementTree*, в которой есть функции для чтения и управления XML-файлами (и другими файлами с аналогичной структурой).

Сначала импортируйте *ElementTree*. Обычной практикой является использование псевдонима *ET*.

In [2]:
import xml.etree.ElementTree as ET

<h2 style="text-align:center">Парсинг XML-данных</h2>

В предоставленном XML-файле описана коллекция фильмов. Проблема в том, что данные в беспорядке! У этой коллекции было много кураторов и у каждого был свой способ внесения данных в файл. Основная цель этого урока – прочитать и понять файл с помощью Python, а затем устранить проблемы.

Сначала прочитатем файл с помощью ElementTree.

In [4]:
tree = ET.parse('../Data/movies.xml')
root = tree.getroot()

Мы создали дерево и его корень. У каждого элемента дерева, включая корень, имеются открывающий и закрывающий теги, кроме того, открывающие тэги могут содержать атрибуты, что позволяет отличать одноименные тэги.

Например, элемент `<genre category="Action">` содержит элементы `<decade years="1980s">` и `<decade years="1990s">`. Заканчивается элемент `genre` закрывающим тегом `</genre>`, а элементы `decade` закрывающими тегами `</decade>`. `category` является атрибутом элемента `genre`, а `years` – атрибутами элементов `decade`.

С помощью свойства `.tag` получим название корневого элемента, а с помощью `.attrib` исследуем его атрибуты. У корневого элемента название *collection*, а атрибутов у него нет.

In [5]:
print(root.tag)
print(root.attrib)

collection
{}


<h2 style="text-align:center"> Итерация элеметов XML-файла</h2>

Элементы и вложенные элементы XML-файла являются итерируемыми объектами. С помощью цикла *for* получим названия и атрибуты ближайших потомков корня.

In [4]:
for child in root:
    print(child.tag, child.attrib)

genre {'category': 'Action'}
genre {'category': 'Thriller'}
genre {'category': 'Comedy'}


Теперь мы знаем, что потомками корня являются элементы `<genre>`. Отличать элементы `<genre>` один от другого можно с помощью атрибута `category`.

Доступ к вложенному элементу можно получить по индексу. Содержание элемента можно получить с помощью свойства `.text`.

<u><i>Пример</i></u>.

- По индексу `root[0]` получим вложенный элемент `<genre category="Action">`
- По индексу `root[0][1]` получим вложенный элемент `<decade years="1990s">`
- По индексу `root[0][1][0]` получим вложенный элемент `<movie favorite="False" title="X-Men">`
- По индексу `root[0][1][0][1]` получим вложенный элемент `<year>2000</year>`

In [5]:
print(root[0][1][0].tag)
print(root[0][1][0].attrib)
print(root[0][1][0][1].text)

movie
{'favorite': 'False', 'title': 'X-Men'}
2000


Часто бывает полезно получить полный список элементов дерева. Функция `root.iter()` позволяет провести итерацию по всем элементам дерева.

In [6]:
xml_elements = [e.tag for e in root.iter()]
print(xml_elements)

['collection', 'genre', 'decade', 'movie', 'format', 'year', 'rating', 'description', 'movie', 'format', 'year', 'rating', 'description', 'movie', 'format', 'year', 'rating', 'description', 'decade', 'movie', 'format', 'year', 'rating', 'description', 'movie', 'format', 'year', 'rating', 'description', 'movie', 'format', 'year', 'rating', 'description', 'genre', 'decade', 'movie', 'format', 'year', 'rating', 'description', 'decade', 'movie', 'format', 'year', 'rating', 'description', 'movie', 'format', 'year', 'rating', 'description', 'genre', 'decade', 'movie', 'format', 'year', 'rating', 'description', 'decade', 'movie', 'format', 'year', 'rating', 'description', 'movie', 'format', 'year', 'rating', 'description', 'decade', 'movie', 'format', 'year', 'rating', 'description', 'decade', 'movie', 'format', 'year', 'rating', 'description']


Такой результат даёт нам общее представление об элементах XML-дерева, но ничего не говорит об атрибутах и иерархии элементов.

Каждый элемент имеет метод `.tostring()`, позволяющий его распечатать. Если применить метод `.tostring()` к корню, то на печать будет выведен весь XML-файл. Необходимо указать параметры кодирования и декодирования: для XML в большинстве случаев подходит `utf-8`. Распечатаем один из элементов.

In [7]:
print(ET.tostring(root[0][1], encoding='utf8').decode('utf8'))

<?xml version='1.0' encoding='utf8'?>
<decade years="1990s">
            <movie favorite="False" title="X-Men">
               <format multiple="Yes">dvd, digital</format>
               <year>2000</year>
               <rating>PG-13</rating>
               <description>Two mutants come to a private academy for their kind whose resident superhero team must 
               oppose a terrorist organization with similar powers.</description>
            </movie>
            <movie favorite="True" title="Batman Returns">
               <format multiple="No">VHS</format>
               <year>1992</year>
               <rating>PG13</rating>
               <description>NA.</description>
            </movie>
               <movie favorite="False" title="Reservoir Dogs">
               <format multiple="No">Online</format>
               <year>1992</year>
               <rating>R</rating>
               <description>WhAtEvER I Want!!!?!</description>
            </movie>
        </decade>    
  

Мы можем использовать `root.iter()` для более подробного изучения конкретных элементов. Если передадим в функцию `iter()` имя тега `movie`, итерация пройдет только по тегам `movie`.

In [8]:
for movie in root.iter('movie'):
    print(movie.attrib)

{'favorite': 'True', 'title': 'Indiana Jones: The raiders of the lost Ark'}
{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'Back 2 the Future'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'True', 'title': "Ferris Bueller's Day Off"}
{'favorite': 'FALSE', 'title': 'American Psycho'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Easy A'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}
{'favorite': 'False', 'title': 'Ghostbusters'}
{'favorite': 'True', 'title': 'Robin Hood: Prince of Thieves'}


Мы видим, что названия вводились по-разному: некоторые названия введены прописными буквами.

<h2 style="text-align:center"> Выражения XPath</h2>

Часто бывает, что у элементов нет атрибутов, но есть только текстовое содержимое. Получить его можно с помощью `.text`. Распечатаем содержимое всех элементов `<description>` в жанре на нулевой позиции в иерархии, т. е. *Action*.

In [9]:
for k, d in enumerate(root[0].iter('description')):
    print(f'{k+1}. {d.text}')

1. 
                'Archaeologist and adventurer Indiana Jones 
                is hired by the U.S. government to find the Ark of the 
                Covenant before the Nazis.'
                
2. None provided.
3. Marty McFly
4. Two mutants come to a private academy for their kind whose resident superhero team must 
               oppose a terrorist organization with similar powers.
5. NA.
6. WhAtEvER I Want!!!?!


*XPath* является языком запросов. *XPath* означает *XML Path Language* и, как следует из названия, использует "path like syntax" - "путеподобный" синтаксис для идентификации узлов и навигации по узлам XML документа.

В *ElementTree* есть функции `find()` и `.findall()`, использующие *XPath*. Найдем фильмы, вышедшие в 1984 году.

In [30]:
for movie in root.findall("./genre/decade/movie/[year='1984']"):
    print(movie.attrib)

{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'Ghostbusters'}


Теперь распечатаем атрибуты только тех фильмов, которые доступны в нескольких форматах (атрибут `multiple` со значением 'Yes').

In [24]:
for movie in root.findall("./genre/decade/movie/format[@multiple='Yes']"):
    print(movie.attrib)

{'multiple': 'Yes'}
{'multiple': 'Yes'}
{'multiple': 'Yes'}
{'multiple': 'Yes'}
{'multiple': 'Yes'}


<p style="background:powderblue">Задание</p>

Подумайте, почему мы получили такой результат, хотя хотели получить атрибуты фильмов. Как их получить? Напишите код, с помощью которого можно получить нужный результат. <br>
<p style="color:gray">Подсказка: используйте `..` в XPath чтобы получить родительский элемент.</p>

In [31]:
# Ваш код здесь
for movie in root.findall("./genre/decade/movie/format/[@multiple='Yes'].."):
    print(movie.attrib)

{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}


<h2 style="text-align:center"> Изменение XML документа</h2>

Мы уже отметили, что названия XML-документа оформлены по-разному. Еще раз распечатаем их названия.

In [32]:
for movie in root.iter('movie'):
    print(movie.attrib['title'])

Indiana Jones: The raiders of the lost Ark
THE KARATE KID
Back 2 the Future
X-Men
Batman Returns
Reservoir Dogs
ALIEN
Ferris Bueller's Day Off
American Psycho
Batman: The Movie
Easy A
Dinner for SCHMUCKS
Ghostbusters
Robin Hood: Prince of Thieves


Исправим «2» в Back 2 the Future. Напишем код, чтобы найти элемент `movie` с названием "Back 2 the Future" и сохраним его в переменную.

In [22]:
b2tf = root.find("./genre/decade/movie[@title='Back 2 the Future']")
b2tf

<Element 'movie' at 0x000001C5EB54BB00>

Теперь к этому элементу можно оращаться по имени переменной.

In [33]:
print(b2tf.tag)
print(b2tf.attrib)

movie
{'favorite': 'False', 'title': 'Back 2 the Future'}


Присвоим атрибуту `title` этого фильма новое значение и распечатем элемент, чтобы увидеть изменения.

In [34]:
b2tf.attrib['title'] = 'Back to the Future'
print(ET.tostring(b2tf, encoding='utf8').decode('utf8'))

<?xml version='1.0' encoding='utf8'?>
<movie favorite="False" title="Back to the Future">
               <format multiple="False">Blu-ray</format>
               <year>1985</year>
               <rating>PG</rating>
               <description>Marty McFly</description>
            </movie>
        


Запишем изменения в XML - файл.

In [35]:
tree.write("movies_improved.xml")

Создадим новое дерево, корень и распечатаем атрибуты элементов `movie`.

In [36]:
tree = ET.parse('movies_improved.xml')
root = tree.getroot()

for movie in root.iter('movie'):
    print(movie.attrib)

{'favorite': 'True', 'title': 'Indiana Jones: The raiders of the lost Ark'}
{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'Back to the Future'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'True', 'title': "Ferris Bueller's Day Off"}
{'favorite': 'FALSE', 'title': 'American Psycho'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Easy A'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}
{'favorite': 'False', 'title': 'Ghostbusters'}
{'favorite': 'True', 'title': 'Robin Hood: Prince of Thieves'}


<h2 style="text-align:center"> Исправление атрибутов</h2>

Некоторые атрибуты `multiple` элементов `<format>` содержат некорректные значения. Чтобы убедиться в этом, распечатаем значения атрибутов и содержимое элементов `<format>`. 

In [37]:
for f in root.findall("./genre/decade/movie/format"):
    print(f'{f.attrib["multiple"] :7} {f.text}')

No      DVD
Yes     DVD,Online
False   Blu-ray
Yes     dvd, digital
No      VHS
No      Online
Yes     DVD
No      DVD
No      blue-ray
Yes     DVD,VHS
No      DVD
Yes     DVD,digital,Netflix
No      Online,VHS
No      Blu_Ray


Используем *регулярные выражения* чтобы найти в тексте запятые - их наличие станет признаком того, что значение `multiple='Yes'`. В противном случае значение должно быть `'No'`. Добавление и изменение атрибутов можно выполнять с помощью метода `.set()`.

Дополнительно: <a href="https://www.datacamp.com/community/tutorials/python-regular-expression-tutorial"> учебный материал о регулярных выражениях </a>

In [38]:
import re

for f in root.findall("./genre/decade/movie/format"):
    # Ищем запятые в содержимом элементов format
    match = re.search(',', f.text)
    if match:
        f.set('multiple', 'Yes')
        print(f'found {f.attrib}, {f.text}')
    else:
        f.set('multiple', 'No')
        print(f'found {f.attrib}, {f.text}')

found {'multiple': 'No'}, DVD
found {'multiple': 'Yes'}, DVD,Online
found {'multiple': 'No'}, Blu-ray
found {'multiple': 'Yes'}, dvd, digital
found {'multiple': 'No'}, VHS
found {'multiple': 'No'}, Online
found {'multiple': 'No'}, DVD
found {'multiple': 'No'}, DVD
found {'multiple': 'No'}, blue-ray
found {'multiple': 'Yes'}, DVD,VHS
found {'multiple': 'No'}, DVD
found {'multiple': 'Yes'}, DVD,digital,Netflix
found {'multiple': 'Yes'}, Online,VHS
found {'multiple': 'No'}, Blu_Ray


Теперь все значения атрибута *multiple* указаны корректно. Запишем эти изменения в файл.

In [39]:
tree.write("movies_improved.xml")
tree = ET.parse('movies_improved.xml')
root = tree.getroot()

for f in root.iter('format'):
    print(f.attrib, f.text)

{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,Online
{'multiple': 'No'} Blu-ray
{'multiple': 'Yes'} dvd, digital
{'multiple': 'No'} VHS
{'multiple': 'No'} Online
{'multiple': 'No'} DVD
{'multiple': 'No'} DVD
{'multiple': 'No'} blue-ray
{'multiple': 'Yes'} DVD,VHS
{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,digital,Netflix
{'multiple': 'Yes'} Online,VHS
{'multiple': 'No'} Blu_Ray


<h2 style="text-align:center"> Перемещение элементов</h2>

Некторые из фильмов попали не в свою декаду. Распечатаем теги `decade` и `year`.

In [40]:
for dec in root.iter("decade"):
    print(dec.attrib)
    for y in dec.iter("year"):
        print(y.text)

{'years': '1980s'}
1981
1984
1985
{'years': '1990s'}
2000
1992
1992
{'years': '1970s'}
1979
{'years': '1980s'}
1986
2000
{'years': '1960s'}
1966
{'years': '2010s'}
2010
2011
{'years': '1980s'}
1984
{'years': '1990s'}
1991


Два фильма 2000-го года попали не в свою декаду. Найдем эти фильмы, используя выражение *XPath*.

In [43]:
for movie in root.findall('./genre/decade/movie/[year="2000"]'):
    print(movie.attrib)

{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'FALSE', 'title': 'American Psycho'}


Для *X-Men* потребуется добавить тег декады 2000-х в раздел жанра Экшн. Метод `.SubElement` добавит такой тег.

In [44]:
action = root.find("./genre[@category='Action']")
new_dec = ET.SubElement(action, 'decade')
new_dec.attrib["years"] = '2000s'

print(ET.tostring(action, encoding='utf8').decode('utf8'))

<?xml version='1.0' encoding='utf8'?>
<genre category="Action">
        <decade years="1980s">
            <movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
                <format multiple="No">DVD</format>
                <year>1981</year>
                <rating>PG</rating>
                <description>
                'Archaeologist and adventurer Indiana Jones 
                is hired by the U.S. government to find the Ark of the 
                Covenant before the Nazis.'
                </description>
            </movie>
               <movie favorite="True" title="THE KARATE KID">
               <format multiple="Yes">DVD,Online</format>
               <year>1984</year>
               <rating>PG</rating>
               <description>None provided.</description>
            </movie>
            <movie favorite="False" title="Back to the Future">
               <format multiple="No">Blu-ray</format>
               <year>1985</year>
               <ratin

Теперь добавим фильм X-Men в раздел 2000-х, исключив его из 1990-х. Для этого используем `.append()` и `.remove()`.

In [45]:
xmen = root.find("./genre/decade/movie[@title='X-Men']")
dec2000s = root.find("./genre[@category='Action']/decade[@years='2000s']")
dec2000s.append(xmen)
dec1990s = root.find("./genre[@category='Action']/decade[@years='1990s']")
dec1990s.remove(xmen)

print(ET.tostring(action, encoding='utf8').decode('utf8'))

<?xml version='1.0' encoding='utf8'?>
<genre category="Action">
        <decade years="1980s">
            <movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
                <format multiple="No">DVD</format>
                <year>1981</year>
                <rating>PG</rating>
                <description>
                'Archaeologist and adventurer Indiana Jones 
                is hired by the U.S. government to find the Ark of the 
                Covenant before the Nazis.'
                </description>
            </movie>
               <movie favorite="True" title="THE KARATE KID">
               <format multiple="Yes">DVD,Online</format>
               <year>1984</year>
               <rating>PG</rating>
               <description>None provided.</description>
            </movie>
            <movie favorite="False" title="Back to the Future">
               <format multiple="No">Blu-ray</format>
               <year>1985</year>
               <ratin

<p style="background:powderblue">Задание</p>

Переместите фильм *American Psycho* в раздел 2000-х жанра *Thriller*.

In [None]:
# Ваш код здесь.


<h2 style="text-align:center"> Создание XML-документов</h2>

Сохраним результаты в XML-файл.

In [47]:
tree.write("movies_improved.xml")

tree = ET.parse('movies_improved.xml')
root = tree.getroot()

print(ET.tostring(root, encoding='utf8').decode('utf8'))

<?xml version='1.0' encoding='utf8'?>
<collection>
    <genre category="Action">
        <decade years="1980s">
            <movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
                <format multiple="No">DVD</format>
                <year>1981</year>
                <rating>PG</rating>
                <description>
                'Archaeologist and adventurer Indiana Jones 
                is hired by the U.S. government to find the Ark of the 
                Covenant before the Nazis.'
                </description>
            </movie>
               <movie favorite="True" title="THE KARATE KID">
               <format multiple="Yes">DVD,Online</format>
               <year>1984</year>
               <rating>PG</rating>
               <description>None provided.</description>
            </movie>
            <movie favorite="False" title="Back to the Future">
               <format multiple="No">Blu-ray</format>
               <year>1985</year>
    

<h2 style="text-align:center"> Заключение</h2>

Несколько важных вещей, которые следует запомнить.

Теги образуют древовидную структуру. Пара из начального и конечного тега маркируют границы элемента. Каждый элемент может содерать неограниченное количество вложенных элементов.

Начальный тег может содержать атрибуты, которые конкретизируют содержимое элемента. 

ElementTree – библиотека Python, которая позволяет анализировать XML-документ и перемещаться по нему. Использование ElementTree разбивает XML-документ на древовидную структуру, с которой легко работать. Для краткого ознакомления с содержимым всего XML-документа или его элемента, используйте `tostring()`, например `print(ET.tostring(root, encoding='utf8').decode('utf8'))`.

Ссылки:<br>
https://www.datacamp.com/tutorial/python-xml-elementtree<br>
https://docs.python.org/3/library/xml.etree.elementtree.html<br>
https://en.wikipedia.org/wiki/XML

* [к оглавлению](#разделы)