In [1]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## ФУНКЦИЯ READ_TABLE()

Подобно pd.read_csv(), функция read_table() также загружает данные с разделителями из файла, URL-адреса, но в качестве разделителя по умолчанию используется символ табуляции ('\t'). В документации эта функция описана как «Чтение данных из файла значений с разделителями в DataFrame»

Используем функцию read_csv(), считаем данные из файла countries.csv в переменную countries_data, создав объект DataFrame


In [2]:
countries_data = pd.read_table('Data/countries.csv', sep=';')
display(countries_data.head(5))

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628


Используем уже знакомую функцию to_csv(), выгрузим этот DataFrame в файл countries.txt (с расширением TXT), который сохраним в папке Data. В качестве разделителя используется символ пробела (" ")

In [3]:
countries_data.to_csv('Data/countries.txt', index=False, sep=' ')

Считаем данные из файла countries.txt в переменную txt_df  (объект DataFrame), применив функцию read_table() с параметрами sep=' '  и  index_col=['country'] (так мы избавимся от столбца с индексом и присвоим названия строкам, используя данные одного из столбцов). Выводим на экран полученный результат:

In [4]:
txt_df = pd.read_table('Data/countries.txt', sep=' ', index_col=['country'])
display(txt_df.head(5))

Unnamed: 0_level_0,population,square
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Англия,56.29,133396
Канада,38.05,9984670
США,322.28,9826630
Россия,146.24,17125191
Украина,45.5,603628


## ПАРАМЕТР HEADER

Используя параметр header, при создании DataFrame мы учитываем наличие/отсутствие строки заголовков в исходном файле данных.

Например, если при считывании данных из ранее сохранённого в папке Data файла countries.csv указать значение параметра header=None, то первая строка исходного файла не будет восприниматься как строка заголовка и будет отнесена к области данных DataFrame:

In [5]:
txt_df = pd.read_table('Data/countries.txt', header=None, sep=' ')
display(txt_df.head(5))

Unnamed: 0,0,1,2
0,country,population,square
1,Англия,56.29,133396
2,Канада,38.05,9984670
3,США,322.28,9826630
4,Россия,146.24,17125191


## ПРОБЛЕМА С КОДИРОВКОЙ 

***При считывании файла и создании DataFrame может возникнуть проблема — при выводе на экран данные будут отображаться в виде нечитаемых символов. Это связано с кодировкой символов в исходном файле***

Для решения данной проблемы можно выполнить следующие действия:

- узнаем, какая кодировка символов используется в считываемом файле, обратимся к субмодулю chardet.universaldetector библиотеки Universal Encoding Detector

```python
# Модуль необходимо предварительно установить с помощью стандартной команды менеджера пакетов 
pip: pip install chardet;
```
- При считывании файла и создании DataFrame будем использовать параметр encoding  —  указывает, какой тип кодировки символов используется в считываемом файле.

## Примечание:

Для примера используется дата-сет "erro_en_conding.csv"

In [6]:
unknown_coding_df = pd.read_csv('Data/error_en_coding.csv', header=None, encoding_errors='replace')
display(unknown_coding_df.head(5))

Unnamed: 0,0,1,2
0,User_943,Accumanst@gmail.com,������
1,User_908,Advismowr@mail.ru,������
2,User_962,Anachso@ukr.net,���������
3,User_973,Antecia@inbox.ru,�����
4,User_902,Balliaryva@ukr.net,


Выявлена **проблема**: при стандартном считывании содержимое файла читается некорректно. Необходимо указать кодировку файла при считывании

Далее определяем кодировку файла:

In [7]:
from chardet.universaldetector import UniversalDetector

# Cоздаем экземпляр этого класса
detector = UniversalDetector()

# Создаем конструкцию with open(...)
with open('Data/error_en_coding.csv', 'rb') as reader:
    for line in reader:
        detector.feed(line)
        if detector.done:
            break
display(detector.close())

{'encoding': 'KOI8-R', 'confidence': 0.8773902118791048, 'language': 'Russian'}

С достоверностью примерно 87 % тип используемой в файле кодировки — koi8-r, язык Русский

Заново считываем данный файл используя полученные данные

In [8]:
coding_df = pd.read_csv('Data/error_en_coding.csv', header=None, encoding='koi8-r')
display(coding_df.head(5))

Unnamed: 0,0,1,2
0,User_943,Accumanst@gmail.com,Ижевск
1,User_908,Advismowr@mail.ru,Ижевск
2,User_962,Anachso@ukr.net,Краснодар
3,User_973,Antecia@inbox.ru,Пермь
4,User_902,Balliaryva@ukr.net,


## ЧТЕНИЕ ФАЙЛА ПО ССЫЛКЕ, ИСПОЛЬЗУЯ ФУНКЦИЮ READ_TABLE()

Используем функцию read_table(), указав в качестве разделителя данных запятую — ',' и прочитав файл по ссылке, например с ресурса из сети

In [9]:
melb_data_df = pd.read_table('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv', sep=',')
display(melb_data_df.head(5))

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


Функция read_table() сработала и с CSV-файлом - достаточно было указать, какой разделитель используется.

## ЧТЕНИЕ/ЗАПИСЬ АРХИВИРОВАННЫХ CSV-ФАЙЛОВ

## Примечание:

Большие по размеру CSV-файлы для экономии памяти часто «упаковывают» в архив, например zip.

Механизм, используемый в функции read_csv(), позволяет проводить чтение текстового файла из архива, не распаковывая его. Однако, есть ограничение — файл в zip-архиве должен быть один (если файлов в архиве несколько, то можно разархивировать файлы и работать с каждым вне архива).

In [10]:
student_df = pd.read_csv('Data/students_performance.zip')
display(student_df.head(5))

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


Файл в архиве прочитан без каких-либо проблем, данные из него загружены

Так же в функции to_csv() предусмотрен механизм, позволяющий проводить упаковку CSV-файлов в zip-архив. Проделаем обратную операцию — данные из DataFrame data запишем в CSV-файл, упакуем полученный файл в zip-архив «на лету» и сохраним полученный архив в папке Data, выполнив следующий код:

In [11]:
# Определяем параметры архивирования — метод сжатия, имя файла в архиве
compression_options = dict(method='zip', archive_name='student_compression_df.csv')

# Наш считанный ранее файл
student_df.to_csv('Data/student_compression_df.zip', index=False, compression=compression_options)

В ходе выполнения кода содержимое DataFrame сохранено в файле student_compression_df.csv, файл упакован в архив student_compression_df.zip, а архив записан в каталог Data

## ОБ EXCEL ФАЙЛАХ

## Примечание:

Excel-файлы представляют из себя таблицы с данными и имеют формат XLS или  XLSX. В отличие от CSV-файлов, которые также позволяют удобно представлять табличные данные, XLS- и XLSX-файлы могут помимо данных включать формулы, изображения, графики и содержат информацию о форматировании.

Функции read_excel() и to_excel() из библиотеки pandas. С их помощью можно считывать данные из файлов Excel и выполнять запись в них. С помощью различных параметров есть возможность менять поведение функций, создавая нужные файлы, а не просто копируя содержимое из объекта DataFrame.

Файл Excel считается рабочей книгой. Каждая книга может хранить некоторое количество листов. Лист, просматриваемый пользователем в данный момент, называется активным. Лист состоит из столбцов (адресуемых, как правило, с помощью букв, начиная с A) и строк (адресуемых с помощью цифр, начиная с 1). Лист может содержать данные в виде таблиц, формул, изображений, графиков и информации о форматировании.

## СЧИТЫВАНИЕ ДАННЫХ ИЗ ФАЙЛА EXCEL

In [12]:
grades_df = pd.read_excel('Data/grades.xlsx')
display(grades_df.head(5))

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


Функция read_excel() может принимать на вход не только путь к файлу на компьютере, но и интернет-ссылку на него.

In [13]:
df_from_internet = pd.read_excel(io='https://github.com/asaydn/test/raw/master/january.xlsx', skiprows=3)
display(df_from_internet.head(5))

Unnamed: 0,Location,Oranges,Apples,Bananas,Blueberries,Total
0,Toronto,7651,4422,8580,3679,24332
1,Los Angeles,273,2998,9890,7293,20454
2,Atlanta,3758,6752,4599,4149,19258
3,New York,4019,8796,8486,9188,30489


## Основные параметры метода read_excel()

1. io — первый параметр, в который мы передаём адрес файла, который хотим прочитать. Кроме адреса на диске, можно передавать адрес в интернете.

2. sheet_name —  ссылка на лист в Excel-файле (возможные значения данного параметра: 0 — значение по умолчанию, загружается первый лист; 'Sheet1' — можно передать название листа; обычно листы называются 'SheetX', где X — номер листа, но могут использоваться и другие названия; [0, 1, 'Sheet3'] — список, содержащий номера или названия листов; в таком случае Pandas вернёт словарь, в котором ключами будут номера или названия листов, а значениями — их содержимое в виде DataFrame; None — если передать такое значение, то pandas прочитает все листы и вернёт их в виде словаря, как в предыдущем пункте).

3. na_values — список значений, которые будут считаться пропусками ( ‘’, ‘#N/A’, ‘ N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’)

## Примечание:

Следует также учесть, что нормальное поведение pandas — это считывание значений (формулы из Excel-файла не считываются)!

По умолчанию в DataFrame читается информация из первого листа, однако read_excel()  позволяет выбрать, из какого именно листа загружать данные. Сделать это можно с помощью параметра sheet_name (рус. имя_листа). Например, чтобы прочесть данные из второго листа (ML) файла:

In [14]:
grades_df = pd.read_excel('Data/grades.xlsx', sheet_name='ML')
display(grades_df.head(5))

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,7
1,2,Катя,5
2,3,Маша,9
3,4,Миша,8
4,5,Женя,9


## ВЫГРУЗКА ДАННЫХ ИЗ DATAFRAME В EXCEL-ФАЙЛ

Для сохранения данных из DataFrame в Excel-файл в pandas есть функция to_excel(), принцип работы которой очень схож с функцией to_csv():

In [15]:
# Берем экземпляр ранее прочитанного файла
grades_df.to_excel('Data/grades_df_new_01.xlsx')

В этом случае будет создан один лист с именем по умолчанию "Sheet1". Также мы сохраним и индекс — в данных будет находиться лишний столбец.

In [16]:
grades_df_new = pd.read_excel('Data/grades_df_new_01.xlsx')
display(grades_df_new.head(5))

Unnamed: 0.1,Unnamed: 0,Student ID,Student name,Grade
0,0,1,Аня,7
1,1,2,Катя,5
2,2,3,Маша,9
3,3,4,Миша,8
4,4,5,Женя,9


Чтобы создать лист с определённым именем (например, Maths) и не сохранять индекс, в метод  to_excel() необходимо передать параметры sheet_name='Example' и index=False:

In [17]:
# Берем экземпляр ранее прочитанного файла
grades_df.to_excel('Data/grades_df_new_02.xlsx', sheet_name='Maths', index=False)

In [18]:
grades_df_new = pd.read_excel('Data/grades_df_new_02.xlsx')
display(grades_df_new.head(5))

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,7
1,2,Катя,5
2,3,Маша,9
3,4,Миша,8
4,5,Женя,9


## Примечание:

Продвинутая работа с файлами Excel в Python предполагает использование дополнительных библиотек, таких как:

- **openpyxl** — рекомендуемый пакет для чтения и записи файлов Excel 2010+ (например, xlsx);

- **xlsxwriter** — альтернативный пакет для записи данных, информации о форматировании и, в частности, диаграмм в формате Excel 2010+ (например, xlsx);

- **pyxlsb** — пакет позволяет читать файлы Excel в xlsb-формате;

- **pylightxl** — пакет позволяет читать xlsx- и xlsm-файлы и записывать xlsx-файлы;

- **xlrd** — пакет предназначен для чтения данных и информации о форматировании из старых файлов Excel (например, xls);

- **xlwt** — пакет предназначен для записи данных и информации о форматировании в старые файлы Excel (например, xls).

Последующие примеры будут описываться через "ratings_movies.xlsx"

In [19]:
# Cчитаем первый лист - "ratings"
ratings_df = pd.read_excel('Data/ratings_movies.xlsx', sheet_name='ratings')
display(ratings_df.head(5))

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [20]:
# Cчитаем второй лист - "movies"
movies_df = pd.read_excel('Data/ratings_movies.xlsx', sheet_name='movies')
display(movies_df.head(5))

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


Объединяем в один файл, записываем данные из полученного DataFrame в файл.

In [21]:
ratings_plus_movies_df = ratings_df.merge(movies_df)

В результирующем файле 100836 строк

In [22]:
display(ratings_plus_movies_df)

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,1,4.0,964982703,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,3,4.0,964981247,Grumpier Old Men (1995),Comedy|Romance
2,1,6,4.0,964982224,Heat (1995),Action|Crime|Thriller
3,1,47,5.0,964983815,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,1,50,5.0,964982931,"Usual Suspects, The (1995)",Crime|Mystery|Thriller
...,...,...,...,...,...,...
100831,610,166534,4.0,1493848402,Split (2017),Drama|Horror|Thriller
100832,610,168248,5.0,1493850091,John Wick: Chapter Two (2017),Action|Crime|Thriller
100833,610,168250,5.0,1494273047,Get Out (2017),Horror
100834,610,168252,5.0,1493846352,Logan (2017),Action|Sci-Fi


## JSON ФАЙЛЫ

JSON — это простой, структурированный формат обмена данными, основанный на использовании текста.

Под обменом данных (чаще всего подразумевается) передача данных по компьютерным сетям, например пересылка данных от сервера к браузеру.

Аббревиатура JSON расшифровывается как JavaScript Object Notation (обозначения/записи объектов JavaScript). Несмотря на то, что JSON изначально основывался на языке программирования JavaScript, он является общепризнанным форматом обмена данными, и многие языки программирования, включая Python, содержат эффективные инструменты для работы с ним.

## МОДУЛИ ДЛЯ РАБОТЫ С JSON

Для работы с данными в формате JSON используется модуль json из стандартной библиотеки языка Python, который необходимо будет загрузить перед началом работы с данными, выполнив следующую команду:

```python
# Импортируем модуль json
import json
```

Также нам может быть полезен модуль pprint  (от англ. pretty print, рус. красивый вывод на экран), а точнее — встроенная в него одноимённая функция pprint(), с помощью которой можно красиво выводить на экран содержимое JSON-файла. Для загрузки нужной нам функции перед началом работы выполним следующий код:

```python
# Импортируем функцию pprint()
from pprint import pprint
```

In [23]:
import json
from pprint import pprint

## КАК ВЫГЛЯДИТ JSON-ФАЙЛ в python

Информация в формате JSON представляет собой (в закодированном виде) одну из двух структур:

1. набор пар "ключ-значение", где ключ — это всегда строковая величина (в Python такая структура преобразуется в словарь);

2. упорядоченный набор значений (при чтении JSON-файла в Python эта структура будет преобразована в список).

Формат JSON допускает неограниченное количество вложений этих структур друг в друга.

[{"id": 10259, "cuisine": "greek", "ingredients": ["romaine lettuce", "black olives", "grape tomatoes", "garlic", "pepper", "purple onion", "seasoning", "garbanzo beans", "feta cheese crumbles"]}, {"id": 25693, "cuisine": "southern_us", "ingredients": ["plain flour", "ground pepper", "salt", "tomatoes", "ground black pepper", "thyme", "eggs", "green tomatoes", "yellow corn meal", "milk", "vegetable oil"]}, {"id": 20130, "cuisine": "filipino"]

## ОТКРЫВАЕМ JSON-ФАЙЛ

## Примечание:

Чтобы перевести данные из формата JSON в формат, который можно обрабатывать инструментами Python, необходимо выполнить процедуру, которая называется ***десериализация*** (декодирование данных). Обратный процесс, связанный с переводом структур данных Python в формат JSON, называется ***сериализацией***.

Для выполнения десериализации мы воспользуемся методом load() модуля json, который принимает на вход ссылку на открытый JSON-файл

In [24]:
# Используем для десериализации конструкцию with open('...') as reader:
with open('Data/recipes.json') as reader:
    # Загружаем содержимое открытого файла в переменную recipes
    recipes = json.load(reader)

Теперь содержимое нашего файла загружено в переменную recipes. Давайте выведем его на экран с помощью функции pprint()

In [25]:
display(pprint(recipes))

[{'cuisine': 'greek',
  'id': 10259,
  'ingredients': ['romaine lettuce',
                  'black olives',
                  'grape tomatoes',
                  'garlic',
                  'pepper',
                  'purple onion',
                  'seasoning',
                  'garbanzo beans',
                  'feta cheese crumbles']},
 {'cuisine': 'southern_us',
  'id': 25693,
  'ingredients': ['plain flour',
                  'ground pepper',
                  'salt',
                  'tomatoes',
                  'ground black pepper',
                  'thyme',
                  'eggs',
                  'green tomatoes',
                  'yellow corn meal',
                  'milk',
                  'vegetable oil']},
 {'cuisine': 'filipino',
  'id': 20130,
  'ingredients': ['eggs',
                  'pepper',
                  'salt',
                  'mayonaise',
                  'cooking oil',
                  'green chilies',
                  'grilled chicken bre

None

Итак, видно, что рецепт каждого из блюд описан в виде словаря, который состоит из трёх пар "ключ-значение":

- Ключ "cuisine" — обозначает принадлежность блюда к определённой национальной кухне (например, 'greek', 'southern_us', 'filipino' и т. д.);

- Ключ "id" — уникальный идентификационный номер блюда;

- Ключ "ingredients"— содержит перечень продуктов, входящих в состав блюда.

Все рецепты хранятся в одном списке, располагаясь последовательно.

## ИЗВЛЕЧЕНИЕ ДАННЫХ ИЗ JSON-ФАЙЛА

После того как провели ***десериализацию** файла, мы можем работать с полученным объектом как с обычными списками и словарями. 

Единственное отличие от манипуляций с привычными списками и словарями заключается в том, что данных теперь больше и они помещены внутрь структуры с большим количеством уровней вложенности.

Пример блюда записанного первым. Его индекс — 0, и информация о нём хранится в словаре. Чтобы узнать ID этого блюда, можно обратиться к соответствующему ключу словаря, выполнив следующий код:

In [26]:
display(recipes[0]['id'])

# Аналогичным образом, для получения списка ингредиентов первого блюда в списке можно
# использовать тот же код, заменив в нём ключ 'id' на 'ingredients'
display(recipes[0]['ingredients'])
display(f"Количество ингредиентов: {len(recipes[0]['ingredients'])}")

10259

['romaine lettuce',
 'black olives',
 'grape tomatoes',
 'garlic',
 'pepper',
 'purple onion',
 'seasoning',
 'garbanzo beans',
 'feta cheese crumbles']

'Количество ингредиентов: 9'

Также можно извлечь информацию о конкретном блюде по его ID. Для этого необходимо с помощью цикла, например for, перебрать все элементы списка, проверяя ключ 'id', и извлечь нужную информацию, когда мы наконец найдем нужное блюдо.

In [27]:
for recipe in recipes:
    if recipe['id'] == 13121:
        display(recipe['cuisine'])

'thai'

На практике также иногда возникают задачи по извлечению из JSON-файла обобщённой информации. Можно решить две такие задачи:

* ВАРИАНТ РЕШЕНИЯ С ИСПОЛЬЗОВАНИЕМ СПИСКА

Чтобы извлечь эту информацию, нам нужно создать пустой список и последовательно заполнять его уникальными значениями, доступными по ключу 'cuisine' в каждом из словарей, содержащих информацию о рецептах. Поскольку словари объединены в список recipes, не получится применить известный нам метод unique() (этот метод неприменим к словарям), и для извлечения всех уникальных значений нужно перебирать элементы списка в цикле с параметром.

* ВАРИАНТ РЕШЕНИЯ С ИСПОЛЬЗОВАНИЕМ МНОЖЕСТВА

Другой способ решения этой же задачи — использование для хранения данных о разных кухнях не списка, а множества (set). Множество содержит только уникальные элементы, поэтому при работе с ним нет необходимости проверять, содержится ли там тот или иной элемент. Если элемент (в нашем примере — название типа кухни) уже есть, то команда "добавить во множество такое же значение" будет проигнорирована.

In [28]:
сuisines = set()
for recipe in recipes:
    сuisines.add(recipe['cuisine'])
    
display(сuisines)
display(f"Количество кухонь: {len(сuisines)}")

{'brazilian',
 'british',
 'cajun_creole',
 'chinese',
 'filipino',
 'french',
 'greek',
 'indian',
 'irish',
 'italian',
 'jamaican',
 'japanese',
 'korean',
 'mexican',
 'moroccan',
 'russian',
 'southern_us',
 'spanish',
 'thai',
 'vietnamese'}

'Количество кухонь: 20'

In [29]:
recipes_count = {}
# Создаём пустой словарь для хранения информации об количествах рецептов в каждой кухне и заполняем его нулями
for item in сuisines:
    recipes_count[item] = 0 # Добавляем в словарь ключ, соответствующий очередной кухне
    
for recipe in recipes: # Перебираем список рецептов
    recipes_count[recipe['cuisine']] += 1 # Увеличиваем значение нужного ключа в словаре на 1

# Извлекаем значения для всех ключей используя метод get(), выбираем самое максимальное значение 
# (при наличии одинаковых значений будет выбрано первое в словаре) и выводим на экран ключ максимального значения  
display(max(recipes_count, key=recipes_count.get))

'italian'

## ИЗ JSON В PANDAS

Поскольку структура всех вложенных словарей одинакова, можно создать DataFrame на основе списка, не проводя с ним никаких дополнительных манипуляций:

In [30]:
# Открываем файл и связываем его с объектом reader
with open('Data/recipes.json') as reader:
    # Загружаем содержимое открытого файла в переменную recipes
    recipes = json.load(reader)

# Создаём объект DataFrame из списка recipes
recipes_df = pd.DataFrame(recipes)
display(recipes_df.head(5))

Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes..."
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g..."
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g..."
3,22213,indian,"[water, vegetable oil, wheat, salt]"
4,13162,indian,"[black pepper, shallots, cornflour, cayenne pe..."


## Другой вариант:

Для непосредственного считывания содержимого файла recipes.json в переменную recipes_df (объект DataFrame) можно использовать функцию pd.read_json().

In [31]:
recipes_df = pd.read_json('Data/recipes.json')
display(recipes_df.head(5))

Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes..."
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g..."
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g..."
3,22213,indian,"[water, vegetable oil, wheat, salt]"
4,13162,indian,"[black pepper, shallots, cornflour, cayenne pe..."


Каждая строка соответствует одному рецепту, в столбце id хранится его идентификационный номер, в столбце cuisine — тип кухни, а столбец ingredients содержит ***список***, в котором перечислены ингредиенты, необходимые для приготовления блюда.

Поскольку столбец ingredients содержит список, такая структура не подойдет для дальнейшего изучения дата-сета. Стоит переделать ее в более удобный формат, где каждый ингредиент находится в своем столбце.

Работа над преобразованием DataFrame начнется с создания и заполнения столбцов, содержащих сведения о наличии или отсутствии каждого ингредиента в рецепте. Процесс заполнения выполнится в два этапа:

1. Создается функция для заполнения значения в каждой ячейке. Функция будет проверять наличие конкретного ингредиента в столбце ingredients для текущего блюда и возвращать 1, если ингредиент есть в рецепте, и 0, если он отсутствует.

2. Организуется цикл, в котором будет перебираться наименования всех ингредиентов DataFrame (для этого потребуется создать реестр, то есть некий список, который содержит уникальные наименования ингредиентов). Для каждого ингредиента создается в DataFrame столбец с соответствующим названием и заполняется единицами и нулями, применив к DataFrame, а точнее к столбцу ingredients функцию, созданную на предыдущем этапе.

In [32]:
# Вариант 1 (с использованием вложенных циклов for)
# Реестр уникальных ингредиентов, которые будем использовать в качестве столбцов
all_ingredients = set()

for ingredient_lst in recipes_df['ingredients']:
    for ingredient_name in ingredient_lst:
            all_ingredients.add(ingredient_name)

display(f'Количество уникальных ингредиентов: {all_ingredients.__len__()}')

'Количество уникальных ингредиентов: 1318'

In [33]:
from itertools import chain

# Вариант 2 (с созданием плоского списка и использование библиотека itertools)
# Реестр уникальных ингредиентов, которые будем использовать в качестве столбцов
all_ingredients = set()

# Создаем из сложенного списка recipes_df['ingredients'] плоский список
ingredient_list = list(chain(*recipes_df['ingredients']))
# Перебираем единый список
for ingredient_name in ingredient_list:
    all_ingredients.add(ingredient_name)

display(f'Количество уникальных ингредиентов: {all_ingredients.__len__()}')

'Количество уникальных ингредиентов: 1318'

Теперь определим функцию contains(), с помощью которой будем проверять наличие конкретного ингредиента ingredient_name в рецепте текущего блюда, который представлен списком ingredient_list (значение в ячейке столбца ingredients текущего рецепта).

Теперь нужно перебрать все ингредиенты из ранее созданного реестра all_ingredients с помощью цикла for и создать в DataFrame столбец с соответствующим названием, заполнив его единицами и нулями. Для этого применим к DataFrame, а точнее, к столбцу ingredients функцию contains()

In [34]:
def contains(ingredient_lst):
    # Если ингредиент ингредиент содержится в текущем блюде, то возвращаем 1
    if ingredient_name in ingredient_lst:
        return 1
    # Eсли нет, то возвращаем 0
    else:
        return 0

for ingredient_name in all_ingredients:
    recipes_df[ingredient_name] = recipes_df['ingredients'].apply(contains)

In [35]:
# Заменяем список ингредиентов на их количество
recipes_df['ingredients'] = recipes_df['ingredients'].apply(len)
display(recipes_df.head(5))

Unnamed: 0,id,cuisine,ingredients,Italian seasoned breadcrumbs,natural peanut butter,lemon juice,anchovy fillets,wheat bran,bean paste,shredded cheese,...,zucchini,provolone cheese,wood ear mushrooms,yellow bell pepper,baby arugula,chili paste with garlic,broiler-fryer chicken,pepper,chicken livers,"green bell pepper, slice"
0,10259,greek,9,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
1,25693,southern_us,11,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,20130,filipino,12,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,1,0
3,22213,indian,4,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,13162,indian,20,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


## Задание 6.5

Напишите код для создания списка ids всех блюд, представленных в датафрейме. Нужны только уникальные значения.

Порядок id должен совпадать с тем, как они расположены в исходном датафрейме.

In [36]:
ids = []

for id in recipes_df['id']:
    ids.append(id)
    
# display(ids)

Сохраняем дата-фрейм с нашими манипуляциями.

In [37]:
recipes_df.to_csv('Data/recipes.csv', index = False)

## ИЗ PANDAS В JSON

Теперь создадим JSON-файл из сохранённого ранее CSV-файла, который получили в конце предыдущего этапа. 

Начнём с чтения файла и создания DataFrame на его основе:

In [38]:
recipes_df = pd.read_csv('Data/recipes.csv')

Теперь, используя только данные из этого файла (recipes_df), нужно в точности воссоздать структуру исходного JSON-файла. Мы помним, что после ***десериализации*** данные представляли собой список, состоящий из словарей. В каждом словаре хранилась информация о рецепте одного блюда. Каждый словарь состоял из трёх пар "ключ-значение". Первая пара содержала название кухни, к которой относилось блюдо, вторая — id блюда, и третья — список ингредиентов входящих в состав блюда.

Код для создания списка id всех блюд. Результирующий список занесите в переменную ids.

In [39]:
ids = []

for id in recipes_df['id']:
    ids.append(id)

# display(ids)

Код для создания списка ингредиентов всех блюд. Результирующий список занесите в переменную ingredients

In [40]:
ingredients = []
exclude_cols = ['id', 'cuisine', 'ingredients']

for col_name in recipes_df.columns:
    if col_name not in exclude_cols:
        ingredients.append(col_name)
display(ingredients)

['Italian seasoned breadcrumbs',
 'natural peanut butter',
 'lemon juice',
 'anchovy fillets',
 'wheat bran',
 'bean paste',
 'shredded cheese',
 'fat free less sodium beef broth',
 'crushed red pepper',
 'cooked quinoa',
 'dried bonito flakes',
 'peaches',
 'capicola',
 'salmon steaks',
 'red miso',
 'chinese five-spice powder',
 'strawberries',
 'fresh herbs',
 'apricot preserves',
 'dark rum',
 'pineapple preserves',
 'soy sauce',
 'frozen whipped topping',
 'thai basil',
 'chuck roast',
 'round steaks',
 'basil',
 'aged gouda',
 'urad dal',
 'mozzarella cheese',
 'romaine lettuce leaves',
 'crushed tomatoes',
 'tamarind paste',
 'frozen peas and carrots',
 'sourdough',
 'Flora Cuisine',
 'crushed garlic',
 'jumbo shrimp',
 'italian salad dressing mix',
 'arame',
 'thai green curry paste',
 'rib eye steaks',
 'steak',
 'organic sugar',
 'tomatillo salsa',
 'lime wedges',
 'bacon drippings',
 'dark brown sugar',
 'seaweed',
 'jambalaya rice mix',
 'dill',
 'unsalted cashews',
 'cucum

Теперь мы можем использовать подготовленные списки ids и ingredients для непосредственного создания JSON-структуры

После десериализации JSON-файла мы получили структуру, представляющую собой список, состоящий из словарей. Каждый словарь состоял из трёх пар "ключ-значение", при этом в качестве значений выступали:

- целое число (id блюда);

- строковая величина (тип кухни);

- список строковых величин (перечень ингредиентов)

Сейчас нам предстоит воссоздать эту структуру, извлекая данные из DataFrame. Для этого необходимо создать:

- пустой список new_recipes — для хранения итоговой структуры;

- используя код со списком ids — для хранения id всех блюд;

- используя код со списком ingredients — для хранения названий всех ингредиентов.

Далее необходимо реализовать следующий алгоритм:

1. Написать код функции make_list(), которая принимает на вход строку DataFrame df, содержащую полные данные об одном блюде (в виде Series), и возвращает перечень ингредиентов, входящих в состав этого блюда (в виде списка).

2. Организовать цикл с параметром, в котором будут перебираться элементы списка ids. В результате в процессе прохождения цикла параметр должен принять значение id каждого блюда.

3. На каждом шаге цикла создать словарь, содержащий три пары "ключ-значение":
    * ключу "id" присвоить текущее значение параметра цикла как целого числа;
    * ключу "cuisine" присвоить значение соответствующей кухни, которое мы получим, применив фильтр по текущему id к DataFrame df;
    * ключу "ingredients" присвоить значение списка, воспользовавшись функцией make_list(), созданной на первом шаге алгоритма.

4. Каждый созданный словарь добавить к списку new_recipes:

In [41]:
# Создаём пустой список для хранения итоговой структуры
new_recipes = []
ingredients = list(recipes_df.columns)[3:] # Создаем список уникальных значений ингредиентов

# def make_list(row): # Определяем имя функции и передаваемые аргументы
#     ingredient_list = [] # Создаём пустой список ингредиентов текущего блюда
#     for ingredient in ingredients: # Последовательно перебираем ингредиенты из реестра
#         if row[ingredient].item() == 1: # Если текущий ингредиент входит в состав текущего блюда
#             ingredient_list.append(ingredient) # Добавляем ингредиент в список ингредиентов текущего блюда
#     return ingredient_list # Возвращаем сформированный список ингредиентов

def make_list(row):
    ingredients = []
    exclude_cols = ['id', 'cuisine', 'ingredients']
    
    for col_name in row.keys():
        if (col_name not in exclude_cols) and (row[col_name].item() == 1):
            ingredients.append(col_name)
    return ingredients

for curr_id in ids:
    # Получаем значение соответствующей кухни, применив фильтр по текущему значению параметра цикла к DataFrame
    cuisine = recipes_df[recipes_df['id'] == curr_id]['cuisine'].iloc[0]
    # Получаем перечень ингредиентов, входящих в состав текущего блюда
    current_ingredients = make_list(recipes_df[recipes_df['id'] == curr_id])
    # Создаем текущий словарь
    current_recipe = {'cuisine': cuisine, 'id': int(curr_id), 'ingredients': current_ingredients}
    # Добавляем созданный словарь к списку
    new_recipes.append(current_recipe)

display(new_recipes)

[{'cuisine': 'greek',
  'id': 10259,
  'ingredients': ['seasoning',
   'garbanzo beans',
   'feta cheese crumbles',
   'purple onion',
   'romaine lettuce',
   'black olives',
   'grape tomatoes',
   'garlic',
   'pepper']},
 {'cuisine': 'southern_us',
  'id': 25693,
  'ingredients': ['green tomatoes',
   'salt',
   'tomatoes',
   'eggs',
   'thyme',
   'ground black pepper',
   'ground pepper',
   'milk',
   'plain flour',
   'vegetable oil',
   'yellow corn meal']},
 {'cuisine': 'filipino',
  'id': 20130,
  'ingredients': ['soy sauce',
   'cooking oil',
   'salt',
   'eggs',
   'yellow onion',
   'green chilies',
   'garlic powder',
   'mayonaise',
   'butter',
   'grilled chicken breasts',
   'pepper',
   'chicken livers']},
 {'cuisine': 'indian',
  'id': 22213,
  'ingredients': ['salt', 'wheat', 'vegetable oil', 'water']},
 {'cuisine': 'indian',
  'id': 13162,
  'ingredients': ['lemon juice',
   'natural yogurt',
   'double cream',
   'oil',
   'salt',
   'cornflour',
   'black pep

In [42]:
# Вариант 1
def make_list(row):
    ingredients = []
    exclude_cols = ['id', 'cuisine', 'ingredients']
    
    for col_name in row.keys():
        if (col_name not in exclude_cols) and (row[col_name].item() == 1):
            ingredients.append(col_name)
    return ingredients

display(make_list(row = recipes_df.iloc[-1]))

['figs',
 'melted butter',
 'salt',
 'large eggs',
 'whole milk',
 'grated lemon peel',
 'ground nutmeg',
 'confectioners sugar',
 'baking powder',
 'all-purpose flour',
 'ground cinnamon',
 'mint',
 'heavy cream',
 'granulated sugar',
 'graham cracker crumbs',
 'sprinkles',
 'berries']

In [43]:
# Вариант 1

def make_list(row): # Определяем имя функции и передаваемые аргументы
    ingredients = list(recipes_df.columns)[3:] # Создаем список уникальных значений ингредиентов
    ingredient_list=[] # Создаём пустой список ингредиентов текущего блюда
    
    for ingredient in ingredients: # Последовательно перебираем ингредиенты из реестра
        if row[ingredient].item()==1: # Если текущий ингредиент входит в состав текущего блюда
            ingredient_list.append(ingredient) # Добавляем ингредиент в список ингредиентов текущего блюда
    return ingredient_list # Возвращаем сформированный список ингредиентов

display(make_list(row = recipes_df.iloc[-1]))

['figs',
 'melted butter',
 'salt',
 'large eggs',
 'whole milk',
 'grated lemon peel',
 'ground nutmeg',
 'confectioners sugar',
 'baking powder',
 'all-purpose flour',
 'ground cinnamon',
 'mint',
 'heavy cream',
 'granulated sugar',
 'graham cracker crumbs',
 'sprinkles',
 'berries']

Выполним сериализацию списка new_recipes и запишем полученные данные в файл.

Для сериализации  используем функцию dumps(), которой в качестве параметра передадим список new_recipes. Запись в файл осуществляется с помощью метода write(). Предварительно файл необходимо открыть для записи с помощью функции open() c параметром 'w'

In [44]:
# Функция dumps() модуля json сериализирует объект Python в строку формата JSON.
new_recipes = json.dumps(new_recipes)

# Откроем файл new_recipes.json для записи
with open('Data/new_recipes.json', 'w') as writer:
    # Записываем содержимое подготовленные данные в файл
    writer.write(new_recipes)

Задача по созданию JSON-файла из сохранённого ранее CSV-файла решена!

## XML

XML расшифровывается как eXtensible Markup Language — расширяемый язык разметки. Он (язык) позволяет описывать документы, используя теги.

## ИЗВЛЕКАЕМ КОНТЕНТ ИЗ XML-ФАЙЛА

Данные в формате XML имеют древовидную структуру. 

Дерево - структура, которая имеет узлы и связи между ними. Самый верхнеуровневый узел называется корнем, а всё, что находится в самом низу, называется листьями. 

Для работы с XML-файлами будем использовать модуль ElementTree, входящий в стандартный пакет xml. Этот модуль позволит «перемещаться» по дереву XML и смотреть, что находится в каждом его узле, начиная с корня и заканчивая листьями.

Импортируем этот модуль под псевдонимом ET:

```python
# Импортируем модуль ElementTree
import xml.etree.ElementTree as ET
```

In [45]:
import xml.etree.ElementTree as ET

Далее работа будет вестись с файлом menu.xml

Для работы со структурой файла menu.xml считаем его содержимое в переменную tree, выполнив код:

In [46]:
tree = ET.parse('Data/menu.xml')

## КОРЕНЬ

Запишем в переменную root корневой узел дерева tree и посмотрим, как выглядит содержимое переменной root, для чего выполним код:

In [47]:
root = tree.getroot()
display(root)
# Такой тип будет у любого узла в дереве.
display(f"Тип объекта: {type(root)}")

<Element 'menu' at 0x12677e8e0>

"Тип объекта: <class 'xml.etree.ElementTree.Element'>"

## ПОТОМКИ

Для того чтобы посмотреть список потомков корневого узла, выполним следующий код:

In [48]:
# Если у узла нет потомков, то вернётся пустой список — [].
display(list(root))

[<Element 'dish' at 0x1267b3970>, <Element 'dish' at 0x1267b1b20>]

Использование list(root) возвращает список потомков указанного узла. У узла root, который представляет меню, два потомка, а именно — два блюда, которые представлены тегами dish

Для того чтобы получить список потомков второго блюда в нашем меню и вывести его на экран, выполним код:

In [49]:
display(list(root[1]))

[<Element 'price' at 0x1267b0d60>,
 <Element 'weight' at 0x1267b3ab0>,
 <Element 'class' at 0x1267b3740>]

Таким образом, у второго потомка узла root —  три потомка

## АТРИБУТЫ И ТЕГИ

У узлов могут быть параметры, или атрибуты. Например, у узлов dish есть атрибут name, который хранит название блюда.

Мы можем непосредственно обратиться к атрибутам, используя attrib.

Выведем на экран атрибуты первого блюда из меню:

In [50]:
display(root[0].attrib)

{'name': 'Кура'}

В XML-узлах часто хранятся количественные показатели. Эти показатели хранятся в виде текста, и прочитать их можно, обратившись к атрибуту text у соответствующего объекта типа ElementTree.Element.

Например, возьмём узел price первого блюда из меню:

In [51]:
display(root[0][0])

display(root[0][0].text)

<Element 'price' at 0x1267b3600>

'40'

# Примечание:

Все значения в XML, даже числовые, хранятся как строки, поэтому преобразовывать их к нужному типу нужно самим!

In [52]:
display(int(root[0][0].text))

40

Если хотите прочитать наименование TЭГА конкретного узла, необходимо использовать tag. Например, получим наименование тега корневого узла:

In [53]:
display(root.tag)

'menu'

In [54]:
root[0][2].tag

'class'

## ИСПОЛЬЗОВАНИЕ ЦИКЛОВ

На этом шаге решим задачу вывода на экран наименование всех блюд из меню, а также информацию о них (иными словами, нам необходимо обойти дерево и вывести на экран значения его листьев).

Используя цикл for, автоматизируем обход дерева. Для этого напишем следующий код:

In [60]:
for dish in root:
    for param in dish:
        display(f"{dish.attrib['name']} {param.tag} {param.text}")
    display()

'Кура price 40'

'Кура weight 300'

'Кура class Мясо'

'Греча price 20'

'Греча weight 200'

'Греча class Крупа'

В этом коде реализован следующий алгоритм:

1. В первом (внешнем) цикле перебираем потомков корня дерева (root). Потомки перебираются последовательно при помощи переменной dish. Это отдельные блюда из меню.

2. Во втором (вложенном) цикле аналогичным образом перебираем потомков каждого блюда. Этими потомками являются параметры блюда — его цена (price), вес (weight) и класс (class).

3. После этого выводим на экран название блюда (значение атрибута name), название очередного параметра (tag) и его значение (text).

4. Дополнительная функция display() в цикле верхнего уровня предназначена для организации более удобного восприятия информации — между отдельными блюдами будет выведена пустая строка.

## ЗАГРУЖАЕМ ДАННЫЕ ИЗ XML-ФАЙЛА В DATAFRAME

На примере работы с файлом-меню.


Реализуем следующий алгоритм:

1. Загрузить XML-структуру файла menu.xml в переменную root.

2. Создать пустой список df_list (в него будем добавлять строчки итоговой таблицы).

3. Заранее создать список column_names с именами столбцов — название блюда (name), его цена (price), вес (weight) и класс (class).

4. В цикле организовать обход xml-дерева из корня по всем потомкам.

5. На каждой итерации цикла сформировать в виде списка строку таблицы, содержащую информацию: наименование блюда (атрибут name узла dish) и значения потомков этого узла — узлов price, weight, class.

6. Добавить сформированную строку в список df_list, используя метод append().

7. Сформировать из вложенного списка DataFrame. Имена для столбцов взять из списка column_names.

In [62]:
# Список с именами столбцов
columns_name = ['name', 'price', 'weight', 'class']

# Пустой список
df_list = []

# Цикл
for dish in root:
    row = [dish.attrib['name'], dish[0].text, dish[1].text, dish[2].text]
    df_list.append(row)

menu_df = pd.DataFrame(df_list, columns=columns_name)
display(menu_df)

Unnamed: 0,name,price,weight,class
0,Кура,40,300,Мясо
1,Греча,20,200,Крупа


## СОЗДАЁМ XML-ФАЙЛ

Воссоздадим структуру нашего исходного XML-файла с нуля,  руководствуясь общими рекомендациями.

Чтобы создать корень дерева, используем метод Element() из класса ElementTree:

In [63]:
new_root = ET.Element('menu')

display(new_root)

<Element 'menu' at 0x12813d440>

Теперь можем добавлять новые узлы в наше дерево, используя метод SubElement() из того же класса.

Добавим в наше меню двух потомков корневого узла, которые будут представлять два блюда, то есть будут узлами dish:

In [64]:
dish_1 = ET.SubElement(new_root, 'dish', name='Кура')

dish_2 = ET.SubElement(new_root, 'dish', name='Греча')

display(list(new_root))

[<Element 'dish' at 0x127e56750>, <Element 'dish' at 0x127e56ed0>]

В метод SubElement() мы передали первым аргументом узел, к которому добавляем потомка, вторым аргументом — наименование нового тега (dish),  третьим аргументом — наименование атрибута нового узла( name ) и его значение.

# Примечание:

Аналогичным образом можно добавлять новые узлы к любым существующим узлам, не только к корню.

Добавим в создаваемую структуру по три потомка (атрибута) к двум новым узлам, которые будут содержать информацию о блюде — о его цене (price), весе (weight) и классе (class), а также значение этих атрибутов:

In [65]:
price_1 = ET.SubElement(dish_1, 'price').text = '40'
weight_1 = ET.SubElement(dish_1, 'weight').text = '300'
class_1 = ET.SubElement(dish_1, 'class').text = 'Мясо'
display(list(dish_1))

price_2 = ET.SubElement(dish_2, 'price').text = '20'
weight_2 = ET.SubElement(dish_2, 'weight').text = '200'
class_2 = ET.SubElement(dish_2, 'class').text = 'Крупа'
display(list(dish_2))

[<Element 'price' at 0x1268ce5c0>,
 <Element 'weight' at 0x1268cd0d0>,
 <Element 'class' at 0x1268cca40>]

[<Element 'price' at 0x12682f7e0>,
 <Element 'weight' at 0x12682de40>,
 <Element 'class' at 0x12682c2c0>]

Проверим визуально корректность созданной нами структуры, выполнив фрагмент кода, разработанного ранее:

In [66]:
for dish in new_root:
    for param in dish:
        display(f"{dish.attrib['name']} {param.tag} {param.text}")
    display()

'Кура price 40'

'Кура weight 300'

'Кура class Мясо'

'Греча price 20'

'Греча weight 200'

'Греча class Крупа'

Созданная нами структура полностью идентична структуре исходного XML-файла.

## СОХРАНЕНИЕ XML-ФАЙЛА

Преобразуем созданный нами объект типа ElementTree.Element в строку c помощью метода tostring(), передав наше новое дерево как аргумент. Сохраним эту строку на диске, используя стандартные средства Python:

In [67]:
new_root_string = ET.tostring(new_root)

with open('Data/new_menu.xml', 'wb') as writer:
    writer.write(new_root_string)

Возможно, вы увидите проблему, связанную с кодировкой. Что делать в этом случае? Как вариант — записать файл, используя сам класс ElementTree() :

In [68]:
my_new_root = ET.ElementTree('Data/new_menu.xml')
display(my_new_root)

<xml.etree.ElementTree.ElementTree at 0x128204620>

In [69]:
ET.ElementTree(new_root).write('Data/new_menu.xml', encoding='utf8')

Для этого мы передаём в класс ElementTree() наше дерево (не его строковое представление) и вызываем метод write(). В метод мы передаём путь к новому файлу и нужную нам кодировку.