In [1]:
import pandas as pd

### Экспорт данных в формат csv осуществляется с помощью метода         **DataFrame to_csv()**            

* **path_or_buf** — путь до файла, в который будет записан DataFrame (например, data/my_data.csv);
* **sep** — разделитель данных в выходном файле (по умолчанию ',');
* **decimal** — разделитель чисел на целую и дробную части в выходном файле (по умолчанию '.');
* **columns** — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);
* **index** — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию True).

### Запись и чтение в других форматах

* **to_excel()** — запись DataFrame в формат Excel-таблицы (.xlsx);
* **to_json()** — запись DataFrame в формат JSON (.json);
* **to_xml()** — запись DataFrame в формат XML-документа (.xml);
* **to_sql()** — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных).
##
* **read_excel()** — чтение из формата Excel-таблицы (.xlsx) в DataFrame;
* **read_json()** — чтение из формата JSON (.json) в DataFrame;
* **read_xml()** — чтение из формата XML-документа (.xml) в DataFrame;
* **read_sql()** — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).

### **1.** Для демонстрации использования функции **read_table()** выполним следующее: 

* используя  функцию read_csv(), считаем данные из файла countries.csv в переменную countries_data, создав объект DataFrame;
* используя уже знакомую функцию to_csv(), выгрузим этот DataFrame в файл countries.txt (с расширением TXT), который сохраним в папке data. В качестве разделителя используется символ пробела (" ").

In [2]:
# используя  функцию read_csv(), считаем данные из файла countries.csv в переменную countries_data, создав объект DataFrame;
countries_data = pd.read_csv('data/countries.csv', sep=';')
display (countries_data)


# используя уже знакомую функцию to_csv(), выгрузим этот DataFrame в файл countries.txt (с расширением TXT), который сохраним в папке data. 
# В качестве разделителя используется символ пробела (" ").
countries_data.to_csv('data/countries.txt', index=False, sep=' ')

Unnamed: 0,country,population,area
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


##### Считаем данные из файла countries.txt в переменную txt_df  (объект DataFrame), применив функцию read_table() с параметрами sep=' '  и  index_col=['country'] (так мы избавимся от столбца с индексом и присвоим названия строкам, используя данные одного из столбцов). Выводим на экран полученный результат:

In [3]:
# Загружаем данные из файла в переменную, создавая объект DataFrame
txt_df = pd.read_table('data/countries.txt', sep=' ', index_col=['country'])
display (txt_df)

Unnamed: 0_level_0,population,area
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Англия,56.29,133396
Канада,38.05,9984670
США,322.28,9826630
Россия,146.24,17125191
Украина,45.5,603628
Беларусь,9.5,207600
Казахстан,17.04,2724902


### **2.** Применение параметра **header**

* Используя параметр header, при создании DataFrame мы учитываем наличие/отсутствие строки заголовков в исходном файле данных.

* Например, если при считывании данных из ранее сохранённого в папке data файла melb_data_ps.csv указать значение параметра header=None, то первая строка исходного файла не будет восприниматься как строка заголовка и будет отнесена к области данных DataFrame:

In [4]:
melb_data_test = pd.read_csv('../project_1_Pandas/data/melb_data_ps.csv')
display (melb_data_test.head(3)) 

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"


In [5]:
# Загружаем данные из файла в переменную, создавая объект DataFrame
melb_data = pd.read_csv('../project_1_Pandas/data/melb_data_ps.csv', header=None) 
# Выводим содержимое DataFrame на экран
display(melb_data.head(5))

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13,14,15,16,17,18,19,20,21,22
0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
1,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
2,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
3,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
4,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"


### **3.** Решаем проблему с кодировкой исходных данных

**При считывании файла и создании DataFrame может возникнуть проблема — при выводе на экран данные будут отображаться в виде нечитаемых символов. Это связано с кодировкой символов в исходном файле.**

* узнаем, какая кодировка символов используется в считываемом файле, для этого обратимся к субмодулю **chardet.universaldetector** библиотеки Universal Encoding Detector. Модуль необходимо предварительно установить с помощью стандартной команды менеджера пакетов pip: **pip install chardet;**
* при считывании файла и создании DataFrame будем использовать параметр encoding  —  указывает, какой тип кодировки символов используется в считываемом файле. 

##### **3.1.** Локализуем проблему

Считываем файл и создаем DataFrame без использования параметра **encoding**:
##
**Выявлена проблема**: при стандартном считывании содержимое файла читается некорректно. Необходимо указать кодировку файла при считывании.

In [6]:
# Считываем данные из файла с неизвестной кодировкой в переменную, создавая объект DataFrame
data=pd.read_csv('data/ErrorEnCoding.csv', header=None, encoding_errors='replace') 
# Выводим содержимое DataFrame на экран
display(data)

Unnamed: 0,0,1,2
0,User_943,Accumanst@gmail.com,������
1,User_908,Advismowr@mail.ru,������
2,User_962,Anachso@ukr.net,���������
3,User_973,Antecia@inbox.ru,�����
4,User_902,Balliaryva@ukr.net,
...,...,...,...
95,User_959,UpdatesCurious@yahoo.com,������
96,User_901,V2artierso@mail.ru,�����������
97,User_970,Vashoterlo@bk.ru,�������
98,User_965,Visuareda@yahoo.com,�������


### **3.2** Определяем кодировку файла

Приведённый ниже код поможет нам определить используемую кодировку в файле, степень достоверности, используемый язык **(применяется для большого объема текстовых данных)**.

In [7]:
# Импортируем субмодуль chardet.universal
from chardet.universaldetector import UniversalDetector

detector = UniversalDetector()

with open('data/ErrorEnCoding.csv', 'rb') as fh:
    for line in fh:
        detector.feed(line)
        if detector.done:
            break
print(detector.close())

{'encoding': 'KOI8-R', 'confidence': 0.8773902118791048, 'language': 'Russian'}


##### **ВЫВОД** - с достоверностью примерно 88 % тип используемой в файле кодировки — koi8-r. Повторим считывание файла, используя полученные данные.

##### Считываем файл, указав кодировку т.е. используем параметр **encoding**

In [8]:
# Создаем DataFrame из файла, явно указав кодировку символов, и выводим его содержимое на экран
data=pd.read_csv('data/ErrorEnCoding.csv', encoding='koi8-r', header=None)
display(data)

Unnamed: 0,0,1,2
0,User_943,Accumanst@gmail.com,Ижевск
1,User_908,Advismowr@mail.ru,Ижевск
2,User_962,Anachso@ukr.net,Краснодар
3,User_973,Antecia@inbox.ru,Пермь
4,User_902,Balliaryva@ukr.net,
...,...,...,...
95,User_959,UpdatesCurious@yahoo.com,Тюмень
96,User_901,V2artierso@mail.ru,Арзангелтск
97,User_970,Vashoterlo@bk.ru,Воронеж
98,User_965,Visuareda@yahoo.com,Воронеж


![image.png](attachment:image.png)

### ДОПОЛНИТЕЛЬНО
* При открытии файла использовалась конструкция **with ... as ... (с англ. «с... как...»)**. Эта конструкция применяется для гарантии того, что критические функции и методы (в данном случае **метод .close()** закрывает открытый ранее файл) будут выполнены в любом случае.

##### Открываем файл и связываем его с объектом "f"
* with open('path/filename') as f: # Работа с файлом...
* ...не забываем про отступ...
* ...   
* Нет отступа = работа с файлом закончена, файл filename закрыт

##### Как упоминалось ранее, здесь конструкция with ... as ... гарантирует закрытие файла filename, связанного с объектом f.

### **4.** Чтение файла по ссылке, используя функцию **read_table()**

Ранее вы уже считывали данные из файла melb_data.csv, который находится в свободном доступе в интернете, используя функцию read_csv(). Попробуем использовать функцию read_table(), указав в качестве разделителя данных запятую — ','.

In [9]:
data = pd.read_table('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv', sep=',')
display(data.head(3))

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0


##### **ВЫВОД** Как видим, функция **read_table()** сработала и с CSV-файлом — достаточно было указать, какой разделитель используется.

### **5.** Чтение/запись архивированных CSV-файлов

* → Большие по размеру CSV-файлы для экономии памяти часто «упаковывают» в архив, например zip. 
##
* Механизм, используемый в функции **read_csv()**, позволяет проводить чтение текстового файла из архива, не распаковывая его. **Функция read_csv()** сама распознает архив и извлекает из него данные (работает практически со всеми zip-архивами). Есть ограничение — файл в zip-архиве должен быть один **(если файлов в архиве несколько, то можно разархивировать файлы и работать с каждым вне архива.** Подробнее об этом поговорим в юните Итоги).

* Ранее вы работали с датасетом students_performance.csv, упакованным в архив. Для работы с файлом вы предварительно проводили распаковку архива. Попробуем начать работу с файлом, не распаковывая его.

In [10]:
data = pd.read_csv('data/students_performance.zip')
display(data)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


##### **ВЫВОД** - Файл в архиве прочитан без каких-либо проблем, данные из него загружены в переменную data.

##### В функции to_csv() предусмотрен механизм, позволяющий проводить **упаковку CSV-файлов в zip-архив.** Проделаем обратную операцию — данные из DataFrame data запишем в CSV-файл, упакуем полученный файл в zip-архив «на лету» и сохраним полученный архив в папке data, выполнив следующий код:

In [11]:
# Определяем параметры архивирования — метод сжатия, имя файла в архиве
compression_opts = dict(method='zip', archive_name='out.csv') 
data.to_csv('data/out.zip', index=False, compression=compression_opts)

##### **ВЫВОДЫ** В ходе выполнения кода содержимое DataFrame сохранено в файле **out.csv**, файл упакован в **архив out.zip**, а архив записан в каталог data.

# Считывание данных из файла **Excel**

* Подобно уже хорошо нам известной функции **read_csv()**, в pandas предусмотрена функция для удобного чтения XLS- и XLSX- файлов: read_excel() (англ. читать_Excel). Синтаксис обеих функций практически идентичен.

✍️ Для примера попробуем открыть файл grades.xlsx, содержащий оценки студентов за прослушанные курсы. Для чтения файла предварительно потребуется установить **библиотеку openpyxl через команду pip install openpyxl**.

In [12]:
grades = pd.read_excel('data/grades.xlsx')
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


##### **ВАЖНО** Так же, как и read_csv(), функция read_excel() может принимать на вход не только путь к файлу на компьютере, но и интернет-ссылку на него.

### Считывание данных из файла **EXCEL по ссылке**

* Если файл находится в открытом доступе по ссылке (например, на Google Диске или GitHub), его можно прочитать и из интернета — для этого достаточно в функции read_excel() вместо пути до файла указать ссылку на файл.

In [13]:
data = pd.read_excel('https://github.com/Yuri-VN/Working_test/raw/refs/heads/main/project_2_Pandas/data/grades.xlsx', skiprows=3)
display(data)

Unnamed: 0,3,Маша,7
0,4,Миша,4
1,5,Женя,8
2,6,Оля,9
3,7,Витя,8
4,8,Дима,7
5,9,Витя,5


### Основные параметры метода **read_excel()**

* **io** — первый параметр, в который мы передаём адрес файла, который хотим прочитать. Кроме адреса на диске, можно передавать адрес в интернете.

* **sheet_name** —  ссылка на лист в Excel-файле (возможные значения данного параметра: **0** — значение по умолчанию, загружается первый лист; 'Sheet1' — можно передать название листа; обычно листы называются 'SheetX', где X — номер листа, но могут использоваться и другие названия; **[0, 1, 'Sheet3']** — список, содержащий номера или названия листов; в таком случае Pandas вернёт словарь, в котором ключами будут номера или названия листов, а значениями — их содержимое в виде DataFrame; **None** — если передать такое значение, то pandas прочитает все листы и вернёт их в виде словаря, как в предыдущем пункте).

* **na_values** — список значений, которые будут считаться пропусками ( ‘’, ‘#N/A’, ‘ N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’).

### Следует также учесть, что нормальное поведение pandas — это считывание значений **(формулы из Excel-файла не считываются)**.

* Как упоминалось выше, один Excel-файл может включать в себя несколько листов, которые отображаются в разных вкладках (англ. sheet, рус. лист). Например, в нашем файле два листа — Maths и ML.

* По умолчанию в DataFrame читается информация из первого листа, однако read_excel()  позволяет выбрать, из какого именно листа загружать данные. Сделать это можно с помощью параметра sheet_name (рус. имя_листа). Например, чтобы прочесть данные из второго листа (ML) файла, выполним код:

In [14]:
grades = pd.read_excel('data/grades.xlsx', sheet_name='ML')
#grades = pd.read_excel('data/grades.xlsx', sheet_name='Maths')
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,7
1,2,Катя,5
2,3,Маша,9
3,4,Миша,8
4,5,Женя,9


### Выгрузка данных из DataFrame в **Excel-файл**

* После обработки данных (очистка, создание новых признаков и т. д.) методами и функциями pandas мы сталкиваемся с обратной задачей — сохранить данные из DataFrame в Excel-файл.

* Для этого в pandas есть функция **to_excel()** (рус. в_Excel), принцип работы которой очень схож с функцией to_csv():

In [15]:
# Сохраняем данные из DataFrame grades в файл grades_new.xlsx в папке data
grades.to_excel('data/grades_new.xlsx')

##### В этом случае будет **создан один лист** с именем по умолчанию "Sheet1". Также мы сохраним и индекс — в данных будет находиться лишний столбец. Чтобы создать лист с определённым именем (например, Example) и не сохранять индекс, в метод  to_excel() необходимо передать **параметры sheet_name='Example' и index=False**:

In [16]:
# Сохраняем данные из DataFrame grades в файл grades_new.xlsx (на листе 'Example') в папке data
grades.to_excel('data/grades_new.xlsx', sheet_name='Example', index=False)

### Продвинутая работа с файлами Excel в Python предполагает использование **дополнительных библиотек**, таких как:

* **openpyxl** — рекомендуемый пакет для чтения и записи файлов Excel 2010+ (например, xlsx);
* **nxlsxwriter** — альтернативный пакет для записи данных, информации о форматировании и, в частности, диаграмм в формате Excel 2010+ (например, xlsx);
* **pyxlsb** — пакет позволяет читать файлы Excel в xlsb-формате;
* **pylightxl** — пакет позволяет читать xlsx- и xlsm-файлы и записывать xlsx-файлы;
* **xlrd** — пакет предназначен для чтения данных и информации о форматировании из старых файлов Excel (например, xls);
* **xlwt** — пакет предназначен для записи данных и информации о форматировании в старые файлы Excel (например, xls).

In [17]:
# !!!!!!!!!!!!  Практика !!!!!!!!!!!!!!!!!!!!!

# Считайте данные из двух листов файла ratings_movies.xlsx в разные DataFrame, объедините в один, запишите данные из полученного DataFrame в файл. 
# Сколько строк (включая строку заголовков) в результирующем файле?

ratings = pd.read_excel('data/ratings_movies.xlsx', sheet_name='ratings')
ratings = ratings.drop_duplicates(ignore_index=True) # удаляем дубликаты и обновляем индексы после удаления дублей
print('Число строк в таблице ratings: ', ratings.shape[0])
display(ratings.head(3))

movies = pd.read_excel('data/ratings_movies.xlsx', sheet_name='movies')
movies = movies.drop_duplicates(ignore_index=True)
print('Число строк в таблице movies: ', movies.shape[0])
display(movies.head(3))

merged = ratings.merge(
    movies,
    on='movieId',
    how='left'
    )
#print('Число строк в таблице merged: ', merged.shape[0])
#display(merged.tail())

merged.to_excel('data/merged.xlsx', sheet_name='Merged', index=False)

Число строк в таблице ratings:  100836


Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224


Число строк в таблице movies:  9742


Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance


# JSON

* → **JSON** — это простой, структурированный формат обмена данными, основанный на использовании текста.

* Под обменом данных в этом контексте чаще всего подразумевается передача данных по компьютерным сетям, например пересылка данных от сервера к браузеру.

##### Модули для работы с JSON

* Для работы с данными в формате JSON используется модуль json из стандартной библиотеки языка Python, который необходимо будет загрузить перед началом работы с данными, выполнив следующую команду:    
* **import json**

In [18]:
# Импортируем модуль json
import json

Также нам может быть полезен **модуль pprint**  (от англ. pretty print, рус. красивый вывод на экран), а точнее — встроенная в него одноимённая функция pprint(), с помощью которой можно красиво выводить на экран содержимое JSON-файла. Для загрузки нужной нам функции перед началом работы выполним следующий код:

* Импортируем функцию **pprint()**
* **from pprint import pprint**

In [19]:
# Импортируем функцию pprint()
from pprint import pprint

##### КАК ВЫГЛЯДИТ JSON-ФАЙЛ?

Информация в формате JSON представляет собой (в закодированном виде) одну из двух структур:

* набор пар "ключ-значение", где ключ — это всегда строковая величина (в Python такая структура преобразуется в словарь);
* упорядоченный набор значений (при чтении JSON-файла в Python эта структура будет преобразована в список).

![image.png](attachment:image.png)

Формат JSON допускает неограниченное количество вложений этих структур друг в друга.

### ОТКРЫВАЕМ **JSON-ФАЙЛ**

* → Чтобы перевести данные из **формата JSON** в формат, который можно обрабатывать инструментами Python, необходимо выполнить процедуру, которая называется **десериализация** (декодирование данных). Обратный процесс, связанный с переводом структур данных Python в формат JSON, называется **сериализацией**.

Для выполнения десериализации мы воспользуемся **методом load()** (от англ. загрузить) модуля json, который принимает на вход ссылку на открытый JSON-файл:

In [20]:
# Открываем файл и связываем его с объектом "f"
with open('data/recipes.json') as f:  
    # Загружаем содержимое открытого файла в переменную recipes  
    recipes = json.load(f)

In [21]:
# Выводим на экран содержимое переменной recipes, используя функцию pprint()
pprint(recipes)

[{'cuisine': 'greek',
  'id': 10259,
  'ingredients': ['romaine lettuce',
                  'black olives',
                  'grape tomatoes',
                  'garlic',
                  'pepper',
                  'purple onion',
                  'seasoning',
                  'garbanzo beans',
                  'feta cheese crumbles']},
 {'cuisine': 'southern_us',
  'id': 25693,
  'ingredients': ['plain flour',
                  'ground pepper',
                  'salt',
                  'tomatoes',
                  'ground black pepper',
                  'thyme',
                  'eggs',
                  'green tomatoes',
                  'yellow corn meal',
                  'milk',
                  'vegetable oil']},
 {'cuisine': 'filipino',
  'id': 20130,
  'ingredients': ['eggs',
                  'pepper',
                  'salt',
                  'mayonaise',
                  'cooking oil',
                  'green chilies',
                  'grilled chicken bre

Итак, мы видим, что рецепт каждого из блюд описан в виде словаря, который состоит из трёх пар "ключ-значение":

* Ключ "cuisine" — обозначает принадлежность блюда к определённой национальной кухне (например, 'greek', 'southern_us', 'filipino' и т. д.);
* Ключ "id" — уникальный идентификационный номер блюда;
* Ключ "ingredients"— содержит перечень продуктов, входящих в состав блюда.

Все рецепты (то есть все словари) хранятся в одном списке, располагаясь последовательно.

### ИЗВЛЕКАЕМ ДАННЫЕ ИЗ **JSON-ФАЙЛА**

* После того как мы провели десериализацию данных из JSON-файла, мы можем работать с полученным объектом как с обычными списками и словарями. Единственное отличие этой работы от манипуляций с привычными нам списками и словарями заключается в том, что данных теперь больше и они помещены внутрь структуры с большим количеством уровней вложенности.

* Давайте выясним некоторые детали о блюде, которое записано первым в списке блюд. Его **индекс — 0**, и информация о нём хранится в словаре. Чтобы узнать ID этого блюда, мы можем обратиться к соответствующему ключу словаря, выполнив следующий код:

In [22]:
recipes[0]['id']

10259

##### Здесь мы сначала извлекаем из списка первый элемент (индекс 0). Поскольку каждый элемент списка является словарём, для получения нужной информации о конкретном блюде нам нужно указать ключ словаря. ID блюда доступно по ключу 'id', и мы указываем этот ключ в отдельной паре квадратных скобок:

![image.png](attachment:image.png)

Аналогичным образом, для получения списка ингредиентов первого блюда в списке мы можем использовать тот же код, заменив в нём **ключ 'id'** на **'ingredients'**. 

In [22]:
len(recipes[0]['ingredients'])

9

ЗАДАЧА: К какой кухне относится блюдо с id = 13121?

In [23]:
# Вариант 1.

import json
from pprint import pprint

with open('data/recipes.json') as f:  
     recipes = json.load(f)

check_symbol = 13121
info_food = []

for element in recipes:
    if element['id'] == check_symbol:
        info_food.append(element['cuisine'])
        break
print(info_food)

['thai']


In [None]:
# Вариант 2

import json # Импортируем модуль json
from pprint import pprint # Импортируем функцию pprint()

with open('recipes.json') as f: # Открываем файл и связываем его с объектом "f"
    recipes = json.load(f) # Загружаем содержимое открытого файла в переменную recipes
    
for recipe in recipes: # начинаем перебор всех блюд входящих в список
    if recipe['id'] == 13121: # если id текущего блюда равен заданному для поиска
        print(recipe['cuisine']) # выводим на экран наименование кухни, к которой относится блюдо
        break # прерываем выполнение цикла, т.к. нужное блюдо найдено

ЗАДАНИЕ: Какое количество уникальных национальных кухонь присутствуют в нашем наборе данных?

In [24]:
# Вариант 1

import json
from pprint import pprint

with open('data/recipes.json') as f:  
     recipes = json.load(f)

unique_cuisine = []
for element in recipes:
    if element['cuisine'] not in unique_cuisine:
        unique_cuisine.append(element['cuisine'])
    else: # можно просто без -else-
        continue 

print(len(unique_cuisine))


# ЭТАЛОННЫЙ ВАРИАНТ

#cuisines = [] 
#for recipe in recipes:
    #if not(recipe['cuisine'] in cuisines):
        #cuisines.append(recipe['cuisine'])
#len(cuisines)

20


In [25]:
# Вариант 2

import json
from pprint import pprint

with open('data/recipes.json') as f:  
     recipes = json.load(f)

unique_cuisine_set = set()
for element in recipes:
    # if element['cuisine'] not in unique_cuisine: !!!!! ВАЖНО - когда множество, то условиет нужно убрать
        unique_cuisine_set.add(element['cuisine'])
   
print(len(unique_cuisine_set))


# ЭТАЛОННЫЙ ВАРИАНТ

#cuisines = set()
#for recipe in recipes:
    #cuisines.add(recipe['cuisine'])
#len(cuisines)

20


ЗАДАЧА: Какой из национальных кухонь принадлежит самое большое количество рецептов?

In [25]:
# Вариант 1

import json
from pprint import pprint

with open('data/recipes.json') as f:  
     recipes = json.load(f)
     
cuisine_max = {}
for element in recipes:
    if element['cuisine'] not in cuisine_max:
        cuisine_max[element['cuisine']] = 1
    else:
        cuisine_max[element['cuisine']] += 1

popular = sorted(cuisine_max.items(), key=lambda item: item[1])
print (popular[::-1][:7])

# print(max(cuisine_max, key=cuisine_max.get)) - 2-й вариант применяем метод - get()

[('italian', 101), ('mexican', 79), ('southern_us', 52), ('indian', 41), ('chinese', 39), ('french', 25), ('japanese', 24)]


In [None]:
# ЭТАЛОННОЕ РЕШЕНИЕ - своеобразное. Сохранил, как возможный вариант. 

cuisines = [] # Создаём пустой список для хранения уникальных значений кухонь
for recipe in recipes: # Начинаем перебор всех рецептов
    if not(recipe['cuisine'] in cuisines): # Если тип кухни текущего блюда ещё не встречался
        cuisines.append(recipe['cuisine']) # Добавляем его к списку cuisines
        
valreccuisine = {} # Создаём пустой словарь для хранения информации об количествах рецептов в каждой кухне
for item in cuisines: # Перебираем список кухонь
    valreccuisine[item] = 0 # Добавляем в словарь ключ, соответствующий очередной кухне
    
for recipe in recipes: # Перебираем список рецептов
    valreccuisine[recipe['cuisine']] += 1 # Увеличиваем значение нужного ключа в словаре на 1
            
print(max(valreccuisine, key=valreccuisine.get)) # Извлекаем значения для всех ключей используя метод get(), выбираем самое максимальное значение (при наличии одинаковых значений будет выбрано первое в словаре) и выводим на экран ключ максимального значения

## ИЗ JSON В PANDAS

* **Вариант 1:** Поскольку структура всех вложенных словарей одинакова, мы можем создать DataFrame на основе списка, не проводя с ним никаких дополнительных манипуляций:

In [26]:
import pandas as pd
import json 
from pprint import pprint 

# Открываем файл и связываем его с объектом "x"
with open('data/recipes.json') as x: 
    # Загружаем содержимое открытого файла в переменную recipes
    recipes = json.load(x)
     
# Создаём объект DataFrame из списка recipes
df = pd.DataFrame(recipes) 
# Выводим на экран первые строки полученного DataFrame
display(df.head())


Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes..."
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g..."
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g..."
3,22213,indian,"[water, vegetable oil, wheat, salt]"
4,13162,indian,"[black pepper, shallots, cornflour, cayenne pe..."


* **Вариант 2:** - Для непосредственного считывания содержимого файла recipes.json в переменную df (объект DataFrame) используйте **функцию read_json()**

In [27]:
import pandas as pd 

# Создаём объект DataFrame, загружая содержимое файла recipes.json
df_1 = pd.read_json('data/recipes.json') 

# Выводим на экран первые строки полученного DataFrame
display(df_1.head())

Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes..."
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g..."
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g..."
3,22213,indian,"[water, vegetable oil, wheat, salt]"
4,13162,indian,"[black pepper, shallots, cornflour, cayenne pe..."


***Такая структура не очень практична, поскольку она не позволяет осуществлять группировку данных и выполнять многие другие операции, связанные с исследованием ингредиентов разных блюд. Например, представьте, что вы хотите отфильтровать блюда, состоящие не более чем из пяти ингредиентов, или блюда, не содержащие мяса. Сделать это, когда ингредиенты блюд хранятся в списках, не очень просто.***

**1 Этап:** Создадим функцию для заполнения значения в каждой ячейке. Функция будет проверять наличие конкретного ингредиента **в столбце ingredients** для текущего блюда и возвращать **1**, если ингредиент есть в рецепте, и **0**, если он отсутствует.

**2 Этап:** Организуем цикл, в котором будем перебирать наименования всех ингредиентов DataFrame (для этого потребуется создать реестр, то есть некий список, который содержит уникальные наименования ингредиентов). Для каждого ингредиента создадим в DataFrame столбец с соответствующим названием и заполним его единицами и нулями, применив к DataFrame, а точнее **к столбцу ingredients** функцию, созданную нами на предыдущем этапе.

**1.** Создайте реестр уникальных ингредиентов **all_ingredients**, который будет использоваться на втором этапе. Какое количество уникальных ингредиентов в нашем DataFrame?

In [28]:
with open('data/recipes.json') as x: # Открываем файл и связываем его с объектом "x"
    recipes = json.load(x)

all_ingredients = []
for element in recipes:
    for ingred in element['ingredients']:
        if ingred not in all_ingredients:
            all_ingredients.append(ingred)

unique_ing = set(all_ingredients)
#print(len(all_ingredients))
print (len(unique_ing))

1318


In [None]:
# ЭТАЛОННОЕ РЕШЕНИЕ - использовали - set()
    
all_ingredients=set() # Создаем пустое множество для хранения реестра уникальных ингредиентов
for recipe in recipes: # Начинаем перебор всех блюд входящих в список
    for ingredient in recipe['ingredients']: # Начинаем перебор всех ингредиентов, входящих в состав текущего блюда
        all_ingredients.add(ingredient ) # Добавляем уникальный ингредиент в реестр
        
display(len(all_ingredients)) # Выводим на экран количесвто уникальных ингредиентов из реестра

In [None]:
# Вариант на случай DataFrame - но нужно проверять   !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

def get_list_all_ingredients(z):
    all_ingredients = []
    get_ingred = ''.join(z.split(','))
    all_ingredients.append(get_ingred)
    return all_ingredients

x = df['ingredients'].apply(get_list_all_ingredients)

**2.** → Теперь определим **функцию contains()**, с помощью которой мы будем проверять наличие конкретного ингредиента ingredient_name в рецепте текущего блюда, который представлен списком ingredient_list (значение в ячейке столбца ingredients текущего рецепта).

In [None]:
# 2.1 - Определяем имя функции и передаваемые аргументы    
def contains(ingredient_list): 
    # Если ингредиент есть в текущем блюде,
    if ingredient_name in ingredient_list:   
        # возвращаем значение 1
        return 1 
    # Если ингредиента нет в текущем блюде,
    else: 
        # возвращаем значение 0
        return 0

Отлично! Осталось лишь перебрать все ингредиенты из ранее созданного реестра all_ingredients с помощью цикла  for  и создать в DataFrame столбец с соответствующим названием, заполнив его единицами и нулями. Для этого применим к DataFrame, а точнее, к столбцу ingredients функцию contains().

In [None]:
# 2.2 - Последовательно перебираем ингредиенты в реестре all_ingredients
for ingredient_name in all_ingredients: 
    # В DataFrame cоздаем столбец с именем текущего ингредиента 
    # и заполняем его единицами и нулями,
    # используя ранее созданную функцию contains
    df[ingredient_name] = df['ingredients'].apply(contains)

In [31]:
# ИТОГ: 2.3

# Соединяем воедино, т.е. создаем !!!!!!!! ПРИЗНАКИ МИГАЛКИ !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

for ingredient_name in all_ingredients: 
    
    def contains(ingredient_list): 
        if ingredient_name in ingredient_list:   
            return 1 
        else: 
            return 0
    
    df[ingredient_name] = df['ingredients'].apply(contains)
    
    # df[ingredient_name] = df['ingredients'].apply(lambda x: '1' if x in all_ingredients else '0') - 2 вариант, но нужно тестить (возможно нужно не - if ingredient_name, а if x...)
    # melb_df['StreetType'] = street_types.apply(lambda x: x if x in popular_stypes else 'other')

#display (df.columns)
display(df['oil'].unique())

array([0, 1])

В завершение изменим значение столбца ingredients — вместо списка ингредиентов в каждом рецепте заполним столбец данными о количестве ингредиентов в нём:

In [32]:
df['ingredients'] = df['ingredients'].apply(len)
display (df)

Unnamed: 0,id,cuisine,ingredients,romaine lettuce,black olives,grape tomatoes,garlic,pepper,purple onion,seasoning,...,string beans,egg roll wraps,steamed rice,penne,Crystal Farms Butter,Crystal Farms Shredded Gouda Cheese,mint,berries,figs,sprinkles
0,10259,greek,9,1,1,1,1,1,1,1,...,0,0,0,0,0,0,0,0,0,0
1,25693,southern_us,11,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,20130,filipino,12,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
3,22213,indian,4,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,13162,indian,20,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,1121,chinese,9,0,0,0,1,0,0,0,...,0,0,1,0,0,0,0,0,0,0
496,18376,italian,8,0,0,0,1,0,0,0,...,0,0,0,1,0,0,0,0,0,0
497,17815,italian,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
498,32878,southern_us,19,0,0,0,1,0,0,0,...,0,0,0,0,1,1,0,0,0,0


### СОХРАНЯЕМ DATAFRAME В **CSV-ФАЙЛЕ**

Если мы планируем продолжать работать с DataFrame, созданными на основе данных, которые мы получили в JSON-формате, то полезно будет сохранить промежуточный DataFrame в виде **CSV-файла**. Для выполнения этой операции воспользуемся известной нам в Pandas функцией to_csv():

In [33]:
df.to_csv('data/recipes.csv', index=False)

* В качестве основного параметра мы указали имя **файла (recipes_transfom.csv)**, в котором необходимо сохранить данные. Также мы установили значение параметра **index как False**. Такая настройка позволит нам не сохранять индексы строк в виде отдельного столбца; в результате не будут загружаться «лишние» данные при открытии файла при помощи функции read_csv().

### ИЗ PANDAS **В JSON**

→ Решим обратную задачу и создадим JSON-файл из сохранённого ранее CSV-файла, который получили в конце предыдущего этапа. 

In [34]:
# Создаём DataFrame, читаем данные из файла в переменную df
df = pd.read_csv('data/recipes.csv')
display (df)

Unnamed: 0,id,cuisine,ingredients,romaine lettuce,black olives,grape tomatoes,garlic,pepper,purple onion,seasoning,...,string beans,egg roll wraps,steamed rice,penne,Crystal Farms Butter,Crystal Farms Shredded Gouda Cheese,mint,berries,figs,sprinkles
0,10259,greek,9,1,1,1,1,1,1,1,...,0,0,0,0,0,0,0,0,0,0
1,25693,southern_us,11,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,20130,filipino,12,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
3,22213,indian,4,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,13162,indian,20,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,1121,chinese,9,0,0,0,1,0,0,0,...,0,0,1,0,0,0,0,0,0,0
496,18376,italian,8,0,0,0,1,0,0,0,...,0,0,0,1,0,0,0,0,0,0
497,17815,italian,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
498,32878,southern_us,19,0,0,0,1,0,0,0,...,0,0,0,0,1,1,0,0,0,0


##### Теперь, используя только данные из этого файла, нам нужно в точности воссоздать структуру исходного JSON-файла. Мы помним, что после десериализации данные представляли собой список, состоящий из словарей. В каждом словаре хранилась информация о рецепте одного блюда. Каждый словарь состоял из трёх пар "ключ-значение". Первая пара содержала название кухни, к которой относилось блюдо, вторая — id блюда, и третья — список ингредиентов входящих в состав блюда.

**1**. ✍️ Поскольку по условию задачи мы не можем использовать предыдущие наработки, давайте начнём с создания списка, содержащего перечень id всех блюд, а также списка ингредиентов, встречающихся в рецептах. Эти списки в дальнейшем мы будем использовать для заполнения JSON-структуры.

In [35]:
ids = list(df['id'].unique())
#display (ids)

**2**. Напишите код для создания списка ингредиентов всех блюд, представленных в DataFrame. Результирующий список занесите в переменную ingredients.

In [36]:
# Вариант 1

ingredients = []
for element in df.columns:
    if element == 'id':
        continue
    if element == 'cuisine':
        continue
    if element == 'ingredients':
        continue    
    if element not in ingredients:
        ingredients.append(element)

#print (ingredients)


In [37]:
# Вариант 2 - ЭТАЛОННЫЙ ВАРИАНТ - ОЧЕНЬ ХОРОШИЙ Вариант !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!   ЗАПОМНИТЬ   !!!!!!!!!!!!!!!!!!!!!!!!!!

df = pd.read_csv('data/recipes.csv') # Читаем содержимое файла и создаем объект df
ingredients = list(df.columns)[3:] # Создаем список уникальных значений ингредиентов

### После **десериализации JSON-файла** мы получили структуру, представляющую собой список, состоящий из словарей. Каждый словарь состоял из трёх пар "ключ-значение", при этом в качестве значений выступали:
* целое число (id блюда);
* строковая величина (тип кухни);
* список строковых величин (перечень ингредиентов).

Сейчас нам предстоит воссоздать эту структуру, извлекая данные из DataFrame. Для этого необходимо создать:

* пустой список new_recipes — для хранения итоговой структуры;
* используя код из Задачи 7.1, список ids — для хранения id всех блюд;
* используя код из Задачи 7.2, список ingredients — для хранения названий всех ингредиентов.

### Далее необходимо реализовать следующий алгоритм:

**1**. Написать код функции **make_list()**, которая принимает на вход строку DataFrame **df**, содержащую полные данные об **одном блюде** (в виде Series), и возвращает перечень ингредиентов, входящих в состав этого блюда (в виде списка).

In [38]:
import pandas as pd
df = pd.read_csv('data/recipes.csv') # Читаем содержимое файла и создаем объект df
ingredients = list(df.columns)[3:] # Создаем список уникальных значений ингредиентов

#display ((df.iloc[0]))

def make_list(row): # Определяем имя функции и передаваемые аргументы
    ingredient_list=[] # Создаём пустой список ингредиентов текущего блюда
    for ingredient in ingredients: # Последовательно перебираем ингредиенты из реестра
        if row[ingredient].item()==1: # Если текущий ингредиент входит в состав текущего блюда
            ingredient_list.append(ingredient) # Добавляем ингредиент в список ингредиентов текущего блюда
    return ingredient_list # Возвращаем сформированный список ингредиентов

z = make_list(df.iloc[0])

display(z)

['romaine lettuce',
 'black olives',
 'grape tomatoes',
 'garlic',
 'pepper',
 'purple onion',
 'seasoning',
 'garbanzo beans',
 'feta cheese crumbles']

**2**. Организовать цикл с параметром, в котором будут перебираться элементы списка **ids**. В результате в процессе прохождения цикла параметр должен принять значение id каждого блюда.

**3**. На каждом шаге цикла создать словарь, содержащий три пары **"ключ-значение"**:
* ключу "id" присвоить текущее значение параметра цикла как целого числа;
* ключу "cuisine" присвоить значение соответствующей кухни, которое мы получим, применив фильтр по текущему id к DataFrame df;
* ключу "ingredients" присвоить значение списка, воспользовавшись функцией make_list(), созданной на первом шаге алгоритма.

**4**.  Каждый созданный словарь добавить к списку new_recipes:

In [39]:
# Создаём пустой список для хранения итоговой структуры
new_recipes = [] 
# Организуем цикл с параметром current_id
for current_id in ids: 
    # Получаем значение соответствующей кухни, применив фильтр по текущему значению параметра цикла к DataFrame;
    cuisine = df[df['id'] == current_id]['cuisine'].iloc[0] 
    # Получаем перечень ингредиентов, входящих в состав текущего блюда
    current_ingredients = make_list(df[df['id'] == current_id]) # !!!!!!!    ВАЖНО   !!!!!!!  **make_list** - это функция, которая получает на вход [0] строку, т.е. с первым id
    # Создаём текущий словарь
    current_recipe = {'cuisine': cuisine, 'id': int(current_id), 'ingredients': current_ingredients} 
    # Добавляем созданный словарь к списку
    new_recipes.append(current_recipe)
    
pprint(new_recipes)

[{'cuisine': 'greek',
  'id': 10259,
  'ingredients': ['romaine lettuce',
                  'black olives',
                  'grape tomatoes',
                  'garlic',
                  'pepper',
                  'purple onion',
                  'seasoning',
                  'garbanzo beans',
                  'feta cheese crumbles']},
 {'cuisine': 'southern_us',
  'id': 25693,
  'ingredients': ['plain flour',
                  'ground pepper',
                  'salt',
                  'tomatoes',
                  'ground black pepper',
                  'thyme',
                  'eggs',
                  'green tomatoes',
                  'yellow corn meal',
                  'milk',
                  'vegetable oil']},
 {'cuisine': 'filipino',
  'id': 20130,
  'ingredients': ['pepper',
                  'salt',
                  'eggs',
                  'mayonaise',
                  'cooking oil',
                  'green chilies',
                  'grilled chicken bre

### Выполним сериализацию списка **new_recipes** и запишем полученные данные в файл.

**5**. Для сериализации используем функцию **dumps()**, которой в качестве параметра передадим список **new_recipes**. Запись в файл осуществляется с помощью метода **write()**. Предварительно файл необходимо открыть для записи с помощью функции **open() c параметром 'w'** (от англ. write, рус. писать):

In [40]:
# Импорт модуля json
import json 
# Функция dumps() модуля json сериализирует объект Python в строку формата JSON. 
new_recipes = json.dumps(new_recipes) 

# Откроем файл new_recipes.json для записи
with open("data/new_recipes.json", "w") as write_file: # можно и просто - x
    # Записываем содержимое подготовленные данные в файл
    write_file.write(new_recipes)

In [None]:
# ПРОСТО ТРЕНИРОВАЛСЯ, код для выполнения задания не нужен

def make_list(z):
    all_ingredients = []
    all_ingredients.append(z)
    return all_ingredients

row = df.iloc[0].apply(make_list)
#row = df.index.apply(make_list)
display (all_ingredients)

# Извлекаем контент из **XML-файла**

![image.png](attachment:image.png)

### Данные в формате XML имеют древовидную структуру. 

* Что такое дерево? Это структура, которая имеет узлы и связи между ними. Самый верхнеуровневый узел называется корнем, а всё, что находится в самом низу, называется листьями. 

* В примере выше корнем является **menu**, а листьями, например, **price** и **weight**.

* Кроме того, у **menu** есть дети (потомки) это два узла **dish**, имеющие разное значение атрибута **name**.

* Таким образом, в файле используется набор тегов, внутри которых могут находиться другие теги со своими значениями.

### Для работы с XML-файлами мы будем использовать модуль **ElementTree** , входящий в стандартный пакет xml. Этот модуль позволит нам «перемещаться» по дереву XML и смотреть, что находится в каждом его узле, начиная с корня и заканчивая листьями.

In [41]:
# Импортируем модуль ElementTree
import xml.etree.ElementTree as ET

Для работы со структурой файла menu.xml считаем его содержимое в переменную tree, выполнив код:

In [42]:
tree = ET.parse('data/menu.xml')

### **Корень**

In [43]:
# Запишем в переменную root корневой узел дерева tree и посмотрим, как выглядит содержимое переменной root, для чего выполним код:
root = tree.getroot()
display(root)

<Element 'menu' at 0x00000118084496D0>

##### **ВЫВОД**

* Мы видим, что в корне находится **'menu'**. Всё правильно, мы и предполагали увидеть именно это. 

* Какой тип у этого объекта? Если мы вызовем встроенный в Python метод type() и передадим ему root , то увидим, что это тип **xml.etree.ElementTree.Element**. Такой тип будет у любого узла в дереве.

In [46]:
display(type(root))

xml.etree.ElementTree.Element

### **Потомки**

In [None]:
# Для того чтобы посмотреть список потомков корневого узла, выполним следующий код:
# !!!!!!!!!!!!!!!   ВАЖНО   !!!!!!!!!!!!!!!   Если у узла нет потомков, то вернётся пустой список — [].

display(list(root))

[<Element 'dish' at 0x0000011808449310>,
 <Element 'dish' at 0x0000011808449130>]

In [52]:
# Для того чтобы получить список потомков первого блюда в нашем меню и вывести его на экран, выполним код:
display(list(root[0]))

[<Element 'price' at 0x00000118084491D0>,
 <Element 'weight' at 0x0000011808449E50>,
 <Element 'class' at 0x0000011808449A90>]

**Вывод:** Таким образом, у первого потомка узла root (кура) —  три потомка.

### **Атрибуты и теги**

* Как было сказано ранее, у узлов могут быть **параметры, или атрибуты**. Например, у узлов **dish** есть **атрибут name**, который хранит название блюда.

* Мы можем непосредственно обратиться к атрибутам, используя **attrib**.

In [47]:
# Выведем на экран атрибуты первого блюда из меню:
display(root[0].attrib)

{'name': 'Кура'}

In [48]:
display(root[0].attrib['name'])

'Кура'

В **XML-узлах** часто хранятся количественные показатели. Эти показатели хранятся в виде текста, и прочитать их можно, обратившись к атрибуту **text** у соответствующего объекта типа ElementTree.Element.

In [50]:
# Например, возьмём узел price первого блюда из меню:
display(root[0][0])

<Element 'price' at 0x000002804C399F90>

In [51]:
# Теперь прочитаем значение этого узла с помощью text:
display(root[0][0].text)

'40'

### **ВАЖНО** - Все значения в **XML**, даже числовые, хранятся **как строки**, поэтому преобразовывать их к нужному типу вам нужно самим.

In [52]:
# Например, в данном случае можно обернуть значение стоимости в int() или float().
display(int(root[0][0].text))

40

##### Если вы хотите прочитать наименование тега конкретного узла, необходимо использовать **tag**. Например, получим наименование тега корневого узла:

In [53]:
display(root.tag)

'menu'

In [54]:
display(root[0][2].tag)

'class'

### Использование **циклов**

* → Итак, мы научились обращаться к отдельным узлам дерева, представляющего XML-структуру, и извлекать информацию о его атрибутах, значении и потомках.

* На этом шаге мы решим задачу вывода на экран наименование всех блюд из меню, а также информацию о них (иными словами, нам необходимо обойти дерево и вывести на экран значения его листьев)

In [49]:
# Используя цикл for, автоматизируем обход дерева.

# Вариация 1

for dish in root:
    for param in dish:
        print(dish.attrib['name'],'-', param.tag, ':', param.text)
    print('---------------------')

Кура - price : 40
Кура - weight : 300
Кура - class : Мясо
---------------------
Греча - price : 20
Греча - weight : 200
Греча - class : Крупа
---------------------


In [77]:
# Вариации 2 ...

for dish in root:
    for param in dish:
        print(dish.attrib, param.tag)
    print('--------------')

{'name': 'Кура'} price
{'name': 'Кура'} weight
{'name': 'Кура'} class
--------------
{'name': 'Греча'} price
{'name': 'Греча'} weight
{'name': 'Греча'} class
--------------


### Загружаем данные из **XML-файла** в DataFrame

### ✍ Реализуем следующий алгоритм:

* **1.** Загрузить данные из XML-файла menu.xml в переменную root.

* **2.** Создать пустой список df_list (в него будем добавлять строчки итоговой таблицы).

* **3.** Заранее создать список column_names с именами столбцов — название блюда (name), его цена (price), вес (weight) и класс (class).

* **4.** В цикле организовать обход xml-дерева из корня по всем потомкам.

* **5.** На каждой итерации цикла сформировать в виде списка строку таблицы, содержащую информацию: наименование блюда (атрибут name узла dish) и значения потомков этого узла — узлов price, weight, class.

* **6.** Добавить сформированную строку в список df_list, используя метод append().

* **7.** Сформировать из вложенного списка DataFrame. Имена для столбцов взять из списка column_names.

In [53]:
import xml.etree.ElementTree as ET
tree = ET.parse('data/menu.xml')
root = tree.getroot()

import pandas as pd
column_names = ['name', 'price', 'weight', 'class']
df_list = []

for dish in root:
    row = [dish.attrib['name'], dish[0].text, dish[1].text, dish[2].text]
    df_list.append(row)

df = pd.DataFrame(df_list, columns=column_names)
display(df)

Unnamed: 0,name,price,weight,class
0,Кура,40,300,Мясо
1,Греча,20,200,Крупа


## Создаём **XML-файл**

 → Воссоздадим структуру нашего исходного XML-файла с нуля,  руководствуясь общими рекомендациями.

##### **1.** Чтобы создать корень дерева, используем **метод Element()** из класса ElementTree:

In [54]:
import xml.etree.ElementTree as ET

new_root = ET.Element('menu')
display(new_root)

<Element 'menu' at 0x0000011806DB19A0>

##### **2.** Теперь мы можем **добавлять** новые узлы в наше дерево, используя **метод SubElement()** из того же класса.
* Добавим в наше меню двух потомков корневого узла, которые будут представлять два блюда, то есть будут **узлами dish**:

In [55]:
dish1 = ET.SubElement(new_root, 'dish', name='Кура')

dish2 = ET.SubElement(new_root, 'dish', name='Греча')

display(list(new_root))

[<Element 'dish' at 0x0000011806DB11D0>,
 <Element 'dish' at 0x00000118072AE040>]

##### **Вывод:** 
* В метод **SubElement()** мы передали **первым аргументом** узел, к которому добавляем потомка, **вторым аргументом** — наименование нового тега (dish),  **третьим аргументом** — наименование атрибута нового узла( name ) и его значение.

* Аналогичным образом можно добавлять **новые узлы к любым существующим узлам**, не только к корню.

Добавим в создаваемую структуру по три потомка (атрибута) к двум новым узлам, которые будут содержать информацию о блюде — о его цене **(price)**, весе **(weight)** и классе **(class)**, а также значение этих атрибутов:

In [56]:
price1 = ET.SubElement(dish1, "price").text = "40"
weight1 = ET.SubElement(dish1, "weight").text = "300"
class1 = ET.SubElement(dish1, "class").text = "Мясо"
display(list(dish1))

price2 = ET.SubElement(dish2, "price").text = "20"
weight2 = ET.SubElement(dish2, "weight").text = "200"
class2 = ET.SubElement(dish2, "class").text = "Крупа"
display(list(dish2))

[<Element 'price' at 0x00000118072AE720>,
 <Element 'weight' at 0x000001180729AA40>,
 <Element 'class' at 0x000001180729A450>]

[<Element 'price' at 0x0000011813620DB0>,
 <Element 'weight' at 0x0000011806DB1A90>,
 <Element 'class' at 0x000001180729A090>]

* **Проверим** визуально корректность созданной нами структуры, выполнив фрагмент кода, разработанного ранее:

In [57]:
for dish in new_root:    
    for param in dish:
        print(dish.attrib['name'], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



### Сохранение **XML-файла**

##### Преобразуем созданный нами объект типа ElementTree.Element в строку c помощью **метода tostring()**, передав наше новое дерево как аргумент. Сохраним эту строку на диске, используя стандартные средства Python:

In [None]:
new_root_string = ET.tostring(new_root)

with open("data/new_menu.xml", "wb") as f:
    f.write(new_root_string) # по итогу у меня появился записанный файл - new_menu.xml - и кнему я и должен обращаться

In [58]:
# ПРОВЕРКА

import xml.etree.ElementTree as ET
tree_x = ET.parse('data/new_menu.xml')
root_x = tree_x.getroot()
display (list(root_x[0]), list(root_x[1]))

[<Element 'price' at 0x000001180729AEF0>,
 <Element 'weight' at 0x0000011813620D60>,
 <Element 'class' at 0x0000011813620180>]

[<Element 'price' at 0x0000011813620F40>,
 <Element 'weight' at 0x00000118072A70E0>,
 <Element 'class' at 0x00000118072A7B80>]

### Возможно, вы увидите проблему, связанную с кодировкой. Что делать в этом случае? Как вариант — записать файл, используя сам класс **ElementTree()**:

* Для этого мы передаём в класс **ElementTree()** наше дерево (не его строковое представление) и вызываем **метод write()**. В метод мы **передаём путь** к новому файлу и нужную нам кодировку.

In [None]:
# ET.ElementTree(new_root).write('data/new_menu_good.xml', encoding="utf-8")