# Работа с текстовыми файлами

## ИСПОЛЬЗУЕМ ФУНКЦИЮ READ_TABLE()

указав определенные значения параметров функции read_csv(), можно считать данные из файла, 
в котором используется разделитель данных, отличный от запятой (sep), 
вместо десятичной точки используется другой символ (decimal), 
а также при считывании должно быть пропущено некоторое количество строк (skiprows). 

Такие данные обычно хранятся в текстовых файлах с расширением TXT. 
Этот тип файлов — источник данных, который легко расшифровывать и интерпретировать.
Для чтения данных из файлов такого типа Pandas, помимо функции read_csv(), предлагает и функцию read_table().

* Функция read_csv(), как вы уже знаете, загружает данные с разделителями из файла, URL-адреса, и в качестве разделителя по умолчанию используется запятая (символ). 
В документации эта функция описана как «Чтение данных из файла значений, разделённых запятыми (CSV), в DataFrame».
* Функция read_table() также загружает данные с разделителями из файла, URL-адреса,
 но в качестве разделителя по умолчанию используется символ табуляции ('\t').
 В документации эта функция описана как «Чтение данных из файл значений с разделителями в DataFrame».
 
Данные функции используются похожим образом, и то, что в настоящий момент поддерживаются они обе,

In [1]:
import pandas as pd 
# Импорт библиотеки pandas — при выполнении последовательно всех примеров ниже, импорт библиотеки pandas выполняется один раз
countries_data = pd.read_csv('data/countries.csv', sep=';') 
# Загружаем данные из файла в переменную, создавая объект DataFrame
countries_data.to_csv('data/countries.txt', index=False, sep=' ') 
# Выгружаем данные из DataFrame в CSV-файл и сохраняем файл в папке data

Считаем данные из файла countries.txt в переменную txt_df  (объект DataFrame),
 применив функцию read_table() с параметрами sep=' '  и  index_col=['country'] 
 (так мы избавимся от столбца с индексом и присвоим названия строкам, используя данные одного из столбцов). 
 Выводим на экран полученный результат:

In [2]:
 txt_df = pd.read_table('data/countries.txt', sep=' ', index_col=['country'])
 # Загружаем данные из файла в переменную, создавая объект DataFrame
display(txt_df) # Выводим содержимое DataFrame на экран

Unnamed: 0_level_0,population,square
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Англия,56.29,133396
Канада,38.05,9984670
США,322.28,9826630
Россия,146.24,17125191
Украина,45.5,603628
Беларусь,9.5,207600
Казахстан,17.04,2724902


## ПРИМЕНЕНИЕ ПАРАМЕТРА HEADER
если при считывании данных из ранее сохранённого в папке data файла melb_data_ps.csv указать значение параметра header=None, 
то первая строка исходного файла не будет восприниматься как строка заголовка и будет отнесена к области данных DataFrame:

In [3]:
 melb_data = pd.read_csv('data/melb_data_ps.csv', header=None) 
 # Загружаем данные из файла в переменную, создавая объект DataFrame
display(melb_data) # Выводим содержимое DataFrame на экран

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13,14,15,16,17,18,19,20,21,22
0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
1,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
2,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
3,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
4,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13576,13575,Wheelers Hill,12 Strada Cr,4,h,1245000.0,S,Barry,26/08/2017,16.7,...,2,652.0,126.0,1981,,-37.90562,145.16761,South-Eastern Metropolitan,7392,"-37.90562, 145.16761"
13577,13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,...,2,333.0,133.0,1995,,-37.85927,144.87904,Western Metropolitan,6380,"-37.85927, 144.87904"
13578,13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,...,4,436.0,126.0,1997,,-37.85274,144.88738,Western Metropolitan,6380,"-37.85274, 144.88738"
13579,13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,5,866.0,157.0,1920,,-37.85908,144.89299,Western Metropolitan,6380,"-37.85908, 144.89299"


## РЕШАЕМ ПРОБЛЕМУ С КОДИРОВКОЙ ИСХОДНЫХ ДАННЫХ

При считывании файла и создании DataFrame может возникнуть проблема — 
при выводе на экран данные будут отображаться в виде нечитаемых символов. 
Это связано с кодировкой символов в исходном файле.

Для решения проблемы выполним следующие действия:

* узнаем, какая кодировка символов используется в считываемом файле 
(для этого обратимся к субмодулю chardet.universaldetector библиотеки Universal Encoding Detector);
* при считывании файла и создании DataFrame будем использовать параметр encoding  —  указывает, какой тип кодировки символов используется в считываемом файле. 

In [4]:
data=pd.read_csv('data/ErrorEnCoding.csv', header=None ) 
# Считываем данные из файла с неизвестной кодировкой в переменную, создавая объект DataFrame
display(data) # Выводим содержимое DataFrame на экран

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 33: invalid continuation byte

In [None]:
from chardet.universaldetector import UniversalDetector 
# Импортируем субмодуль chardet.universaldetector
detector = UniversalDetector()
with open('data/ErrorEnCoding.csv', 'rb') as fh:
    for line in fh:
        detector.feed(line)
        if detector.done:
            break
detector.close()

{'encoding': 'KOI8-R', 'confidence': 0.8773902118791048, 'language': 'Russian'}

С достоверностью примерно 84 % тип используемой в файле кодировки — koi8-r. Повторим считывание файла, используя полученные данные.

ДОПОЛНИТЕЛЬНО
При открытии файла использовалась конструкция with ... as ... 
Эта конструкция применяется для гарантии того, что критические функции и методы 
(в данном случае метод .close() закрывает открытый ранее файл) будут выполнены в любом случае.
```
with open('path/filename') as f: # Открываем файл и связываем его с объектом "f"
    # Работа с файлом...
    # ...не забываем про отступ...
    # ...
# Нет отступа = работа с файлом закончена, файл filename закрыт
```

In [None]:
# Создаем DataFrame из файла, явно указав кодировку символов, и выводим его содержимое на экран
data=pd.read_csv('data/ErrorEnCoding.csv', encoding='koi8-r', header=None )
display(data)

Unnamed: 0,0,1,2
0,User_943,Accumanst@gmail.com,Ижевск
1,User_908,Advismowr@mail.ru,Ижевск
2,User_962,Anachso@ukr.net,Краснодар
3,User_973,Antecia@inbox.ru,Пермь
4,User_902,Balliaryva@ukr.net,
...,...,...,...
95,User_959,UpdatesCurious@yahoo.com,Тюмень
96,User_901,V2artierso@mail.ru,Арзангелтск
97,User_970,Vashoterlo@bk.ru,Воронеж
98,User_965,Visuareda@yahoo.com,Воронеж


## ЧТЕНИЕ ФАЙЛА ПО ССЫЛКЕ, ИСПОЛЬЗУЯ ФУНКЦИЮ READ_TABLE()


In [None]:
data = pd.read_table('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv', sep=',')
display(data)

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,23540,Williamstown,8/2 Thompson St,2,t,622500.0,SP,Greg,26/08/2017,6.8,...,2.0,1.0,,89.0,2010.0,,-37.86393,144.90484,Western Metropolitan,6380.0
18392,23541,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
18393,23544,Yallambie,17 Amaroo Wy,4,h,1100000.0,S,Buckingham,26/08/2017,12.7,...,3.0,2.0,,,,,-37.72006,145.10547,Northern Metropolitan,1369.0
18394,23545,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0


## ЧТЕНИЕ/ЗАПИСЬ АРХИВИРОВАННЫХ CSV-ФАЙЛОВ

функция read_csv(), позволяет проводить чтение текстового файла из архива, не распаковывая его. 
Функция read_csv() сама распознает архив и извлекает из него данные (работает практически со всеми zip-архивами). 
Есть ограничение — файл в zip-архиве должен быть один

In [None]:
data = pd.read_csv('data/students_performance.zip')
display(data)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


В функции to_csv() предусмотрен механизм, позволяющий проводить упаковку CSV-файлов в zip-архив. 

In [None]:
compression_opts = dict(method='zip', archive_name='out.csv') # Определяем параметры архивирования — метод сжатия, имя файл в архиве
data.to_csv('data/out.zip', index=False, compression=compression_opts)

# Работа с файлами Excel

Файл Excel называется рабочей книгой. 
Каждая книга может хранить некоторое количество листов. 
Лист, просматриваемый пользователем в данный момент, называется активным. 
Лист состоит из столбцов (адресуемых, как правило, с помощью букв, начиная с A) 
и строк (адресуемых с помощью цифр, начиная с 1). 
Лист может содержать данные в виде таблиц, формул, изображений, графиков и информации о форматировании.

## СЧИТЫВАНИЕ ДАННЫХ ИЗ ФАЙЛА EXCEL

в pandas предусмотрена функция для удобного чтения XLS- и XLSX- файлов: read_excel() 

In [None]:
 grades = pd.read_excel('data/grades.xlsx')
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


## СЧИТЫВАНИЕ ДАННЫХ ИЗ ФАЙЛА EXCEL ПО ССЫЛКЕ


In [None]:
data = pd.read_excel('https://github.com/asaydn/test/raw/master/january.xlsx')
display(data)

Unnamed: 0,January 2020 Sales,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
0,Global Sales Report,,,,,
1,,,,,,
2,Location,Oranges,Apples,Bananas,Blueberries,Total
3,Toronto,7651,4422,8580,3679,24332
4,Los Angeles,273,2998,9890,7293,20454
5,Atlanta,3758,6752,4599,4149,19258
6,New York,4019,8796,8486,9188,30489


Основные параметры метода read_excel()

* io — первый параметр, в который мы передаём адрес файла, который хотим прочитать. Кроме адреса на диске, можно передавать адрес в интернете.
* sheet_name —  ссылка на лист в Excel-файле 
(возможные значения данного параметра: 
    * 0 — значение по умолчанию, загружается первый лист; 
    * 'Sheet1' — можно передать название листа; обычно листы называются 'SheetX', где X — номер листа, но могут использоваться и другие названия; 
    * [0, 1, 'Sheet3'] — список, содержащий номера или названия листов;
в таком случае Pandas вернёт словарь, в котором ключами будут номера или названия листов, 
а значениями — их содержимое в виде DataFrame; 
    * None — если передать такое значение, то pandas прочитает все листы и вернёт их в виде словаря, как в предыдущем пункте).
* na_values — список значений, которые будут считаться пропусками 
( ‘’, ‘#N/A’, ‘ N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’).

Следует также учесть, что нормальное поведение pandas — это считывание значений (формулы из Excel-файла не считываются).

In [None]:
grades = pd.read_excel('data/grades.xlsx', sheet_name='ML')
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,7
1,2,Катя,5
2,3,Маша,9
3,4,Миша,8
4,5,Женя,9


In [None]:
gradesMaths = pd.read_excel('data/grades.xlsx', sheet_name='Maths')
display(gradesMaths.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


## ВЫГРУЗКА ДАННЫХ ИЗ DATAFRAME В EXCEL-ФАЙЛ

функция to_excel() (рус. в_Excel), принцип работы которой очень схож с функцией to_csv():

In [None]:
 grades.to_excel('data/grades_new.xlsx') 
 # Сохраняем данные из DataFrame grades в файл grades_new.xlsx в папке data

В этом случае будет создан один лист с именем по умолчанию "Sheet1". 
Также мы сохраним и индекс — в данных будет находиться лишний столбец. 
Чтобы создать лист с определённым именем (например, Example) 
и не сохранять индекс, в метод  to_excel() необходимо передать параметры sheet_name='Example' и index=False:

In [None]:
 grades.to_excel('data/grades_new.xlsx', sheet_name='Example', index=False) 
 # Сохраняем данные из DataFrame grades в файл grades_new.xlsx (на листе 'Example') в папке data

Продвинутая работа с файлами Excel в Python предполагает использование дополнительных библиотек, таких как:

* openpyxl — рекомендуемый пакет для чтения и записи файлов Excel 2010+ (например, xlsx);
* xlsxwriter — альтернативный пакет для записи данных, информации о форматировании и, в частности, диаграмм в формате Excel 2010+ (например, xlsx);
* pyxlsb — пакет позволяет читать файлы Excel в xlsb-формате;
* pylightxl — пакет позволяет читать xlsx- и xlsm-файлы и записывать xlsx-файлы;
* xlrd — пакет предназначен для чтения данных и информации о форматировании из старых файлов Excel (например, xls);
* xlwt — пакет предназначен для записи данных и информации о форматировании в старые файлы Excel (например, xls).

In [None]:
# Считайте данные из двух листов файла ratings+movies.xlsx в разные DataFrame, 
# объедините в один, запишите данные из полученного DataFrame в файл. 
# Сколько строк (включая строку заголовков) в результирующем файле?
rating_movies=dict()
rating_movies = pd.read_excel('data/ratings+movies.xlsx', sheet_name=None)
display(rating_movies)
joined_df = rating_movies['ratings'].join(
    rating_movies['movies'].set_index('movieId'),
    on='movieId',
    how='left'
)
display(joined_df.info())
joined_df.to_excel('data/joined_df.xlsx', sheet_name='Result', index=False) 


{'ratings':         userId  movieId  rating   timestamp
 0            1        1     4.0   964982703
 1            1        3     4.0   964981247
 2            1        6     4.0   964982224
 3            1       47     5.0   964983815
 4            1       50     5.0   964982931
 ...        ...      ...     ...         ...
 100831     610   166534     4.0  1493848402
 100832     610   168248     5.0  1493850091
 100833     610   168250     5.0  1494273047
 100834     610   168252     5.0  1493846352
 100835     610   170875     3.0  1493846415
 
 [100836 rows x 4 columns],
 'movies':       movieId                                      title  \
 0           1                           Toy Story (1995)   
 1           2                             Jumanji (1995)   
 2           3                    Grumpier Old Men (1995)   
 3           4                   Waiting to Exhale (1995)   
 4           5         Father of the Bride Part II (1995)   
 ...       ...                             

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100836 entries, 0 to 100835
Data columns (total 6 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   userId     100836 non-null  int64  
 1   movieId    100836 non-null  int64  
 2   rating     100836 non-null  float64
 3   timestamp  100836 non-null  int64  
 4   title      100836 non-null  object 
 5   genres     100836 non-null  object 
dtypes: float64(1), int64(3), object(2)
memory usage: 4.6+ MB


None

# JSON

это простой, структурированный, основанный на использовании текста формат обмена данными.

In [None]:
import json # Импортируем модуль json

Информация в формате JSON представляет собой (в закодированном виде) одну из двух структур:

* набор пар "ключ-значение", где ключ — это всегда строковая величина (в Python такая структура преобразуется в словарь);
* упорядоченный набор значений (при чтении JSON-файла в Python эта структура будет преобразована в список).

Формат JSON допускает неограниченное количество вложений этих структур друг в друга.

## ОТКРЫВАЕМ JSON-ФАЙЛ

Чтобы перевести данные из формата JSON в формат, который можно обрабатывать инструментами Python, 
необходимо выполнить процедуру, которая называется десериализация (декодирование данных). 
Обратный процесс, связанный с переводом структур данных Python в формат JSON, называется сериализацией.

Для выполнения десериализации мы воспользуемся методом load() 

In [None]:
with open('recipes.json') as f: 
    # Открываем файл и связываем его с объектом "f"
    recipes = json.load(f) 
    # Загружаем содержимое открытого файла в переменную recipes

In [None]:
 from pprint import pprint
 pprint(recipes) 
 # Выводим на экран содержимое переменной recipes, используя функция pprint()

[{'cuisine': 'greek',
  'id': 10259,
  'ingredients': ['romaine lettuce',
                  'black olives',
                  'grape tomatoes',
                  'garlic',
                  'pepper',
                  'purple onion',
                  'seasoning',
                  'garbanzo beans',
                  'feta cheese crumbles']},
 {'cuisine': 'southern_us',
  'id': 25693,
  'ingredients': ['plain flour',
                  'ground pepper',
                  'salt',
                  'tomatoes',
                  'ground black pepper',
                  'thyme',
                  'eggs',
                  'green tomatoes',
                  'yellow corn meal',
                  'milk',
                  'vegetable oil']},
 {'cuisine': 'filipino',
  'id': 20130,
  'ingredients': ['eggs',
                  'pepper',
                  'salt',
                  'mayonaise',
                  'cooking oil',
                  'green chilies',
                  'grilled chicken bre

Итак, мы видим, что рецепт каждого из блюд описан в виде словаря, который состоит из трёх пар "ключ-значение":

* Ключ "cuisine" — обозначает принадлежность блюда к определённой национальной кухне (например, 'greek', 'southern_us', 'filipino' и т. д.);
* Ключ "id" — уникальный идентификационный номер блюда;
* Ключ "ingredients"— содержит перечень продуктов, входящих в состав блюда.

Все рецепты (то есть все словари) хранятся в одном списке, располагаясь последовательно.

In [None]:
# Чтобы узнать ID первого блюда, 
# мы можем обратиться к соответствующему ключу словаря, выполнив следующий код:
recipes[0]['id']

10259

In [None]:
# 5.1 Сколько ингредиентов входят в состав первого блюда из предлагаемого списка?
len(recipes[0]['ingredients'])

9

In [None]:
# 5.2 К какой кухне относится блюдо с id = 13121?
for rec in recipes:
    if rec['id']==13121:
        print(rec['cuisine'])

thai


In [None]:
# 5.3 Какое количество уникальных национальных кухонь присутствуют в нашем наборе данных?
set_cuisine = set()
for rec in recipes:
    set_cuisine.add(rec['cuisine'])
print(len(set_cuisine))


20


In [None]:
# 5.4 Какой из национальных кухонь принадлежит самое большое количество рецептов?
from collections import Counter
c = Counter()
for rec in recipes:
    c[rec['cuisine']]+=1
    
print(c.most_common(1)[0][0])


italian


## ИЗ JSON В PANDAS

Поскольку структура всех вложенных словарей одинакова, 
мы можем создать DataFrame на основе списка, не проводя с ним никаких дополнительных манипуляций:

In [6]:
import json # Импортируем модуль json
from pprint import pprint # Импортируем функцию pprint()
import pandas as pd # Импортируем модуль pandas

with open('recipes.json') as f: # Открываем файл и связываем его с объектом "f"
    recipes = json.load(f) # Загружаем содержимое открытого файла в переменную recipes
df = pd.DataFrame(recipes) # Создаём объект DataFrame из списка recipes
display(df.head()) # Выводим на экран первые строки полученного DataFrame

Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes..."
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g..."
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g..."
3,22213,indian,"[water, vegetable oil, wheat, salt]"
4,13162,indian,"[black pepper, shallots, cornflour, cayenne pe..."


ДОПОЛНИТЕЛЬНО
Для непосредственного считывания содержимого файла recipes.json в переменную df
(объект DataFrame) используйте функцию read_json() (с англ. читать_json).

```
#import pandas as pd # Импортируем модуль pandas
#df = pd.read_json('recipes.json') # Создаём объект DataFrame, загружая содержимое файла recipes.json
#display(df.head()) # Выводим на экран первые строки полученного DataFrame
```

In [7]:
# 6.1 Сколько столбцов содержит получившийся DataFrame?
df.shape[1]
display(df.head()) 

Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes..."
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g..."
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g..."
3,22213,indian,"[water, vegetable oil, wheat, salt]"
4,13162,indian,"[black pepper, shallots, cornflour, cayenne pe..."


Итак, получившийся DataFrame содержит информацию о рецептах из нашего JSON-файла. 

Каждая строка соответствует одному рецепту, 
в столбце id хранится его идентификационный номер, 
в столбце cuisine — тип кухни, 
а столбец ingredients содержит список, в котором перечислены ингредиенты, необходимые для приготовления блюда.

Для полноценной работы с данными нам необходимо иметь возможность хранить информацию о каждом ингредиенте в отдельном столбце

Работу над преобразованием DataFrame начнём с создания и заполнения столбцов, содержащих сведения о наличии или отсутствии каждого ингредиента в рецепте. Процесс заполнения выполним в два этапа:

1. Создадим функцию для заполнения значения в каждой ячейке. 
Функция будет проверять наличие конкретного ингредиента в столбце ingredients для текущего блюда 
и возвращать 1, если ингредиент есть в рецепте, и 0, если он отсутствует.

2. Организуем цикл, в котором будем перебирать наименования всех ингредиентов DataFrame 
(для этого потребуется создать реестр, то есть некий список, который содержит уникальные наименования ингредиентов). 
Для каждого ингредиента создадим в DataFrame столбец с соответствующим названием и заполним его единицами и нулями, 
применив к DataFrame, а точнее к столбцу ingredients функцию, созданную нами на предыдущем этапе.

In [10]:
#  6.4 Создайте реестр уникальных ингредиентов all_ingredients, 
# который будет использоваться на втором этапе. 
# Какое количество уникальных ингредиентов в нашем DataFrame?
all_ingredients = set()
for el in df['ingredients']:
    all_ingredients.update(set(el))

#print(list(all_ingredients))

Теперь определим функцию contains(), 
с помощью которой мы будем проверять наличие конкретного ингредиента ingredient_name в рецепте текущего блюда, 
который представлен списком ingredient_list (значение в ячейке столбца ingredients текущего рецепта).

 Функция будет возвращать 1, если ингредиент есть в рецепте, и 0, если он отсутствует:

In [11]:
def contains(ingredient_list): # Определяем имя функции и передаваемые аргументы
    if ingredient_name in ingredient_list: # Если ингредиент есть в текущем блюде,
        return 1 # возвращаем значение 1
    else: # Если ингредиента нет в текущем блюде,
        return 0 # возвращаем значение 0

In [13]:
# Осталось лишь перебрать все ингредиенты из ранее созданного реестра all_ingredients
# с помощью цикла  for  и создать в DataFrame столбец с соответствующим названием, 
# заполнив его единицами и нулями. 
# Для этого применим к DataFrame, а точнее, к столбцу ingredients функцию contains().

#print(all_ingredients)
for ingredient_name in all_ingredients:
    df[ingredient_name]=df['ingredients'].apply(contains)

In [14]:
# В завершение изменим значение столбца ingredients — 
# вместо списка ингредиентов в каждом рецепте заполним столбец 
# данными о количестве ингредиентов в нём:

df['ingredients'] = df['ingredients'].apply(len) # Заменяем список ингредиентов в рецепте на их количество 
display(df) # Выводим содержимое полученного DataFrame на экран

Unnamed: 0,id,cuisine,ingredients,olive oil flavored cooking spray,cauliflower florets,cracked black pepper,broiler-fryer chicken,black mustard seeds,red pepper flakes,chili,...,milk,cabbage,turnips,ricotta salata,dried chile,minced beef,starchy potatoes,kalonji,konbu,fresh oregano
0,10259,greek,9,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,25693,southern_us,11,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
2,20130,filipino,12,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,22213,indian,4,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,13162,indian,20,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,1121,chinese,9,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
496,18376,italian,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
497,17815,italian,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
498,32878,southern_us,19,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


6.5
```
# Введите свое решение ниже
import json # Импортируем модуль json
import pandas as pd # Импортируем модуль pandas
df=pd.read_json('recipes.json')
ids=list()
for el in df['id']:
    if not (el in ids):
        ids.append(el)
        ```

## СОХРАНЯЕМ DATAFRAME В CSV-ФАЙЛЕ

Если мы планируем продолжать работать с DataFrame, созданными на основе данных, которые мы получили в JSON-формате, 
то полезно будет сохранить промежуточный DataFrame в виде CSV-файла. 
Для выполнения этой операции воспользуемся известной нам в Pandas функцией to_csv():

In [15]:
df.to_csv('recipes.csv', index = False)

В качестве основного параметра мы указали имя файла, в котором необходимо сохранить данные. Также мы установили значение параметра index как False. 
Такая настройка позволит нам не сохранять индексы строк в виде отдельного столбца;
 в результате не будут загружаться «лишние» данные при открытии файла при помощи функции read_csv().

## JSON. Работаем с pandas. Из pandas в JSON

Решим обратную задачу и создадим JSON-файл из сохранённого ранее CSV-файла, который получили в конце предыдущего этапа. 

In [16]:
 df = pd.read_csv('recipes.csv') 
 # Создаём DataFrame, читаем данные из файла в переменную df

Теперь, используя только данные из этого файла, нам нужно в точности воссоздать структуру исходного JSON-файла. 
Мы помним, что после десериализации данные представляли собой список, состоящий из словарей. 
В каждом словаре хранилась информация о рецепте одного блюда. 
Каждый словарь состоял из трёх пар "ключ-значение". 
Первая пара содержала название кухни, к которой относилось блюдо, 
вторая — id блюда, 
и третья — список ингредиентов входящих в состав блюда.

In [17]:
display(df)

Unnamed: 0,id,cuisine,ingredients,olive oil flavored cooking spray,cauliflower florets,cracked black pepper,broiler-fryer chicken,black mustard seeds,red pepper flakes,chili,...,milk,cabbage,turnips,ricotta salata,dried chile,minced beef,starchy potatoes,kalonji,konbu,fresh oregano
0,10259,greek,9,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,25693,southern_us,11,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
2,20130,filipino,12,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,22213,indian,4,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,13162,indian,20,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,1121,chinese,9,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
496,18376,italian,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
497,17815,italian,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
498,32878,southern_us,19,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [19]:
# 7.1
ids=list()
for el in df['id']:
    if not (el in ids):
        ids.append(el)
display(ids)

[10259,
 25693,
 20130,
 22213,
 13162,
 6602,
 42779,
 3735,
 16903,
 12734,
 5875,
 45887,
 2698,
 41995,
 31908,
 24717,
 34466,
 1420,
 2941,
 8152,
 13121,
 40523,
 40989,
 29630,
 49136,
 26705,
 27976,
 22087,
 9197,
 1299,
 40429,
 34419,
 10276,
 33465,
 39250,
 37963,
 20051,
 11300,
 17610,
 37405,
 28302,
 31634,
 32304,
 36341,
 29369,
 27564,
 18515,
 3335,
 4499,
 4906,
 5767,
 30748,
 35930,
 44902,
 31119,
 3535,
 47028,
 38112,
 2646,
 5206,
 38233,
 39267,
 11913,
 20591,
 70,
 43928,
 8530,
 275,
 43769,
 49111,
 11886,
 45839,
 699,
 24568,
 8820,
 16582,
 9058,
 4715,
 29061,
 2107,
 22825,
 13758,
 6886,
 14874,
 43399,
 38254,
 41596,
 33989,
 17004,
 4969,
 31831,
 46648,
 36888,
 34471,
 25164,
 39600,
 46357,
 46905,
 8753,
 37337,
 17636,
 8997,
 28851,
 4635,
 7782,
 8031,
 49434,
 31318,
 31027,
 47095,
 4574,
 19757,
 35570,
 44812,
 27858,
 18624,
 9406,
 35132,
 33071,
 8321,
 20955,
 45776,
 6043,
 336,
 25751,
 793,
 34367,
 7406,
 7473,
 7532,
 5924,

In [43]:
# 7.2
ingredients=list()
col=df.columns[3:]
for c in col:
    for el in df[c]:
        if (el==1) and not (c in ingredients):
            ingredients.append(c)
display(ingredients)

['olive oil flavored cooking spray',
 'cauliflower florets',
 'cracked black pepper',
 'broiler-fryer chicken',
 'black mustard seeds',
 'red pepper flakes',
 'chili',
 'sourdough loaf',
 'white vinegar',
 'calimyrna figs',
 'green bell pepper, slice',
 'erythritol',
 'coconut milk',
 'boneless chicken skinless thigh',
 'warm water',
 'capsicum',
 'coriander',
 'artichokes',
 'enchilada sauce',
 'brie cheese',
 'lean ground beef',
 'wheat',
 'Italian parsley leaves',
 'sliced mushrooms',
 'sesame salt',
 'rum extract',
 'heavy whipping cream',
 'spicy brown mustard',
 'chopped parsley',
 'tomatillo salsa',
 'chicken leg quarters',
 'sweet cherries',
 'egg noodles',
 'curry leaves',
 'rosemary leaves',
 'salad',
 'artichoke hearts',
 'swiss cheese',
 'green cardamom pods',
 'dipping sauces',
 'heavy cream',
 'vinaigrette dressing',
 'beef stock',
 'turbinado',
 'corn flour',
 'slivered almonds',
 'buckwheat noodles',
 'lemon curd',
 'chunky peanut butter',
 'coconut vinegar',
 'pistachi

После десериализации JSON-файла мы получили структуру, 
представляющую собой список, состоящий из словарей. 
Каждый словарь состоял из трёх пар "ключ-значение", при этом в качестве значений выступали:

* целое число (id блюда);
* строковая величина (тип кухни);
* список строковых величин (перечень ингредиентов).

Сейчас нам предстоит воссоздать эту структуру, извлекая данные из DataFrame. Для этого необходимо создать:

* пустой список new_recipes — для хранения итоговой структуры;
* используя код из Задачи 7.1, список ids — для хранения id всех блюд;
* используя код из Задачи 7.2, список ingredients — для хранения названий всех ингредиентов.

Далее необходимо реализовать следующий алгоритм:

* Написать код функции make_list(), которая принимает на вход строку DataFrame df, содержащую полные данные об одном блюде, 
и возвращает перечень ингредиентов, входящих в состав этого блюда в виде списка.
* Организовать цикл с параметром, в котором будут перебираться элементы списка ids.
 В результате в процессе прохождения цикла параметр должен принять значение id каждого блюда.
* На каждом шаге цикла создать словарь, содержащий три пары "ключ-значение":
    * ключу "id" присвоить текущее значение параметра цикла как целого числа;
    * ключу "cuisine" присвоить значение соответствующей кухни, которое мы получим, применив фильтр по текущему id к DataFrame df;
    * ключу "ingredients" присвоить значение списка, воспользовавшись функцией make_list(), созданной на первом шаге алгоритма.
* Каждый созданный словарь добавить к списку new_recipes:

In [49]:
def make_list (row):
    ing=list()
    col=row.columns[3:]
    #print(col)
    for c in col:
        for el in row[c]:
        #print(row[c])
            if (el==1) and not (c in ing):
                ing.append(c)
    return ing
new_recipes = [] # Создаём пустой список для хранения итоговой структуры
for current_id in ids: # Организуем цикл с параметром current_id
    cuisine = df[df['id'] == current_id]['cuisine'].iloc[0] 
    # Получаем значение соответствующей кухни, применив фильтр по текущему значению параметра цикла к DataFrame;
    current_ingredients = make_list(df[df['id'] == current_id]) 
    # Получаем перечень ингредиентов, входящих в состав текущего блюда
    current_recipe = {'cuisine': cuisine, 'id': int(current_id), 'ingredients': current_ingredients} 
    # Создаём текущий словарь
    new_recipes.append(current_recipe) # Добавляем созданный словарь к списку

In [48]:
display(new_recipes)

[{'cuisine': 'greek',
  'id': 10259,
  'ingredients': ['black olives',
   'pepper',
   'seasoning',
   'purple onion',
   'feta cheese crumbles',
   'garbanzo beans',
   'garlic',
   'romaine lettuce',
   'grape tomatoes']},
 {'cuisine': 'southern_us',
  'id': 25693,
  'ingredients': ['salt',
   'yellow corn meal',
   'ground black pepper',
   'ground pepper',
   'tomatoes',
   'vegetable oil',
   'plain flour',
   'green tomatoes',
   'thyme',
   'eggs',
   'milk']},
 {'cuisine': 'filipino',
  'id': 20130,
  'ingredients': ['salt',
   'pepper',
   'butter',
   'cooking oil',
   'soy sauce',
   'yellow onion',
   'mayonaise',
   'garlic powder',
   'grilled chicken breasts',
   'chicken livers',
   'green chilies',
   'eggs']},
 {'cuisine': 'indian',
  'id': 22213,
  'ingredients': ['wheat', 'salt', 'water', 'vegetable oil']},
 {'cuisine': 'indian',
  'id': 13162,
  'ingredients': ['boneless chicken skinless thigh',
   'lemon juice',
   'salt',
   'butter',
   'passata',
   'water',
  

Для сериализации  используем функцию dumps(), 
которой в качестве параметра передадим список new_recipes. 
апись в файл осуществляется с помощью метода write(). 
Предварительно файл необходимо открыть для записи с помощью функции open() c параметром 'w' (от англ. write, рус. писать):

In [51]:
import json # Импорт модуля json
new_recipes = json.dumps(new_recipes) 
# Функция dumps() модуля json сериализирует объект Python в строку формата JSON. 
with open("data/new_recipes.json", "w") as write_file: 
    # Откроем файл new_recipes.json для записи
    write_file.write(new_recipes) 
    # Записываем содержимое подготовленные данные в файл

## XML. 

eXtensible Markup Language — расширяемый язык разметки.
Данные в формате XML имеют древовидную структуру. 

Для работы с XML-файлами мы будем использовать модуль ElementTree , входящий в стандартный пакет xml. 
Этот модуль позволит нам «перемещаться» по дереву XML и смотреть, что находится в каждом его узле, начиная с корня и заканчивая листьями.

In [52]:
 import xml.etree.ElementTree as ET # Импортируем модуль ElementTree

In [54]:
tree = ET.parse('menu.xml')
display(tree)

<xml.etree.ElementTree.ElementTree at 0x2d31b74ddb0>

In [55]:
# запишем в переменную root корневой узел дерева tree и посмотрим, 
# как выглядит содержимое переменной root, для чего выполним код:

root = tree.getroot()
display(root)

<Element 'menu' at 0x000002D31AF7B560>

In [56]:
display(type(root))

xml.etree.ElementTree.Element

In [57]:
display(list(root))

[<Element 'dish' at 0x000002D31AF7BFB0>,
 <Element 'dish' at 0x000002D31AE513A0>]

In [58]:
 display(list(root[1]))

[<Element 'price' at 0x000002D31AE518F0>,
 <Element 'weight' at 0x000002D31AE516C0>,
 <Element 'class' at 0x000002D315A350D0>]

Как было сказано ранее, у узлов могут быть параметры, или атрибуты. 
апример, у узлов dish есть атрибут name, который хранит название блюда.

Мы можем непосредственно обратиться к атрибутам, используя attrib.

In [59]:
 display(root[0].attrib)

{'name': 'Кура'}

В XML-узлах часто хранятся количественные показатели. 
Эти показатели хранятся в виде текста, и прочитать их можно, 
обратившись к атрибуту text у соответствующего объекта типа ElementTree.Element.

In [61]:
# Например, возьмём узел price первого блюда из меню:

display(root[0][0])

<Element 'price' at 0x000002D31AE51530>

In [62]:
#Теперь прочитаем значение этого узла с помощью text:

display(root[0][0].text)

'40'

Все значения в XML, даже числовые, хранятся как строки, поэтому преобразовывать их к нужному типу вам нужно самим.

In [63]:
# Если вы хотите прочитать наименование тега конкретного узла, 
# необходимо использовать tag. 
# Например, получим наименование тега корневого узла:

display(root.tag)

'menu'

In [65]:
display(root[0][2].tag)

'class'

## ИСПОЛЬЗОВАНИЕ ЦИКЛОВ


In [66]:
for dish in root:
    for param in dish:
        print(dish.attrib['name'], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



В этом коде реализован следующий алгоритм:

1. В первом (внешнем) цикле перебираем потомков корня дерева (root). 
Потомки перебираются последовательно при помощи переменной dish. Это отдельные блюда из меню.
2. Во втором (вложенном) цикле аналогичным образом перебираем потомков каждого блюда. 
Этими потомками являются параметры блюда — его цена (price), вес (weight) и класс (class).
3. После этого выводим на экран название блюда (значение атрибута name), название очередного параметра (tag) и его значение (text).
4, Дополнительная функция print() в цикле верхнего уровня предназначена для организации более удобного восприятия информации — 
между отдельными блюдами будет выведена пустая строка.

## ЗАГРУЖАЕМ ДАННЫЕ ИЗ XML-ФАЙЛА В DATAFRAME

Реализуем следующий алгоритм:

1. Загрузить XML-структуру файла menu.xml в переменную root.
2. Создать пустой список df_list (в него будем добавлять строчки итоговой таблицы).
3. Заранее создать список column_names с именами столбцов — название блюда (name), его цена (price), вес (weight) и класс (class).
4. В цикле организовать обход xml-дерева из корня по всем потомкам.
5. На каждой итерации цикла сформировать в виде списка строку таблицы, содержащую информацию: наименование блюда (атрибут name узла dish) и значения потомков этого узла — узлов price, weight, class.
6. Добавить сформированную строку в список df_list, используя метод append().
7. Сформировать из вложенного списка DataFrame. Имена для столбцов взять из списка column_names.

In [68]:
import xml.etree.ElementTree as ET
tree = ET.parse('menu.xml')
root = tree.getroot()

import pandas as pd
column_names = ['name', 'price', 'weight', 'class']
df_list = []

for dish in root:
    row = [dish.attrib['name'], dish[0].text, dish[1].text, dish[2].text]
    df_list.append(row)
    df = pd.DataFrame(df_list, columns=column_names)
display(df)

Unnamed: 0,name,price,weight,class
0,Кура,40,300,Мясо
1,Греча,20,200,Крупа


## СОЗДАЁМ XML-ФАЙЛ



In [69]:
# Чтобы создать корень дерева, 
# используем метод Element() из класса ElementTree:

import xml.etree.ElementTree as ET

new_root = ET.Element('menu')
display(new_root)

<Element 'menu' at 0x000002D315A541D0>

In [70]:
# Добавим в наше меню двух потомков корневого узла, 
# которые будут представлять два блюда, то есть будут узлами dish:

dish1 = ET.SubElement(new_root, 'dish', name='Кура')
dish2 = ET.SubElement(new_root, 'dish', name='Греча')
display(list(new_root))

[<Element 'dish' at 0x000002D315A574C0>,
 <Element 'dish' at 0x000002D315A57510>]

В метод SubElement() мы передали первым аргументом узел, к которому добавляем потомка, 
вторым аргументом — наименование нового тега (dish),  
третьим аргументом — наименование атрибута нового узла( name ) и его значение

In [71]:
price1 = ET.SubElement(dish1, "price").text = "40"
weight1 = ET.SubElement(dish1, "weight").text = "300"
class1 = ET.SubElement(dish1, "class").text = "Мясо"
display(list(dish1))

price2 = ET.SubElement(dish2, "price").text = "20"
weight2 = ET.SubElement(dish2, "weight").text = "200"
class2 = ET.SubElement(dish2, "class").text = "Крупа"
display(list(dish2))

[<Element 'price' at 0x000002D315A54400>,
 <Element 'weight' at 0x000002D315A544F0>,
 <Element 'class' at 0x000002D315A54590>]

[<Element 'price' at 0x000002D315A54540>,
 <Element 'weight' at 0x000002D315A56340>,
 <Element 'class' at 0x000002D315A546D0>]

In [73]:
# Проверим визуально корректность созданной нами структуры, 
# выполнив фрагмент кода, разработанного ранее:

for dish in new_root:
    for param in dish:
        print(dish.attrib['name'], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



## СОХРАНЕНИЕ XML-ФАЙЛА


In [75]:
# Преобразуем созданный нами объект типа ElementTree.Element в строку 
# c помощью метода tostring(), передав наше новое дерево как аргумент. 
# Сохраним эту строку на диске, используя стандартные средства Python::

new_root_string = ET.tostring(new_root)
with open("new_menu.xml", "wb") as f:
    f.write(new_root_string)

In [76]:
# Возможно, вы увидите проблему, связанную с кодировкой. 
# Что делать в этом случае? 
# Как вариант — записать файл, используя сам класс ElementTree() :

ET.ElementTree(new_root).write('new_menu_good.xml', encoding="utf-8")