In [138]:
import pandas as pd 
from chardet.universaldetector import UniversalDetector # Импортируем субмодуль chardet.universaldetector

import json
from pprint import pprint # (от англ. pretty print, рус. красивый вывод на экран)

import xml.etree.ElementTree as ET # Импортируем модуль ElementTree


# READ_TABLDE

In [111]:
countries_data = pd.read_csv('data/countries.csv', sep=';') # Загружаем данные из файла в переменную, создавая объект DataFrame
countries_data.to_csv('data/countries.txt', index=False, sep=' ') # Выгружаем данные из DataFrame в CSV-файл и сохраняем файл в папке data
txt_df = pd.read_table('data/countries.txt', sep=' ', index_col=['country'])# Загружаем данные из файла в переменную, создавая объект DataFrame
display(txt_df) # Выводим содержимое DataFrame на экран

Unnamed: 0_level_0,population,square
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Англия,56.29,133396
Канада,38.05,9984670
США,322.28,9826630
Россия,146.24,17125191
Украина,45.5,603628
Беларусь,9.5,207600
Казахстан,17.04,2724902


Используя параметр header, при создании DataFrame мы учитываем наличие/отсутствие строки заголовков в исходном файле данных.

Например, если при считывании данных из ранее сохранённого в папке data-файла melb_data_ps.csv указать значение параметра header=None, то первая строка исходного файла не будет восприниматься как строка заголовка и будет отнесена к области данных DataFrame.

In [112]:
# melb_data = pd.read_csv('data/melb_data.csv', header=None) # Загружаем данные из файла в переменную, создавая объект DataFrame
# display(melb_data) # Выводим содержимое DataFrame на экран

### РЕШАЕМ ПРОБЛЕМУ С КОДИРОВКОЙ ИСХОДНЫХ ДАННЫХ

При считывании файла и создании DataFrame может возникнуть проблема — при выводе на экран данные будут отображаться в виде нечитаемых символов. Это связано с кодировкой символов в исходном файле.

In [113]:
data=pd.read_csv('data/ErrorEnCoding.csv', header=None ) # Считываем данные из файла с неизвестной кодировкой в переменную, создавая объект DataFrame
display(data) # Выводим содержимое DataFrame на экран

Unnamed: 0,0,1,2
0,User_943,Accumanst@gmail.com,������
1,User_908,Advismowr@mail.ru,������
2,User_962,Anachso@ukr.net,���������
3,User_973,Antecia@inbox.ru,�����
4,User_902,Balliaryva@ukr.net,
...,...,...,...
95,User_959,UpdatesCurious@yahoo.com,������
96,User_901,V2artierso@mail.ru,�����������
97,User_970,Vashoterlo@bk.ru,�������
98,User_965,Visuareda@yahoo.com,�������


Приведённый ниже код поможет нам определить используемую кодировку в файле, степень достоверности, используемый язык.

In [114]:
from chardet.universaldetector import UniversalDetector # Импортируем субмодуль chardet.universaldetector

detector = UniversalDetector()
with open('data/ErrorEnCoding.csv', 'rb') as fh:
    for line in fh:
        detector.feed(line)
        if detector.done:
            break
detector.close()

{'encoding': 'KOI8-R', 'confidence': 0.8402412806602051, 'language': 'Russian'}

In [115]:
# Создаем DataFrame из файла, явно указав кодировку символов, и выводим его содержимого на экран
data=pd.read_csv('data/ErrorEnCoding.csv', encoding='koi8-r', header=None )
display(data)

Unnamed: 0,0,1,2
0,User_943,Accumanst@gmail.com,Ижевск
1,User_908,Advismowr@mail.ru,Ижевск
2,User_962,Anachso@ukr.net,Краснодар
3,User_973,Antecia@inbox.ru,Пермь
4,User_902,Balliaryva@ukr.net,
...,...,...,...
95,User_959,UpdatesCurious@yahoo.com,Тюмень
96,User_901,V2artierso@mail.ru,Арзангелтск
97,User_970,Vashoterlo@bk.ru,Воронеж
98,User_965,Visuareda@yahoo.com,Воронеж


### ЧТЕНИЕ ФАЙЛА ПО ССЫЛКЕ, ИСПОЛЬЗУЯ ФУНКЦИЮ READ_TABLE()

In [116]:
data = pd.read_table('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv', sep=',')
display(data)

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,23540,Williamstown,8/2 Thompson St,2,t,622500.0,SP,Greg,26/08/2017,6.8,...,2.0,1.0,,89.0,2010.0,,-37.86393,144.90484,Western Metropolitan,6380.0
18392,23541,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
18393,23544,Yallambie,17 Amaroo Wy,4,h,1100000.0,S,Buckingham,26/08/2017,12.7,...,3.0,2.0,,,,,-37.72006,145.10547,Northern Metropolitan,1369.0
18394,23545,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0


### ЧТЕНИЕ/ЗАПИСЬ АРХИВИРОВАННЫХ CSV-ФАЙЛОВ

In [117]:
data = pd.read_csv('data/students_performance.zip')
display(data)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


В функции to_csv() предусмотрен механизм, позволяющий проводить упаковку CSV-файлов в zip-архив. Проделаем обратную операцию — данные из DataFrame data запишем в CSV-файл, упакуем полученный файл в zip-архив «на лету» и сохраним полученный архив в папке data, выполнив следующий код:

In [118]:
compression_opts = dict(method='zip', archive_name='out.csv') # Определяем параметры архивирования — метод сжатия, имя файл в архиве
data.to_csv('data/out.zip', index=False, compression=compression_opts)

# EXCEL

In [119]:
# считывание из файла
grades = pd.read_excel('data/grades.xlsx')
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


In [120]:
# считывание по ссылке
data = pd.read_excel('https://github.com/asaydn/test/raw/master/january.xlsx')
display(data)

Unnamed: 0,January 2020 Sales,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
0,Global Sales Report,,,,,
1,,,,,,
2,Location,Oranges,Apples,Bananas,Blueberries,Total
3,Toronto,7651,4422,8580,3679,24332
4,Los Angeles,273,2998,9890,7293,20454
5,Atlanta,3758,6752,4599,4149,19258
6,New York,4019,8796,8486,9188,30489


Как упоминалось выше, один Excel-файл может включать в себя несколько листов, которые отображаются в разных вкладках (англ. sheet, рус. лист). Например, в нашем файле два листа — Maths и ML.

По умолчанию в DataFrame читается информация из первого листа, однако read_excel()  позволяет выбрать, из какого именно листа загружать данные. 

In [121]:
grades = pd.read_excel('data/grades.xlsx', sheet_name='ML')
display(grades)

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,7
1,2,Катя,5
2,3,Маша,9
3,4,Миша,8
4,5,Женя,9
5,6,Оля,9
6,7,Витя,7
7,8,Дима,4
8,9,Витя,5


### ВЫГРУЗКА ДАННЫХ ИЗ DATAFRAME В EXCEL-ФАЙЛ

In [122]:
# Сохраняем данные из DataFrame grades в файл grades_new.xlsx в папке data
grades.to_excel('data/grades_new.xlsx') 

# Сохраняем данные из DataFrame grades в файл grades_new.xlsx (на листе 'Example') в папке data
grades.to_excel('data/grades_new.xlsx', sheet_name='Example', index=False) 

Продвинутая работа с файлами Excel в Python предполагает использование дополнительных библиотек, таких как:

* openpyxl — рекомендуемый пакет для чтения и записи файлов Excel 2010+ (например, xlsx);
* xlsxwriter — альтернативный пакет для записи данных, информации о форматировании и, в частности, диаграмм в формате Excel 2010+ (например, xlsx);
* pyxlsb — пакет позволяет читать файлы Excel в xlsb-формате;
* pylightxl — пакет позволяет читать xlsx- и xlsm-файлы и записывать xlsx-файлы;
* xlrd — пакет предназначен для чтения данных и информации о форматировании из старых файлов Excel (например, xls);
* xlwt — пакет предназначен для записи данных и информации о форматировании в старые файлы Excel (например, xls).

In [123]:
# Задание
# Считайте данные из двух листов файла ratings+movies.xlsx в разные DataFrame, объедините в один, запишите данные из полученного DataFrame в файл. 
# #Сколько строк (включая строку заголовков) в результирующем файле?
ratings = pd.read_excel('data/ratings+movies.xlsx', sheet_name='ratings')
movies = pd.read_excel('data/ratings+movies.xlsx', sheet_name='movies')
rt_mov = ratings.merge(movies, on='movieId')
rt_mov.to_excel('data/ratings+movies_new.xlsx')


# JSON

In [124]:
with open('data/recipes.json') as f: # Открываем файл и связываем его с объектом "f"
    recipes = json.load(f) # Загружаем содержимое открытого файла в переменную recipes
pprint(recipes)

[{'cuisine': 'greek',
  'id': 10259,
  'ingredients': ['romaine lettuce',
                  'black olives',
                  'grape tomatoes',
                  'garlic',
                  'pepper',
                  'purple onion',
                  'seasoning',
                  'garbanzo beans',
                  'feta cheese crumbles']},
 {'cuisine': 'southern_us',
  'id': 25693,
  'ingredients': ['plain flour',
                  'ground pepper',
                  'salt',
                  'tomatoes',
                  'ground black pepper',
                  'thyme',
                  'eggs',
                  'green tomatoes',
                  'yellow corn meal',
                  'milk',
                  'vegetable oil']},
 {'cuisine': 'filipino',
  'id': 20130,
  'ingredients': ['eggs',
                  'pepper',
                  'salt',
                  'mayonaise',
                  'cooking oil',
                  'green chilies',
                  'grilled chicken bre

Давайте выясним некоторые детали о блюде, которое записано первым в списке блюд. Его индекс — 0, и информация о нём хранится в словаре. Чтобы узнать ID этого блюда, мы можем обратиться к соответствующему ключу словаря, выполнив следующий код:

In [125]:
recipes[0]['id']

10259

In [126]:
# Сколько ингредиентов входят в состав первого блюда из предлагаемого списка?
len(recipes[0]['ingredients'])

9

In [127]:
# К какой кухне относится блюдо с id = 13121?
for x in recipes:
    if x['id'] == 13121:
        print(x['cuisine'])
        break

thai


In [128]:
# Какое количество уникальных национальных кухонь присутствуют в нашем наборе данных?
unique_cuisine = set()
for x in recipes:
    unique_cuisine.add(x['cuisine'])
len(unique_cuisine)

20

In [129]:
# Какой из национальных кухонь принадлежит самое большое количество рецептов?
cuisine_dict = {}
for x in recipes:
    if x['cuisine'] in cuisine_dict:
        #print('=====', x['cuisine'] )
        cuisine_dict[x['cuisine']] = cuisine_dict[x['cuisine']] + 1
    else:
        cuisine_dict[x['cuisine']] = 1

s = dict(sorted(cuisine_dict.items(), key=lambda item: item[1]))
s


{'russian': 2,
 'brazilian': 3,
 'jamaican': 6,
 'british': 9,
 'vietnamese': 9,
 'irish': 9,
 'moroccan': 9,
 'filipino': 11,
 'spanish': 12,
 'greek': 15,
 'cajun_creole': 16,
 'thai': 17,
 'korean': 21,
 'japanese': 24,
 'french': 25,
 'chinese': 39,
 'indian': 41,
 'southern_us': 52,
 'mexican': 79,
 'italian': 101}

## ИЗ JSON В PANDAS

In [130]:
# import json # Импортируем модуль json
# from pprint import pprint # Импортируем функцию pprint()
# import pandas as pd # Импортируем модуль pandas

with open('data/recipes.json') as f: # Открываем файл и связываем его с объектом "f"
    recipes = json.load(f) # Загружаем содержимое открытого файла в переменную recipes
df = pd.DataFrame(recipes) # Создаём объект DataFrame из списка recipes
display(df.head()) # Выводим на экран первые строки полученного DataFrame

Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes..."
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g..."
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g..."
3,22213,indian,"[water, vegetable oil, wheat, salt]"
4,13162,indian,"[black pepper, shallots, cornflour, cayenne pe..."


In [131]:
# import pandas as pd # Импортируем модуль pandas
df = pd.read_json('data/recipes.json') # Создаём объект DataFrame, загружая содержимое файла recipes.json
display(df) # Выводим на экран первые строки полученного DataFrame

Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes..."
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g..."
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g..."
3,22213,indian,"[water, vegetable oil, wheat, salt]"
4,13162,indian,"[black pepper, shallots, cornflour, cayenne pe..."
...,...,...,...
495,1121,chinese,"[ground pepper, garlic, safflower oil, green o..."
496,18376,italian,"[penne, garlic, eggplant, lemon juice, olive o..."
497,17815,italian,"[cold water, dry white wine, fish fillets, cho..."
498,32878,southern_us,"[water, cajun seasoning, yellow onion, shrimp,..."


Каждая строка соответствует одному рецепту, в столбце id хранится его идентификационный номер, в столбце cuisine — тип кухни, а столбец ingredients содержит список, в котором перечислены ингредиенты, необходимые для приготовления блюда.

Такая структура не очень практична, поскольку она не позволяет осуществлять группировку данных и выполнять многие другие операции, связанные с исследованием ингредиентов разных блюд. Например, представьте, что вы хотите отфильтровать блюда, состоящие не более чем из пяти ингредиентов, или блюда, не содержащие мяса. Сделать это, когда ингредиенты блюд хранятся в списках, не очень просто.

Для полноценной работы с данными нам необходимо иметь возможность хранить информацию о каждом ингредиенте в отдельном столбце.

In [132]:
unique_ingridients = set()
for x in recipes:
    for ingr in x['ingredients']:
        unique_ingridients.add(ingr)

# добавляем признаки-мигалки
for ingridient_name in unique_ingridients:
    df[ingridient_name] = df['ingredients'].apply(lambda ingridient_list: 1 if ingridient_name in ingridient_list else 0)
    
df['ingredients'] = df['ingredients'].apply(len) # Заменяем список ингредиентов в рецепте на их количество 
display(df) # Выводим содержимое полученного DataFrame на экран

df.to_csv('data/recipes.csv', index=False)

Unnamed: 0,id,cuisine,ingredients,passata,frozen spinach,anchovy fillets,peanuts,hot water,seasoned rice wine vinegar,canned black beans,...,chili flakes,boiling potatoes,semolina,capers,peanut oil,coconut aminos,spinach,celery salt,octopuses,orange
0,10259,greek,9,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,25693,southern_us,11,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,20130,filipino,12,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,22213,indian,4,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,13162,indian,20,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,1121,chinese,9,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
496,18376,italian,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
497,17815,italian,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
498,32878,southern_us,19,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


## ИЗ PANDAS В JSON

Теперь, используя только данные из этого файла, нам нужно в точности воссоздать структуру исходного JSON-файла. Мы помним, что после десериализации данные представляли собой список, состоящий из словарей. В каждом словаре хранилась информация о рецепте одного блюда. Каждый словарь состоял из трёх пар "ключ-значение". Первая пара содержала название кухни, к которой относилось блюдо, вторая — id блюда, и третья — список ингредиентов входящих в состав блюда.

Поскольку по условию задачи мы не можем использовать предыдущие наработки, давайте начнём с создания списка, содержащего перечень id всех блюд, а также списка ингредиентов, встречающихся в рецептах. Эти списки в дальнейшем мы будем использовать для заполнения JSON-структуры.

In [133]:
df = pd.read_csv('data/recipes.csv') # Создаём DataFrame, читаем данные из файла в переменную df
ids = df['id'].unique().tolist()

In [134]:
ingredients = df.columns.tolist()
del ingredients[:3]

Отлично! Теперь мы можем использовать подготовленные списки ids и ingredients для непосредственного создания JSON-структуры.

После десериализации JSON-файла мы получили структуру, представляющую собой список, состоящий из словарей. Каждый словарь состоял из трёх пар "ключ-значение", при этом в качестве значений выступали:

* целое число (id блюда);
* строковая величина (тип кухни);
* список строковых величин (перечень ингредиентов).

Сейчас нам предстоит воссоздать эту структуру, извлекая данные из DataFrame. Для этого необходимо создать:

* пустой список new_recipes — для хранения итоговой структуры;
* используя код из Задачи 6.1, список ids — для хранения id всех блюд;
* используя код из Задачи 6.2, список ingredients — для хранения названий всех ингредиентов.

Далее необходимо реализовать следующий алгоритм:

1. Написать код функции make_list(), которая принимает на вход строку DataFrame df, содержащую полные данные об одном блюде, и возвращает перечень ингредиентов, входящих в состав этого блюда в виде списка.
2. Организовать цикл с параметром, в котором будут перебираться элементы списка ids. В результате в процессе прохождения цикла параметр должен принять значение id каждого блюда.
3. На каждом шаге цикла создать словарь, содержащий три пары "ключ-значение":
* ключу "id" присвоить текущее значение параметра цикла как целого числа;
* ключу "cuisine" присвоить значение соответствующей кухни, которое мы получим, применив фильтр по текущему id к DataFrame df;
* ключу "ingredients" присвоить значение списка, воспользовавшись функцией make_list(), созданной на первом шаге алгоритма.
4. Каждый созданный словарь добавить к списку new_recipes:

<code>
new_recipes = [] # Создаём пустой список для хранения итоговой структуры

for current_id in ids: # Организуем цикл с параметром current_id
    cuisine = df[df['id'] == current_id]['cuisine'].iloc[0] # Получаем значение соответствующей кухни, применив фильтр по текущему значению параметра цикла к DataFrame;
    current_ingredients = make_list(df[df['id'] == current_id]) # Получаем перечень ингредиентов, входящих в состав текущего блюда
    current_recipe = {'cuisine': cuisine, 'id': int(current_id), 'ingredients': current_ingredients} # Создаём текущий словарь
    new_recipes.append(current_recipe) # Добавляем созданный словарь к списку

</code>

Осталось создать код функции  make_list(), выполнить сериализацию и записать результат в файл.

In [135]:
# Написать код функции make_list(), которая принимает на вход строку DataFrame df, содержащую полные данные об одном блюде, 
# и возвращает перечень ингредиентов, входящих в состав этого блюда в виде списка.
def make_list(arg):
    """ Функция принимает на вход строку DataFrame df, содержащую полные данные об одном блюде, 
        и возвращает перечень ингредиентов, входящих в состав этого блюда в виде списка.

    Args:
        arg (pandas.core.frame.DataFrame): строка DataFrame с рецептами

    Returns:
        the_ingredients: список ингридиентов, у которых в строке есть 1
    """
    result = []
    for ing in ingredients:
        if arg[ing].iloc[0] == 1:
            result.append(ing)
    return result
    
new_recipes = [] # Создаём пустой список для хранения итоговой структуры

for id in ids:
    recipe = {}
    recipe['id'] = int(id)
    recipe['cuisine'] = df.loc[df.id == id, 'cuisine'].iloc[0]
    recipe['ingredients'] = make_list(df[df['id']==id])
    new_recipes.append(recipe)

new_recipes

[{'id': 10259,
  'cuisine': 'greek',
  'ingredients': ['garbanzo beans',
   'feta cheese crumbles',
   'pepper',
   'romaine lettuce',
   'purple onion',
   'seasoning',
   'grape tomatoes',
   'garlic',
   'black olives']},
 {'id': 25693,
  'cuisine': 'southern_us',
  'ingredients': ['yellow corn meal',
   'thyme',
   'ground pepper',
   'vegetable oil',
   'ground black pepper',
   'tomatoes',
   'salt',
   'eggs',
   'milk',
   'plain flour',
   'green tomatoes']},
 {'id': 20130,
  'cuisine': 'filipino',
  'ingredients': ['chicken livers',
   'pepper',
   'soy sauce',
   'butter',
   'green chilies',
   'cooking oil',
   'mayonaise',
   'grilled chicken breasts',
   'salt',
   'eggs',
   'garlic powder',
   'yellow onion']},
 {'id': 22213,
  'cuisine': 'indian',
  'ingredients': ['wheat', 'vegetable oil', 'water', 'salt']},
 {'id': 13162,
  'cuisine': 'indian',
  'ingredients': ['passata',
   'garam masala',
   'black pepper',
   'bay leaf',
   'double cream',
   'butter',
   'garli

Выполним сериализацию списка new_recipes и запишем полученные данные в файл.

Для сериализации  используем функцию dumps(), которой в качестве параметра передадим список new_recipes. Запись в файл осуществляется с помощью метода write(). Предварительно файл необходимо открыть для записи с помощью функции open() c параметром 'w' (от англ. write, рус. писать):

In [136]:
# import json # Импорт модуля json
new_recipes = json.dumps(new_recipes) # Функция dumps() модуля json сериализирует объект Python в строку формата JSON. 
with open("data/new_recipes.json", "w") as write_file: # Откроем файл new_recipes.json для записи
    write_file.write(new_recipes) # Записываем содержимое подготовленные данные в файл

# XML

In [139]:
# import xml.etree.ElementTree as ET # Импортируем модуль ElementTree
tree = ET.parse('data/menu.xml')

In [145]:
root = tree.getroot()

# корень
display(root)

# список потомков корневого узла. 
# если у узла нет потомков, то вернётся пустой список — []
display(list(root))

# список потомков второго блюда
display(list(root[1]))

<Element 'menu' at 0x7f86e13cc770>

[<Element 'dish' at 0x7f86e13ccd10>, <Element 'dish' at 0x7f86e13cc860>]

[<Element 'price' at 0x7f86e13cc900>,
 <Element 'weight' at 0x7f86e13ccc20>,
 <Element 'class' at 0x7f86e13ccf90>]

Атрибуты и теги

In [152]:
# атрибуты первого блюда
display(root[0].attrib)

# узел price первого блюда из меню
display(root[0][0])

# прочитаем значение этого узла с помощью text
display(root[0][0].text)

# прочитать наименование тега конкретного узла
display(root[0][2].tag)

{'name': 'Кура'}

<Element 'price' at 0x7f86e13cc360>

'40'

'class'

In [153]:
# обход дерева
for dish in root:
    for param in dish:
        print(dish.attrib['name'], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



### ЗАГРУЖАЕМ ДАННЫЕ ИЗ XML-ФАЙЛА В DATAFRAME

In [169]:
import xml.etree.ElementTree as ET
tree = ET.parse('data/menu.xml')    
root = tree.getroot()

import pandas as pd
column_names = ['name', 'price', 'weight', 'class']
df = pd.DataFrame(columns=column_names)

for dish in root:
    row = [dish.attrib['name'], dish[0].text, dish[1].text, dish[2].text]
    df = df.append(pd.Series(row, index=column_names), ignore_index=True)
    
df

Unnamed: 0,name,price,weight,class
0,Кура,40,300,Мясо
1,Греча,20,200,Крупа


### СОЗДАЁМ XML-ФАЙЛ

In [172]:
# создаём корень дерева
# import xml.etree.ElementTree as ET

new_root = ET.Element('menu')
display(new_root)

# Теперь мы можем добавлять новые узлы в наше дерево, используя метод SubElement() из того же класса.
dish1 = ET.SubElement(new_root, 'dish', name='Кура')
dish2 = ET.SubElement(new_root, 'dish', name='Греча')
display(list(new_root))
# В метод SubElement() мы передали первым аргументом узел, к которому добавляем потомка, 
# вторым аргументом — наименование нового тега (dish),  
# третьим аргументом — наименование атрибута нового узла( name ) и его значение.

<Element 'menu' at 0x7f8700751a40>

[<Element 'dish' at 0x7f871221acc0>, <Element 'dish' at 0x7f86e098b220>]

In [173]:
# Добавим в создаваемую структуру по три потомка (атрибута) к двум новым узлам, которые будут содержать информацию о блюде 
# — о его цене (price), весе (weight) и классе (class), а также значение этих атрибутов
price1 = ET.SubElement(dish1, "price").text = "40"
weight1 = ET.SubElement(dish1, "weight").text = "300"
class1 = ET.SubElement(dish1, "class").text = "Мясо"
display(list(dish1))

price2 = ET.SubElement(dish2, "price").text = "20"
weight2 = ET.SubElement(dish2, "weight").text = "200"
class2 = ET.SubElement(dish2, "class").text = "Крупа"
display(list(dish2))

[<Element 'price' at 0x7f8712211f40>,
 <Element 'weight' at 0x7f86e13f49f0>,
 <Element 'class' at 0x7f86e13ec1d0>]

[<Element 'price' at 0x7f86e13ec810>,
 <Element 'weight' at 0x7f86e13ec0e0>,
 <Element 'class' at 0x7f86e09adf40>]

In [174]:
# проверим созданную структуру
for dish in new_root:
    for param in dish:
        print(dish.attrib['name'], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



### СОХРАНЕНИЕ XML-ФАЙЛА

In [175]:
# Преобразуем созданный нами объект типа ElementTree.Element в строку c помощью метода tostring(), передав наше новое дерево как аргумент. 
# Сохраним эту строку на диске, используя стандартные средства Python
new_root_string = ET.tostring(new_root)
with open("data/new_menu.xml", "wb") as f:
    f.write(new_root_string)

In [176]:
# Возможно, вы увидите проблему, связанную с кодировкой. Что делать в этом случае? 
# Как вариант — записать файл, используя сам класс ElementTree() 

ET.ElementTree(new_root).write('data/new_menu_good.xml', encoding="utf-8")

# Для этого мы передаём в класс ElementTree() наше дерево (не его строковое представление) и вызываем метод write(). 
# В метод мы передаём путь к новому файлу и нужную нам кодировку.