### Работа с текстовыми файлами

In [81]:
# Импорт библиотеки pandas — при выполнении последовательно всех примеров ниже
# импорт выполняется один раз
import pandas as pd 
# Загружаем данные из файла в переменную, создавая объект DataFrame
countries_data = pd.read_csv('countries.csv', sep=';') 
# Выгружаем данные из DataFrame в CSV-файл и сохраняем файл в папке data
countries_data.to_csv('countries.txt', index=False, sep=' ')

In [82]:
# Загружаем данные из файла в переменную, создавая объект DataFrame
txt_df = pd.read_table('countries.txt', sep=' ', index_col=['country'])
# Выводим содержимое DataFrame на экран
display(txt_df)

Unnamed: 0_level_0,population,square
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Англия,56.29,133396
Канада,38.05,9984670
США,322.28,9826630
Россия,146.24,17125191
Украина,45.5,603628
Беларусь,9.5,207600
Казахстан,17.04,2724902


### Проблема с кодировкой


In [83]:
# Считываем данные из файла с неизвестной кодировкой в переменную, создавая объект DataFrame
data=pd.read_csv('ErrorEnCoding.csv', header=None, encoding_errors='replace') 
# Выводим содержимое DataFrame на экран
display(data)

Unnamed: 0,0,1,2
0,User_943,Accumanst@gmail.com,������
1,User_908,Advismowr@mail.ru,������
2,User_962,Anachso@ukr.net,���������
3,User_973,Antecia@inbox.ru,�����
4,User_902,Balliaryva@ukr.net,
...,...,...,...
95,User_959,UpdatesCurious@yahoo.com,������
96,User_901,V2artierso@mail.ru,�����������
97,User_970,Vashoterlo@bk.ru,�������
98,User_965,Visuareda@yahoo.com,�������


Определяем кодировку файла

In [84]:
# Импортируем субмодуль chardet.universal
from chardet.universaldetector import UniversalDetector

detector = UniversalDetector()

with open('ErrorEnCoding.csv', 'rb') as fh:
    for line in fh:
        detector.feed(line)
        if detector.done:
            break
print(detector.close())

{'encoding': 'KOI8-R', 'confidence': 0.8773902118791048, 'language': 'Russian'}


Считываем файл, указав кодировку

In [85]:
# Создаем DataFrame из файла, явно указав кодировку символов, и выводим его содержимое на экран
data=pd.read_csv('ErrorEnCoding.csv', encoding='koi8-r', header=None)
display(data)

Unnamed: 0,0,1,2
0,User_943,Accumanst@gmail.com,Ижевск
1,User_908,Advismowr@mail.ru,Ижевск
2,User_962,Anachso@ukr.net,Краснодар
3,User_973,Antecia@inbox.ru,Пермь
4,User_902,Balliaryva@ukr.net,
...,...,...,...
95,User_959,UpdatesCurious@yahoo.com,Тюмень
96,User_901,V2artierso@mail.ru,Арзангелтск
97,User_970,Vashoterlo@bk.ru,Воронеж
98,User_965,Visuareda@yahoo.com,Воронеж


### Чтение файла по ссылке, используя функцию read_table()

In [86]:
data = pd.read_table('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv', sep=',')
display(data.head())

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


### Чтение/запись архивированных CSV-файлов

In [87]:
data = pd.read_csv('students_performance.zip')
display(data)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


Теперь заархивируем

In [88]:
# Определяем параметры архивирования — метод сжатия, имя файла в архиве
compression_opts = dict(method='zip', archive_name='out.csv') 
data.to_csv('out.zip', index=False, compression=compression_opts)

### Считывание данных из файла Excel

In [89]:
grades = pd.read_excel('grades.xlsx')
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


### Считывание данных из файла EXCEL по ссылке

In [90]:
data = pd.read_excel('https://github.com/asaydn/test/raw/master/january.xlsx', skiprows=3)
display(data)

Unnamed: 0,Location,Oranges,Apples,Bananas,Blueberries,Total
0,Toronto,7651,4422,8580,3679,24332
1,Los Angeles,273,2998,9890,7293,20454
2,Atlanta,3758,6752,4599,4149,19258
3,New York,4019,8796,8486,9188,30489


Прочитаем данные из второго листа (ML) файла:

In [91]:
grades = pd.read_excel('grades.xlsx', sheet_name='ML')
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,7
1,2,Катя,5
2,3,Маша,9
3,4,Миша,8
4,5,Женя,9


### Выгрузка данных из DataFrame в Excel-файл

In [92]:
# Сохраняем данные из DataFrame grades в файл grades_new.xlsx в папке data
grades.to_excel('grades_new.xlsx')

В этом случае будет создан один лист с именем по умолчанию "Sheet1". Также мы сохраним и индекс — в данных будет находиться лишний столбец. Чтобы создать лист с определённым именем (например, Example) и не сохранять индекс, в метод  to_excel() необходимо передать параметры sheet_name='Example' и index=False:

In [93]:
# Сохраняем данные из DataFrame grades в файл grades_new.xlsx (на листе 'Example') в папке data
grades.to_excel('grades_new.xlsx', sheet_name='Example', index=False)

### Задание:
Считайте данные из двух листов файла ratings+movies.xlsx в разные DataFrame, объедините в один, запишите данные из полученного DataFrame в файл. Сколько строк (включая строку заголовков) в результирующем файле?

In [94]:
ratings = pd.read_excel('ratings_movies.xlsx')
movies = pd.read_excel('ratings_movies.xlsx', sheet_name='movies')
ratings=ratings.merge(movies, on='movieId', how='left')
display(ratings)

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,1,4.0,964982703,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,3,4.0,964981247,Grumpier Old Men (1995),Comedy|Romance
2,1,6,4.0,964982224,Heat (1995),Action|Crime|Thriller
3,1,47,5.0,964983815,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,1,50,5.0,964982931,"Usual Suspects, The (1995)",Crime|Mystery|Thriller
...,...,...,...,...,...,...
100831,610,166534,4.0,1493848402,Split (2017),Drama|Horror|Thriller
100832,610,168248,5.0,1493850091,John Wick: Chapter Two (2017),Action|Crime|Thriller
100833,610,168250,5.0,1494273047,Get Out (2017),Horror
100834,610,168252,5.0,1493846352,Logan (2017),Action|Sci-Fi


### JSON

In [95]:
# Импортируем модуль json
import json
# Импортируем функцию pprint()
from pprint import pprint

In [96]:
# Открываем файл и связываем его с объектом "f"
with open('recipes.json') as f:  
    # Загружаем содержимое открытого файла в переменную recipes  
    recipes = json.load(f)

# Выводим на экран содержимое переменной recipes, используя функцию pprint()
pprint(recipes[:4])

[{'cuisine': 'greek',
  'id': 10259,
  'ingredients': ['romaine lettuce',
                  'black olives',
                  'grape tomatoes',
                  'garlic',
                  'pepper',
                  'purple onion',
                  'seasoning',
                  'garbanzo beans',
                  'feta cheese crumbles']},
 {'cuisine': 'southern_us',
  'id': 25693,
  'ingredients': ['plain flour',
                  'ground pepper',
                  'salt',
                  'tomatoes',
                  'ground black pepper',
                  'thyme',
                  'eggs',
                  'green tomatoes',
                  'yellow corn meal',
                  'milk',
                  'vegetable oil']},
 {'cuisine': 'filipino',
  'id': 20130,
  'ingredients': ['eggs',
                  'pepper',
                  'salt',
                  'mayonaise',
                  'cooking oil',
                  'green chilies',
                  'grilled chicken bre

### Задание
К какой кухне относится блюдо с id = 13121?

In [97]:
for val in recipes:
    if val['id']==13121:
        print(val['cuisine'])
        break
    

thai


### Задание
Какое количество уникальных национальных кухонь присутствуют в нашем наборе данных?

In [98]:
#Вариант решения с использованием списка
unique_list=[]
for val in recipes:
    if val['cuisine'] not in unique_list:
        unique_list.append(val['cuisine'])

print(unique_list)
print(len(unique_list))

['greek', 'southern_us', 'filipino', 'indian', 'jamaican', 'spanish', 'italian', 'mexican', 'chinese', 'british', 'thai', 'vietnamese', 'cajun_creole', 'brazilian', 'french', 'japanese', 'irish', 'korean', 'moroccan', 'russian']
20


In [99]:
#Вариант решения с использованием множества
unique_set=set()
for val in recipes:
    unique_set.add(val['cuisine'])

print(unique_set)
print(len(unique_set))

{'spanish', 'filipino', 'indian', 'southern_us', 'irish', 'jamaican', 'italian', 'russian', 'cajun_creole', 'thai', 'mexican', 'korean', 'vietnamese', 'french', 'moroccan', 'greek', 'brazilian', 'chinese', 'japanese', 'british'}
20


### Задание
Какой из национальных кухонь принадлежит самое большое количество рецептов?

In [100]:
# Создаём пустой словарь для хранения информации об количествах рецептов в каждой кухне
count_cuisine = {} 

# Перебираем список кухонь
for item in unique_list: 
    # Добавляем в словарь ключ, соответствующий очередной кухне
    count_cuisine[item] = 0 

# Перебираем список рецептов
for val in recipes: 
    # Увеличиваем значение нужного ключа в словаре на 1
    count_cuisine[val['cuisine']] += 1 

# Извлекаем значения для всех ключей используя метод get(), выбираем самое максимальное значение (при наличии одинаковых значений будет выбрано первое в словаре) и выводим на экран ключ максимального значения
print(max(count_cuisine, key=count_cuisine.get))
print(count_cuisine)

italian
{'greek': 15, 'southern_us': 52, 'filipino': 11, 'indian': 41, 'jamaican': 6, 'spanish': 12, 'italian': 101, 'mexican': 79, 'chinese': 39, 'british': 9, 'thai': 17, 'vietnamese': 9, 'cajun_creole': 16, 'brazilian': 3, 'french': 25, 'japanese': 24, 'irish': 9, 'korean': 21, 'moroccan': 9, 'russian': 2}


### ИЗ JSON В PANDAS

In [101]:
# Импортируем модуль pandas
import pandas as pd 
# Открываем файл и связываем его с объектом "f"
with open('recipes.json') as f: 
    # Загружаем содержимое открытого файла в переменную recipes
    recipes = json.load(f) 
# Создаём объект DataFrame из списка recipes
df = pd.DataFrame(recipes) 
# Выводим на экран первые строки полученного DataFrame
display(df.head())
display(df.shape)

Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes..."
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g..."
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g..."
3,22213,indian,"[water, vegetable oil, wheat, salt]"
4,13162,indian,"[black pepper, shallots, cornflour, cayenne pe..."


(500, 3)

### Задание
Создайте реестр уникальных ингредиентов all_ingredients, который будет использоваться на втором этапе. Какое количество уникальных ингредиентов в нашем DataFrame?

In [102]:
# Импортируем модуль pandas
import pandas as pd

# Создаем пустое множество для хранения реестра уникальных ингредиентов
all_ingredients=set() 

# Начинаем перебор всех блюд входящих в список
for val in recipes: 
    # Начинаем перебор всех ингредиентов входящих в состав текущего блюда
    for ingredient in val['ingredients']: 
        # Добавляем уникальный ингредиент в реестр
        all_ingredients.add(ingredient) 

# Выводим на экран количество уникальных ингредиентов из реестра
print(len(all_ingredients))

1318


In [103]:
# Определяем имя функции и передаваемые аргументы    
def contains(ingredient_list): 
    # Если ингредиент есть в текущем блюде,
    if ingredient_name in ingredient_list:   
        # возвращаем значение 1
        return 1 
    # Если ингредиента нет в текущем блюде,
    else: 
        # возвращаем значение 0
        return 0
    
# Последовательно перебираем ингредиенты в реестре all_ingredients
for ingredient_name in all_ingredients: 
    # В DataFrame cоздаем столбец с именем текущего ингредиента 
    # и заполняем его единицами и нулями,
    # используя ранее созданную функцию contains
    df[ingredient_name] = df['ingredients'].apply(contains) 

# Заменяем список ингредиентов в рецепте на их количество 
df['ingredients'] = df['ingredients'].apply(len) 
# Выводим содержимое полученного DataFrame на экран
display(df.head())

  df[ingredient_name] = df['ingredients'].apply(contains)
  df[ingredient_name] = df['ingredients'].apply(contains)
  df[ingredient_name] = df['ingredients'].apply(contains)
  df[ingredient_name] = df['ingredients'].apply(contains)
  df[ingredient_name] = df['ingredients'].apply(contains)
  df[ingredient_name] = df['ingredients'].apply(contains)
  df[ingredient_name] = df['ingredients'].apply(contains)
  df[ingredient_name] = df['ingredients'].apply(contains)
  df[ingredient_name] = df['ingredients'].apply(contains)
  df[ingredient_name] = df['ingredients'].apply(contains)
  df[ingredient_name] = df['ingredients'].apply(contains)
  df[ingredient_name] = df['ingredients'].apply(contains)
  df[ingredient_name] = df['ingredients'].apply(contains)
  df[ingredient_name] = df['ingredients'].apply(contains)
  df[ingredient_name] = df['ingredients'].apply(contains)
  df[ingredient_name] = df['ingredients'].apply(contains)
  df[ingredient_name] = df['ingredients'].apply(contains)
  df[ingredien

Unnamed: 0,id,cuisine,ingredients,ground beef,okra pods,spicy brown mustard,jasmine rice,penne rigate,lemon grass,tamarind,...,ground black pepper,red chile powder,mushroom powder,pico de gallo,rosemary leaves,saffron threads,frozen corn,white wine,pitted olives,smoked streaky bacon
0,10259,greek,9,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,25693,southern_us,11,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
2,20130,filipino,12,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,22213,indian,4,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,13162,indian,20,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


### Задание
Напишите код для создания списка ids всех блюд, представленных в датафрейме. Нужны только уникальные значения.

Порядок id должен совпадать с тем, как они расположены в исходном датафрейме.

In [106]:
import pandas as pd

df.to_csv('recipes.csv', index=False)
# Читаем содержмиое файла и создаем объект df
df = pd.read_csv('recipes.csv') 

# Создаем список уникальных значений id блюд
ids = list(df['id'].unique())

print(len(ids))

500


### Задание
Напишите код для создания списка id всех блюд, нужны только уникальные значения представленных в DataFrame. Результирующий список занесите в переменную ids.

In [107]:
df = pd.read_csv('recipes.csv')
ids = list(df['id'].unique())
print(ids)

[10259, 25693, 20130, 22213, 13162, 6602, 42779, 3735, 16903, 12734, 5875, 45887, 2698, 41995, 31908, 24717, 34466, 1420, 2941, 8152, 13121, 40523, 40989, 29630, 49136, 26705, 27976, 22087, 9197, 1299, 40429, 34419, 10276, 33465, 39250, 37963, 20051, 11300, 17610, 37405, 28302, 31634, 32304, 36341, 29369, 27564, 18515, 3335, 4499, 4906, 5767, 30748, 35930, 44902, 31119, 3535, 47028, 38112, 2646, 5206, 38233, 39267, 11913, 20591, 70, 43928, 8530, 275, 43769, 49111, 11886, 45839, 699, 24568, 8820, 16582, 9058, 4715, 29061, 2107, 22825, 13758, 6886, 14874, 43399, 38254, 41596, 33989, 17004, 4969, 31831, 46648, 36888, 34471, 25164, 39600, 46357, 46905, 8753, 37337, 17636, 8997, 28851, 4635, 7782, 8031, 49434, 31318, 31027, 47095, 4574, 19757, 35570, 44812, 27858, 18624, 9406, 35132, 33071, 8321, 20955, 45776, 6043, 336, 25751, 793, 34367, 7406, 7473, 7532, 5924, 5802, 41078, 20665, 39471, 9595, 27869, 44776, 17771, 43970, 27165, 11190, 21872, 29853, 1154, 9069, 46975, 4892, 21467, 20919, 4

### Задание
Напишите код для создания списка ингредиентов всех блюд, представленных в DataFrame. Результирующий список занесите в переменную ingredients.

In [None]:
df=pd.read_csv('recipes.csv')
ingredients=list(df.columns)[3:]
print(ingredients)

['ground beef', 'okra pods', 'spicy brown mustard', 'jasmine rice', 'penne rigate', 'lemon grass', 'tamarind', 'cactus pad', 'chipotle chile', 'sweet onion', 'starchy potatoes', 'bone in chicken thighs', 'cinnamon sticks', 'garlic powder', 'mozzarella balls', 'heavy whipping cream', 'paprika', 'long-grain rice', 'McCormick Parsley Flakes', 'fruit', 'rosemary sprigs', 'corn tortillas', 'roasted salted cashews', 'amchur', 'Flora Cuisine', 'hot red pepper flakes', 'instant white rice', 'red kidney beans', 'brewed tea', 'round steaks', 'kahlГєa', 'mint', 'tuna fillets', 'canned beef broth', 'star anise', 'sage leaves', 'black bean sauce', 'lean ground pork', 'BertolliВ® Classico Olive Oil', 'condensed cream of mushroom soup', 'tomatoes', 'steel-cut oats', 'Thai fish sauce', 'wheat bran', 'bay leaf', 'extra sharp cheddar cheese', 'miso paste', 'basil leaves', 'galangal', 'double cream', 'butter lettuce', 'pistachio nuts', 'peanut sauce', 'giardiniera', 'active dry yeast', 'napa cabbage', 'm

✍️ Далее необходимо реализовать следующий алгоритм:

1) Написать код функции make_list(), которая принимает на вход строку DataFrame df, содержащую полные данные об одном блюде (в виде Series), и возвращает перечень ингредиентов, входящих в состав этого блюда (в виде списка).
2) Организовать цикл с параметром, в котором будут перебираться элементы списка ids. В результате в процессе прохождения цикла параметр должен принять значение id каждого блюда.
3) На каждом шаге цикла создать словарь, содержащий три пары "ключ-значение":
 * ключу "id" присвоить текущее значение параметра цикла как целого числа;
 * ключу "cuisine" присвоить значение соответствующей кухни, которое мы получим, применив фильтр по текущему id к DataFrame df;
 * ключу "ingredients" присвоить значение списка, воспользовавшись функцией make_list(), созданной на первом шаге алгоритма.
4) Каждый созданный словарь добавить к списку new_recipes

In [109]:
# Определяем имя функции и передаваемые аргументы
def make_list(row): 
    # Создаем пустой список ингредиентов текущего блюда
    ingredient_list=[] 
    # Последовательно перебираем ингредиенты из реестра
    for ingredient in ingredients: 
        # Если текущий ингредиент входит в состав текущего блюда
        if row[ingredient].item()==1: 
            # Добавляем ингредиент в список ингредиентов текущего блюда
            ingredient_list.append(ingredient) 
    # Возвращаем сформированный список ингредиентов
    return ingredient_list


# Создаём пустой список для хранения итоговой структуры
new_recipes = [] 
# Организуем цикл с параметром current_id
for current_id in ids: 
    # Получаем значение соответствующей кухни, применив фильтр по текущему значению параметра цикла к DataFrame;
    cuisine = df[df['id'] == current_id]['cuisine'].iloc[0] 
    # Получаем перечень ингредиентов, входящих в состав текущего блюда
    current_ingredients = make_list(df[df['id'] == current_id]) 
    # Создаём текущий словарь
    current_recipe = {'cuisine': cuisine, 'id': int(current_id), 'ingredients': current_ingredients} 
    # Добавляем созданный словарь к списку
    new_recipes.append(current_recipe)
    
new_recipes = json.dumps(new_recipes) 

# Откроем файл new_recipes.json для записи
with open("new_recipes.json", "w") as write_file: 
    # Записываем содержимое подготовленные данные в файл
    write_file.write(new_recipes)

### Извлекаем контент из XML-файла

In [112]:
# Импортируем модуль ElementTree
import xml.etree.ElementTree as ET

tree = ET.parse('menu.xml')
root = tree.getroot()
display(root)
display(type(root))

<Element 'menu' at 0x000001EFA948C400>

xml.etree.ElementTree.Element

In [114]:
#Потомки
display(list(root))

[<Element 'dish' at 0x000001EFA948E520>,
 <Element 'dish' at 0x000001EFA948F650>]

In [115]:
#Для того чтобы получить список потомков второго блюда в нашем меню и вывести его на экран, выполним код
display(list(root[1]))

[<Element 'price' at 0x000001EFA948FE70>,
 <Element 'weight' at 0x000001EFA948F830>,
 <Element 'class' at 0x000001EFA948CAE0>]

In [118]:
#Выведем на экран атрибуты первого блюда из меню
display(root[0].attrib)
display(root[0][0])
display(root[0][0].text)

{'name': 'Кура'}

<Element 'price' at 0x000001EFA948F4C0>

'40'

In [119]:
#Получим наименование тега корневого узла:
display(root.tag)

'menu'

✍️ В этом коде реализован следующий алгоритм:

1) В первом (внешнем) цикле перебираем потомков корня дерева (root). Потомки перебираются последовательно при помощи переменной dish. Это отдельные блюда из меню.
2) Во втором (вложенном) цикле аналогичным образом перебираем потомков каждого блюда. Этими потомками являются параметры блюда — его цена (price), вес (weight) и класс (class).
3) После этого выводим на экран название блюда (значение атрибута name), название очередного параметра (tag) и его значение (text).
4) Дополнительная функция print() в цикле верхнего уровня предназначена для организации более удобного восприятия информации — между отдельными блюдами будет выведена пустая строка.

In [123]:
#Используя цикл for, автоматизируем обход дерева
for dish in root:
    for param in dish:
        print(dish.attrib['name'], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



### Загружаем данные из XML-файла в DataFrame
✍ Реализуем следующий алгоритм:

1) Загрузить данные из XML-файла menu.xml в переменную root.
2) Создать пустой список df_list (в него будем добавлять строчки итоговой таблицы).
3) Заранее создать список column_names с именами столбцов — название блюда (name), его цена (price), вес (weight) и класс (class).
4) В цикле организовать обход xml-дерева из корня по всем потомкам.
5) На каждой итерации цикла сформировать в виде списка строку таблицы, содержащую информацию: наименование блюда (атрибут name узла dish) и значения потомков этого узла — узлов price, weight, class.
6) Добавить сформированную строку в список df_list, используя метод append().
7) Сформировать из вложенного списка DataFrame. Имена для столбцов взять из списка column_names.

In [124]:
import xml.etree.ElementTree as ET
tree = ET.parse('menu.xml')
root = tree.getroot()

import pandas as pd
column_names = ['name', 'price', 'weight', 'class']
df_list = []

for dish in root:
    row = [dish.attrib['name'], dish[0].text, dish[1].text, dish[2].text]
    df_list.append(row)

df = pd.DataFrame(df_list, columns=column_names)
display(df)

Unnamed: 0,name,price,weight,class
0,Кура,40,300,Мясо
1,Греча,20,200,Крупа


### Создаём XML-файл

Чтобы создать корень дерева, используем метод Element() из класса ElementTree:

In [125]:
import xml.etree.ElementTree as ET

new_root = ET.Element('menu')
display(new_root)


<Element 'menu' at 0x000001EFAAEA4270>

Теперь мы можем добавлять новые узлы в наше дерево, используя метод SubElement() из того же класса.

Добавим в наше меню двух потомков корневого узла, которые будут представлять два блюда, то есть будут узлами dish:

In [126]:
dish1 = ET.SubElement(new_root, 'dish', name='Кура')

dish2 = ET.SubElement(new_root, 'dish', name='Греча')

display(list(new_root))

[<Element 'dish' at 0x000001EFA93DE660>,
 <Element 'dish' at 0x000001EFA948DD50>]

Добавим в создаваемую структуру по три потомка (атрибута) к двум новым узлам, которые будут содержать информацию о блюде — о его цене (price), весе (weight) и классе (class), а также значение этих атрибутов:

In [127]:
price1 = ET.SubElement(dish1, "price").text = "40"
weight1 = ET.SubElement(dish1, "weight").text = "300"
class1 = ET.SubElement(dish1, "class").text = "Мясо"
display(list(dish1))

price2 = ET.SubElement(dish2, "price").text = "20"
weight2 = ET.SubElement(dish2, "weight").text = "200"
class2 = ET.SubElement(dish2, "class").text = "Крупа"
display(list(dish2))

[<Element 'price' at 0x000001EFA94742C0>,
 <Element 'weight' at 0x000001EFA9474E50>,
 <Element 'class' at 0x000001EFA9476ED0>]

[<Element 'price' at 0x000001EFA9475580>,
 <Element 'weight' at 0x000001EFA9475F80>,
 <Element 'class' at 0x000001EFA9474D10>]

Проверим визуально корректность созданной нами структуры, выполнив фрагмент кода, разработанного ранее:

In [128]:
for dish in new_root:    
    for param in dish:
        print(dish.attrib['name'], param.tag, param.text)
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



Преобразуем созданный нами объект типа ElementTree.Element в строку c помощью метода tostring(), передав наше новое дерево как аргумент. Сохраним эту строку на диске, используя стандартные средства Python

In [129]:
new_root_string = ET.tostring(new_root)

with open("new_menu.xml", "wb") as f:
    f.write(new_root_string)

Возможно, вы увидите проблему, связанную с кодировкой. Что делать в этом случае? Как вариант — записать файл, используя сам класс ElementTree() :
<code>ET.ElementTree(new_root).write('new_menu_good.xml', encoding="utf-8")

Для этого мы передаём в класс ElementTree() наше дерево (не его строковое представление) и вызываем метод write(). В метод мы передаём путь к новому файлу и нужную нам кодировку.