Инструменты для работы с JSON
Для работы с данными в формате JSON в Python используется библиотека json, которую необходимо будет загрузить в начале работы. Также нам может быть полезен модуль pprint (именно так, с двумя "р" в начале) и встроенная в него функция pprint, с помощью которой можно красиво выводить на экран структурированные данные.

Итак, если в своем коде вы планируете работать с данными в JSON-формате, то необходимо включить в программу эти два импорта:

In [1]:
import json  
from pprint import pprint  

Смотрим на данные
Чтобы перевести данные из формата JSON в формат, который можно обрабатывать на Python, необходимо выполнить процедуру, которая называется десериализация (иными словами, декодирование данных). Обратный процесс, связанный с переводом структур данных Python в формат JSON, называется сериализация.

Для выполнения десериализации мы воспользуемся методом load модуля json. В качестве параметра укажем ссылку на файл:

In [2]:
with open('input/recipes.json') as f:
    recipes = json.load(f)

Чтобы разобраться в структуре данных, давайте выведем их на экран с помощью функции pprint. Будьте готовы к тому, что данных в наборе много, поэтому в ячейке Out появится несколько сот строк. Нам не нужно будет просматривать все строки. Главное — понять общую структуру объекта recipes:

In [19]:
# Рецепты скольких блюд содержатся в recipes?
len(recipes)

500

In [20]:
pprint(recipes)

[{'cuisine': 'greek',
  'id': 10259,
  'ingredients': ['romaine lettuce',
                  'black olives',
                  'grape tomatoes',
                  'garlic',
                  'pepper',
                  'purple onion',
                  'seasoning',
                  'garbanzo beans',
                  'feta cheese crumbles']},
 {'cuisine': 'southern_us',
  'id': 25693,
  'ingredients': ['plain flour',
                  'ground pepper',
                  'salt',
                  'tomatoes',
                  'ground black pepper',
                  'thyme',
                  'eggs',
                  'green tomatoes',
                  'yellow corn meal',
                  'milk',
                  'vegetable oil']},
 {'cuisine': 'filipino',
  'id': 20130,
  'ingredients': ['eggs',
                  'pepper',
                  'salt',
                  'mayonaise',
                  'cooking oil',
                  'green chilies',
                  'grilled chicken bre

  'ingredients': ['ground cinnamon',
                  'cornflour',
                  'milk',
                  'egg yolks',
                  'sugar',
                  'cinnamon sticks']},
 {'cuisine': 'french',
  'id': 39471,
  'ingredients': ['grated parmesan cheese',
                  'asparagus',
                  'bacon slices',
                  'ground black pepper',
                  'green onions',
                  'large eggs',
                  'salt']},
 {'cuisine': 'italian',
  'id': 9595,
  'ingredients': ['fresh leav spinach',
                  'cheese tortellini',
                  'fresh basil',
                  'cherry tomatoes',
                  'fresh lemon juice',
                  'capers',
                  'fresh parmesan cheese',
                  'navy beans',
                  'pepper',
                  'extra-virgin olive oil']},
 {'cuisine': 'indian',
  'id': 27869,
  'ingredients': ['quinoa',
                  'nonfat milk',
                  'granny

 {'cuisine': 'italian',
  'id': 9373,
  'ingredients': ['large egg whites',
                  'oil',
                  'kosher salt',
                  'ground black pepper',
                  'cream of tartar',
                  'olive oil',
                  'fresh parsley',
                  'ricotta salata',
                  'green onions']},
 {'cuisine': 'italian',
  'id': 7666,
  'ingredients': ['unsalted butter',
                  'pecorino cheese',
                  'grana padano',
                  'pasta',
                  'cracked black pepper',
                  'kosher salt']},
 {'cuisine': 'korean',
  'id': 40617,
  'ingredients': ['vegetable oil',
                  'salt',
                  'green bell pepper',
                  'red bell pepper',
                  'large eggs']},
 {'cuisine': 'thai',
  'id': 26676,
  'ingredients': ['kaffir lime leaves',
                  'corn',
                  'jalapeno chilies',
                  'soba noodles',
                 

  'id': 12099,
  'ingredients': ['eggs',
                  'baking powder',
                  'wheat germ',
                  'granny smith apples',
                  'butter',
                  'baking soda',
                  'all-purpose flour',
                  'sugar',
                  'cinnamon']},
 {'cuisine': 'vietnamese',
  'id': 38717,
  'ingredients': ['avocado',
                  'water',
                  'garlic',
                  'boneless rib eye steaks',
                  'fish sauce',
                  'cherry tomatoes',
                  'freshly ground pepper',
                  'sugar',
                  'vermicelli',
                  'oil',
                  'mini cucumbers',
                  'lime',
                  'salt',
                  'bird chile']},
 {'cuisine': 'japanese',
  'id': 30335,
  'ingredients': ['honey',
                  'bamboo shoots',
                  'sake',
                  'green onions',
                  'boneless chicken skinl

                  'margarine',
                  'baking powder',
                  'greek yogurt',
                  'milk',
                  'all-purpose flour']},
 {'cuisine': 'southern_us',
  'id': 34026,
  'ingredients': ['yellow corn meal',
                  'skim milk',
                  'maple syrup',
                  'eggs',
                  'sweet potatoes',
                  'ground allspice',
                  'ground cinnamon',
                  'pepper',
                  'margarine',
                  'vegetable oil cooking spray',
                  'salt']},
 {'cuisine': 'filipino',
  'id': 30835,
  'ingredients': ['lemongrass',
                  'garlic',
                  'coconut vinegar',
                  'ground black pepper',
                  'margarine',
                  'lemon soda',
                  'annatto oil',
                  'salt',
                  'lemon juice',
                  'brown sugar',
                  'ginger',
                  'sau

Извлекаем единичные данные

После того как мы провели десериализацию данных из JSON-файла, мы можем работать с полученным объектом, как с обычным словарём, или, как в случае с нашими данными, списком. Единственное отличие этой работы от манипуляций с привычными нам списками и словарями заключается в том, что данных теперь больше и они помещены внутрь структуры с большим количеством уровней вложенности. Тем не менее общие приёмы работы остаются стандартными.

Давайте выясним некоторые детали о блюде, которое записано первым в списке. Например, чтобы узнать ID этого блюда, мы можем использовать такой код:

In [21]:
recipes[0]['id']

10259

В данном случае сначала мы извлекаем из списка первый элемент (индекс 0). Поскольку каждый элемент списка является словарём, для получения нужной информации о конкретном блюде нам нужно указать ключ словаря. ID блюда доступно по ключу 'id', и мы указываем этот ключ в отдельной паре квадратных скобок:

In [22]:
recipes[0]['ingredients']

['romaine lettuce',
 'black olives',
 'grape tomatoes',
 'garlic',
 'pepper',
 'purple onion',
 'seasoning',
 'garbanzo beans',
 'feta cheese crumbles']

Ещё один пример касается извлечения информации о конкретном блюде. Давайте попробуем найти информацию о том, к какой кухне относится блюдо с id = 13121. Сложность задачи заключается в том, что все id хранятся в словарях, которые являются элементами списка. Для получения данных о нужном блюде нам придётся перебрать все элементы списка, проверить их id, и при обнаружении совпадения извлечь нужную информацию:

In [23]:
for recipe in recipes:  # начинаем перебор всех рецептов
    if recipe['id'] == 13121:  # если id текущего рецепта равен искомому
        print(recipe['cuisine'])  # выводим на экран кухню, к которой относится блюдо
        break   # и прерываем цикл, т.к. нужное блюдо уже найдено

thai


In [24]:
# Какую кухню (ключ 'cuisine') представляет последнее блюдо в списке recipes?
recipes[-1]['cuisine']

'british'

In [25]:
# Сколько ингредиентов входит в состав этого блюда?
len(recipes[-1]['ingredients'])

17

In [26]:
# Какие из перечисленных ингредиентов присутствуют в блюде с id = 17636?
for recipe in recipes:  # начинаем перебор всех рецептов
    if recipe['id'] == 17636:  # если id текущего рецепта равен искомому
        print(recipe['ingredients'])  # выводим на экран ингредиентов, которые относятся к блюду
        break   # и прерываем цикл, т.к. нужное блюдо уже найдено

['tomato sauce', 'shredded carrots', 'spinach', 'part-skim mozzarella cheese', 'italian seasoning', 'english muffins, split and toasted', 'chopped onion', 'vegetable oil cooking spray', 'chopped green bell pepper']


In [29]:
# Сколько ингредиентов входит в состав рецепта для приготовления блюда с id = 42013?
ingredients_for_ingredients = []

for recipe in recipes:  # начинаем перебор всех рецептов
    if recipe['id'] == 42013:  # если id текущего рецепта равен искомому
        for ingredient in recipe['ingredients']:
            ingredients_for_ingredients.append(ingredient)  # формируем список ингредиентов, которые относятся к блюду
        break   # и прерываем цикл, т.к. нужное блюдо уже найдено
        
len(ingredients_for_ingredients)

14

In [30]:
# Какие ингредиенты отсутствуют в блюде с id = 23629?
for recipe in recipes:  # начинаем перебор всех рецептов
    if recipe['id'] == 23629:  # если id текущего рецепта равен искомому
        print(recipe['ingredients'])  # выводим на экран ингредиентов, которые относятся к блюду
        break   # и прерываем цикл, т.к. нужное блюдо уже найдено

['eggs', 'russet potatoes', 'mexican chorizo', 'black beans', 'salsa', 'canola oil', 'colby cheese', 'black olives', 'sour cream', 'avocado', 'half & half', 'goat cheese']


Группируем данные
К объектам JSON, в том числе после их десериализации, невозможно применить методы группировки, доступные при работе с датафреймами Pandas. Однако задачи по извлечению из JSON-файла обобщённой информации периодически возникают, и нам нужно понять, как их решать. Давайте рассмотрим всё на нескольких примерах.

Кейс №1: Какое количество кухонь представлено в наборе данных?
Итак, давайте попробуем проанализировать, кухни скольких народов мира присутствуют в нашем наборе данных. Напоминаем, что информация о типе кухни доступна по ключу 'cuisine'.

Чтобы извлечь эту информацию, нам нужно создать пустой список и последовательно заполнять его уникальными значениями, доступными по ключу 'cuisine' в каждом из словарей, содержащих информацию о рецептах. Поскольку словари объединены в список recipes, у нас не получится применить известный нам метод unique() (этот метод не применим к словарям), и для извлечения всех уникальных значений нужно перебирать элементы списка в цикле с параметром. Вот пример кода, с помощью которого это можно сделать:

In [31]:
cuisines = []  # создаём пустой список для хранения уникальных значений кухонь
for recipe in recipes:  # начинаем перебор всех рецептов
    if not(recipe['cuisine'] in cuisines):  # если тип кухни текущего блюда ещё не встречался
        cuisines.append(recipe['cuisine']) # добавляем его к списку cuisines
len(cuisines)

20

Другой способ решения этой же задачи — использование для хранения данных о разных кухнях не списка, а новой для вас конструкции — множества (set). Множества содержат только уникальные элементы, поэтому при работе с ним нет необходимости проверять, содержится ли там тот или иной элемент. Если элемент (в нашем примере — название типа кухни) уже есть, то команда добавить в множество такое же значение будет проигнорирована компьютером:

In [32]:
cuisines = set()  # создаём пустое множество для хранения уникальных значений кухонь
for recipe in recipes:  # начинаем перебор всех рецептов
    cuisines.add(recipe['cuisine']) # добавляем название типа кухни к множеству
len(cuisines)

20

In [35]:
"""
Задание 1

Сколько ингредиентов включено в состав всех блюд, описанных в наборе данных?
Подсказка: Обратите внимание, что для добавления в список или множество нового ингредиента вам нужно будет организовать
перебор ингредиентов каждого блюда в отдельном вложенном цикле.

"""

ingredients = set()  # создаём пустое множество для хранения уникальных значений ингредиентов
for recipe in recipes:  # начинаем перебор всех рецептов
    for ingredient in recipe['ingredients']:
            ingredients.add(ingredient)  # формируем список ингредиентов

len(ingredients)

1318

In [38]:
"""
Задание 3

Какие ингредиенты не встречаются в рецептах блюд русской кухни ('cuisine' = 'russian')?
"""

ingredients = set()  # создаём пустое множество для хранения уникальных значений ингредиентов
for recipe in recipes:  # начинаем перебор всех рецептов
    if recipe['cuisine'] == 'russian':
        for ingredient in recipe['ingredients']:
                ingredients.add(ingredient)  # формируем список ингредиентов

print(ingredients)

{'boiled eggs', 'red beets', 'onions', 'salt', 'cucumber', 'dill', 'buttermilk', 'grits', 'mozzarella cheese', 'sugar', 'water'}


Кейс №2: Оцениваем популярность ингредиентов
Давайте представим, что мы хотим заняться торговлей продуктами для ресторанов национальной кухни. Нам необходимо оценить, какие продукты используются в приготовлении блюд чаще, а какие — реже. Давайте попробуем решить эту задачу с использованием имеющегося у нас набора данных.

Эту задачу можно решить двумя способами:

Преобразовать JSON-структуру в датафрейм и найти количество ненулевых значений для каждого ингредиента. Этот способ мы подробнее рассмотрим в следующем шаге.
Создать словарь, в котором ключами будут являться названия ингредиентов, а значениями — количество рецептов, в которых встречается каждый ингредиент. Этот способ мы рассмотрим прямо сейчас.
Для создания словаря нам понадобится список или множество, содержащие перечень всех ингредиентов из описанных в наборе данных рецептов. Такой список вы составили при решении задачи в предыдущем уроке. Воспользуйтесь вашим кодом для решения этой задачи ещё раз, но при этом назовите список (или множество, это не будет иметь значения в коде, который мы собираемся создавать) именем ingredients.

План решения задачи:

Для хранения информации о частоте встречаемости ингредиентов мы создадим пустой словарь food.
Заполним словарь food ключами, соответствующими названиями ингредиентов. В качестве значений по каждому ключу установим 0.
Организуем вложенный цикл, в котором будем перебирать рецепты (внешний цикл) и ингредиенты, использующиеся в каждом рецепте (внутренний цикл). При каждом появлении очередного ингредиента мы будем увеличивать значение соответствующего элемента словаря food на единицу.

In [40]:
ingredients = set()  # создаём пустое множество для хранения уникальных значений ингредиентов
for recipe in recipes:  # начинаем перебор всех рецептов
    for ingredient in recipe['ingredients']:
            ingredients.add(ingredient)  # формируем список ингредиентов

len(ingredients)

food = {}  # создаём пустой словарь для хранения информации об ингредиентах
for item in ingredients:  # перебираем список ингредиентов
    food[item] = 0 # добавляем в словарь ключ, соответствующий очередному ингредиенту

for recipe in recipes:   # перебираем список рецептов
    for item in recipe['ingredients']:   # и список ингредиентов в каждом рецепте
        food[item] += 1   # увеличиваем значение нужного ключа в словаре на 1
        
print(food)

{'oven-ready lasagna noodles': 1, 'Philadelphia Cream Cheese': 1, 'grape tomatoes': 4, 'spring onions': 5, 'cream cheese, soften': 2, 'herbs': 3, 'chorizo': 1, 'Franks Hot Sauce': 1, 'spareribs': 1, 'fat skimmed chicken broth': 4, 'fresh spinach': 4, 'gluten-free tamari': 1, 'cheese': 3, 'turnips': 3, 'red enchilada sauce': 1, 'superfine sugar': 1, 'grana padano': 1, 'sliced mushrooms': 5, 'andouille sausage links': 1, 'Old El Paso Flour Tortillas': 1, 'chillies': 4, 'shredded carrots': 1, 'grated nutmeg': 2, 'red curry paste': 2, 'cauliflower flowerets': 1, 'paprika': 19, 'garlic puree': 1, 'applewood smoked bacon': 1, 'fava beans': 1, 'rice paper': 2, 'green beans': 5, 'green peppercorns': 1, 'cauliflower florets': 1, 'sun-dried tomatoes in oil': 1, 'steamed rice': 1, 'ancho chile pepper': 1, 'potatoes': 13, 'sour cream': 18, 'extra-virgin olive oil': 28, 'chile sauce': 1, 'arame': 1, 'crab boil': 1, 'miso paste': 1, 'coconut sugar': 1, 'black bean sauce': 2, 'creole seasoning': 6, '

Теперь мы можем обращаться к словарю food по ключам и получать информацию о количестве рецептов, включающих тот или иной ингредиент:

In [41]:
food['sugar']

81

In [42]:
food['eggs']

43

In [54]:
"""
Задание 4

Какие ингредиенты входят в состав более чем 20% блюд, представленных в наборе данных?

Подсказка: Напоминаем, что весь набор данных содержит сведения о 500 блюдах.

"""
ingredients_20_percents = set()

for k, v in food.items():
    if v > 500 * 0.2:
        ingredients_20_percents.add(k)  # формируем список ингредиентов
        
print(ingredients_20_percents)

{'salt', 'garlic'}


In [57]:
"""
Задание 5

Какой ингредиент входит в состав самого большого количества блюд?


"""

# Сортировка по значениям
# Отсортировать словарь по значениям сложнее, так как обращаться к элементам словаря можно только по ключам.
# Однако можно создать список кортежей ("ключ", "значение") и отсортировать его по вторым элементам пар.
# Далее в программе используется именно данная упорядоченная структура, а не сам оригинальный словарь.


list_food = list(food.items())

list_food.sort(key=lambda i: i[1])

for i in list_food:
    print(i[0], ':', i[1])


oven-ready lasagna noodles : 1
Philadelphia Cream Cheese : 1
chorizo : 1
Franks Hot Sauce : 1
spareribs : 1
gluten-free tamari : 1
red enchilada sauce : 1
superfine sugar : 1
grana padano : 1
andouille sausage links : 1
Old El Paso Flour Tortillas : 1
shredded carrots : 1
cauliflower flowerets : 1
garlic puree : 1
applewood smoked bacon : 1
fava beans : 1
green peppercorns : 1
cauliflower florets : 1
sun-dried tomatoes in oil : 1
steamed rice : 1
ancho chile pepper : 1
chile sauce : 1
arame : 1
crab boil : 1
miso paste : 1
coconut sugar : 1
green cardamom pods : 1
vermicelli noodles : 1
demerara sugar : 1
egg noodles : 1
red radishes : 1
boneless beef short ribs : 1
salted roast peanuts : 1
cardamom : 1
rose petals : 1
fat free cream cheese : 1
dried red chile peppers : 1
ginger juice : 1
blood orange : 1
pasta water : 1
lemon curd : 1
rum : 1
bread : 1
dried bonito flakes : 1
ice : 1
sweet chili sauce : 1
bosc pears : 1
fat-free cottage cheese : 1
masa : 1
apricot preserves : 1
cream 

tostada shells : 2
grapeseed oil : 2
Italian parsley leaves : 2
canned black beans : 2
small red potato : 2
salmon fillets : 2
leaves : 2
smoked gouda : 2
snow peas : 2
cardamom pods : 2
naan : 2
mustard powder : 2
low-fat sour cream : 2
rib eye steaks : 2
ice cubes : 2
guacamole : 2
tahini : 2
artichokes : 2
extra sharp cheddar cheese : 2
top round steak : 2
collard greens : 2
okra : 2
dried porcini mushrooms : 2
prawns : 2
shortening : 2
minced onion : 2
grating cheese : 2
whole kernel corn, drain : 2
orange bell pepper : 2
hot water : 2
whiskey : 2
sharp cheddar cheese : 2
dried kidney beans : 2
active dry yeast : 2
pepitas : 2
beef rib short : 2
pitted kalamata olives : 2
chile paste : 2
reduced fat milk : 2
crust : 2
almond extract : 2
quickcooking grits : 2
coconut aminos : 2
green chile : 2
capsicum : 2
chicken bouillon : 2
turbinado : 2
sausage casings : 2
tuna : 2
fresh lemon : 2
slivered almonds : 2
whole wheat flour : 2
unsweetened cocoa powder : 2
chili oil : 2
half & half 

In [None]:
"""
Задание 6

Сколько ингредиентов входит в состав только одного блюда?

"""

In [59]:
ingredients_1 = set()

for k, v in food.items():
    if v == 1:
        ingredients_1.add(k)  # формируем список ингредиентов
        
len(ingredients_1)

684

13.4 Создание датафрейма на основе JSON-файла

Pandas + JSON = ...
В предыдущих блоках нам удавалось извлекать из набора данных единичные показатели, но для полноценного анализа данных этого часто бывает недостаточно. Для решения многих задач нужна возможность работать с данными в форме таблицы и обозревать всю таблицу целиком. Например, набор данных, с фрагментом которого мы работаем в этом разделе модуля,  —  это материал для задачи по машинному обучению, определяющий по набору ингредиентов  тип кухни, к которой относится рецепт. Для решения этой и подобных задач необходимо перевести данные и в табличную форму и удобнее всего  использовать библиотеку Pandas.

Как вы помните, после десериализации наши данные были преобразованы в список, элементами которого являются вложенные словари, содержащие по три пары "ключ-значение". Поскольку структура всех вложенных словарей одинакова, мы можем создать датафрейм на основе списка, не проводя с ним никаких дополнительных манипуляций:

In [60]:
import pandas as pd
df = pd.DataFrame(recipes)

In [61]:
df

Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes..."
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g..."
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g..."
3,22213,indian,"[water, vegetable oil, wheat, salt]"
4,13162,indian,"[black pepper, shallots, cornflour, cayenne pe..."
...,...,...,...
495,1121,chinese,"[ground pepper, garlic, safflower oil, green o..."
496,18376,italian,"[penne, garlic, eggplant, lemon juice, olive o..."
497,17815,italian,"[cold water, dry white wine, fish fillets, cho..."
498,32878,southern_us,"[water, cajun seasoning, yellow onion, shrimp,..."


В результате мы действительно получаем датафрейм, однако его структура не позволит нам осуществлять группировку данных и выполнять многие другие операции, связанные с исследованием ингредиентов разных блюд:

Для полноценной работы с данными нам необходимо иметь возможность хранить информацию о каждом ингредиенте в отдельном столбце. Созданием именно такой таблицы мы займёмся на следующем шаге.

Готовим данные для анализа
Давайте создадим на основе данных из JSON-файла датафрейм, пригодный для автоматизированного анализа данных. В качестве основы мы будем использовать датафрейм, созданный на предыдущем этапе. 

Прежде всего разберёмся со структурой нового датафрейма. В финальной версии в нашем датафрейме должны будут остаться столбцы, содержащие id блюда и название кухни; вместо списка ингредиентов мы включим в датафрейм столбец с данными о количестве ингредиентов, а оставшаяся часть датафрейма будет представлена столбцами, названия которых будут соответствовать названиям разных ингредиентов, а значения будут равны 1, если ингредиент присутствует с блюде, и 0,  если — отсутствует.

Общий вид датафрейма должен быть приблизительно следующим (возможен другой порядок столбцов с ингредиентами):



Работу над созданием датафрейма мы начнём с создания и заполнения столбцов, содержащих сведения о наличии или отсутствии каждого ингредиента в рецепте. Процесс заполнения  будем проводить в два этапа: 

Создадим функцию для заполнения значения в каждой ячейке. Функция будет проверять наличие конкретного ингредиента в столбце 'ingredients' для текущего блюда и возвращать 1, если ингредиент есть в рецепте, и 0, если он отсутствует.
Организуем цикл с параметром, в котором будем перебирать наименования всех ингредиентов. Для каждого ингредиента создадим в датафрейме столбец с соответствующим названием и заполним его единичками и нулями, применив к датафрейму, а точнее, к столбцу 'ingredients', функцию, созданную нами на предыдущем шаге.
Код функции, с помощью которой мы будем создавать новые столбцы и заполнять их значениями, могут выглядеть следующим образом:

In [62]:
def find_item(cell):
    if item in cell:
        return 1
    return 0

Теперь перейдём к созданию кода, в котором будут создаваться столбцы с информацией о наличии или отсутствии того или иного ингредиента в конкретном рецепте:

In [63]:
for item in ingredients:
    df[item] = df['ingredients'].apply(find_item)

В завершение изменим значение столбца ingredients, заполнив его данными о количестве ингредиентов в каждом рецепте:

In [64]:
df['ingredients'] = df['ingredients'].apply(lambda x: len(x))

In [65]:
df

Unnamed: 0,id,cuisine,ingredients,oven-ready lasagna noodles,Philadelphia Cream Cheese,grape tomatoes,spring onions,"cream cheese, soften",herbs,chorizo,...,filet,chopped fresh sage,frozen chopped spinach,wasabi,wheat,cooked ham,sliced green onions,roasted peanuts,sherry vinegar,fresh mint
0,10259,greek,9,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,25693,southern_us,11,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,20130,filipino,12,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,22213,indian,4,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
4,13162,indian,20,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,1121,chinese,9,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
496,18376,italian,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
497,17815,italian,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
498,32878,southern_us,19,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Сохраняем датафрейм в CSV-файле
В случае, если вы планируете продолжать работать с датафреймом, созданным на основе данных, полученных в JSON-формате, полезно будет научиться сохранять созданный датафрейм в виде CSV-файла. Для выполнения этой операции в Pandas существует метод to_csv:

In [67]:
df.to_csv('input/recipes.csv', index = False)

В качестве основного параметра мы указали имя файла, под которым нужно сохранить данные. Также мы установили значение параметра index равным False. Такая настройка позволит нам не сохранять индексы строк в виде отдельного столбца и в результате не загружать лишних данных при открытии файла методом read_csv.

13.5 Создание JSON-файла

Из Pandas в JSON
В завершающей части этого блока мы решим обратную задачу и создадим JSON-файл из CSV-файла, который получили в конце предыдущего этапа. Итак, давайте начнём с чтения файла и создания датафрейма на его основе:

In [70]:
df = pd.read_csv('input/recipes.csv')
df

Unnamed: 0,id,cuisine,ingredients,oven-ready lasagna noodles,Philadelphia Cream Cheese,grape tomatoes,spring onions,"cream cheese, soften",herbs,chorizo,...,filet,chopped fresh sage,frozen chopped spinach,wasabi,wheat,cooked ham,sliced green onions,roasted peanuts,sherry vinegar,fresh mint
0,10259,greek,9,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,25693,southern_us,11,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,20130,filipino,12,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,22213,indian,4,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
4,13162,indian,20,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,1121,chinese,9,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
496,18376,italian,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
497,17815,italian,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
498,32878,southern_us,19,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Теперь, используя только данные из этого файла, нам нужно в точности воссоздать структуру исходного JSON-файла. Как вы помните,  после десериализации данные представляли собой список, состоящий из словарей. В каждом словаре хранилась информация о рецепте одного блюда. Каждый словарь состоял из трёх пар "ключ-значение". Первая пара содержала название кухни, к которой относилось блюдо, вторая — id блюда, и третья — список ингредиентов.

Поскольку по условию мы не можем пользоваться предыдущими наработками, давайте начнём с создания списка, содержащего перечень ингредиентов, встречающихся в рецептах, а также списка, содержащего перечень id всех блюд. Эти списки в дальнейшем мы будем использовать для заполнения JSON-структуры.

In [None]:
"""
Задание 1

Напишите код для создания списка id всех блюд, представленных в датафрейме.

Обратите внимание на следующие моменты:

1. Тип структуры, в которой должны храниться id блюд - список (list).
2. Имя переменной, в которой будет храниться список, - ids.
3. Порядок id в списке не имеет значения.
4. Код должен начинаться с чтения файла recipes.csv

"""

In [71]:
ids = df.id.tolist()
ids

[10259,
 25693,
 20130,
 22213,
 13162,
 6602,
 42779,
 3735,
 16903,
 12734,
 5875,
 45887,
 2698,
 41995,
 31908,
 24717,
 34466,
 1420,
 2941,
 8152,
 13121,
 40523,
 40989,
 29630,
 49136,
 26705,
 27976,
 22087,
 9197,
 1299,
 40429,
 34419,
 10276,
 33465,
 39250,
 37963,
 20051,
 11300,
 17610,
 37405,
 28302,
 31634,
 32304,
 36341,
 29369,
 27564,
 18515,
 3335,
 4499,
 4906,
 5767,
 30748,
 35930,
 44902,
 31119,
 3535,
 47028,
 38112,
 2646,
 5206,
 38233,
 39267,
 11913,
 20591,
 70,
 43928,
 8530,
 275,
 43769,
 49111,
 11886,
 45839,
 699,
 24568,
 8820,
 16582,
 9058,
 4715,
 29061,
 2107,
 22825,
 13758,
 6886,
 14874,
 43399,
 38254,
 41596,
 33989,
 17004,
 4969,
 31831,
 46648,
 36888,
 34471,
 25164,
 39600,
 46357,
 46905,
 8753,
 37337,
 17636,
 8997,
 28851,
 4635,
 7782,
 8031,
 49434,
 31318,
 31027,
 47095,
 4574,
 19757,
 35570,
 44812,
 27858,
 18624,
 9406,
 35132,
 33071,
 8321,
 20955,
 45776,
 6043,
 336,
 25751,
 793,
 34367,
 7406,
 7473,
 7532,
 5924,

In [None]:
"""
Задание 2

Напишите код для создания списка ингредиентов всех блюд, представленных в датафрейме.

Обратите внимание на следующие моменты:

1. Тип структуры, в которой должны храниться названия ингредиентов блюд, — список (list).
2. Имя переменной, в которой будет храниться список, — ingredients.
3. Порядок ингредиентов в списке не имеет значения.
4. Код должен начинаться с чтения файла recipes.csv

Подсказка: поскольку названия ингредиентов используются как названия столбцов датафрейма, вы можете воспользоваться командой df.columns для получения перечня всех названий столбцов, после чего превратить перечень в список и извлечь из него нужные данные.

"""

In [72]:
ingredients = df.columns.tolist()
ingredients

['id',
 'cuisine',
 'ingredients',
 'oven-ready lasagna noodles',
 'Philadelphia Cream Cheese',
 'grape tomatoes',
 'spring onions',
 'cream cheese, soften',
 'herbs',
 'chorizo',
 'Franks Hot Sauce',
 'spareribs',
 'fat skimmed chicken broth',
 'fresh spinach',
 'gluten-free tamari',
 'cheese',
 'turnips',
 'red enchilada sauce',
 'superfine sugar',
 'grana padano',
 'sliced mushrooms',
 'andouille sausage links',
 'Old El Paso Flour Tortillas',
 'chillies',
 'shredded carrots',
 'grated nutmeg',
 'red curry paste',
 'cauliflower flowerets',
 'paprika',
 'garlic puree',
 'applewood smoked bacon',
 'fava beans',
 'rice paper',
 'green beans',
 'green peppercorns',
 'cauliflower florets',
 'sun-dried tomatoes in oil',
 'steamed rice',
 'ancho chile pepper',
 'potatoes',
 'sour cream',
 'extra-virgin olive oil',
 'chile sauce',
 'arame',
 'crab boil',
 'miso paste',
 'coconut sugar',
 'black bean sauce',
 'creole seasoning',
 'green cardamom pods',
 'fresh dill',
 'enchilada sauce',
 've

In [74]:
ingredients.remove('id')

In [75]:
ingredients.remove('cuisine')

In [76]:
ingredients.remove('ingredients')

In [77]:
ingredients

['oven-ready lasagna noodles',
 'Philadelphia Cream Cheese',
 'grape tomatoes',
 'spring onions',
 'cream cheese, soften',
 'herbs',
 'chorizo',
 'Franks Hot Sauce',
 'spareribs',
 'fat skimmed chicken broth',
 'fresh spinach',
 'gluten-free tamari',
 'cheese',
 'turnips',
 'red enchilada sauce',
 'superfine sugar',
 'grana padano',
 'sliced mushrooms',
 'andouille sausage links',
 'Old El Paso Flour Tortillas',
 'chillies',
 'shredded carrots',
 'grated nutmeg',
 'red curry paste',
 'cauliflower flowerets',
 'paprika',
 'garlic puree',
 'applewood smoked bacon',
 'fava beans',
 'rice paper',
 'green beans',
 'green peppercorns',
 'cauliflower florets',
 'sun-dried tomatoes in oil',
 'steamed rice',
 'ancho chile pepper',
 'potatoes',
 'sour cream',
 'extra-virgin olive oil',
 'chile sauce',
 'arame',
 'crab boil',
 'miso paste',
 'coconut sugar',
 'black bean sauce',
 'creole seasoning',
 'green cardamom pods',
 'fresh dill',
 'enchilada sauce',
 'vermicelli noodles',
 'demerara sugar

Сохранение итоговой структуры
Разберём основную часть кода (пока без дополнительной функции). Как вы помните, после десериализации JSON-файла мы получили структуру, представляющую собой список, состоящий из словарей. Каждый словарь состоял из трёх пар "ключ-значение", при этом в качестве значений выступали целое число (id), строковая величина (тип кухни) и список строковых величин (перечень ингредиентов). Сейчас нам предстоит воссоздать эту структуру, извлекая данные из датафрейма.

Для хранения итоговой структуры создадим пустой список new_recipes. Также создадим списки для хранения id всех блюд и названий всех ингредиентов с помощью кода из предыдущих упражнений:

In [250]:
df = pd.read_csv('input/recipes.csv')

new_recipes = []

ids = df.id.tolist()

# ingredients = df.columns.tolist()

# ingredients.remove('id')
# ingredients.remove('cuisine')
# ingredients.remove('ingredients')

ingredients = df.columns[3:].tolist()

ingredients

['oven-ready lasagna noodles',
 'Philadelphia Cream Cheese',
 'grape tomatoes',
 'spring onions',
 'cream cheese, soften',
 'herbs',
 'chorizo',
 'Franks Hot Sauce',
 'spareribs',
 'fat skimmed chicken broth',
 'fresh spinach',
 'gluten-free tamari',
 'cheese',
 'turnips',
 'red enchilada sauce',
 'superfine sugar',
 'grana padano',
 'sliced mushrooms',
 'andouille sausage links',
 'Old El Paso Flour Tortillas',
 'chillies',
 'shredded carrots',
 'grated nutmeg',
 'red curry paste',
 'cauliflower flowerets',
 'paprika',
 'garlic puree',
 'applewood smoked bacon',
 'fava beans',
 'rice paper',
 'green beans',
 'green peppercorns',
 'cauliflower florets',
 'sun-dried tomatoes in oil',
 'steamed rice',
 'ancho chile pepper',
 'potatoes',
 'sour cream',
 'extra-virgin olive oil',
 'chile sauce',
 'arame',
 'crab boil',
 'miso paste',
 'coconut sugar',
 'black bean sauce',
 'creole seasoning',
 'green cardamom pods',
 'fresh dill',
 'enchilada sauce',
 'vermicelli noodles',
 'demerara sugar

Стратегия действий:

Организуем цикл с параметром, в котором будем перебирать элементы списка ids. В результате в процессе прохождения цикла параметр постепенно примет значение id каждого блюда.
На каждом шаге цикла создадим словарь, содержащий три пары "ключ-значение". Ключу "id" мы присвоим значение параметра цикла, ключу "cuisine" — значение соответствующей кухни, которое мы получим, применив фильтр по id к датафрейму df.
Для заполнения значения (списка) по ключу "ingredients" воспользуемся функцией, код которой обсудим чуть позже. Каждый созданный словарь мы будем добавлять к списку new_recipes:

Итак, всё почти готово. Осталось создать код функции make_list, выполнить сериализацию и записать результат в файл

In [254]:
"""
Задание 3

Напишите код функции make_list, которая принимает строку датафрейма df, содержащую данные об одном рецепте,
и возвращает перечень ингредиентов этого блюда в виде списка.

Обратите внимание на следующие моменты:

1. Тип структуры, которую должна вернуть функция в результате работы, — список (list).
2. В процессе работы функция должна обращаться к списку, в котором хранятся названия всех ингредиентов.
Используйте имя переменной ingredients для списка.
3. Добавьте код для чтения файла recipes.csv и создания списка ingredients перед кодом функции.
4. Порядок ингредиентов в возвращаемом списке не имеет значения.
"""

def make_list(loc):
    a = loc.to_dict('records')
    
    i_list = []
    
    for i in a:
        for k, v in i.items():
            if k in ingredients:
                if v == 1:
                    i_list.append(k)

    return i_list

Wall time: 0 ns


In [271]:
# Альтернатива

def make_list (row):
    ing_list = []
    for ingr in ingredients:
        if row[ingr].iloc[0]>0:
            ing_list.append(ingr)
    return ing_list

In [272]:
%%time

for current_id in ids:
    cuisine = df[df['id'] == current_id]['cuisine'].iloc[0]
    current_ingredients = make_list(df[df['id'] == current_id])
    current_recipe = {'cuisine': cuisine, 'id': int(current_id), 'ingredients': current_ingredients}
    new_recipes.append(current_recipe)
    
new_recipes

Wall time: 28.6 s


[{'cuisine': 'greek',
  'id': 10259,
  'ingredients': ['grape tomatoes',
   'romaine lettuce',
   'black olives',
   'seasoning',
   'garbanzo beans',
   'pepper',
   'feta cheese crumbles',
   'garlic',
   'purple onion']},
 {'cuisine': 'southern_us',
  'id': 25693,
  'ingredients': ['salt',
   'thyme',
   'yellow corn meal',
   'plain flour',
   'milk',
   'green tomatoes',
   'vegetable oil',
   'ground black pepper',
   'eggs',
   'tomatoes',
   'ground pepper']},
 {'cuisine': 'filipino',
  'id': 20130,
  'ingredients': ['green chilies',
   'grilled chicken breasts',
   'salt',
   'chicken livers',
   'mayonaise',
   'soy sauce',
   'pepper',
   'cooking oil',
   'butter',
   'yellow onion',
   'garlic powder',
   'eggs']},
 {'cuisine': 'indian',
  'id': 22213,
  'ingredients': ['salt', 'vegetable oil', 'water', 'wheat']},
 {'cuisine': 'indian',
  'id': 13162,
  'ingredients': ['garlic paste',
   'chili powder',
   'ground cumin',
   'lemon juice',
   'salt',
   'cornflour',
   'ca

В завершающей части данного блока мы выполним сериализацию списка new_recipes и запишем полученные данные в файл. Для сериализации мы будем использовать функцию dumps(), которой в качестве параметра передадим список new_recipes. Запись в файл осуществляется с помощью метода write(). Предварительно файл нужно будет открыть для записи с помощью функции open и параметра 'w':

In [275]:
new_recipes = json.dumps(new_recipes)
with open("input/new_recipes.json", "w") as write_file:
    write_file.write(new_recipes)

In [274]:
# Альтернатива

with open("input/new_recipes.json", "w") as write_file:
    json.dump(new_recipes, write_file)

Формат XLS (Excel)

Что такое Excel и зачем он нужен?
Excel-файлы — это по-простому таблицы с данными, которые имеют формат .xls и .xlsx. У вас уже есть опыт работы с форматом данных .csv, но этот формат проще Excel. Файл формата .csv это текстовый файл, в котором данные перечислены через запятую, но могут быть разделены и другими символами.

Файл формата .csv можно открыть любым текстовым редактором, с Excel иначе: он хранит не только табличные данные, но и может содержать изображения, графики, формулы, форматирование. Например, вы можете сделать столбец с температурой за окном за прошедшие 100 дней. Над столбцом можно записать «Температура» и выделить это слово красным цветом, написать его курсивом, рядом можно записать функцию, которая посчитает среднюю температуру, и построить график с изменением температуры.

Скорее всего, вы уже работали с этим форматом данных, используя инструменты, которые мы рассмотрим ниже. В этом блоке мы будем применять Python, чтобы извлекать данные из Excel-файлов и записывать туда данные.

Инструменты для работы с Excel
Сейчас практически любой текстовый процессор может работать с Excel-файлами. Изначально мы работали с .xls файлами с помощью Microsoft Excel. Позже, начиная с версии Microsoft Excel 2007, появился более продвинутый формат .xlsx. Для нашей работы разницы между ними нет, это те же самые табличные документы.

Инструменты для работы с Excel:

Microsoft Excel.
Google Sheets: редактирование файлов онлайн, создать новый документ можно с помощью sheets.new.
OpenOffice — открытый набор инструментов, в который входит приложение Calc, портирован на многие платформы.
Pandas: немного непривычно, но можно работать.
В данном блоке мы будем работать именно с Pandas: научимся читать и изменять Excel-файлы. Преимущество этого инструмента в том, что он позволяет работать со множеством однотипных документов и автоматизировать обработку. Pandas подходит для тех, кто умеет программировать, но если вы не умеете, то можно автоматизировать работу с табличными данными с помощью Zapier и IFTTT.

Чтение Excel-файла
Для начала поработаем с файлом Fig3-1.xls. В Pandas есть метод, с помощью которого можно прочитать файл:

In [276]:
data = pd.read_excel('input/Fig3-1.xls')  

В этот метод можно передать параметр header=None, чтобы не считать первую строчку за названия столбцов. Посмотрим, что будет, если передать такой параметр и открыть данные:

In [277]:
data

Unnamed: 0,"U.S. Home Price and Related data, for Figure 3.1 in Robert J. Shiller, Irrational Exuberance, 3rd. Edition, Princeton University Press, 2015, as updated by author",Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16,Unnamed: 17,Unnamed: 18
0,See the book for description of data.,,,,"Update Nominal Home Price Index, Click Additio...",,,,,,,,,,,,,,
1,"Monthly data from January 1953 for prices, all...",,,,,,,,Nominal,,,,,,,,,,
2,,Real,,Real,,,,,Home,,,Nominal,,,Consumer,,,,
3,,Home,,Building,U.S.,,,,Price,HPI,,Building,,,Price,CPI Annual&,,,
4,,Price,,Cost,Population,,Long Rate,,Index,Source,,Cost,Build Cost,,Index,Quarterly,,,CPI
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
858,2018.79,174.056,,,,,,2018.79,205.709,S&P/CoreLogic/Case-Shiller,,,,2018.79,252.885,BLS,,,
859,2018.87,174.439,,,,,,2018.87,205.471,S&P/CoreLogic/Case-Shiller,,,,2018.87,252.038,BLS,,,
860,2018.96,174.659,,,,,,2018.96,205.073,S&P/CoreLogic/Case-Shiller,,,,2018.96,251.233,BLS,,,
861,2019.04,174.016,,,,,,2019.04,204.708,S&P/CoreLogic/Case-Shiller,,,,2019.04,251.712,BLS,,,


Мы видим, что файл загрузился и выглядит, как обычный pandas.DataFrame. Pandas автоматически обрабатывает данные в этом формате при загрузке. При этом получается много пропусков (NaN), это те места, где в ячейках ничего не было написано. Посмотрим, как этот файл выглядит, если посмотреть на него стандартными средствами (не через Pandas):

При загрузке потерялось форматирование (жирные символы): Pandas не умеет работать с данными, содержащими форматирование. Но при сохранении файла после обработки мы сможем добавить форматирование. Если pandas отображает не все столбцы при выводе данных, вы можете воспользоваться следующим методом, чтобы выводить все столбцы:

In [279]:
pd.set_option('display.max_columns', None)  

Это просто небольшая настройка Pandas.  Вы можете применить её сразу после импортирования библиотеки, и её действие будет распространяться на весь код.

Основные параметры при чтении
Параметры, которые можно передавать методу pandas.read_excel():

io — первый параметр, в который мы передаём адрес файла, который хотим прочитать. Кроме адреса на диске, можно передавать адрес в интернете или специальный объект ExcelFile, о котором мы поговорим позже.

sheet_name — ссылка на лист в Excel-файле. Возможные варианты значения данного параметра:
    
    0 — значение по умолчанию, означает, что загружаем первую страницу (первый лист);

    'Sheet1' — можно передать название листа; обычно страницы называются 'SheetX', где X — номер листа, но могут использоваться и другие названия; 

    [0, 1, 'Sheet3'] — список, содержащий номера или названия листов; в таком случае Pandas вернёт словарь, в котором ключами будут номера или названия листов, а значениями — их содержимое в виде DataFrame;

    None — если передать такое значение, то Pandas прочитает все листы и вернёт их в виде словаря, как в предыдущем пункте.

na_values — список значений, которые будут считаться пропусками. Здесь всё точно так же, как при чтении .csv файла: ‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’

In [None]:
"""
Задание 1

Сколько строк содержится в файле, с которым мы будем работать?

Для получения ответа на вопрос прочитайте файл Fig3-1.xls.
Явно укажите, что у файла нет заголовка (header). Запишите ниже, сколько строк содержится в полученном датафрейме.


"""

In [283]:
data = pd.read_excel('input/Fig3-1.xls', header=None)
data

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18
0,"U.S. Home Price and Related data, for Figure 3...",,,,,,,,,,,,,,,,,,
1,See the book for description of data.,,,,"Update Nominal Home Price Index, Click Additio...",,,,,,,,,,,,,,
2,"Monthly data from January 1953 for prices, all...",,,,,,,,Nominal,,,,,,,,,,
3,,Real,,Real,,,,,Home,,,Nominal,,,Consumer,,,,
4,,Home,,Building,U.S.,,,,Price,HPI,,Building,,,Price,CPI Annual&,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,2018.79,174.056,,,,,,2018.79,205.709,S&P/CoreLogic/Case-Shiller,,,,2018.79,252.885,BLS,,,
860,2018.87,174.439,,,,,,2018.87,205.471,S&P/CoreLogic/Case-Shiller,,,,2018.87,252.038,BLS,,,
861,2018.96,174.659,,,,,,2018.96,205.073,S&P/CoreLogic/Case-Shiller,,,,2018.96,251.233,BLS,,,
862,2019.04,174.016,,,,,,2019.04,204.708,S&P/CoreLogic/Case-Shiller,,,,2019.04,251.712,BLS,,,


Чтение с помощью ExcelFile
Еще один способ прочитать Excel-файл — использовать pd.ExcelFile. Это специальный объект, которому на вход можно передать путь к файлу. Сначала мы создаем объект ExcelFile и передаём ему путь к файлу, после этого можем работать с файлом, считывая содержимое.

In [284]:
data_file = pd.ExcelFile('input/Fig3-1.xls')  
data = pd.read_excel(data_file, header=None)
data

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18
0,"U.S. Home Price and Related data, for Figure 3...",,,,,,,,,,,,,,,,,,
1,See the book for description of data.,,,,"Update Nominal Home Price Index, Click Additio...",,,,,,,,,,,,,,
2,"Monthly data from January 1953 for prices, all...",,,,,,,,Nominal,,,,,,,,,,
3,,Real,,Real,,,,,Home,,,Nominal,,,Consumer,,,,
4,,Home,,Building,U.S.,,,,Price,HPI,,Building,,,Price,CPI Annual&,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,2018.79,174.056,,,,,,2018.79,205.709,S&P/CoreLogic/Case-Shiller,,,,2018.79,252.885,BLS,,,
860,2018.87,174.439,,,,,,2018.87,205.471,S&P/CoreLogic/Case-Shiller,,,,2018.87,252.038,BLS,,,
861,2018.96,174.659,,,,,,2018.96,205.073,S&P/CoreLogic/Case-Shiller,,,,2018.96,251.233,BLS,,,
862,2019.04,174.016,,,,,,2019.04,204.708,S&P/CoreLogic/Case-Shiller,,,,2019.04,251.712,BLS,,,


Когда это может пригодиться? Например, если мы принимаем файл в одном месте программы, а используем в другом. Это может оптимизировать затрачиваемое время, если мы не знаем заранее, когда будем использовать содержимое файла. Ещё один случай:   в файле есть несколько страниц и нам не нужны все эти страницы сразу. Если мы будем читать страницы порознь с помощью read_excel и передавать в этот метод путь к файлу, мы будем каждый раз загружать этот файл в память. Когда данных много, это заполнит вашу оперативную память. В случае с ExcelFile мы прочитаем файл один раз и потом будем только подгружать необходимые страницы.

С ExcelFile можно работать с помощью контекстного менеджера:

In [None]:
with pd.ExcelFile('path_to_file.xls') as xls:  
    data['Sheet1'] = pd.read_excel(xls, 'Sheet1', na_values=['NA'])  
    data['Sheet2'] = pd.read_excel(xls, 'Sheet2')  

Если на первой странице мы хотим считать пропусками только ячейки со значением 'NA', а на второй  – любые похожие на пропуски значения (они описаны выше), то ExcelFile позволит проявить такую гибкость при чтении данных с разных листов.

Если мы просто хотим прочитать два листа из Excel-файла, то этот код:

In [None]:
with pd.ExcelFile('path_to_file.xls') as xls:  
    data['Sheet1'] = pd.read_excel(xls, 'Sheet1')  
    data['Sheet2'] = pd.read_excel(xls, 'Sheet2')  

И этот код:

In [None]:
data = pd.read_excel('path_to_file.xls', ['Sheet1', 'Sheet2'])  

Оба кода дадут нам одинаковый результат как по скорости работы, так и по возвращаемому результату.

Продвинутое чтение Excel-файла

Чтение по ссылке

Рассмотрим ещё один способ, с помощью которого можно прочитать данные. В прошлой секции вы скачали данные, которые мы специально загрузили на учебный портал. На самом деле ни вам, ни нам не обязательно было сохранять эти данные к себе на компьютер: ссылку на данные можно было передать прямо в метод read_excel:

In [285]:
data = pd.read_excel('http://www.econ.yale.edu/~shiller/data/Fig3-1.xls', header=None)  
data

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18
0,"U.S. Home Price and Related data, for Figure 3...",,,,,,,,,,,,,,,,,,
1,See the book for description of data.,,,,"Update Nominal Home Price Index, Click Additio...",,,,,,,,,,,,,,
2,"Monthly data from January 1953 for prices, all...",,,,,,,,Nominal,,,,,,,,,,
3,,Real,,Real,,,,,Home,,,Nominal,,,Consumer,,,,
4,,Home,,Building,U.S.,,,,Price,HPI,,Building,,,Price,CPI Annual&,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
866,2019.37,175.147,,,,,,2019.37,209.624,,,,,2019.37,256.092,BLS,,,
867,2019.46,176.131,,,,,,2019.46,210.843,,,,,2019.46,256.143,BLS,,,
868,2019.54,176.456,,,,,,2019.54,211.585,,,,,2019.54,256.571,BLS,,,
869,2019.62,176.767,,,,,,2019.62,211.947,,,,,2019.62,256.558,BLS,,,


Если вы выполните этот код, результат будет точно такой же, как раньше. Подобный подход можно использовать и при работе с ExcelFile. Зачем это может пригодиться? Например, у вас на сервере есть скрипт, который генерирует отчеты в формате Excel и возвращает вам ссылки на них. Можно сохранять данные на диск, затем читать их в Pandas. А можно сразу прочитать их по ссылке, сэкономив немного времени, строчек кода и, возможно, места на диске.

До этого вы работали с данными, в которых находились обычные таблицы. Что вы делали? Загружали эти таблицы и дальше работали с ними. Однако часто приходится работать с таблицами, не имеющими настолько чёткой структуры или содержащих много дополнительной, значимой для нас информации: номер документа, дата его подписания, фамилия сотрудника, чья подпись стоит на документе. 

Давайте рассмотрим подходы к решению таких задач на примере. Скачайте файл nakladnaya.xls. Посмотрим на него стандартными средствами:

Что нам может понадобиться в этих данных? Во-первых, это названия компаний, имена людей, номер и дата накладной. Во-вторых, табличные данные в центре файла — информация об объектах, которые были куплены.

Пустые строки

Если мы посмотрим на то, как выглядит файл, то увидим, что первые две строчки — пустые, и при чтении файла их желательно пропустить. Для этого можно передать в функцию read_excel дополнительный параметр — skiprows. В качестве значения параметра укажем количество строк, которые надо пропустить при чтении:

In [287]:
data = pd.read_excel("input/nakladnaya.xls", header=None, skiprows=2)
data

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12
0,,,,НАКЛАДНАЯ,"№ 5764809 от ""08"" апреля 2018 г.",,,,,,,,
1,,,,,,,,,,,,,
2,,Грузоотправитель:,,"ООО ""Первый строитель""",,,,,,,,,
3,,,,,,,,,,,,,
4,,Грузополучатель:,,"ООО ""Стройка века""",,,,,,,,,
5,,,,,,,,,,,,,
6,,Основание для отпуска: Договор №,,,86,"от ""02""апреля 2018 г.",,,,,,,
7,,,,,,,,,,,,,
8,,,,,,,,,,,,,
9,,№,Наименование товарно-материальных ценностей,,,,Ед. изм.,,,Количество,,"Цена,","Сумма,"


Здесь вместо X нужно написать количество строк, которые мы хотим пропустить. Если мы хотим пропустить строки не в начале, а в конце, то нужно использовать параметр skipfooter, он работает точно так же.

In [308]:
"""Задание 2

Можно заметить, что многие строки полностью состоят из пропусков. Используйте изученный ранее метод pandas, чтобы убрать все такие строки. Запишите ниже, сколько строк осталось.
Чтобы убирать только те строки, в которых все значения являются пропусками, нужно использовать параметр how и передавать в него значение all.

"""

data_new = data_new.dropna(axis=0, how='all')
data_new

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12
0,,,,НАКЛАДНАЯ,"№ 5764809 от ""08"" апреля 2018 г.",,,,,,,,
2,,Грузоотправитель:,,"ООО ""Первый строитель""",,,,,,,,,
4,,Грузополучатель:,,"ООО ""Стройка века""",,,,,,,,,
6,,Основание для отпуска: Договор №,,,86,"от ""02""апреля 2018 г.",,,,,,,
9,,№,Наименование товарно-материальных ценностей,,,,Ед. изм.,,,Количество,,"Цена,","Сумма,"
10,,п/п,,,,,,,,,,руб. коп.,руб. коп.
11,,1,"Велосипед ""Спринтер""",,,,шт,,,5,,9000,45000
12,,2,"Велосипед ""Малютка""",,,,шт,,,10,,3500,35000
14,,,Всего отпущено,2 (два) наименования,,,,,,,,,
16,,,На сумму,80 000 (восемьдесят тысяч) рублей,,,,,,,,,


In [309]:
data_new.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 15 entries, 0 to 25
Data columns (total 13 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       0 non-null      float64
 1   1       7 non-null      object 
 2   2       10 non-null     object 
 3   3       8 non-null      object 
 4   4       2 non-null      object 
 5   5       1 non-null      object 
 6   6       3 non-null      object 
 7   7       0 non-null      float64
 8   8       3 non-null      object 
 9   9       3 non-null      object 
 10  10      0 non-null      float64
 11  11      7 non-null      object 
 12  12      4 non-null      object 
dtypes: float64(3), object(10)
memory usage: 1.6+ KB


Ручная работа

Теперь начинается ручная работа. Предобработка данных занимает до 80% работы, часто приходится пристально изучать данные и искать способы автоматизировать процесс в надежде, что формат данных внезапно не поменяется.

С таблицами можно работать, как с текстовыми данными, и использовать алгоритмы машинного обучения, чтобы автоматически определять, как поменялся формат данных и автоматически перестраивать правила извлечения данных. Тем не менее, в этом модуле мы не используем машинное обучение, поэтому извлечём данные вручную.

In [313]:
"""
Задание 3

Какой код поможет узнать номер накладной?

"""

data_new.iloc[0, 4][2:9]

'5764809'

In [314]:
"""
Задание 4

Напишите, сколько столбцов, содержащих значимые данные, содержится в таблице. Например, 23. Не забудьте про столбец с номером товара.

"""

data_new = data_new.dropna(axis=1, how='all')
data_new

Unnamed: 0,1,2,3,4,5,6,8,9,11,12
0,,,НАКЛАДНАЯ,"№ 5764809 от ""08"" апреля 2018 г.",,,,,,
2,Грузоотправитель:,,"ООО ""Первый строитель""",,,,,,,
4,Грузополучатель:,,"ООО ""Стройка века""",,,,,,,
6,Основание для отпуска: Договор №,,,86,"от ""02""апреля 2018 г.",,,,,
9,№,Наименование товарно-материальных ценностей,,,,Ед. изм.,,Количество,"Цена,","Сумма,"
10,п/п,,,,,,,,руб. коп.,руб. коп.
11,1,"Велосипед ""Спринтер""",,,,шт,,5,9000,45000
12,2,"Велосипед ""Малютка""",,,,шт,,10,3500,35000
14,,Всего отпущено,2 (два) наименования,,,,,,,
16,,На сумму,80 000 (восемьдесят тысяч) рублей,,,,,,,


In [315]:
data_new.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 15 entries, 0 to 25
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   1       7 non-null      object
 1   2       10 non-null     object
 2   3       8 non-null      object
 3   4       2 non-null      object
 4   5       1 non-null      object
 5   6       3 non-null      object
 6   8       3 non-null      object
 7   9       3 non-null      object
 8   11      7 non-null      object
 9   12      4 non-null      object
dtypes: object(10)
memory usage: 1.9+ KB


In [323]:
"""
Задание 5

Выберите те варианты, которые позволят нам получить таблицу. Не забудьте избавиться от пропусков. Заголовок таблицы нам тоже не нужен.

"""

data.iloc[6:8, [1, 2, 6, 9, 11, 12]]

data.iloc[6:8, :].dropna(axis=1, how='any')

data.iloc[6:8, :].dropna(axis=1, how='all')

Unnamed: 0,1,4,5
6,Основание для отпуска: Договор №,86.0,"от ""02""апреля 2018 г."
7,,,


13.9 Запись в Excel-файл


Как записать файл

В прошлом блоке вы смогли получить таблицу, содержащую данные о товарах (велосипедах). Запишите ее в объект table. Теперь посмотрим, как мы можем записать ее обратно в чистый Excel-файл.

Вспомним, что мы делали бы в случае .csv:

table.to_csv("table.csv")

Как сохранить эту таблицу в Excel файл:

table.to_excel("table.xls")

Если мы сохраним таблицу именно так, мы сохраним ее индекс, и в данных будет находиться лишний столбец. Чтобы не сохранять индекс, можно в метод to_excel() передать параметр index=False.

Ранее вы познакомились с еще одним способом прочитать Excel-файл с помощью ExcelFile. Теперь вы увидите схожий инструмент для записи — ExcelWriter. Вот как записать данные в файл с его помощью:

writer = pd.ExcelWriter('test.xlsx')
table.to_excel(writer, index=False, sheet_name='Таблица')
writer.save()

Что здесь произошло?

Во-первых, мы все равно использовали метод to_excel(), но вместо пути к будущему файлу передали объект типа ExcelWriter, который создали на первой строке. Во-вторых, мы вызвали метод save() у объекта ExcelWriter. До этого момента сохранение не было завершено, и мы могли сделать еще некоторые действия. Какие? Давайте узнаем.

Добавим форматирование

Как мы узнали в самом начале, Excel-файлы поддерживают форматирование текста. С помощью pandas мы можем добавлять форматирование в Excel-файлы, используя ExcelWriter. Если мы хотим добавить форматирование, нужно выбрать объект workbook, с помощью которого мы будем добавлять, например, выделение текста жирным. Кроме этого, нужно выбрать нужную страницу:

In [None]:
workbook = writer.book  
worksheet = writer.sheets['Таблица'] 


Теперь давайте выделим цену и сумму жирным, а наименование – красным цветом:

In [None]:
money_fmt = workbook.add_format({'bold': True})  
name_fmt = workbook.add_format({'color': 'red'})  
  
worksheet.set_column('E:F', 20, money_fmt)  
worksheet.set_column(1, 1, 20, name_fmt)  

Что здесь произошло? 

1. Мы создали два объекта с описанием двух типов форматирования:

для оформления цены и стоимости – полужирное начертание; 
для оформления наименований товаров – красный цвет текста.  
2. Связали описанные типы форматирования с определёнными ячейками листа "Таблица": 

для столбцов E-F выбрали форматирование money_fmt (применяется для оформления цены и стоимости); 
для столбца 1, который отвечает за наименование, выбрали форматирование name_fmt. 
Для выбора нужных столбцов при задании параметров форматирования мы использовали два способа. Один из них — с помощью буквенных обозначений. Это стандартный способ обращаться к столбцам в Excel. Второй — с помощью номера столбца.

Важно запомнить, что при работе с Excel при задании диапазона значений значения указываются включительно. Именно поэтому мы выбрали во втором случае применение форматирования от столбца 1 до столбца 1.

Ещё одна вещь, на которую нужно обратить внимание: число 20 среди параметров метода set_column(). Этот параметр означает ширину столбца. Например, если мы передадим число 300, столбец получится очень широким, вы можете убедиться в этом сами.

Какие еще параметры можно попробовать:

border отвечает за границы столбца и может быть равен True или False; 
align отвечает за расположение данных внутри ячеек, например, center для настройки выравнивания по центру; 
fg_color отвечает за цвет фона, например, 'green', хотя можно передать и шестнадцатиричное значение, например, '#D7E4BC'.

13.10 Формат XML

Что такое XML, и зачем он нужен?

Давайте сначала посмотрим, как выглядит XML-файл:

In [None]:
<data>      
    <items>    
        <item name="item1">item1abc</item>    
        <item name="item2">item2abc</item>    
    </items>    
</data> 

Если вы успели поработать с HTML, то можете заметить, что XML очень похож на него. XML расшифровывается как eXtensible Markup Language — расширяемый язык разметки. Он позволяет описывать документы, используя теги. В отличие от HTML, где теги заранее чётко заданы, в XML мы можем задавать теги сами.

Например, если мы хотим описать меню в ресторане, мы можем слегка изменить код выше:

In [None]:
<menu>    
    <dish name="Кура">  
        <price>40</price>  
        <weight>300</weight>  
        <class>Мясо</class>  
    </dish>
    <dish name="Греча">  
        <price>20</price>  
        <weight>200</weight>  
        <class>Крупа</class>  
    </dish>
</menu>  

В примере выше довольно жёсткая структура: у нас есть меню, в нём — объекты, помеченные тегом <dish>, у каждого из которых есть параметр name, в котором прописано имя объекта. В данном случае можно считать, что dish — это класс этого объекта.

Внутри каждого объекта находится набор значений, которые тоже задаются тегами. Например, внутри тега <price> находится значение 20, означающее цену данного блюда. Тег <price> и другие теги внутри <dish> можно рассматривать как атрибуты класса dish.

Файлы XML не всегда имеют жёсткую структуру и не обязаны ее иметь, но чаще всего какая-то структура внутри файла будет. Почему? Потому что обычно XML не пишут вручную. Такие файлы генерируются и читаются кодом. Поэтому при наличии понятной структуры обработка файла становится намного проще.

Что бывает, когда в файле отсутствовала структура, вы видели в прошлой секции, когда разбирали накладную, записанную в Excel-файл.

Как работают с XML?

XML-файлы имеют древовидную структуру. Это значит, что в файле используется набор тегов, внутри которых могут находиться другие теги со своими значениями.

В каком-то смысле XML похож на JSON или даже просто на словарь со значениями. Чуть позже вы увидите, как можно превратить XML-файл в JSON и в Python-словарь. После этого вы сможете пользоваться стандартными средствами языка Python для работы с этими данными, не задумываясь о том, в каком формате они к вам пришли.

Это не единственный способ работать с XML в Python. В стандартной библиотеке языка есть пакет, который позволяет работать с XML напрямую. В дальнейшем мы разберём его подробнее и сможем читать, модифицировать и записывать файлы XML.

Если у вас нет времени разбираться с программированием, вам прислали XML-файл, и вы просто хотите посмотреть на него или превратить его в JSON, можно воспользоваться любым из многочисленных онлайн-сервисов, например, xmlviewer.

Посмотрите:

В данной секции мы будем работать с этим небольшим набором данных. Его хватит нам, чтобы получить все основные знания о работе с XML в Python. Если вы хотите попрактиковаться на более сложных данных, можно поискать их в Google dataset search.

13.11 Извлечение данных из XML

Структура XML-файла

Как мы увидели выше, данные в формате XML имеют древовидную структуру. Что такое дерево? Это структура, которая имеет узлы и связи между ними. Самый верхнеуровневый узел называется корнем, а всё, что находится в самом низу, называется листьями. В примере выше корнем является <menu>, а листьями, например, <price> и <weight>. 

У <menu> есть дети (потомки) — это два узла <dish>, имеющие разный атрибут name.

Мы будем пользоваться модулем ElementTree, входящим в стандартный пакет xml. Этот модуль позволит нам ходить по дереву XML и смотреть, что находится в каждом его узле, начиная с корня и заканчивая листьями. Импортируем модуль:

In [362]:
import xml.etree.ElementTree as ET

Чтение файла

Теперь давайте прочитаем файл menu.xml.

In [363]:
tree = ET.parse('input/menu.xml')    
root = tree.getroot()  

Здесь в переменной tree мы читаем всё дерево из XML файла. После этого в переменную root записываем корневой узел дерева tree. Давайте посмотрим, как выглядит root.

In [331]:
print(root)

<Element 'menu' at 0x00000230623349F8>


Мы видим, что в корне находится 'menu'. Всё правильно, мы хотели увидеть именно это. Какой тип у этого объекта? Если мы вызовем встроенный в Python метод type и передадим ему root, то увидим, что тип — xml.etree.ElementTree.Element. Такой тип будет у любого узла в дереве.

Как посмотреть список детей (потомков) этого узла? С помощью метода getchildren():

In [332]:
root.getchildren()  

  """Entry point for launching an IPython kernel.


[<Element 'dish' at 0x0000023062334688>,
 <Element 'dish' at 0x0000023062334818>]

Метод возвращает список. Если у узла нет детей, то он вернет пустой список [].

Работа с ElementTree в Python

На самом деле можно работать с деревом XML как со списком, если мы используем ElementTree. Каждый узел будет являться списком, в котором находятся его узлы-дети. Это значит, что код:

In [333]:
root.getchildren()[0]  


  """Entry point for launching an IPython kernel.


<Element 'dish' at 0x0000023062334688>

In [334]:
root[0] 

<Element 'dish' at 0x0000023062334688>

вернут нам одно и то же.

Ранее мы видели, что у узлов могут быть параметры (атрибуты). Например, у узлов <dish> мы видели атрибут name. Мы можем обратиться к атрибутам объекта с помощью команды attrib. Здесь может возникнуть небольшая путаница, потому что мы говорим о двух разных определениях слова "атрибут" в нашем контексте:

Атрибут у тега (как name у <dish>).

Атрибут объекта (переменная класса). 

В данном случае мы берем объект типа ElementTree.Element, у которого есть атрибут attrib. В этом атрибуте объекта хранится словарь с атрибутами данного узла.

Это значит, что если мы обратимся к attrib, то нам вернется словарь, в котором ключами будут названия атрибутов, а значениями — соответствующие значения. Чтобы стало яснее, давайте посмотрим на атрибуты у <dish>:

Чтение значений узлов

В узлах XML часто хранятся количественные показатели. Эти показатели хранятся в виде текста, и прочитать их можно, обратившись к атрибуту text у соответствующего объекта типа ElementTree.Element. Например, возьмем узел price:

In [335]:
root[0][0]

<Element 'price' at 0x0000023062334B88>

Теперь, прочитаем значение этого узла:

In [336]:
root[0][0].text

'40'

Таким образом можно пройтись по всему дереву XML и прочитать значения в листьях. Если файл имеет четкую структуру, его во многих случаях можно превратить в таблицу и работать с ней уже в pandas. Об этом мы поговорим позже.

Заметьте, что значение '40' представлено строкой. Все значения в XML хранятся как строки, поэтому преобразовывать их к нужному типу вам нужно самим. Например, в данном случае можно обернуть значение стоимости в int() или float().

Если вы хотите прочитать название тега для конкретного узла, можно использовать атрибут tag.

In [339]:
root[0][1].tag

'weight'

Использование циклов

Так как к узлам можно обращаться как к спискам, можно использовать циклы для итерации по детям узлов.

Например, если мы хотим напечатать все значения в листьях, то есть название блюда, название параметра этого блюда и значение параметра, то поможет следующий код:

In [340]:
for elem in root:  
    for subelem in elem:  
        print(elem.attrib['name'], subelem.tag, subelem.text)  
    print()

Кура price 40
Кура weight 300
Кура class Мясо

Греча price 20
Греча weight 200
Греча class Крупа



Что здесь происходит?

В первом цикле перебираем детей корня дерева (root). Дети появляются в переменной elem, это объекты dish.

Во втором цикле перебираем детей каждого блюда, то есть, каждого объекта dish. Этими детьми являются параметры блюда.

После этого выводим название блюда, название параметра и значение параметра.

Дополнительный print() в цикле верхнего уровня, чтобы было удобнее читать вывод.

Если вы хотите узнать, сколько детей у данного узла, можно воспользоваться методом len() и передать в него интересующий вас узел. Например, len(root) вернет 2, так как у него два ребенка — два объекта dish.

In [346]:
"""
Задание 4

Посчитайте, сколько детей у первого объекта dish. Для этого используйте метод len(), ответ запишите в поле ниже.

"""
len(root[0])

3

13.12 DataFrame и JSON из XML

Превращение XML в pd.DataFrame

Давайте посмотрим, как превратить наш XML-файл в pandas DataFrame:

In [347]:
df_index = ['name', 'price', 'weight', 'class']  
df = pd.DataFrame(columns=df_index)  
  
for elem in root:  
    elements = [elem.get('name'), elem[0].text, elem[1].text, elem[2].text]  
    df = df.append(pd.Series(elements, index=df_index), ignore_index=True) 

In [348]:
df

Unnamed: 0,name,price,weight,class
0,Кура,40,300,Мясо
1,Греча,20,200,Крупа


Что здесь произошло?

Мы задали названия столбцов в новой таблице и создали пустой DataFrame.

Затем мы прошлись по всем детям из корня нашего дерева и составили строки (pd.Series), состоящие из содержимого этих элементов: взяли атрибут name у узла и значения всех его детей, которые содержат нужные нам данные. Можно заметить, что для получения названия продукта мы использовали метод get(). Это можно делать, так как атрибуты узла хранятся в виде словаря и get() — один из способов получить значения словаря, зная соответствующие ключи. 

После этого мы добавили новую строку в DataFrame с помощью метода append().

Таким образом мы можем трансформировать XML в DataFrame. К сожалению, стандартных средств для этого превращения не существует, но если XML файл содержит чёткую структуру, сделать это средствами Python очень просто, как вы увидели выше.

Превращение XML в JSON

Ранее вы могли обратить внимание, что XML похож на JSON. Для Python есть несколько сторонних библиотек, которые позволяют трансформировать XML в JSON. Одна из таких библиотек (пакетов) — xmljson. Есть несколько принятых соглашений (conventions) по превращению XML в JSON. Рассмотрим простой пример (пример был взят отсюда), прежде чем поработать с нашими данными. Допустим, наши данные выглядят так:

In [349]:
<p id="1">text</p>

SyntaxError: invalid syntax (<ipython-input-349-dc58c66f36e1>, line 1)

Тогда для соглашения badgerfish данные будут выглядеть так:

In [374]:
{  
  'p': {  
    '@id': 1,  
    '$': 'text'  
  }  
} 

{'p': {'@id': 1, '$': 'text'}}

Названия атрибутов предваряются символом @, значения помечаются символом $. Соглашение gdata:

In [None]:
{  
  'p': {  
    '$t': 'text'  
  }  
}  

Это соглашение не поддерживает атрибуты. Значение помечено как $t. Соглашение parker:

In [None]:
{  
  'p': 'text'  
} 

Атрибуты также не поддерживаются. Видно, что это самый простой способ представить XML в виде JSON: значение тега записывается как значение в словаре, где ключ — название тега. Переведем наши данные в JSON с помощью соглашения parker:

In [379]:
import xmltodict, json

#set encoding to and method proper
to_string  = ET.tostring(root, encoding='UTF-8', method='xml')

xml_to_dict = xmltodict.parse(to_string)

display(xml_to_dict)

with open("input/menu_json.json", "w", encoding='UTF-8') as json_file:
    json.dump(xml_to_dict, json_file, indent = 2, ensure_ascii = False)

OrderedDict([('menu',
              OrderedDict([('dish',
                            [OrderedDict([('@name', 'Кура'),
                                          ('price', '40'),
                                          ('weight', '300'),
                                          ('class', 'Мясо')]),
                             OrderedDict([('@name', 'Греча'),
                                          ('price', '20'),
                                          ('weight', '200'),
                                          ('class', 'Крупа')])])]))])

13.13 Запись в XML-файл

Запись в XML-файл

Осталось самое последнее — научиться создавать свои XML-файлы. Вероятно, это почти никогда не пригодится вам, но все же такая ситуация может возникнуть. Чтобы создать корень дерева, нужно использовать метод Element() из класса ElementTree:

In [380]:
new_root = ET.Element('menu')  

Теперь мы можем добавлять новые узлы в наше дерево, используя метод SubElement из того же класса:

In [381]:
dish_1 = ET.SubElement(new_root, 'dish')  
dish_2 = ET.SubElement(new_root, 'dish')  
new_root.getchildren() 

  This is separate from the ipykernel package so we can avoid doing imports until


[<Element 'dish' at 0x0000023062691458>,
 <Element 'dish' at 0x00000230626914A8>]

В метод SubElement мы передали первым аргументом узел, в который добавляем потомка. Вторым аргументом мы передали название нового тега. Точно так же можно добавлять новые узлы к любым существующим узлам, не только к корню.

Атрибуты можно добавить с помощью метода set(), передав первым параметром название атрибута, а вторым — его значение:

In [382]:
dish_1.set('name', 'Кура')  

Значение тега можно задать через уже знакомый вам параметр text:

In [383]:
dish_1.text = 'Белок'

Теперь запишем получившийся XML-файл на диск, используя стандартные средства Python. Сначала превратим объект типа ElementTree.Element в строку (str) c помощью метода tostring(), передав наше новое дерево как аргумент:

In [384]:
new_root_string = ET.tostring(new_root)

Теперь запишем строку на диск:

In [385]:
with open("input/new_menu.xml", "wb") as f:  
    f.write(new_root_string)

ElementTree вернул нам строку в байтовом представлении. Мы создали новый файл new_menu.xml и записали в него результат. Откроем и посмотрим, что получилось:

Почему так получилось? Мы не указали кодировку для записи, но для bytes-формата нет возможности указать кодировку при записи. Что делать? Можно записать файл, используя сам класс ElementTree:

In [387]:
ET.ElementTree(new_root).write('input/new_menu_good.xml', encoding="utf-8")  

Для этого, мы передаем в класс ElementTree наше дерево (не его строковое представление) и вызываем метод write(). В метод мы передаем путь к новому файлу и нужную нам кодировку. Посмотрим, что получилось:

Теперь все хорошо :)