## JSON

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">→ JSON — это простой, структурированный формат обмена данными, основанный на использовании текста.</div>

Под обменом данных в этом контексте чаще всего подразумевается передача данных по компьютерным сетям, например пересылка данных от сервера к браузеру.

Аббревиатура JSON расшифровывается как JavaScript Object Notation, в переводе на русский — система обозначения/записи объектов JavaScript. Несмотря на то, что JSON изначально основывался на языке программирования JavaScript, он является общепризнанным форматом обмена данными, и многие языки программирования, включая Python, содержат эффективные инструменты для работы с ним.

Если вы планируете использовать в своей работе информацию, которая автоматически загружается из каких-либо веб-служб, то умение работать с форматом JSON — это критически важный навык, который обязательно необходимо приобрести.

Именно этим мы сейчас и займёмся!

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Итак, JSON — это простой, структурированный, основанный на использовании текста формат обмена данными.</div>

## Модули для работы с JSON

Для работы с данными в формате JSON используется модуль json из стандартной библиотеки языка Python, который необходимо будет загрузить перед началом работы с данными, выполнив следующую команду:

In [1]:
# Импортируем модуль json
import json

Также нам может быть полезен модуль pprint  (от англ. pretty print, рус. красивый вывод на экран), а точнее — встроенная в него одноимённая функция pprint(), с помощью которой можно красиво выводить на экран содержимое JSON-файла. Для загрузки нужной нам функции перед началом работы выполним следующий код:

In [2]:
# Импортируем функцию pprint()
from pprint import pprint

## КАК ВЫГЛЯДИТ JSON-ФАЙЛ?

Информация в формате JSON представляет собой (в закодированном виде) одну из двух структур:

- набор пар "ключ-значение", где ключ — это всегда строковая величина (в Python такая структура преобразуется в словарь);
- упорядоченный набор значений (при чтении JSON-файла в Python эта структура будет преобразована в список).


<img src="../static/img/data_extract_1.png">

Формат JSON допускает неограниченное количество вложений этих структур друг в друга.

Давайте на примере посмотрим, что это означает. Все упражнения раздела мы будем выполнять на примере файла, содержащего информацию об ингредиентах блюд, относящихся к кухням разных народов.



<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;">  ✍️ Мы будем работать с сокращённой версией файла. Скачайте файл, откройте его и посмотрите на содержимое (можно использовать любой текстовый редактор, например Блокнот) . Полный датасет, содержащий более 30 000 записей о блюдах, можно найти и скачать перейдя по <a href="https://www.kaggle.com/c/whats-cooking/data">ссылке</a> (требуется регистрация). Скопируйте скачанный файл recipes.json в папку, в которой будете работать (в этой же папке вы будете создавать файлы Jupyter Notebook с кодом и запускать код на выполнение).</div>

## ОТКРЫВАЕМ JSON-ФАЙЛ

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">→ Чтобы перевести данные из формата JSON в формат, который можно обрабатывать инструментами Python, необходимо выполнить процедуру, которая называется <b>десериализация</b> (декодирование данных). Обратный процесс, связанный с переводом структур данных Python в формат JSON, называется <b>сериализацией</b>.</div>

Для выполнения десериализации мы воспользуемся методом load() (от англ. загрузить) модуля json, который принимает на вход ссылку на открытый JSON-файл:

In [4]:
# Открываем файл и связываем его с объектом "f"
with open("./data/recipes.json") as f:
    # Загружаем содержимое открытого файла в переменную recipes
    recipes = json.load(f)

Отлично! Теперь содержимое нашего файла загружено в переменную recipes. Давайте выведем его на экран с помощью функции pprint() из одноимённого модуля:

In [9]:
# Выводим на экран содержимое переменной recipes, используя функцию pprint()
pprint(recipes[:2])

[{'cuisine': 'greek',
  'id': 10259,
  'ingredients': ['romaine lettuce',
                  'black olives',
                  'grape tomatoes',
                  'garlic',
                  'pepper',
                  'purple onion',
                  'seasoning',
                  'garbanzo beans',
                  'feta cheese crumbles']},
 {'cuisine': 'southern_us',
  'id': 25693,
  'ingredients': ['plain flour',
                  'ground pepper',
                  'salt',
                  'tomatoes',
                  'ground black pepper',
                  'thyme',
                  'eggs',
                  'green tomatoes',
                  'yellow corn meal',
                  'milk',
                  'vegetable oil']}]


Итак, мы видим, что рецепт каждого из блюд описан в виде словаря, который состоит из трёх пар "ключ-значение":

- Ключ "cuisine" — обозначает принадлежность блюда к определённой национальной кухне (например, 'greek', 'southern_us', 'filipino' и т. д.);
- Ключ "id" — уникальный идентификационный номер блюда;
- Ключ "ingredients"— содержит перечень продуктов, входящих в состав блюда.

Все рецепты (то есть все словари) хранятся в одном списке, располагаясь последовательно.

## ИЗВЛЕКАЕМ ДАННЫЕ ИЗ JSON-ФАЙЛА

После того как мы провели <b>десериализацию</b> данных из JSON-файла, мы можем работать с полученным объектом как с обычными списками и словарями. Единственное отличие этой работы от манипуляций с привычными нам списками и словарями заключается в том, что данных теперь больше и они помещены внутрь структуры с большим количеством уровней вложенности.

Давайте выясним некоторые детали о блюде, которое записано первым в списке блюд. Его индекс — 0, и информация о нём хранится в словаре. Чтобы узнать ID этого блюда, мы можем обратиться к соответствующему ключу словаря, выполнив следующий код:

In [6]:
recipes[0]["id"]

10259

Здесь мы сначала извлекаем из списка первый элемент (индекс 0). Поскольку каждый элемент списка является словарём, для получения нужной информации о конкретном блюде нам нужно указать ключ словаря. ID блюда доступно по ключу 'id', и мы указываем этот ключ в отдельной паре квадратных скобок:

<img src='../static/img/data_extract_2.png'>

Аналогичным образом, для получения списка ингредиентов первого блюда в списке мы можем использовать тот же код, заменив в нём ключ 'id' на 'ingredients'. 

<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;">✍️ А теперь попробуйте решить задачу!</div>

###  Задание 5.1

Сколько ингредиентов входят в состав первого блюда из предлагаемого списка?

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
9
</code>
</details>

In [11]:
len(recipes[0]["ingredients"])

9

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Мы также можем извлечь информацию о конкретном блюде по его ID. Для этого необходимо с помощью цикла, например for, перебрать все элементы списка, проверяя ключ 'id',  и извлечь нужную информацию, когда мы наконец найдем нужное блюдо.</div>

###   Задание 5.2

К какой кухне относится блюдо с id = 13121?

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
thai
</code>
</details>

In [14]:
for recipe in recipes:
    if recipe["id"] == 13121:
        pprint(recipe)
        break

{'cuisine': 'thai',
 'id': 13121,
 'ingredients': ['pork loin',
                 'roasted peanuts',
                 'chopped cilantro fresh',
                 'hoisin sauce',
                 'creamy peanut butter',
                 'chopped fresh mint',
                 'thai basil',
                 'rice',
                 'medium shrimp',
                 'water',
                 'rice noodles',
                 'beansprouts']}


###   Задание 5.3
<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">На практике также иногда возникают задачи по извлечению из JSON-файла обобщённой информации. Давайте попробуем решить две такие задачи.</div>
Какое количество уникальных национальных кухонь присутствуют в нашем наборе данных?

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  

<h4>Вариант решения с использованием списка</h4>

Чтобы извлечь эту информацию, нам нужно создать пустой список и последовательно заполнять его уникальными значениями, доступными по ключу 'cuisine' в каждом из словарей, содержащих информацию о рецептах. Поскольку словари объединены в список recipes, не получится применить известный нам метод unique() (этот метод неприменим к словарям), и для извлечения всех уникальных значений нужно перебирать элементы списка в цикле с параметром.

<h4>Вариант решения с использованием множества</h4>

Другой способ решения этой же задачи — использование для хранения данных о разных кухнях не списка, а множества (set). Множество содержит только уникальные элементы, поэтому при работе с ним нет необходимости проверять, содержится ли там тот или иной элемент. Если элемент (в нашем примере — название типа кухни) уже есть, то команда "добавить во множество такое же значение" будет проигнорирована компьютером.
</div>
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
20
</code>
</details>

In [15]:
cuisines = set()
for recipe in recipes:
    cuisines.add(recipe["cuisine"])
len(cuisines)

20

###   Задание 5.4

Какой из национальных кухонь принадлежит самое большое количество рецептов?

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
thai
</code>
</details>

In [16]:
from collections import Counter

cuisines = list()
for recipe in recipes:
    cuisines.append(recipe["cuisine"])
Counter(cuisines)

Counter({'italian': 101,
         'mexican': 79,
         'southern_us': 52,
         'indian': 41,
         'chinese': 39,
         'french': 25,
         'japanese': 24,
         'korean': 21,
         'thai': 17,
         'cajun_creole': 16,
         'greek': 15,
         'spanish': 12,
         'filipino': 11,
         'british': 9,
         'vietnamese': 9,
         'irish': 9,
         'moroccan': 9,
         'jamaican': 6,
         'brazilian': 3,
         'russian': 2})

## ИЗ JSON В PANDAS

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">→ Как вы помните, после <b>десериализации</b> наши данные были преобразованы в список, элементами которого являются вложенные словари, содержащие по три пары "ключ-значение". </div>

Поскольку структура всех вложенных словарей одинакова, мы можем создать DataFrame на основе списка, не проводя с ним никаких дополнительных манипуляций:

In [18]:
# Импортируем модуль json
import json

# Импортируем функцию pprint()
from pprint import pprint

# Импортируем модуль pandas
import pandas as pd

# Открываем файл и связываем его с объектом "f"
with open("./data/recipes.json") as f:
    # Загружаем содержимое открытого файла в переменную recipes
    recipes = json.load(f)
# Создаём объект DataFrame из списка recipes
df = pd.DataFrame(recipes)
# Выводим на экран первые строки полученного DataFrame
display(df.head())

Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes..."
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g..."
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g..."
3,22213,indian,"[water, vegetable oil, wheat, salt]"
4,13162,indian,"[black pepper, shallots, cornflour, cayenne pe..."


<div style="border: 3px dotted white; padding: 5px; margin-right: auto;  width: 80%;"> ДОПОЛНИТЕЛЬНО

Для непосредственного считывания содержимого файла recipes.json в переменную df (объект DataFrame) используйте функцию read_json() (с англ. читать_json).</div>

In [20]:
# Импортируем модуль pandas
import pandas as pd

# Создаём объект DataFrame, загружая содержимое файла recipes.json
df = pd.read_json("./data/recipes.json")

# Выводим на экран первые строки полученного DataFrame
display(df.head())

Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes..."
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g..."
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g..."
3,22213,indian,"[water, vegetable oil, wheat, salt]"
4,13162,indian,"[black pepper, shallots, cornflour, cayenne pe..."


Для более подробного ознакомления с функцией  read_json() предлагаем вам обратиться к <a href="https://pandas.pydata.org/pandas-docs/version/1.1.3/reference/api/pandas.read_json.html">документации</a>.

In [21]:
df.shape

(500, 3)

<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;">→ Итак, получившийся DataFrame содержит информацию о рецептах из нашего JSON-файла. </div>

Каждая строка соответствует одному рецепту, в столбце id хранится его идентификационный номер, в столбце cuisine — тип кухни, а столбец ingredients содержит список, в котором перечислены ингредиенты, необходимые для приготовления блюда.

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  Такая структура не очень практична, поскольку она не позволяет осуществлять группировку данных и выполнять многие другие операции, связанные с исследованием ингредиентов разных блюд. Например, представьте, что вы хотите отфильтровать блюда, состоящие не более чем из пяти ингредиентов, или блюда, не содержащие мяса. Сделать это, когда ингредиенты блюд хранятся в списках, не очень просто.</div>

Для полноценной работы с данными нам необходимо иметь возможность хранить информацию о каждом ингредиенте в отдельном столбце, например:

<img src='../static/img/data_extract_3.jpg'>

Давайте шаг за шагом преобразуем DataFrame в такой вид.

Работу над преобразованием DataFrame начнём с создания и заполнения столбцов, содержащих сведения о наличии или отсутствии каждого ингредиента в рецепте. Процесс заполнения выполним в два этапа:

<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;"> 
<div style="color: white;background-color: black;">1</div>
Создадим функцию для заполнения значения в каждой ячейке. Функция будет проверять наличие конкретного ингредиента в столбце ingredients для текущего блюда и возвращать 1, если ингредиент есть в рецепте, и 0, если он отсутствует.
 </div>

<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;"> 
<div style="color: white;background-color: black;">2</div>
Организуем цикл, в котором будем перебирать наименования всех ингредиентов DataFrame (для этого потребуется создать реестр, то есть некий список, который содержит уникальные наименования ингредиентов). Для каждого ингредиента создадим в DataFrame столбец с соответствующим названием и заполним его единицами и нулями, применив к DataFrame, а точнее к столбцу ingredients функцию, созданную нами на предыдущем этапе.
 </div>

###  Задание 6.4

Создайте реестр уникальных ингредиентов all_ingredients, который будет использоваться на втором этапе. Какое количество уникальных ингредиентов в нашем DataFrame?

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
 randint
</code>
</details>

In [29]:
ingredients = set()

df.ingredients.apply(lambda x: ingredients.update(x))
ingredients

{'condensed cheddar cheese soup',
 'mustard',
 'skinless chicken breasts',
 'pecan pie',
 'broccoli',
 'masa harina',
 'spices',
 'flat leaf parsley',
 'boneless pork loin',
 'green beans',
 'serrano chile',
 'serrano ham',
 'kimchi',
 'romaine lettuce leaves',
 'peanut sauce',
 'celery salt',
 'oysters',
 'boneless skinless chicken breast halves',
 'avocado',
 'juice',
 'ginger juice',
 'parmesan cheese',
 'fish sauce',
 'erythritol',
 'boiling potatoes',
 'chicken broth',
 'jambalaya rice mix',
 'fennel bulb',
 'Old El Paso Flour Tortillas',
 'semisweet chocolate',
 'cinnamon graham crackers',
 'grated orange peel',
 'chickpea flour',
 'cumin',
 'tamarind',
 'guacamole',
 'vinaigrette dressing',
 'palm sugar',
 'fresh herbs',
 'saffron',
 'figs',
 'butternut squash',
 'savoy cabbage',
 'italian seasoning',
 'great northern beans',
 'green papaya',
 'shiitake',
 'reduced sodium tamari',
 'bay leaf',
 'tomatillos',
 'pound cake',
 'Guinness Lager',
 'Himalayan salt',
 'swiss chard',
 '

In [30]:
len(ingredients)

1318

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">→ Теперь определим функцию contains(), с помощью которой мы будем проверять наличие конкретного ингредиента ingredient_name в рецепте текущего блюда, который представлен списком ingredient_list (значение в ячейке столбца ingredients текущего рецепта).</div>

Функция будет возвращать 1, если ингредиент есть в рецепте, и 0, если он отсутствует:

In [32]:
# Определяем имя функции и передаваемые аргументы
def contains(ingredient_list):
    # Если ингредиент есть в текущем блюде,
    if ingredient in ingredient_list:
        # возвращаем значение 1
        return 1
    # Если ингредиента нет в текущем блюде,
    else:
        # возвращаем значение 0
        return 0

Отлично! Осталось лишь перебрать все ингредиенты из ранее созданного реестра all_ingredients с помощью цикла  for  и создать в DataFrame столбец с соответствующим названием, заполнив его единицами и нулями. Для этого применим к DataFrame, а точнее, к столбцу ingredients функцию contains().

In [34]:
for ingredient in ingredients:
    df[ingredient] = df["ingredients"].apply(contains)

  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(contains)
  df[ingredient] = df['ingredients'].apply(con

In [35]:
df.head()

Unnamed: 0,id,cuisine,ingredients,condensed cheddar cheese soup,mustard,skinless chicken breasts,pecan pie,broccoli,masa harina,spices,...,peeled tomatoes,yellow peppers,candied orange peel,boneless chop pork,ricotta cheese,plain whole-milk yogurt,feta cheese crumbles,white corn tortillas,crushed red pepper,flour tortillas
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,22213,indian,"[water, vegetable oil, wheat, salt]",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,13162,indian,"[black pepper, shallots, cornflour, cayenne pe...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


В завершение изменим значение столбца ingredients — вместо списка ингредиентов в каждом рецепте заполним столбец данными о количестве ингредиентов в нём:

In [36]:
# Заменяем список ингредиентов в рецепте на их количество
df["ingredients"] = df["ingredients"].apply(len)
# Выводим содержимое полученного DataFrame на экран
display(df)

Unnamed: 0,id,cuisine,ingredients,condensed cheddar cheese soup,mustard,skinless chicken breasts,pecan pie,broccoli,masa harina,spices,...,peeled tomatoes,yellow peppers,candied orange peel,boneless chop pork,ricotta cheese,plain whole-milk yogurt,feta cheese crumbles,white corn tortillas,crushed red pepper,flour tortillas
0,10259,greek,9,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
1,25693,southern_us,11,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,20130,filipino,12,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,22213,indian,4,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,13162,indian,20,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,1121,chinese,9,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
496,18376,italian,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
497,17815,italian,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
498,32878,southern_us,19,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


### Задание 6.5

Напишите код для создания списка ids всех блюд, представленных в датафрейме. Нужны только уникальные значения.

Порядок id должен совпадать с тем, как они расположены в исходном датафрейме.

Примечание. Не забудьте импортировать библиотеки и прочитать файл recipes.csv.

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>

</code>
</details>

In [None]:
import pandas as pd


df = pd.read_csv("recipes.csv")
ids = df["id"].to_list()

## СОХРАНЯЕМ DATAFRAME В CSV-ФАЙЛЕ

Если мы планируем продолжать работать с DataFrame, созданными на основе данных, которые мы получили в JSON-формате, то полезно будет сохранить промежуточный DataFrame в виде CSV-файла. Для выполнения этой операции воспользуемся известной нам в Pandas функцией to_csv():

In [38]:
df.to_csv("./data/recipes.csv", index=False)

В качестве основного параметра мы указали имя файла, в котором необходимо сохранить данные. Также мы установили значение параметра index как False. Такая настройка позволит нам не сохранять индексы строк в виде отдельного столбца; в результате не будут загружаться «лишние» данные при открытии файла при помощи функции read_csv()

## ИЗ PANDAS В JSON

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">→ Решим обратную задачу и создадим JSON-файл из сохранённого ранее CSV-файла, который получили в конце предыдущего этапа. </div>

Начнём с чтения файла и создания DataFrame на его основе:

In [39]:
# Создаём DataFrame, читаем данные из файла в переменную df
df = pd.read_csv("./data/recipes.csv")

Теперь, используя только данные из этого файла, нам нужно в точности воссоздать структуру исходного JSON-файла. Мы помним, что после десериализации данные представляли собой список, состоящий из словарей. В каждом словаре хранилась информация о рецепте одного блюда. Каждый словарь состоял из трёх пар "ключ-значение". Первая пара содержала название кухни, к которой относилось блюдо, вторая — id блюда, и третья — список ингредиентов входящих в состав блюда.

<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;">✍️ Поскольку по условию задачи мы не можем использовать предыдущие наработки, давайте начнём с создания списка, содержащего перечень id всех блюд, а также списка ингредиентов, встречающихся в рецептах. Эти списки в дальнейшем мы будем использовать для заполнения JSON-структуры.</div>

### Задание 7.1

Напишите код для создания списка id всех блюд, нужны только уникальные значения представленных в DataFrame. Результирующий список занесите в переменную ids.

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>

</code>
</details>

In [47]:
ids = list(df.id.unique())
ids[:5]

[10259, 25693, 20130, 22213, 13162]

### Задание 7.2
Напишите код для создания списка ингредиентов всех блюд, представленных в DataFrame. Результирующий список занесите в переменную ingredients.
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>

</code>
</details>

In [55]:
ingredients = df.columns[3:].to_list()
ingredients[:5]

['condensed cheddar cheese soup',
 'mustard',
 'skinless chicken breasts',
 'pecan pie',
 'broccoli']

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">→ Отлично! Теперь мы можем использовать подготовленные списки ids и ingredients для непосредственного создания JSON-структуры.</div>

После десериализации JSON-файла мы получили структуру, представляющую собой список, состоящий из словарей. Каждый словарь состоял из трёх пар "ключ-значение", при этом в качестве значений выступали:

- целое число (id блюда);
- строковая величина (тип кухни);
- список строковых величин (перечень ингредиентов).

Сейчас нам предстоит воссоздать эту структуру, извлекая данные из DataFrame. Для этого необходимо создать:

- пустой список new_recipes — для хранения итоговой структуры;
- используя код из Задачи 7.1, список ids — для хранения id всех блюд;
- используя код из Задачи 7.2, список ingredients — для хранения названий всех ингредиентов.


<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;">✍️ <b>Далее необходимо реализовать следующий алгоритм</b>:

1. Написать код функции make_list(), которая принимает на вход строку DataFrame df, содержащую полные данные об одном блюде, и возвращает перечень ингредиентов, входящих в состав этого блюда в виде списка.
2. Организовать цикл с параметром, в котором будут перебираться элементы списка ids. В результате в процессе прохождения цикла параметр должен принять значение id каждого блюда.
3. На каждом шаге цикла создать словарь, содержащий три пары "ключ-значение":
- ключу "id" присвоить текущее значение параметра цикла как целого числа;
- ключу "cuisine" присвоить значение соответствующей кухни, которое мы получим, применив фильтр по текущему id к DataFrame df;
- ключу "ingredients" присвоить значение списка, воспользовавшись функцией make_list(), созданной на первом шаге алгоритма.
4. Каждый созданный словарь добавить к списку new_recipes:
</div>

Осталось создать код функции  make_list(), выполнить сериализацию и записать результат в файл.

### Задание 7.3

Напишите код функции make_list(), которая принимает на вход одну строку DataFrame, содержащую данные об одном рецепте, и возвращает перечень ингредиентов этого блюда в виде списка.

Функция make_list() должна принимать только один аргумент - row. Это будет строка датафрейма.

Не забудьте импортировать необходимые бибилиотеки, считать файл recipes.csv и создать список ingredients.

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
 randint
</code>
</details>

In [88]:
def make_list(row):
    l_ingredients = []
    for col in row.columns:
        if row[col].iloc[0] == 1:
            l_ingredients.append(col)
    return l_ingredients

In [77]:
ser = df.iloc[-1]
ser

id                                 24410
cuisine                          british
ingredients                           17
condensed cheddar cheese soup          0
mustard                                0
                                  ...   
plain whole-milk yogurt                0
feta cheese crumbles                   0
white corn tortillas                   0
crushed red pepper                     0
flour tortillas                        0
Name: 499, Length: 1321, dtype: object

In [85]:
def make_list(row):
    return row[2:][row == 1].index.to_list()

In [89]:
# Создаём пустой список для хранения итоговой структуры
new_recipes = []
# Организуем цикл с параметром current_id
for current_id in ids:
    # Получаем значение соответствующей кухни, применив фильтр по текущему значению параметра цикла к DataFrame;
    cuisine = df[df["id"] == current_id]["cuisine"].iloc[0]
    # Получаем перечень ингредиентов, входящих в состав текущего блюда
    current_ingredients = make_list(df[df["id"] == current_id])
    # Создаём текущий словарь
    current_recipe = {
        "cuisine": cuisine,
        "id": int(current_id),
        "ingredients": current_ingredients,
    }
    # Добавляем созданный словарь к списку
    new_recipes.append(current_recipe)

In [90]:
new_recipes[:2]

[{'cuisine': 'greek',
  'id': 10259,
  'ingredients': ['garbanzo beans',
   'purple onion',
   'pepper',
   'seasoning',
   'garlic',
   'romaine lettuce',
   'grape tomatoes',
   'black olives',
   'feta cheese crumbles']},
 {'cuisine': 'southern_us',
  'id': 25693,
  'ingredients': ['tomatoes',
   'thyme',
   'vegetable oil',
   'salt',
   'yellow corn meal',
   'plain flour',
   'eggs',
   'green tomatoes',
   'ground pepper',
   'ground black pepper',
   'milk']}]

Выполним <b>сериализацию</b> списка new_recipes и запишем полученные данные в файл.

Для сериализации  используем функцию dumps(), которой в качестве параметра передадим список new_recipes. Запись в файл осуществляется с помощью метода write(). Предварительно файл необходимо открыть для записи с помощью функции open() c параметром 'w' (от англ. write, рус. писать):

In [75]:
# Импорт модуля json
import json

# Функция dumps() модуля json сериализирует объект Python в строку формата JSON.
new_recipes = json.dumps(new_recipes)

# Откроем файл new_recipes.json для записи
with open("data/new_recipes.json", "w") as write_file:
    # Записываем содержимое подготовленные данные в файл
    write_file.write(new_recipes)

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Итак, задача по созданию JSON-файла из сохранённого ранее CSV-файла решена!</div>