# JSON. Работаем с pandas. Из pandas в JSON

In [1]:
# Импортируем модуль json
import json

# Импортируем функцию pprint()
from pprint import pprint

import pandas as pd

ИЗ PANDAS В JSON

→ Решим обратную задачу и создадим JSON-файл из сохранённого ранее CSV-файла, который получили в конце предыдущего этапа. 

Начнём с чтения файла и создания DataFrame на его основе:

In [2]:
# Создаём DataFrame, читаем данные из файла в переменную df
df = pd.read_csv('recipes.csv')

Теперь, используя только данные из этого файла, нам нужно в точности воссоздать структуру исходного JSON-файла. Мы помним, что после десериализации данные представляли собой список, состоящий из словарей. В каждом словаре хранилась информация о рецепте одного блюда. Каждый словарь состоял из трёх пар "ключ-значение". Первая пара содержала название кухни, к которой относилось блюдо, вторая — id блюда, и третья — список ингредиентов, входящих в состав блюда.

✍️ Поскольку по условию задачи мы не можем использовать предыдущие наработки, давайте начнём с создания списка, содержащего перечень id всех блюд, а также списка ингредиентов, встречающихся в рецептах. Эти списки в дальнейшем мы будем использовать для заполнения JSON-структуры.

---

Задача 1

Напишите код для создания списка id всех блюд, нужны только уникальные значения представленных в DataFrame. Результирующий список занесите в переменную ids.

In [3]:
# Создаём список уникальных id
ids = df['id'].drop_duplicates().tolist()

# Выводим результат
print(f"Список уникальных ids: {ids}")

Список уникальных ids: [10259, 25693, 20130, 22213, 13162, 6602, 42779, 3735, 16903, 12734, 5875, 45887, 2698, 41995, 31908, 24717, 34466, 1420, 2941, 8152, 13121, 40523, 40989, 29630, 49136, 26705, 27976, 22087, 9197, 1299, 40429, 34419, 10276, 33465, 39250, 37963, 20051, 11300, 17610, 37405, 28302, 31634, 32304, 36341, 29369, 27564, 18515, 3335, 4499, 4906, 5767, 30748, 35930, 44902, 31119, 3535, 47028, 38112, 2646, 5206, 38233, 39267, 11913, 20591, 70, 43928, 8530, 275, 43769, 49111, 11886, 45839, 699, 24568, 8820, 16582, 9058, 4715, 29061, 2107, 22825, 13758, 6886, 14874, 43399, 38254, 41596, 33989, 17004, 4969, 31831, 46648, 36888, 34471, 25164, 39600, 46357, 46905, 8753, 37337, 17636, 8997, 28851, 4635, 7782, 8031, 49434, 31318, 31027, 47095, 4574, 19757, 35570, 44812, 27858, 18624, 9406, 35132, 33071, 8321, 20955, 45776, 6043, 336, 25751, 793, 34367, 7406, 7473, 7532, 5924, 5802, 41078, 20665, 39471, 9595, 27869, 44776, 17771, 43970, 27165, 11190, 21872, 29853, 1154, 9069, 46975

Задача 2

Напишите код для создания списка ингредиентов всех блюд, представленных в DataFrame. Результирующий список занесите в переменную ingredients.

In [5]:
ingredients = list(df.columns)[3:] # Создаем список уникальных значений ингредиентов
print(ingredients)

['juice', 'yellow corn meal', 'white sugar', 'green cardamom', 'yellow onion', 'fresh chives', 'black mustard seeds', 'tortillas', 'refried beans', 'mayonaise', 'coconut cream', 'dried cranberries', 'smoked gouda', 'low salt chicken broth', 'sweet paprika', 'canola oil', 'green pepper', 'cooked quinoa', 'stock', 'bertolli vineyard premium collect marinara with burgundi wine sauc', 'chocolate sauce', 'low-fat buttermilk', 'sesame paste', 'grapeseed oil', 'hass avocado', 'red lentils', 'jaggery', 'Italian parsley leaves', 'boiling water', 'silken tofu', 'banana squash', 'taco sauce', 'mexican chorizo', 'organic chicken', 'chunky peanut butter', 'green tomatoes', 'fresh asparagus', 'chinese five-spice powder', 'green papaya', 'baby spinach leaves', 'soy sauce', 'evaporated milk', 'bean paste', 'ice water', 'whole milk', 'shredded cheddar cheese', 'crabmeat', 'self rising flour', 'rum', 'cracked black pepper', 'guacamole', 'Japanese soy sauce', 'dried thyme', 'pickled jalapenos', 'chopped 

---

→ Отлично! Теперь мы можем использовать подготовленные списки ids и ingredients для непосредственного создания JSON-структуры.

После десериализации JSON-файла мы получили структуру, представляющую собой список, состоящий из словарей. Каждый словарь состоял из трёх пар "ключ-значение", при этом в качестве значений выступали:
* целое число (id блюда);
* строковая величина (тип кухни);
* список строковых величин (перечень ингредиентов).

Сейчас нам предстоит воссоздать эту структуру, извлекая данные из DataFrame. Для этого необходимо создать:
* пустой список new_recipes — для хранения итоговой структуры;
* используя код из Задачи 7.1, список ids — для хранения id всех блюд;
* используя код из Задачи 7.2, список ingredients — для хранения названий всех ингредиентов.

✍️ Далее необходимо реализовать следующий алгоритм:

1. Написать код функции make_list(), которая принимает на вход строку DataFrame df, содержащую полные данные об одном блюде, и возвращает перечень ингредиентов, входящих в состав этого блюда в виде списка.
2. Организовать цикл с параметром, в котором будут перебираться элементы списка ids. В результате в процессе прохождения цикла параметр должен принять значение id каждого блюда.
3. На каждом шаге цикла создать словарь, содержащий три пары "ключ-значение":
* ключу "id" присвоить текущее значение параметра цикла как целого числа;
* ключу "cuisine" присвоить значение соответствующей кухни, которое мы получим, применив фильтр по текущему id к DataFrame df;
* ключу "ingredients" присвоить значение списка, воспользовавшись функцией make_list(), созданной на первом шаге алгоритма.
4. Каждый созданный словарь добавить к списку new_recipes:

In [8]:
import pandas as pd

# Функция make_list() для получения перечня ингредиентов
def make_list(row):
    ingredients = row['ingredients']
    
    # Проверяем, если ингредиенты - это строка
    if isinstance(ingredients, str):
        # Разделяем строку по запятой и убираем лишние пробелы
        ingredients = [ingredient.strip() for ingredient in ingredients.split(',')]
    elif isinstance(ingredients, list):
        # Если ingredients уже является списком, просто убираем лишние пробелы
        ingredients = [ingredient.strip() for ingredient in ingredients]
    else:
        # Если данные не являются строкой или списком, возвращаем пустой список
        ingredients = []
    
    return ingredients

# Создание списка new_recipes
new_recipes = []

# Список ids (например, список всех id в DataFrame)
ids = df['id'].tolist()

# Цикл с параметром для создания списка new_recipes
for id in ids:
    # Фильтруем DataFrame по текущему id
    row = df[df['id'] == id].iloc[0]  # Берем первую строку, так как id уникально

    # Создаем словарь для текущего блюда
    recipe = {
        'id': int(id),
        'cuisine': row['cuisine'],
        'ingredients': make_list(row)
    }
    
    # Добавляем словарь в список new_recipes
    new_recipes.append(recipe)

# Выводим результат
print(new_recipes)


[{'id': 10259, 'cuisine': 'greek', 'ingredients': []}, {'id': 25693, 'cuisine': 'southern_us', 'ingredients': []}, {'id': 20130, 'cuisine': 'filipino', 'ingredients': []}, {'id': 22213, 'cuisine': 'indian', 'ingredients': []}, {'id': 13162, 'cuisine': 'indian', 'ingredients': []}, {'id': 6602, 'cuisine': 'jamaican', 'ingredients': []}, {'id': 42779, 'cuisine': 'spanish', 'ingredients': []}, {'id': 3735, 'cuisine': 'italian', 'ingredients': []}, {'id': 16903, 'cuisine': 'mexican', 'ingredients': []}, {'id': 12734, 'cuisine': 'italian', 'ingredients': []}, {'id': 5875, 'cuisine': 'italian', 'ingredients': []}, {'id': 45887, 'cuisine': 'chinese', 'ingredients': []}, {'id': 2698, 'cuisine': 'italian', 'ingredients': []}, {'id': 41995, 'cuisine': 'mexican', 'ingredients': []}, {'id': 31908, 'cuisine': 'italian', 'ingredients': []}, {'id': 24717, 'cuisine': 'indian', 'ingredients': []}, {'id': 34466, 'cuisine': 'british', 'ingredients': []}, {'id': 1420, 'cuisine': 'italian', 'ingredients': 

Осталось создать код функции  make_list(), выполнить сериализацию и записать результат в файл.

In [9]:
import pandas as pd
import json

# Функция make_list() для получения перечня ингредиентов
def make_list(row):
    ingredients = row['ingredients']
    
    # Проверяем, если ингредиенты - это строка
    if isinstance(ingredients, str):
        # Разделяем строку по запятой и убираем лишние пробелы
        ingredients = [ingredient.strip() for ingredient in ingredients.split(',')]
    elif isinstance(ingredients, list):
        # Если ingredients уже является списком, просто убираем лишние пробелы
        ingredients = [ingredient.strip() for ingredient in ingredients]
    else:
        # Если данные не являются строкой или списком, возвращаем пустой список
        ingredients = []
    
    return ingredients

# Создание списка new_recipes
new_recipes = []

# Список ids (например, список всех id в DataFrame)
ids = df['id'].tolist()

# Цикл с параметром для создания списка new_recipes
for id in ids:
    # Фильтруем DataFrame по текущему id
    row = df[df['id'] == id].iloc[0]  # Берем первую строку, так как id уникально

    # Создаем словарь для текущего блюда
    recipe = {
        'id': int(id),
        'cuisine': row['cuisine'],
        'ingredients': make_list(row)
    }
    
    # Добавляем словарь в список new_recipes
    new_recipes.append(recipe)

# Сериализация данных в формат JSON
with open('recipes.json', 'w', encoding='utf-8') as f:
    json.dump(new_recipes, f, ensure_ascii=False, indent=4)

print("Данные успешно сериализованы и записаны в файл 'recipes.json'")


Данные успешно сериализованы и записаны в файл 'recipes.json'


---

Задача

Напишите код функции make_list(), которая принимает на вход одну строку DataFrame, содержащую данные об одном рецепте (в виде Series), и возвращает перечень ингредиентов этого блюда (в виде списка).

Функция make_list() должна принимать только один аргумент - row. Это будет строка датафрейма.

Не забудьте импортировать необходимые бибилиотеки, считать файл recipes.csv и создать список ingredients.

In [10]:
import pandas as pd
df = pd.read_csv('recipes.csv') # Читаем содержимое файла и создаем объект df
ingredients = list(df.columns)[3:] # Создаем список уникальных значений ингредиентов

def make_list(row): # Определяем имя функции и передаваемые аргументы
    ingredient_list=[] # Создаём пустой список ингредиентов текущего блюда
    for ingredient in ingredients: # Последовательно перебираем ингредиенты из реестра
        if row[ingredient].item()==1: # Если текущий ингредиент входит в состав текущего блюда
            ingredient_list.append(ingredient) # Добавляем ингредиент в список ингредиентов текущего блюда
    return ingredient_list # Возвращаем сформированный список ингредиентов


---

Выполним сериализацию списка new_recipes и запишем полученные данные в файл.

Для сериализации  используем функцию dumps(), которой в качестве параметра передадим список new_recipes. Запись в файл осуществляется с помощью метода write(). Предварительно файл необходимо открыть для записи с помощью функции open() c параметром 'w' (от англ. write, рус. писать):

In [17]:
# Импорт модуля json
import json 
# Функция dumps() модуля json сериализирует объект Python в строку формата JSON. 
recipes = json.dumps(recipes) 

# Откроем файл new_recipes.json для записи
with open("data/recipes.json", "w") as write_file: 
    # Записываем содержимое подготовленные данные в файл
    write_file.write(recipes)

NameError: name 'recipes' is not defined