In [1]:
import pandas as pd

### JSON

**JSON** — это простой, структурированный формат обмена данными, основанный на использовании текста.

Под обменом данных в этом контексте чаще всего подразумевается передача данных по компьютерным сетям, например пересылка данных от сервера к браузеру.

Аббревиатура **JSON** расшифровывается как **JavaScript Object Notation**, в переводе на русский — система обозначения/записи объектов JavaScript. Несмотря на то, что JSON изначально основывался на языке программирования JavaScript, он является общепризнанным форматом обмена данными, и многие языки программирования, включая Python, содержат эффективные инструменты для работы с ним.

Если вы планируете использовать в своей работе информацию, которая автоматически загружается из каких-либо веб-служб, то умение работать с форматом **JSON — это критически важный навык**, который обязательно необходимо приобрести.

Именно этим мы сейчас и займёмся!

Итак, JSON — это простой, структурированный, основанный на использовании текста формат обмена данными.

### Модули для работы с JSON

Для работы с данными в формате JSON используется модуль `json` из стандартной библиотеки языка Python, который необходимо будет загрузить перед началом работы с данными, выполнив следующую команду:

Также нам может быть полезен модуль `pprint`  (от англ. pretty print, рус. красивый вывод на экран), а точнее — встроенная в него одноимённая функция `pprint()`, с помощью которой можно красиво выводить на экран содержимое JSON-файла. Для загрузки нужной нам функции перед началом работы выполним следующий код:

In [3]:
# Импортируем модуль json
import json

# Импортируем функцию pprint()
from pprint import pprint

### КАК ВЫГЛЯДИТ JSON-ФАЙЛ?

Информация в формате JSON представляет собой (в закодированном виде) одну из двух структур:

- набор пар **"ключ-значение"**, где ключ — это всегда строковая величина (в Python такая структура преобразуется в словарь);
- упорядоченный набор значений (при чтении JSON-файла в Python эта структура будет преобразована в список).

<img src='img/json_0.png'>

Формат JSON допускает неограниченное количество вложений этих структур друг в друга.

Давайте на примере посмотрим, что это означает. Все упражнения раздела мы будем выполнять на примере файла, содержащего информацию об ингредиентах блюд, относящихся к кухням разных народов.

✍️ Мы будем работать с сокращённой версией файла. Скачайте [файл](https://lms-cdn.skillfactory.ru/assets/courseware/v1/92fd198fd3eccc09a8c3498e9dd25588/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/recipes.json), откройте его и посмотрите на содержимое (можно использовать любой текстовый редактор, например Блокнот) . Полный датасет, содержащий более 30 000 записей о блюдах, можно найти и скачать перейдя по [ссылке](https://www.kaggle.com/c/whats-cooking/data) (требуется регистрация). Скопируйте скачанный файл `recipes.json` в папку, в которой будете работать (в этой же папке вы будете создавать файлы Jupyter Notebook с кодом и запускать код на выполнение).

### ОТКРЫВАЕМ JSON-ФАЙЛ

Чтобы перевести данные из формата JSON в формат, который можно обрабатывать инструментами Python, необходимо выполнить процедуру, которая называется **десериализация** (декодирование данных). 

Обратный процесс, связанный с переводом структур данных Python в формат JSON, называется **сериализацией**.

Для выполнения **десериализации** мы воспользуемся методом `load()` (от англ. загрузить) модуля json, который принимает на вход ссылку на открытый JSON-файл:

In [4]:
# Открываем файл и связываем его с объектом "f"
with open('data/recipes.json') as f:  
    # Загружаем содержимое открытого файла в переменную recipes  
    recipes = json.load(f)

**Отлично**! Теперь содержимое нашего файла загружено в переменную `recipes`. Давайте выведем его на экран с помощью функции `pprint()` из одноимённого модуля:

✍️ Попробуйте выполнить этот код. Будьте готовы к тому, что данных в наборе много, поэтому в ячейке Out (если вы работаете с Jupyter Notebook) появится несколько сотен строк.

In [None]:
# Выводим на экран содержимое переменной recipes, используя функцию pprint()
pprint(recipes)

<center> <img src='img/json_0_1.jpg'> </center>

Итак, мы видим, что рецепт каждого из блюд описан в виде словаря, который состоит из трёх пар "ключ-значение":

- Ключ **"cuisine"** — обозначает принадлежность блюда к определённой национальной кухне (например, 'greek', 'southern_us', 'filipino' и т. д.);
- Ключ **"id"** — уникальный идентификационный номер блюда;
- Ключ **"ingredients"**— содержит перечень продуктов, входящих в состав блюда.
Все рецепты (то есть все словари) хранятся в одном списке, располагаясь последовательно.

### ИЗВЛЕКАЕМ ДАННЫЕ ИЗ JSON-ФАЙЛА

После того как мы провели **десериализацию** данных из JSON-файла, мы можем работать с полученным объектом как с обычными списками и словарями. Единственное отличие этой работы от манипуляций с привычными нам списками и словарями заключается в том, что данных теперь больше и они помещены внутрь структуры с большим количеством уровней вложенности.

Давайте выясним некоторые детали о блюде, которое записано первым в списке блюд. Его индекс — 0, и информация о нём хранится в словаре. Чтобы узнать ID этого блюда, мы можем обратиться к соответствующему ключу словаря, выполнив следующий код:

In [8]:
recipes[0]['id']

10259

Здесь мы сначала извлекаем из списка первый элемент (индекс 0). Поскольку каждый элемент списка является словарём, для получения нужной информации о конкретном блюде нам нужно указать ключ словаря. ID блюда доступно по ключу `'id'`, и мы указываем этот ключ в отдельной паре квадратных скобок:

<center> <img src='img/json_1.png'> </center>

Аналогичным образом, для получения списка ингредиентов первого блюда в списке мы можем использовать тот же код, заменив в нём ключ 'id' на 'ingredients'. 

In [9]:
# Сколько ингредиентов входят в состав первого блюда из предлагаемого списка?

len(recipes[0]['ingredients'])

9

Мы также можем извлечь информацию о конкретном блюде по его ID. Для этого необходимо с помощью цикла, например for, перебрать все элементы списка, проверяя ключ 'id',  и извлечь нужную информацию, когда мы наконец найдем нужное блюдо.

In [10]:
# К какой кухне относится блюдо с id = 13121?

for rec in recipes:
    if rec['id'] == 13121:
        print(rec['cuisine'])
        break

thai


На практике также иногда возникают задачи по извлечению из JSON-файла обобщённой информации. Давайте попробуем решить две такие задачи.

##### Какое количество уникальных национальных кухонь присутствуют в нашем наборе данных?

#### Вариант решения с использованием списка

Чтобы извлечь эту информацию, нам нужно создать пустой список и последовательно заполнять его уникальными значениями, доступными по ключу 'cuisine' в каждом из словарей, содержащих информацию о рецептах. Поскольку словари объединены в список recipes, не получится применить известный нам метод unique() (этот метод неприменим к словарям), и для извлечения всех уникальных значений нужно перебирать элементы списка в цикле с параметром.

#### Вариант решения с использованием множества

Другой способ решения этой же задачи — использование для хранения данных о разных кухнях не списка, а множества (set). Множество содержит только уникальные элементы, поэтому при работе с ним нет необходимости проверять, содержится ли там тот или иной элемент. Если элемент (в нашем примере — название типа кухни) уже есть, то команда "добавить во множество такое же значение" будет проигнорирована компьютером.

In [12]:
# Какое количество уникальных национальных кухонь присутствуют в нашем наборе данных?
res_set = set()

for rec in recipes:
    res_set.add(rec['cuisine'])

print(f'В наборе представлены рецепты {len(res_set)} кухонь')

В наборе представлены рецепты 20 кухонь


In [29]:
# Какой из национальных кухонь принадлежит самое большое количество рецептов?

dict_cuis = {}

for rec in recipes:
    cur_val = dict_cuis.get(rec['cuisine'],0)
    if cur_val == 0:
        dict_cuis.update({rec['cuisine']: 1})
    else:
        dict_cuis.update({rec['cuisine']: (cur_val+1)})
print(dict_cuis)

sorted_dict = dict(sorted(dict_cuis.items(), key=lambda x: x[1], reverse=True))

print(f'В представленных данных кухня {list(sorted_dict.keys())[0]} имеет наибольшее количество рецептов')

{'greek': 15, 'southern_us': 52, 'filipino': 11, 'indian': 41, 'jamaican': 6, 'spanish': 12, 'italian': 101, 'mexican': 79, 'chinese': 39, 'british': 9, 'thai': 17, 'vietnamese': 9, 'cajun_creole': 16, 'brazilian': 3, 'french': 25, 'japanese': 24, 'irish': 9, 'korean': 21, 'moroccan': 9, 'russian': 2}
В представленных данных кухня italian имеет наибольшее количество рецептов


### ИЗ JSON В PANDAS

Как вы помните, после **десериализации** наши данные были преобразованы в список, элементами которого являются вложенные словари, содержащие по три пары "ключ-значение". 

Поскольку структура всех вложенных словарей одинакова, мы можем создать DataFrame на основе списка, не проводя с ним никаких дополнительных манипуляций:

In [None]:
# Импортируем модуль json
import json 
# Импортируем функцию pprint()
from pprint import pprint 
# Импортируем модуль pandas
import pandas as pd 
# Открываем файл и связываем его с объектом "f"
with open('data/recipes.json') as f: 
    # Загружаем содержимое открытого файла в переменную recipes
    recipes = json.load(f) 
# Создаём объект DataFrame из списка recipes
df = pd.DataFrame(recipes) 
# Выводим на экран первые строки полученного DataFrame
display(df.head())

#✍️ Попробуйте! В результате мы действительно получаем DataFrame.

Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes..."
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g..."
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g..."
3,22213,indian,"[water, vegetable oil, wheat, salt]"
4,13162,indian,"[black pepper, shallots, cornflour, cayenne pe..."


#### ДОПОЛНИТЕЛЬНО
Для непосредственного считывания содержимого файла `recipes.json` в переменную `df` (объект DataFrame) используйте функцию `read_json()` (с англ. читать_json).

Для более подробного ознакомления с функцией  `read_json()` предлагаем вам обратиться к [документации](https://pandas.pydata.org/pandas-docs/version/1.1.3/reference/api/pandas.read_json.html).

In [35]:
# Импортируем модуль pandas
import pandas as pd 
# Создаём объект DataFrame, загружая содержимое файла recipes.json
df = pd.read_json('data/recipes.json') 

# Выводим на экран первые строки полученного DataFrame
display(df.head())

Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes..."
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g..."
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g..."
3,22213,indian,"[water, vegetable oil, wheat, salt]"
4,13162,indian,"[black pepper, shallots, cornflour, cayenne pe..."


Итак, получившийся DataFrame содержит информацию о рецептах из нашего JSON-файла. 

Каждая строка соответствует одному рецепту, в столбце `id` хранится его идентификационный номер, в столбце `cuisine` — тип кухни, а столбец `ingredients` содержит список, в котором перечислены ингредиенты, необходимые для приготовления блюда.

Такая структура не очень практична, поскольку она не позволяет осуществлять группировку данных и выполнять многие другие операции, связанные с исследованием ингредиентов разных блюд. Например, представьте, что вы хотите отфильтровать блюда, состоящие не более чем из пяти ингредиентов, или блюда, не содержащие мяса. Сделать это, когда ингредиенты блюд хранятся в списках, не очень просто.

Для полноценной работы с данными нам необходимо иметь возможность хранить информацию о каждом ингредиенте в отдельном столбце, например:

<img src='img/json_pandas_2.jpg'>

Давайте шаг за шагом преобразуем DataFrame в такой вид.

Работу над преобразованием DataFrame начнём с создания и заполнения столбцов, содержащих сведения о наличии или отсутствии каждого ингредиента в рецепте. Процесс заполнения выполним в два этапа:

1. Создадим функцию для заполнения значения в каждой ячейке. Функция будет проверять наличие конкретного ингредиента в столбце ingredients для текущего блюда и возвращать 1, если ингредиент есть в рецепте, и 0, если он отсутствует.

2. Организуем цикл, в котором будем перебирать наименования всех ингредиентов DataFrame (для этого потребуется создать реестр, то есть некий список, который содержит уникальные наименования ингредиентов). Для каждого ингредиента создадим в DataFrame столбец с соответствующим названием и заполним его единицами и нулями, применив к DataFrame, а точнее к столбцу ingredients функцию, созданную нами на предыдущем этапе.

In [45]:
# Создайте реестр уникальных ингредиентов all_ingredients, который будет использоваться на втором этапе. 
# Какое количество уникальных ингредиентов в нашем DataFrame?

all_ingredients = set()

for row in df.itertuples():
    all_ingredients.update(row.ingredients)

print(f'Всего уникальных ингредиентов {len(all_ingredients)}')

Всего уникальных ингредиентов 1318


Теперь определим функцию **contains()**, с помощью которой мы будем проверять наличие конкретного ингредиента `ingredient_name` в рецепте текущего блюда, который представлен списком `ingredient_list` (значение в ячейке столбца `ingredients` текущего рецепта).

 Функция будет возвращать 1, если ингредиент есть в рецепте, и 0, если он отсутствует:

In [46]:
def contains(ingredient_list): 
    # Если ингредиент есть в текущем блюде,
    if ingredient_name in ingredient_list:   
        # возвращаем значение 1
        return 1 
    # Если ингредиента нет в текущем блюде,
    else: 
        # возвращаем значение 0
        return 0

In [48]:
# Последовательно перебираем ингредиенты в реестре all_ingredients
for ingredient_name in all_ingredients: 
    # В DataFrame cоздаем столбец с именем текущего ингредиента 
    # и заполняем его единицами и нулями,
    # используя ранее созданную функцию contains
    df[ingredient_name] = df['ingredients'].apply(contains);

In [49]:
# Заменяем список ингредиентов в рецепте на их количество 
df['ingredients'] = df['ingredients'].apply(len) 
# Выводим содержимое полученного DataFrame на экран
display(df)

Unnamed: 0,id,cuisine,ingredients,white bread,fettuccine pasta,dried chile,shiso,chestnuts,prepared horseradish,top round steak,...,wheat,chopped almonds,taco sauce,rice wine,fat-free mayonnaise,softened butter,basmati rice,queso fresco,flax seed meal,orange zest
0,10259,greek,9,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,25693,southern_us,11,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,20130,filipino,12,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,22213,indian,4,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
4,13162,indian,20,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,1121,chinese,9,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
496,18376,italian,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
497,17815,italian,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
498,32878,southern_us,19,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


#### СОХРАНЯЕМ DATAFRAME В CSV-ФАЙЛЕ

Если мы планируем продолжать работать с DataFrame, созданными на основе данных, которые мы получили в JSON-формате, то полезно будет сохранить промежуточный DataFrame в виде CSV-файла. Для выполнения этой операции воспользуемся известной нам в Pandas функцией `to_csv()`:

In [51]:
df.to_csv('data/recipes.csv', index = False)

В качестве основного параметра мы указали имя файла, в котором необходимо сохранить данные. Также мы установили значение параметра `index` как `False`. Такая настройка позволит нам не сохранять индексы строк в виде отдельного столбца; в результате не будут загружаться «лишние» данные при открытии файла при помощи функции `read_csv()`.

### ИЗ PANDAS В JSON

Решим обратную задачу и создадим JSON-файл из сохранённого ранее CSV-файла, который получили в конце предыдущего этапа. 

Начнём с чтения файла и создания DataFrame на его основе:

In [53]:
# Создаём DataFrame, читаем данные из файла в переменную df
df = pd.read_csv('data/recipes.csv')

Теперь, используя только данные из этого файла, нам нужно в точности воссоздать структуру исходного JSON-файла. Мы помним, что после десериализации данные представляли собой список, состоящий из словарей. В каждом словаре хранилась информация о рецепте одного блюда. Каждый словарь состоял из трёх пар "ключ-значение". Первая пара содержала название кухни, к которой относилось блюдо, вторая — id блюда, и третья — список ингредиентов входящих в состав блюда.

✍️ Поскольку по условию задачи мы не можем использовать предыдущие наработки, давайте начнём с создания списка, содержащего перечень id всех блюд, а также списка ингредиентов, встречающихся в рецептах. Эти списки в дальнейшем мы будем использовать для заполнения JSON-структуры.

In [55]:
#import pandas as pd
#df = pd.read_csv('data/recipes.csv')
ids = []

for row in df.itertuples():
    if not row.id in ids:
        ids.append(row.id)

print(ids)



[10259, 25693, 20130, 22213, 13162, 6602, 42779, 3735, 16903, 12734, 5875, 45887, 2698, 41995, 31908, 24717, 34466, 1420, 2941, 8152, 13121, 40523, 40989, 29630, 49136, 26705, 27976, 22087, 9197, 1299, 40429, 34419, 10276, 33465, 39250, 37963, 20051, 11300, 17610, 37405, 28302, 31634, 32304, 36341, 29369, 27564, 18515, 3335, 4499, 4906, 5767, 30748, 35930, 44902, 31119, 3535, 47028, 38112, 2646, 5206, 38233, 39267, 11913, 20591, 70, 43928, 8530, 275, 43769, 49111, 11886, 45839, 699, 24568, 8820, 16582, 9058, 4715, 29061, 2107, 22825, 13758, 6886, 14874, 43399, 38254, 41596, 33989, 17004, 4969, 31831, 46648, 36888, 34471, 25164, 39600, 46357, 46905, 8753, 37337, 17636, 8997, 28851, 4635, 7782, 8031, 49434, 31318, 31027, 47095, 4574, 19757, 35570, 44812, 27858, 18624, 9406, 35132, 33071, 8321, 20955, 45776, 6043, 336, 25751, 793, 34367, 7406, 7473, 7532, 5924, 5802, 41078, 20665, 39471, 9595, 27869, 44776, 17771, 43970, 27165, 11190, 21872, 29853, 1154, 9069, 46975, 4892, 21467, 20919, 4

In [65]:
ingredients = df.columns[3:].tolist()
print(len(ingredients))

1318


Отлично! Теперь мы можем использовать подготовленные списки ids и ingredients для непосредственного создания JSON-структуры.

После десериализации JSON-файла мы получили структуру, представляющую собой список, состоящий из словарей. Каждый словарь состоял из трёх пар "ключ-значение", при этом в качестве значений выступали:
- целое число (id блюда);
- строковая величина (тип кухни);
- список строковых величин (перечень ингредиентов).

Сейчас нам предстоит воссоздать эту структуру, извлекая данные из DataFrame. Для этого необходимо создать:

- пустой список **new_recipes** — для хранения итоговой структуры;
- список **ids** — для хранения id всех блюд;
- список **ingredients** — для хранения названий всех ингредиентов.

✍️ Далее необходимо реализовать следующий алгоритм:

1. Написать код функции `make_list()`, которая принимает на вход строку DataFrame df, содержащую полные данные об одном блюде (в виде Series), и возвращает перечень ингредиентов, входящих в состав этого блюда (в виде списка).
2. Организовать цикл с параметром, в котором будут перебираться элементы списка ids. В результате в процессе прохождения цикла параметр должен принять значение id каждого блюда.
3. На каждом шаге цикла создать словарь, содержащий три пары "ключ-значение":
    - ключу "id" присвоить текущее значение параметра цикла как целого числа;
    - ключу "cuisine" присвоить значение соответствующей кухни, которое мы получим, применив фильтр по текущему id к DataFrame df;
    - ключу "ingredients" присвоить значение списка, воспользовавшись функцией make_list(), созданной на первом шаге алгоритма.

    Каждый созданный словарь добавить к списку new_recipes:

In [91]:
def make_list(row):
    res_sps = []
    for col in list(row.iloc[3:].index):
        if row[col] == 1:
            res_sps.append(col)
    return res_sps
   

In [94]:
# Создаём пустой список для хранения итоговой структуры
new_recipes = [] 
# Организуем цикл с параметром current_id
for current_id in ids: 
    # Получаем значение соответствующей кухни, применив фильтр по текущему значению параметра цикла к DataFrame;
    cuisine = df[df['id'] == current_id]['cuisine'].iloc[0] 
    # Получаем перечень ингредиентов, входящих в состав текущего блюда
    current_ingredients = make_list(df[df['id'] == current_id]) 
    # Создаём текущий словарь
    current_recipe = {'cuisine': cuisine, 'id': int(current_id), 'ingredients': current_ingredients} 
    # Добавляем созданный словарь к списку
    new_recipes.append(current_recipe)

Осталось создать код функции  `make_list()`, выполнить сериализацию и записать результат в файл.

Выполним сериализацию списка `new_recipes` и запишем полученные данные в файл.

Для сериализации  используем функцию `dumps()`, которой в качестве параметра передадим список `new_recipes`. Запись в файл осуществляется с помощью метода `write()`. Предварительно файл необходимо открыть для записи с помощью функции `open()` c параметром `'w'` (от англ. write, рус. писать):

In [95]:
# Импорт модуля json
import json 
# Функция dumps() модуля json сериализирует объект Python в строку формата JSON. 
new_recipes = json.dumps(new_recipes) 

# Откроем файл new_recipes.json для записи
with open("data/new_recipes.json", "w") as write_file: 
    # Записываем содержимое подготовленные данные в файл
    write_file.write(new_recipes)

Итак, задача по созданию JSON-файла из сохранённого ранее CSV-файла решена!