<a href="https://colab.research.google.com/github/dm-fedorov/pandas_basic/blob/master/кейсы%20по%20анализу%20данных/json.ipynb" target="_blank"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>

### Что такое JSON и зачем он нужен?

Аббревиатура `JSON` расшифровывается как `JavaScript Object Notation` или, в вольном переводе, система обозначения (или записи) объектов JavaScript. 

Несмотря на то, что `JSON` является подмножеством языка программирования JavaScript, сейчас это общепризнанный формат обмена данными, и многие языки программирования, включая Python, содержат эффективные инструменты для работы с этим форматом.

Важно! Итак, JSON — это простой, структурированный, основанный на использовании текста формат обмена данными.

Когда мы говорим об обмене данными, то чаще всего имеем в виду передачу данных по компьютерным сетям, например пересылку данных от сервера к браузеру. 

### Инструменты для работы с JSON

Для работы с данными в формате `JSON` в Python используется библиотека `json`, которую необходимо будет загрузить в начале работы. Также нам может быть полезен модуль `pprint` (именно так, с двумя "р" в начале) и встроенная в него функция `pprint`, с помощью которой можно красиво выводить на экран структурированные данные.

In [None]:
import json  
from pprint import pprint  

### Как выглядит JSON?

Информация в формате `JSON` представляет собой (в закодированном виде) одну из двух структур:

* набор пар "ключ-значение", причём ключ — это всегда строковая величина; в Python такая структура преобразуется в словарь;
* упорядоченный набор значений; при чтении JSON в Python эта структура будет преобразована в список.

Формат JSON допускает неограниченное количество вложений этих структур друг в друга. 

Все упражнения будем выполнять на примере файла, содержащего информацию об ингредиентах блюд, относящихся к кухням разных народов. 

### Смотрим на данные

Чтобы перевести данные из формата `JSON` в формат, который можно обрабатывать на Python, необходимо выполнить процедуру, которая называется `десериализация` (иными словами, декодирование данных). Обратный процесс, связанный с переводом структур данных Python в формат `JSON`, называется `сериализация`.

Для выполнения десериализации мы воспользуемся методом `load` модуля `json`. В качестве параметра укажем ссылку на файл:

In [None]:
with open('../data/recipes.json') as f:
    recipes = json.load(f)

Чтобы разобраться в структуре данных, давайте выведем их на экран с помощью функции `pprint`. Будьте готовы к тому, что данных в наборе много, поэтому в ячейке  появится несколько сот строк. Нам не нужно будет просматривать все строки. Главное — понять общую структуру объекта `recipes`:

In [None]:
#pprint(recipes)

```JSON
[{'cuisine': 'greek',
  'id': 10259,
  'ingredients': ['romaine lettuce',
                  'black olives',
                  'grape tomatoes',
                  'garlic',
                  'pepper',
                  'purple onion',
                  'seasoning',
                  'garbanzo beans',
                  'feta cheese crumbles']},
 {'cuisine': 'southern_us',
  'id': 25693,
  'ingredients': ['plain flour',
                  'ground pepper',
                  'salt',
                  'tomatoes',
                  'ground black pepper',
                  'thyme',
                  'eggs',
                  'green tomatoes',
                  'yellow corn meal',
                  'milk',
                  'vegetable oil']},
```

Итак, мы видим, что рецепт каждого блюда описан в виде словаря, состоящего из трёх пар "ключ-значение". Ключ `cuisine` обозначает принадлежность блюда к определённой кухне, `id` — это уникальный идентификационный номер блюда, а ключ `ingredients` содержит перечень продуктов, входящих в состав блюда.

### Извлекаем единичные данные

После того как мы провели десериализацию данных из JSON-файла, мы можем работать с полученным объектом, как с обычным словарём, или, как в случае с нашими данными, списком. Единственное отличие этой работы от манипуляций с привычными нам списками и словарями заключается в том, что данных теперь больше и они помещены внутрь структуры с большим количеством уровней вложенности. Тем не менее общие приёмы работы остаются стандартными.

Давайте выясним некоторые детали о блюде, которое записано первым в списке. Например, чтобы узнать `ID` этого блюда, мы можем использовать такой код:

In [None]:
recipes[0]['id']

В данном случае сначала мы извлекаем из списка первый элемент (индекс 0). Поскольку каждый элемент списка является словарём, для получения нужной информации о конкретном блюде нам нужно указать ключ словаря. `ID` блюда доступно по ключу `'id'`, и мы указываем этот ключ в отдельной паре квадратных скобок.

Для получения списка ингредиентов первого блюда в списке мы можем использовать тот же код, заменив в нём ключ `'id'` на `'ingredients'`:

In [None]:
recipes[0]['ingredients']

Ещё один пример касается извлечения информации о конкретном блюде. Давайте попробуем найти информацию о том, к какой кухне относится блюдо с `id = 13121`. Сложность задачи заключается в том, что все `id` хранятся в словарях, которые являются элементами списка. Для получения данных о нужном блюде нам придётся перебрать все элементы списка, проверить их `id`, и при обнаружении совпадения извлечь нужную информацию:

In [None]:
for recipe in recipes:  # начинаем перебор всех рецептов
    if recipe['id'] == 13121:  # если id текущего рецепта равен искомому
        print(recipe['cuisine'])  # выводим на экран кухню, к которой относится блюдо
        break   # и прерываем цикл, т.к. нужное блюдо уже найдено

### Группируем данные

К объектам `JSON`, в том числе после их десериализации, невозможно применить методы группировки, доступные при работе с датафреймами Pandas. Однако задачи по извлечению из JSON-файла обобщённой информации периодически возникают, и нам нужно понять, как их решать. Давайте рассмотрим всё на нескольких примерах.

#### Кейс №1: Какое количество кухонь представлено в наборе данных?

Итак, давайте попробуем проанализировать, кухни скольких народов мира присутствуют в нашем наборе данных. Напоминаем, что информация о типе кухни доступна по ключу `'cuisine'`.

Чтобы извлечь эту информацию, нам нужно создать пустой список и последовательно заполнять его уникальными значениями, доступными по ключу `'cuisine'` в каждом из словарей, содержащих информацию о рецептах. Поскольку словари объединены в список `resipes`, у нас не получится применить известный нам метод `unique()` (этот метод не применим к словарям), и для извлечения всех уникальных значений нужно перебирать элементы списка в цикле с параметром. Вот пример кода, с помощью которого это можно сделать:

In [None]:
cuisines = []  # создаём пустой список для хранения уникальных значений кухонь
for recipe in recipes:  # начинаем перебор всех рецептов
    if not recipe['cuisine'] in cuisines:  # если тип кухни текущего блюда ещё не встречался
        cuisines.append(recipe['cuisine']) # добавляем его к списку cuisines
len(cuisines)

Другой способ решения этой же задачи — использование для хранения данных о разных кухнях не списка, а множества (`set`). Множества содержат только уникальные элементы, поэтому при работе с ним нет необходимости проверять, содержится ли там тот или иной элемент. Если элемент (в нашем примере — название типа кухни) уже есть, то команда добавить в множество такое же значение будет проигнорирована компьютером:

In [None]:
cuisines = set()  # создаём пустое множество для хранения уникальных значений кухонь
for recipe in recipes:  # начинаем перебор всех рецептов
    cuisines.add(recipe['cuisine']) # добавляем название типа кухни к множеству
len(cuisines)

### Задание 1

Сколько ингредиентов включено в состав всех блюд, описанных в наборе данных?

Подсказка: Обратите внимание, что для добавления в список или множество нового ингредиента вам нужно будет организовать перебор ингредиентов каждого блюда в отдельном вложенном цикле.

### Задание 2

Сколько ингредиентов встречается в рецептах блюд итальянской кухни (`'cuisine' = italian`)?

### Кейс №2: Оцениваем популярность ингредиентов

Давайте представим, что мы хотим заняться торговлей продуктами для ресторанов национальной кухни. Нам необходимо оценить, какие продукты используются в приготовлении блюд чаще, а какие — реже. Давайте попробуем решить эту задачу с использованием имеющегося у нас набора данных.

Эту задачу можно решить двумя способами:

* Преобразовать JSON-структуру в датафрейм и найти количество ненулевых значений для каждого ингредиента. Этот способ мы подробнее рассмотрим в следующем шаге.
* Создать словарь, в котором ключами будут являться названия ингредиентов, а значениями — количество рецептов, в которых встречается каждый ингредиент. Этот способ мы рассмотрим прямо сейчас.

Для создания словаря нам понадобится список или множество, содержащие перечень всех ингредиентов из описанных в наборе данных рецептов. Такой список вы составили при решении задания 1. Воспользуйтесь вашим кодом для решения этой задачи ещё раз, но при этом назовите список (или множество, это не будет иметь значения в коде, который мы собираемся создавать) именем `ingredients`.

### План решения задачи:

* Для хранения информации о частоте встречаемости ингредиентов мы создадим пустой словарь `food`.
* Заполним словарь `food` ключами, соответствующими названиями ингредиентов. В качестве значений по каждому ключу установим `0`.
* Организуем вложенный цикл, в котором будем перебирать рецепты (внешний цикл) и ингредиенты, использующиеся в каждом рецепте (внутренний цикл). При каждом появлении очередного ингредиента мы будет увеличивать значение соответствующего элемента словаря food на единицу.

Вот как будут выглядеть те же действия в виде кода на Python:

In [None]:
food = {}  # создаём пустой словарь для хранения информации об ингредиентах
for item in ingredients:  # перебираем список ингредиентов
    food[item] = 0 # добавляем в словарь ключ, соответствующий очередному ингредиенту
for recipe in recipes:   # перебираем список рецептов
    for item in recipe['ingredients']:   # и список ингредиентов в каждом рецепте
        food[item] += 1   # увеличиваем значение нужного ключа в словаре на 1

Теперь мы можем обращаться к словарю food по ключам и получать информацию о количестве рецептов, включающих тот или иной ингредиент:

In [None]:
food['sugar']

In [None]:
food['eggs']

### Задание 4

Какие ингредиенты входят в состав более чем 20% блюд, представленных в наборе данных?

Подсказка: Напоминаем, что весь набор данных содержит сведения о 500 блюдах.

### Задание 5

Какой ингредиент входит в состав самого большого количества блюд?

### Создание датафрейма на основе JSON-файла

В предыдущих блоках нам удавалось извлекать из набора данных единичные показатели, но для полноценного анализа данных этого часто бывает недостаточно. Для решения многих задач нужна возможность работать с данными в форме таблицы и обозревать всю таблицу целиком. Например, набор данных, с фрагментом которого мы работаем в этом разделе модуля,  —  это материал для задачи по машинному обучению, определяющий по набору ингредиентов  тип кухни, к которой относится рецепт. Для решения этой и подобных задач необходимо перевести данные и в табличную форму и удобнее всего использовать библиотеку Pandas.

Как вы помните, после десериализации наши данные были преобразованы в список, элементами которого являются вложенные словари, содержащие по три пары "ключ-значение". Поскольку структура всех вложенных словарей одинакова, мы можем создать датафрейм на основе списка, не проводя с ним никаких дополнительных манипуляций:

In [None]:
import pandas as pd
df = pd.DataFrame(recipes)
df.head()

Для полноценной работы с данными нам необходимо иметь возможность хранить информацию о каждом ингредиенте в отдельном столбце. Созданием именно такой таблицы мы займёмся на следующем шаге.

### Готовим данные для анализа

Давайте создадим на основе данных из JSON-файла датафрейм, пригодный для автоматизированного анализа данных. В качестве основы мы будем использовать датафрейм, созданный на предыдущем этапе. 

Прежде всего разберёмся со структурой нового датафрейма. В финальной версии в нашем датафрейме должны будут остаться столбцы, содержащие `id` блюда и название кухни; вместо списка ингредиентов мы включим в датафрейм столбец с данными о количестве ингредиентов, а оставшаяся часть датафрейма будет представлена столбцами, названия которых будут соответствовать названиям разных ингредиентов, а значения будут равны 1, если ингредиент присутствует с блюде, и 0,  если — отсутствует.

Работу над созданием датафрейма мы начнём с создания и заполнения столбцов, содержащих сведения о наличии или отсутствии каждого ингредиента в рецепте. Процесс заполнения  будем проводить в два этапа: 

* Создадим функцию для заполнения значения в каждой ячейке. Функция будет проверять наличие конкретного ингредиента в столбце 'ingredients' для текущего блюда и возвращать 1, если ингредиент есть в рецепте, и 0, если он отсутствует.
* Организуем цикл с параметром, в котором будем перебирать наименования всех ингредиентов. Для каждого ингредиента создадим в датафрейме столбец с соответствующим названием и заполним его единичками и нулями, применив к датафрейму, а точнее, к столбцу 'ingredients', функцию, созданную нами на предыдущем шаге.

Код функции, с помощью которой мы будем создавать новые столбцы и заполнять их значениями, могут выглядеть следующим образом:

Код функции, с помощью которой мы будем создавать новые столбцы и заполнять их значениями, могут выглядеть следующим образом:

In [None]:
def find_item(cell):
    if item in cell:
        return 1
    return 0

Теперь перейдём к созданию кода, в котором будут создаваться столбцы с информацией о наличии или отсутствии того или иного ингредиента в конкретном рецепте:

In [None]:
for item in ingredients:
    df[item] = df['ingredients'].apply(find_item)

В завершение изменим значение столбца `ingredients`, заполнив его данными о количестве ингредиентов в каждом рецепте:

In [None]:
df['ingredients'] = df['ingredients'].apply(lambda x: len(x))

### Сохраняем датафрейм в CSV-файле

В случае, если вы планируете продолжать работать с датафреймом, созданным на основе данных, полученных в JSON-формате, полезно будет научиться сохранять созданный датафрейм в виде CSV-файла. Для выполнения этой операции в Pandas существует метод `to_scv`:

In [None]:
df.to_csv('recipes.csv', index = False)

В качестве основного параметра мы указали имя файла, под которым нужно сохранить данные. Также мы установили значение параметра `index` равным `False`. Такая настройка позволит нам не сохранять индексы строк в виде отдельного столбца и в результате не загружать лишних данных при открытии файла методом `read_scv`.