In [1]:
import json  
from pprint import pprint  

Информация в формате JSON представляет собой (в закодированном виде) одну из двух структур:

1. набор пар "ключ-значение", причём ключ — это всегда строковая величина; в Python такая структура преобразуется в словарь;
2. упорядоченный набор значений; при чтении JSON в Python эта структура будет преобразована в список.

Формат JSON допускает неограниченное количество вложений этих структур друг в друга.

Чтобы перевести данные из формата JSON в формат, который можно обрабатывать на Python, необходимо выполнить процедуру, которая называется десериализация (иными словами, декодирование данных). Обратный процесс, связанный с переводом структур данных Python в формат JSON, называется сериализация.

In [2]:
with open('recipes.json') as f:
    recipes = json.load(f)

In [4]:
pprint(recipes)

[{'cuisine': 'greek',
  'id': 10259,
  'ingredients': ['romaine lettuce',
                  'black olives',
                  'grape tomatoes',
                  'garlic',
                  'pepper',
                  'purple onion',
                  'seasoning',
                  'garbanzo beans',
                  'feta cheese crumbles']},
 {'cuisine': 'southern_us',
  'id': 25693,
  'ingredients': ['plain flour',
                  'ground pepper',
                  'salt',
                  'tomatoes',
                  'ground black pepper',
                  'thyme',
                  'eggs',
                  'green tomatoes',
                  'yellow corn meal',
                  'milk',
                  'vegetable oil']},
 {'cuisine': 'filipino',
  'id': 20130,
  'ingredients': ['eggs',
                  'pepper',
                  'salt',
                  'mayonaise',
                  'cooking oil',
                  'green chilies',
                  'grilled chicken bre

                  'feta cheese',
                  'whole milk',
                  'ras el hanout',
                  'ground lamb',
                  'ground cinnamon',
                  'large eggs',
                  'large garlic cloves',
                  'all-purpose flour']},
 {'cuisine': 'irish',
  'id': 18624,
  'ingredients': ['crumbled blue cheese',
                  'salt',
                  'large egg whites',
                  'vegetable oil',
                  'sugar',
                  'cooking spray',
                  'all-purpose flour',
                  'large eggs',
                  '2% reduced-fat milk']},
 {'cuisine': 'chinese',
  'id': 9406,
  'ingredients': ['sugar',
                  'napa cabbage leaves',
                  'garlic',
                  'chicken leg quarters',
                  'soy sauce',
                  'butter',
                  'rice vinegar',
                  'red chili peppers',
                  'sesame oil',
                  'sal

                  'chili powder',
                  'sour cream',
                  'cheddar cheese',
                  'chopped green chilies',
                  'green onions',
                  'butter',
                  'water',
                  'garlic powder',
                  'boneless skinless chicken breasts',
                  'enchilada sauce',
                  'condensed cream of chicken soup',
                  'taco seasoning mix',
                  'flour tortillas',
                  'onion powder',
                  'onions']},
 {'cuisine': 'irish',
  'id': 48576,
  'ingredients': ['pepper',
                  'potatoes',
                  'butter',
                  'salt',
                  'onions',
                  'tomato paste',
                  'olive oil',
                  'beef stock',
                  'diced tomatoes',
                  'carrots',
                  'sugar',
                  'baking soda',
                  'baking powder',
           

 {'cuisine': 'mexican',
  'id': 9206,
  'ingredients': ['pepper', 'salt', 'pork tenderloin', 'salsa']},
 {'cuisine': 'southern_us',
  'id': 7322,
  'ingredients': ['shell-on shrimp',
                  'salt',
                  'chipotle chile',
                  'worcestershire sauce',
                  'unsalted butter',
                  'dry red wine',
                  'large garlic cloves']},
 {'cuisine': 'chinese',
  'id': 23637,
  'ingredients': ['fish sauce',
                  'steamed white rice',
                  'scallions',
                  'minced garlic',
                  'vegetable oil',
                  'caramel sauce',
                  'chili pepper',
                  'shallots',
                  'corn starch',
                  'chicken stock',
                  'fresh ginger',
                  'boneless skinless chicken']},
 {'cuisine': 'italian',
  'id': 43650,
  'ingredients': ['seasoned bread crumbs',
                  'grated parmesan cheese',
           

                  'water',
                  'garlic',
                  'long-grain rice',
                  'red chili peppers',
                  'lemon',
                  'green chilies',
                  'onions',
                  'dark soy sauce',
                  'spring onions',
                  'salt',
                  'red bell pepper']},
 {'cuisine': 'thai',
  'id': 45990,
  'ingredients': ['avocado',
                  'Sriracha',
                  'cooked quinoa',
                  'water',
                  'creamy peanut butter',
                  'rice paper',
                  'romaine lettuce',
                  'red pepper',
                  'noodles',
                  'lime',
                  'gluten-free tamari']},
 {'cuisine': 'chinese',
  'id': 20692,
  'ingredients': ['chicken broth',
                  'green onions',
                  'salt',
                  'bok choy',
                  'soy sauce',
                  'wonton wrappers',
              

Ключ "cuisine" обозначает принадлежность блюда к определённой кухне, "id" — это уникальный идентификационный номер блюда, а ключ "ingredients" содержит перечень продуктов, входящих в состав блюда.

In [8]:
type(recipes)

list

In [9]:
len(recipes)

500

После того как мы провели десериализацию данных из JSON-файла, мы можем работать с полученным объектом, как с обычным словарём, или, как в случае с нашими данными, списком.

In [10]:
recipes[0]['id'] # id первого блюда
# Поскольку каждый элемент списка является словарём, 
# для получения нужной информации о конкретном блюде нам нужно указать ключ словаря.

10259

In [11]:
recipes[0]['ingredients'] # список ингредиентов первого блюда

['romaine lettuce',
 'black olives',
 'grape tomatoes',
 'garlic',
 'pepper',
 'purple onion',
 'seasoning',
 'garbanzo beans',
 'feta cheese crumbles']

In [12]:
# Для получения данных о нужном блюде нам придётся перебрать все элементы списка, 
# проверить их id, и при обнаружении совпадения извлечь нужную информацию
for recipe in recipes:  # начинаем перебор всех рецептов
    if recipe['id'] == 13121:  # если id текущего рецепта равен искомому
        print(recipe['cuisine'])  # выводим на экран кухню, к которой относится блюдо
        break   # и прерываем цикл, т.к. нужное блюдо уже найдено

thai


In [13]:
recipes[-1]['cuisine'] 

'british'

In [14]:
len(recipes[-1]['ingredients'])

17

In [15]:
for recipe in recipes:  
    if recipe['id'] == 17636: 
        print(recipe['ingredients'])  
        break 

['tomato sauce', 'shredded carrots', 'spinach', 'part-skim mozzarella cheese', 'italian seasoning', 'english muffins, split and toasted', 'chopped onion', 'vegetable oil cooking spray', 'chopped green bell pepper']


In [18]:
for recipe in recipes:  
    if recipe['id'] == 42013: 
        print(len(recipe['ingredients']))  
        break

14


In [19]:
for recipe in recipes:  
    if recipe['id'] == 23629: 
        print(recipe['ingredients'])  
        break 

['eggs', 'russet potatoes', 'mexican chorizo', 'black beans', 'salsa', 'canola oil', 'colby cheese', 'black olives', 'sour cream', 'avocado', 'half & half', 'goat cheese']


К объектам JSON, в том числе после их десериализации, невозможно применить методы группировки, доступные при работе с датафреймами Pandas.

Итак, давайте попробуем проанализировать, кухни скольких народов мира присутствуют в нашем наборе данных. Напоминаем, что информация о типе кухни доступна по ключу 'cuisine'.

Чтобы извлечь эту информацию, нам нужно создать пустой список и последовательно заполнять его уникальными значениями, доступными по ключу 'cuisine' в каждом из словарей, содержащих информацию о рецептах. Поскольку словари объединены в список recipes, у нас не получится применить известный нам метод unique() (этот метод не применим к словарям), и для извлечения всех уникальных значений нужно перебирать элементы списка в цикле с параметром. 

In [20]:
cuisines = []  # создаём пустой список для хранения уникальных значений кухонь
for recipe in recipes:  # начинаем перебор всех рецептов
    if not(recipe['cuisine'] in cuisines):  # если тип кухни текущего блюда ещё не встречался
        cuisines.append(recipe['cuisine']) # добавляем его к списку cuisines
len(cuisines)

20

Другой способ решения этой же задачи — использование для хранения данных о разных кухнях не списка,а множества (set). Множества содержат только уникальные элементы, поэтому при работе с ним нет необходимости проверять, содержится ли там тот или иной элемент. Если элемент (в нашем примере — название типа кухни) уже есть, то команда добавить в множество такое же значение будет проигнорирована.

In [21]:
cuisines = set()  # создаём пустое множество для хранения уникальных значений кухонь
for recipe in recipes:  # начинаем перебор всех рецептов
    cuisines.add(recipe['cuisine']) # добавляем название типа кухни к множеству
len(ingredients)

20

In [24]:
ingredients = set()  
for recipe in recipes:  # начинаем перебор всех рецептов
    for ingredient in recipe['ingredients']: # перебор всех ингредиентов
        ingredients.add(ingredient)
len(ingredients)

1318

In [25]:
ingredients = set()  
for recipe in recipes:  # начинаем перебор всех рецептов
    if recipe['cuisine'] == 'italian':
        for ingredient in recipe['ingredients']: # перебор всех ингредиентов
            ingredients.add(ingredient)
    else:
        pass
len(ingredients)

406

In [26]:
ingredients = set()  
for recipe in recipes:  # начинаем перебор всех рецептов
    if recipe['cuisine'] == 'russian':
        for ingredient in recipe['ingredients']: # перебор всех ингредиентов
            ingredients.add(ingredient)
    else:
        pass
print(ingredients)

{'water', 'grits', 'sugar', 'salt', 'buttermilk', 'dill', 'onions', 'cucumber', 'red beets', 'mozzarella cheese', 'boiled eggs'}


In [27]:
# Посчитать количество рецептов, в которых встречается каждый ингредиент

ingredients = set()  
for recipe in recipes:  # начинаем перебор всех рецептов
    for ingredient in recipe['ingredients']: # перебор всех ингредиентов
        ingredients.add(ingredient)

food = {}  # создаём пустой словарь для хранения информации об ингредиентах
for item in ingredients:  # перебираем список ингредиентов
    food[item] = 0 # добавляем в словарь ключ, соответствующий очередному ингредиенту

for recipe in recipes:   # перебираем список рецептов
    for item in recipe['ingredients']:   # и список ингредиентов в каждом рецепте
        food[item] += 1   # увеличиваем значение нужного ключа в словаре на 1

In [29]:
food['eggs']

43

In [56]:
fKeys = list(food.keys())# список ключей всех
list(filter(lambda x: food[x] > 100, fKeys))# какие ингридиенты сходят в состав более 100 блюд

['salt', 'garlic']

In [70]:
[a for a, b in food.items() if b > 100] # какие ингридиенты сходят в состав более 100 блюд

['salt', 'garlic']

In [71]:
[a for a, b in food.items() if b == max(food.values())] # самый часто встречающийся ингредиент

['salt']

In [72]:
len([a for a, b in food.items() if b == 1]) # сколько ингридиентов сходят в состав только 1 блюда

684

#### JSON -> DF

In [3]:
import pandas as pd
with open('recipes.json') as f:
    recipes = json.load(f)
df = pd.DataFrame(recipes)

In [86]:
df.head()

Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[romaine lettuce, black olives, grape tomatoes..."
1,25693,southern_us,"[plain flour, ground pepper, salt, tomatoes, g..."
2,20130,filipino,"[eggs, pepper, salt, mayonaise, cooking oil, g..."
3,22213,indian,"[water, vegetable oil, wheat, salt]"
4,13162,indian,"[black pepper, shallots, cornflour, cayenne pe..."


1. Создадим функцию для заполнения значения в каждой ячейке. Функция будет проверять наличие конкретного ингредиента в столбце 'ingredients' для текущего блюда и возвращать 1, если ингредиент есть в рецепте, и 0, если он отсутствует.
2. Организуем цикл с параметром, в котором будем перебирать наименования всех ингредиентов. Для каждого ингредиента создадим в датафрейме столбец с соответствующим названием и заполним его единичками и нулями, применив к датафрейму, а точнее, к столбцу 'ingredients', функцию, созданную нами на предыдущем шаге.

In [87]:
def find_item(cell):
    if item in cell:
        return 1
    return 0

In [83]:
for item in ingredients:
    df[item] = df['ingredients'].apply(find_item)
df['ingredients'] = df['ingredients'].apply(lambda x: len(x))

In [84]:
df.head() #  теперь нужный формат

Unnamed: 0,id,cuisine,ingredients,brown sugar,parsnips,cheese tortellini,pesto sauce,nori,berries,onion powder,...,black pepper,dressing,rib eye steaks,semolina,flat leaf parsley,taco seasoning,extra sharp cheddar cheese,chestnut flour,chopped green chilies,dashi
0,10259,greek,9,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,25693,southern_us,11,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,20130,filipino,12,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,22213,indian,4,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,13162,indian,20,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0


In [88]:
with open('recipes.json') as f:
    recipes = json.load(f)
df = pd.DataFrame(recipes)

def find_item(cell):
    if item in cell:
        return 1
    return 0
ingredients = set()  
for recipe in recipes:  # начинаем перебор всех рецептов
    for ingredient in recipe['ingredients']: # перебор всех ингредиентов
        ingredients.add(ingredient)

for item in ingredients:
    df[item] = df['ingredients'].apply(find_item)

df['ingredients'] = df['ingredients'].apply(lambda x: len(x))

In [91]:
df.to_csv('recipes.csv', index = False)

#### Pandas -> JSON

In [4]:
df = pd.read_csv('recipes.csv')

In [5]:
new_recipes = []

In [6]:
ids = list(df['id'].unique())

In [7]:
ingredients = list(df.drop(['id', 'cuisine', 'ingredients'], axis=1).columns)

In [9]:
def make_list(curr_row):
    recepie_ingr = []
    for ingr in ingredients:
        if curr_row.iloc[0][ingr] == 1: 
            recepie_ingr.append(ingr)
    return recepie_ingr          

In [10]:
for current_id in ids:
    cuisine = df[df['id'] == current_id]['cuisine'].iloc[0]
    current_ingredients = make_list(df[df['id'] == current_id])
    current_recipe = {'cuisine': cuisine, 'id': int(current_id), 'ingredients': current_ingredients}
    new_recipes.append(current_recipe)

In [11]:
new_recipes

[{'cuisine': 'greek',
  'id': 10259,
  'ingredients': ['romaine lettuce',
   'grape tomatoes',
   'seasoning',
   'black olives',
   'purple onion',
   'pepper',
   'feta cheese crumbles',
   'garbanzo beans',
   'garlic']},
 {'cuisine': 'southern_us',
  'id': 25693,
  'ingredients': ['milk',
   'yellow corn meal',
   'eggs',
   'thyme',
   'green tomatoes',
   'ground black pepper',
   'plain flour',
   'tomatoes',
   'salt',
   'ground pepper',
   'vegetable oil']},
 {'cuisine': 'filipino',
  'id': 20130,
  'ingredients': ['eggs',
   'grilled chicken breasts',
   'soy sauce',
   'pepper',
   'chicken livers',
   'garlic powder',
   'salt',
   'butter',
   'green chilies',
   'mayonaise',
   'cooking oil',
   'yellow onion']},
 {'cuisine': 'indian',
  'id': 22213,
  'ingredients': ['wheat', 'salt', 'water', 'vegetable oil']},
 {'cuisine': 'indian',
  'id': 13162,
  'ingredients': ['oil',
   'milk',
   'passata',
   'chili powder',
   'garam masala',
   'shallots',
   'cayenne pepper',

In [12]:
new_recipes = json.dumps(new_recipes)
with open("new_recipes.json", "w") as write_file:
    write_file.write(new_recipes)

In [13]:
with open("new_recipes.json", "w") as write_file:
    json.dump(new_recipes, write_file)