In [90]:
import json  
import numpy as np
import pandas as pd
from pprint import pprint

In [9]:
with open('recipes.json') as f:
    recipes = json.load(f)
# recipes

In [57]:
# Итак, мы видим, что рецепт каждого блюда описан в виде словаря, состоящего из трёх пар "ключ-значение". 
# Ключ "cuisine" обозначает принадлежность блюда к определённой кухне, 
# "id" — это уникальный идентификационный номер блюда, 
# а ключ "ingredients" содержит перечень продуктов, входящих в состав блюда.

# pprint(recipes[::])
print(len(recipes))

500


#### B8.2.2 Извлекаем данные из JSON

In [63]:
# узнать id
recipes[0]['id']

10259

In [72]:
recipes[0]['cuisine']

'greek'

In [78]:
# Для получения списка ингредиентов первого блюда в списке

recipes[0]['ingredients']

['romaine lettuce',
 'black olives',
 'grape tomatoes',
 'garlic',
 'pepper',
 'purple onion',
 'seasoning',
 'garbanzo beans',
 'feta cheese crumbles']

Ещё один пример касается извлечения информации о конкретном блюде. Давайте попробуем найти информацию о том, к какой кухне относится блюдо с id = 13121. Сложность задачи заключается в том, что все id хранятся в словарях, которые являются элементами списка. Для получения данных о нужном блюде нам придётся перебрать все элементы списка, проверить их id, и при обнаружении совпадения извлечь нужную информацию:

In [74]:
for recipe in recipes:  # начинаем перебор всех рецептов
    
    if recipe['id'] == 13121:  # если id текущего рецепта равен искомому
        print(recipe['cuisine'])  # выводим на экран кухню, к которой относится блюдо
        break   # и прерываем цикл, т.к. нужное блюдо уже найдено

thai


#### B8.2.2.1 Задание 1. Какую кухню (ключ 'cuisine') представляет последнее блюдо в списке recipes?

In [77]:
recipes[499]['cuisine']

'british'

#### B8.2.2.2 Задание 2. Сколько ингредиентов входит в состав этого блюда?

In [82]:
print(len(recipes[499]['ingredients']))

17


#### B8.2.2.3 Задание 3
Какие из перечисленных ингредиентов присутствуют в блюде с id = 17636?

In [84]:
for recipe in recipes:  # начинаем перебор всех рецептов
    
    if recipe['id'] == 17636:  # если id текущего рецепта равен искомому
        print(recipe['ingredients'])  # выводим на экран кухню, к которой относится блюдо
        break   # и прерываем цикл, т.к. нужное блюдо уже найдено

['tomato sauce', 'shredded carrots', 'spinach', 'part-skim mozzarella cheese', 'italian seasoning', 'english muffins, split and toasted', 'chopped onion', 'vegetable oil cooking spray', 'chopped green bell pepper']


In [127]:
list = []
count = 0

for recipe in recipes:
    if recipe["id"] == 42013:
        list.append(recipe["ingredients"])
        for i in recipe["ingredients"]:
            count += 1
        break

count, list

(14,
 [['water',
   'extra-virgin olive oil',
   'carrots',
   'hot red pepper flakes',
   'Turkish bay leaves',
   'dried chickpeas',
   'onions',
   'celery ribs',
   'semolina',
   'fine sea salt',
   'flat leaf parsley',
   'warm water',
   'vine ripened tomatoes',
   'garlic cloves']])

#### B8.2.2.5 Задание 5
Какие ингредиенты отсутствуют в блюде с id = 23629?

In [128]:
for recipe in recipes:  # начинаем перебор всех рецептов
    
    if recipe['id'] == 23629:  # если id текущего рецепта равен искомому
        print(recipe['ingredients'])  # выводим на экран кухню, к которой относится блюдо
        break   # и прерываем цикл, т.к. нужное блюдо уже найдено

['eggs', 'russet potatoes', 'mexican chorizo', 'black beans', 'salsa', 'canola oil', 'colby cheese', 'black olives', 'sour cream', 'avocado', 'half & half', 'goat cheese']


#### B8.2.3 Группировка данных

In [130]:
# Чтобы извлечь эту информацию, нам нужно создать пустой список и последовательно заполнять 
# его уникальными значениями, доступными по ключу 'cuisine' в каждом из словарей, 
# содержащих информацию о рецептах. 
# Поскольку словари объединены в список resipes, у нас не получится применить известный нам метод unique() 
# (этот метод не применим к словарям), и для извлечения всех уникальных значений нужно перебирать элементы 
# списка в цикле с параметром.


cuisines = []  # создаём пустой список для хранения уникальных значений кухонь

for recipe in recipes:  # начинаем перебор всех рецептов
    if not(recipe['cuisine'] in cuisines):  # если тип кухни текущего блюда ещё не встречался
        cuisines.append(recipe['cuisine']) # добавляем его к списку cuisines

len(cuisines)

20

In [145]:
# Другой способ решения этой же задачи — использование для хранения данных о разных кухнях не списка, 
# а новой для вас конструкции — множества (set). 

cuisines = set()  # создаём пустое множество для хранения уникальных значений кухонь

for recipe in recipes:  # начинаем перебор всех рецептов
    cuisines.add(recipe['cuisine']) # добавляем название типа кухни к множеству

len(cuisines)

20

##### B8.2.3.1 Задание 1
Сколько ингредиентов включено в состав всех блюд, описанных в наборе данных?

Подсказка: Обратите внимание, что для добавления в список или множество нового ингредиента вам нужно будет организовать перебор ингредиентов каждого блюда в отдельном вложенном цикле.

In [24]:
# ingredients = []  # создаём пустой список для хранения уникальных значений кухонь

# for ingredient in recipes:  # начинаем перебор всех рецептов
#     if not (recipe['ingredients'] in ingredients): # добавляем название типа кухни к множеству
#         ingredients.append(recipe["ingredients"])
        
# len(ingredients)

ingredients = []
for recipe in recipes:
    # print(recipe)
    
    for ingredient in recipe['ingredients']:
       #print(ingredient)
        
        if not(ingredient in ingredients):
            ingredients.append(ingredient)

In [41]:
ingredients = []
for recipe in recipes:
    # print(recipe)
    
    for ingredient in recipe['ingredients']:
       #print(ingredient)
        
        if not(ingredient in ingredients):
            ingredients.append(ingredient)

            
food = {}
for item in ingredients:
    food[item] = 0

    for recipe in recipes:
        for item in recipe['ingredients']:
            food[item] += 1

s = sum(food.values())

for i, z in food.items():
    pct = z * 100.0 / 500
    
    if pct>=20:
        print(i, pct)

print(i, pct)

KeyError: 'black olives'

In [42]:
len(ingredients)

1318

#### B8.2.3.2 Задание 2
Сколько ингредиентов встречается в рецептах блюд итальянской кухни ('cuisine' = italian)?

В цикле for recipe in recipes: если if (recipe['cuisine'] == 'italian'), то, используя цикл for (for i in range(len(recipe['ingredients']))), перебирайте элементы внутри списка с ингредиентами, также проверяя, есть ли они уже в новом списке: if not(recipe['ingredients'][i] in uniqueitin) и после этого добавляйте его в список.
И все это внутри ОДНОГО цикла for

In [40]:
italy_list =[] #создаю список для хранения ингридиентов итальянской кухни
qingred = [] #создание списка с уникальными ингредиентами

for recipe in recipes: #перебор всех рецептов
    if (recipe['cuisine'] == 'italian'):
        for i in range(len(recipe["ingredients"])):
            if not(recipe['ingredients'][i]) in qingred:
                   # qingred.append(recipe['ingredients']) #добавляем его к списку uniqueitin
                    qingred.append(recipe['ingredients'][i])
len(qingred)             

406

#### B8.2.3.3 Задание 3
Какие ингредиенты не встречаются в рецептах блюд русской кухни ('cuisine' = 'russian')?

In [34]:
cuisine =[] #создаю список для хранения ингридиентов итальянской кухни

for recipe in recipes: #перебор всех рецептов
    if (recipe['cuisine'] == 'russian'):
        cuisine.append(recipe['ingredients'])
cuisine

[['water', 'grits', 'mozzarella cheese', 'salt'],
 ['water',
  'dill',
  'sugar',
  'buttermilk',
  'onions',
  'red beets',
  'cucumber',
  'boiled eggs',
  'salt']]

### Кейс №2: Оцениваем популярность ингредиентов

##### План решения задачи:

Для хранения информации о частоте встречаемости ингредиентов мы создадим пустой словарь food.
Заполним словарь food ключами, соответствующими названиями ингредиентов. В качестве значений по каждому ключу установим 0.
<br> Организуем вложенный цикл, в котором будем перебирать рецепты (внешний цикл) и ингредиенты, использующиеся в каждом рецепте (внутренний цикл). 
<br> При каждом появлении очередного ингредиента мы будет увеличивать значение соответствующего элемента словаря food на единицу.

In [45]:
with open('recipes.json') as f:
    recipes = json.load(f)
# recipes

Теперь мы можем обращаться к словарю food по ключам и получать информацию о количестве рецептов, включающих тот или иной ингредиент:

In [71]:
food = {}  # создаём пустой словарь для хранения информации об ингредиентах
for item in ingredients:  # перебираем список ингредиентов
    food[item] = 0 # добавляем в словарь ключ, соответствующий очередному ингредиенту
for recipe in recipes:   # перебираем список рецептов
    for item in recipe['ingredients']:   # и список ингредиентов в каждом рецепте
        food[item] += 1   # увеличиваем значение нужного ключа в словаре на 1

In [145]:
food["sugar"]

81

#### B8.2.3.4 Задание 4

Какие ингредиенты входят в состав более чем 20% блюд, представленных в наборе данных?

Подсказка: Напоминаем, что весь набор данных содержит сведения о 500 блюдах.



In [75]:
food = {}  # создаём пустой словарь для хранения информации об ингредиентах

for item in ingredients:  # перебираем список ингредиентов
    food[item] = 0 # добавляем в словарь ключ, соответствующий очередному ингредиенту
    
for recipe in recipes:   # перебираем список рецептов
    for item in recipe['ingredients']:   # и список ингредиентов в каждом рецепте
        food[item] += 1   # увеличиваем значение нужного ключа в словаре на 1        
        
for i, z in food.items():
    percent = z * 100.0 / 500
    if percent >= 20:
        print(i, percent)

garlic 21.4
salt 43.4


#### B8.2.3.5 Задание 5
Какой ингредиент входит в состав самого большого количества блюд?

In [88]:
food = {}  # создаём пустой словарь для хранения информации об ингредиентах

for item in ingredients:  # перебираем список ингредиентов
    food[item] = 0 # добавляем в словарь ключ, соответствующий очередному ингредиенту
    
for recipe in recipes:   # перебираем список рецептов
    for item in recipe['ingredients']:   # и список ингредиентов в каждом рецепте
        food[item] += 1   # увеличиваем значение нужного ключа в словаре на 1        
        
for i, z in food.items():
    percent = z * 100.0 / 500
    if percent >=40:
        print(i, percent)

salt 43.4


#### B8.2.3.6 Задание 6
Сколько ингредиентов входит в состав только одного блюда?

In [166]:
data=pd.DataFrame.from_dict(food, orient='index')
data.columns=['count']
data.nunique()

Unnamed: 0,count
romaine lettuce,5
black olives,4
grape tomatoes,4
garlic,107
pepper,53
...,...
Crystal Farms Shredded Gouda Cheese,1
mint,1
berries,1
figs,1


In [None]:
# и дальше отобрать все, где count=1,2,max,min и т.д

In [159]:
food = {}  # создаём пустой словарь для хранения информации об ингредиентах
count = 0
for item in ingredients:  # перебираем список ингредиентов
    food[item] = 0 # добавляем в словарь ключ, соответствующий очередному ингредиенту
for recipe in recipes:   # перебираем список рецептов
    for item in recipe['ingredients']:   # и список ингредиентов в каждом рецепте
        food[item] += 1   # увеличиваем значение нужного ключа в словаре на 1
s = sum(food.values())
s


# for i, z in food.items():
#     pct = z * 100.0 / 500
#     if pct==1:
#         count += 1
#         print(i, pct)
#         print(count)

5353

In [141]:
data = pd.read_excel("./nakladnaya.xls", header=None, skiprows=2)
data.iloc[:,:].dropna(axis=1, how='all')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26 entries, 0 to 25
Data columns (total 13 columns):
0     0 non-null float64
1     7 non-null object
2     10 non-null object
3     8 non-null object
4     2 non-null object
5     1 non-null object
6     3 non-null object
7     0 non-null float64
8     3 non-null object
9     3 non-null object
10    0 non-null float64
11    7 non-null object
12    4 non-null object
dtypes: float64(3), object(10)
memory usage: 2.8+ KB


In [134]:
data.iloc[6:8, [0, 2, 6, 9, 11, 12]]

Unnamed: 0,0,2,6,9,11,12
6,,,,,,
7,,,,,,


In [135]:
data.iloc[7:8, :].dropna(axis=1, how='all')

7


In [136]:
data.iloc[6:8, :].dropna(axis=1, how='any')

6
7


In [137]:
data.iloc[6:8, :].dropna(axis=1, how='all')

Unnamed: 0,1,4,5
6,Основание для отпуска: Договор №,86.0,"от ""02""апреля 2018 г."
7,,,
