# Arquivo JSON

## Inicialmente, abri o arquivo para perceber quais tipos de informações ele continha. Percebi que ele estava humanamente ilegivel e precisava de um tratamento para ficar com o formato legível de que arquivos JSON comumente apresentam. Através de uma ferramenta simples do Python, fiz a conversão do arquivo, possibilitando ler o arquivo.

### cat receitas.json | python -m json.tool > receitas_pretty.json

## Assim, foi possível perceber que o arquivo se tratava de um dicionário de receitas, contendo informações como o passo-a-passo para fazer o prato, ingredientes, informações de tabela nutricional, nome da receita e a nota dada pelos usuários do site (www.epicurious.com)

## A partir de observações nos primeiros exemplos, pude perceber que a estrutura de cada elemento, continha as seguintes informações:

1. Directions: uma [lista] de passos a serem seguidos para elaborar o prato;
2. Fat: um float com a quantidade de gordura do prato;
3. Date: uma string contendo a data em que a receita foi divulgada (aparentemente, mas é possível que seja outra coisa);
4. Categories: [lista] de categorias às quais o prato pertence;
5. Calories: float com o número de calorias;
6. Desc: string com uma breve descrição do prato ou uma informação relacionada a ele;
7. Protein: float contendo a quantidade de proteínas presentes;
8. Rating: float contendo a nota do prato (imagino que dada pelos usuários do site);
9. Title: string contendo o nome do prato;
10. Ingredients: [lista] contendo os ingredientes utilizados na receita;
11. Sodium: float com a quantidade de sal presente no prato.

## Depois de entender as informações fornecidas, decidi prosseguir realizando um parse das informações, gerando um Numpy array contendo somente as informações úteis para os objetivos finais do desafio.

In [1]:
import numpy as np
import pandas as pd
import json
from collections import OrderedDict
# from IPython.display import display, HTML

receitas_path = 'receitas.json'

def parse(file_path):
    with open(file_path, 'r') as f:
        opt = json.load(f, object_pairs_hook=OrderedDict)
        
    return opt

opt = parse(receitas_path)

data = np.asarray(opt, dtype='object')
receitas_np = np.empty((len(data), 8), dtype='object')
wanted_keys = ['title', 'categories', 'calories', 'ingredients', 'fat', 'protein', 'sodium', 'rating']
for i in range(len(data)):
    for key in data[i].keys():
        if key in wanted_keys:
            if key == 'title':
                receitas_np[i, 0] = data[i][key]
            elif key == 'categories':
                receitas_np[i, 1] = data[i][key]
            elif key == 'calories':
                receitas_np[i, 2] = data[i][key]
            elif key == 'ingredients':
                receitas_np[i, 3] = data[i][key] 
            elif key == 'fat':
                receitas_np[i, 4] = data[i][key]            
            elif key == 'protein':
                receitas_np[i, 5] = data[i][key]
            elif key == 'sodium':
                receitas_np[i, 6] = data[i][key]
            elif key == 'rating':
                receitas_np[i, 7] = data[i][key]

In [2]:
df = pd.DataFrame(receitas_np)
display(df)

Unnamed: 0,0,1,2,3,4,5,6,7
0,"Lentil, Apple, and Turkey Wrap","[Sandwich, Bean, Fruit, Tomato, turkey, Vegeta...",426,"[4 cups low-sodium vegetable or chicken stock,...",7,30,559,2.5
1,Boudin Blanc Terrine with Red Onion Confit,"[Food Processor, Onion, Pork, Bake, Bastille D...",403,"[1 1/2 cups whipping cream, 2 medium onions, c...",23,18,1439,4.375
2,Potato and Fennel Soup Hodge,"[Soup/Stew, Dairy, Potato, Vegetable, Fennel, ...",165,"[1 fennel bulb (sometimes called anise), stalk...",7,6,165,3.75
3,Mahi-Mahi in Tomato Olive Sauce,"[Fish, Olive, Tomato, Sauté, Low Fat, Low Cal,...",,"[2 tablespoons extra-virgin olive oil, 1 cup c...",,,,5
4,Spinach Noodle Casserole,"[Cheese, Dairy, Pasta, Vegetable, Side, Bake, ...",547,"[1 12-ounce package frozen spinach soufflé, th...",32,20,452,3.125
5,The Best Blts,"[Sandwich, Food Processor, Tomato, Kid-Friendl...",948,[2 1/2 cups (lightly packed) fresh basil leave...,79,19,1042,4.375
6,Ham and Spring Vegetable Salad with Shallot Vi...,"[Salad, Potato, Side, Easter, Low Fat, Quick &...",,"[1 1/2 pounds small red-skinned potatoes, each...",,,,4.375
7,Spicy-Sweet Kumquats,"[Egg, Fruit, No-Cook, Cocktail Party, Vegetari...",,"[6 tablespoons granulated sugar, 1 1/2 tablesp...",,,,3.75
8,Korean Marinated Beef,"[Beef, Ginger, Sauté, Stir-Fry, Quick & Easy, ...",170,"[1/4 cup soy sauce, 1 tablespoon sugar, 2 teas...",10,7,1272,4.375
9,Ham Persillade with Mustard Potato Salad and M...,"[Salad, Mustard, Potato, Picnic, Lunch, Mayonn...",602,"[6 long parsley sprigs, divided, 1 3/4 cups re...",41,23,1696,3.75


## Assim, receitas_np contém todos os elementos que considerei importantes para a resolução de alguma questão do desafio. Ele também contém valores duplicados e missing values, que precisarão ser tratados. Para a solução dos problemas individualmente, estarei utilizando slices de receitas_np, afim de utilizar arrays menores em cada situação.

In [3]:
data_prob1 = receitas_np[:, :3]

In [4]:
rows_none, _ = np.where(data_prob1 == None)
data_prob1 = np.delete(data_prob1, rows_none, 0)

data_prob1_95percentile = np.percentile(data_prob1[:, 2], 95, 0)
rows_invalid_95 = np.where(data_prob1[:, 2] > data_prob1_95percentile)
data_prob1 = np.delete(data_prob1, rows_invalid_95, 0)
data_prob1_5percentile = np.percentile(data_prob1[:, 2], 5, 0)
rows_invalid_5 = np.where(data_prob1[:, 2] < data_prob1_5percentile)
data_prob1 = np.delete(data_prob1, rows_invalid_5, 0)

In [5]:
categories_unique = []
for i in range(len(data_prob1)):
    categories_unique.append(data_prob1[i, 1])
categories_unique = [item for sublist in categories_unique for item in sublist]
categories_unique = set(categories_unique)
print(len(categories_unique))

658


In [6]:
import pandas as pd

dF = pd.DataFrame(data_prob1)
dF.sort_index(axis=1, ascending=False)
dF.sort_values(by=2)

Unnamed: 0,0,1,2
13065,Chicken Spice Rub,"[Chicken, Quick & Easy, Backyard BBQ, Rosemary...",60
12803,Cucumber and Celery Salad with Yogurt,"[Condiment/Spread, Sauce, Dairy, Vegetable, No...",60
7222,Creamy Shrimp Crostini,"[Condiment/Spread, Cheese, Shellfish, Appetize...",60
2005,Chicken Spice Rub,"[Chicken, Quick & Easy, Backyard BBQ, Rosemary...",60
8209,Sour Cherry Salsa,"[Condiment/Spread, Sauce, Fruit, Onion, Picnic...",60
14071,Chicken Stock,"[Chicken, Onion, Vegetable, Celery, Carrot, Pa...",60
4027,Melon and Berry Compote,"[Sauce, Berry, Fruit, Brunch, Dessert, Side, V...",60
5416,Chicken Stock,"[Chicken, Onion, Vegetable, Celery, Carrot, Pa...",60
5635,Aji Amarillo-Pineapple Salsa,"[Condiment/Spread, Sauce, Fruit, No-Cook, Quic...",60
1396,Triple-Chocolate Hazelnut Truffles,"[Candy, Milk/Cream, Chocolate, Dairy, Nut, Des...",60


In [7]:
categories_weight = dict.fromkeys(categories_unique, 0)
for categ in categories_unique:
    for i in range(len(data_prob1)):
        if categ in data_prob1[i, 1]:
            weight = data_prob1[i, 2]
            categories_weight[categ] += weight            

In [8]:
from collections import Counter

dict(Counter(categories_weight).most_common(20))

{'Bon Appétit': 2962966.0,
 'Peanut Free': 2522763.0,
 'Soy Free': 2431698.0,
 'Tree Nut Free': 2065016.0,
 'Gourmet': 1949881.0,
 'Vegetarian': 1787355.0,
 'Kosher': 1706778.0,
 'Pescatarian': 1637981.0,
 'Bake': 1481966.0,
 'Quick & Easy': 1457778.0,
 'Wheat/Gluten-Free': 1277474.0,
 'Summer': 1201766.0,
 'Dessert': 1108436.0,
 'Winter': 1051690.0,
 'Fall': 1018794.0,
 'Dinner': 952614.0,
 'No Sugar Added': 833483.0,
 'Dairy Free': 815735.0,
 'Sauté': 737000.0,
 'Side': 720575.0}

In [9]:
data_prob2 = receitas_np[:, :4]

rows_none, _ = np.where(data_prob2 == None)
data_prob2 = np.delete(data_prob2, rows_none, 0)

data_prob2_95percentile = np.percentile(data_prob2[:, 2], 95, 0)
rows_invalid_95 = np.where(data_prob2[:, 2] > data_prob2_95percentile)
data_prob2 = np.delete(data_prob2, rows_invalid_95, 0)
data_prob2_5percentile = np.percentile(data_prob2[:, 2], 5, 0)
rows_invalid_5 = np.where(data_prob2[:, 2] < data_prob2_5percentile)
data_prob2 = np.delete(data_prob2, rows_invalid_5, 0)

In [10]:
ingredients_unique = []
for i in range(len(data_prob2)):
    ingredients_unique.append(data_prob2[i, 3])
ingredients_unique = [item for sublist in ingredients_unique for item in sublist]
ingredients_unique = set(ingredients_unique)
print(len(ingredients_unique))

61264


In [11]:
ingredients_weight = dict.fromkeys(ingredients_unique, 0)
for ing in ingredients_unique:
    for i in range(len(data_prob2)):
        if ing in data_prob2[i, 3]:
            weight = data_prob2[i, 2]
            ingredients_weight[ing] += weight 

In [12]:
print(dict(Counter(ingredients_weight).most_common(20)))

{'1/2 teaspoon salt': 407348.0, '2 tablespoons olive oil': 342473.0, '1/4 teaspoon salt': 311623.0, '1 teaspoon salt': 280585.0, '1 tablespoon olive oil': 207853.0, '2 large eggs': 186447.0, '1/2 cup sugar': 182199.0, '1/4 cup olive oil': 166890.0, '3 tablespoons olive oil': 164938.0, '2 tablespoons fresh lemon juice': 160466.0, '3/4 teaspoon salt': 152105.0, '1 teaspoon vanilla extract': 151822.0, '1 cup sugar': 150347.0, '1/4 cup sugar': 144172.0, '1 large egg': 141354.0, '1 tablespoon fresh lemon juice': 135334.0, '2 tablespoons unsalted butter': 130641.0, '3 large eggs': 128503.0, '2 tablespoons vegetable oil': 127530.0, '1/2 cup dry white wine': 123751.0}
