In [1]:
from pathlib import Path
import re
import os
import json
import re
import unidecode


In [2]:
json_file_path = 'output.json'
# Check if the file exists
if not os.path.exists(json_file_path):
    raise Exception('File does not exist')
with open(json_file_path, 'r') as file:
    lines = json.load(file)

# Check all unique keys
keys = set()
for line in lines:
    for key in line.keys():
        keys.add(key)

print(keys)

{'ingredients_values', 'image', 'servings', 'difficulty', 'instructions', 'category', 'time', 'ingredients', 'ingredients_units', 'url', 'title'}


In [3]:
# Print 3 random examples for each key
import random   
for key in keys:
    print(key)
    i = 0
    while i < 3:
        try:
            print(random.choice(lines)[key])
            i += 1
        except KeyError:
            continue
    print('\n')

ingredients_values
[400, 200, 20]
[250, 180, 1, 1, 5, 1, 1, 30]
[1, 1, 1, 1, 1, 6, 1, 1]


image
https://www.lidl-recettes.fr/var/site/storage/images/_aliases/960x330/4/0/5/6/2786504-1-fre-FR/Prospectus-S07_GratinDePolenta.jpg
https://www.lidl-recettes.fr/var/site/storage/images/_aliases/960x330/7/7/7/2/92777-3-fre-FR/Tartine-de-chevre-gratine-et-confiture-de-figue.jpg
https://www.lidl-recettes.fr/var/site/storage/images/_aliases/960x330/1/4/7/0/20741-3-fre-FR/Maquereaux-grilles-au-barbecue-et-salsa-de-tomate-avocat.jpg


servings
4
4
4


difficulty
1
1
1


instructions
Préchauffer le four à 220°C. 
Dans un mixeur, hacher le persil avec les échalotes, les gousses d'ail, l'huile d'olive et le jus d’un demi-citron. 
Retirer toutes les opercules des bulots. Recouvrir de persillade en tassant bien. 
Disposer les coquilles remplies sur une plaque de cuisson et enfourner 5 à 8 minutes dans la partie haute du four. Déguster aussitôt avec du pain grillé et un filet de jus de citron.


Éplucher

In [5]:
#list all uniques of each column
unique_units = []
unique_ingredients = []
unique_categories = []
for elem in lines:
    ingredients = elem['ingredients']
    units = elem['ingredients_units']
    category = elem['category']

    for ingredient in ingredients:
        if ingredient not in unique_ingredients:
            unique_ingredients.append(ingredient)
    for unit in units:
        if unit not in unique_units:
            unique_units.append(unit)
    if category not in unique_categories:
        unique_categories.append(category)

print(unique_units)
print(unique_ingredients)
print(unique_categories)
        

[None, 'cl', 'g', 'ml', 'c. à s.', 'c. à c.', 'tranche', 'brin', 'pincée', 'sachet', 'pot', 'feuille', 'L', 'kg', 'botte', 'tasse', 'boule', 'branche', 'bille', 'boîte', 'Boîte', 'carré', 'cm', 'unité', 'part', 'conserve', 'plaquette']
['Litchi', 'Citron vert', 'Crème de coco', 'Yaourt nature au soja', 'Cassonade', 'Agar-agar', 'Biscuit vegan', 'Margarine', 'Caille nature', 'Cidre', 'Bouillon de poulet', 'Pomme', 'Champignon', 'Lardon fumé', 'Échalote', "Huile d'olive", 'Beurre', 'Pomme de terre', 'Truffe', 'Clémentine', 'Sucre glace', 'Yaourt nature à la grecque', 'Banane', "Lait d'amande", 'Yaourt nature', 'Huile de noix', 'Graines de lin dorées', 'Miel liquide', '4 épices moulues', 'Courge butternut', 'Châtaigne', "Jeune pousse d'épinard", 'Noisette décortiquée', 'Ricotta', "Gousse d'ail", 'Thym séché', 'Pain de campagne', 'Œuf', 'Crème liquide entière', 'Beurre demi-sel', 'Oignon rouge', 'Vinaigre balsamique', 'Eau', 'Mâche', 'Fleur de sel', 'Poivre noir', 'Jambon cru', 'Cresson', 

In [6]:
def clean_french(string):
    if string is None:
        return None 
    string = unidecode.unidecode(string)
    string = string.lower()
    string = re.sub(r'œ', 'oe', string)
    return string

unique_units_c = []
unique_ingredients_c = []
unique_categories_c = []
for unit,ingredient,category in zip(unique_units,unique_ingredients,unique_categories):
    unique_units_c.append(clean_french(unit))
    unique_ingredients_c.append(clean_french(ingredient))
    unique_categories_c.append(clean_french(category))

print(unique_units_c)
print(unique_ingredients_c)
print(unique_categories_c)    

[None, 'cl', 'g', 'ml', 'c. a s.', 'c. a c.', 'tranche', 'brin', 'pincee', 'sachet', 'pot', 'feuille', 'l', 'kg', 'botte', 'tasse', 'boule']
['litchi', 'citron vert', 'creme de coco', 'yaourt nature au soja', 'cassonade', 'agar-agar', 'biscuit vegan', 'margarine', 'caille nature', 'cidre', 'bouillon de poulet', 'pomme', 'champignon', 'lardon fume', 'echalote', "huile d'olive", 'beurre']
['desserts', 'plats', 'boissons', 'entrees', 'aperitifs', 'gouters', 'petit dejeuner', 'preparation et sauce', 'viandes rouges', 'cuisine francaise', 'burgers', 'fruits de mer & crustaces', 'brunch', 'entrees chaudes', 'plats faciles', 'desserts faciles', 'recettes rapides']


In [7]:
#get the most common ingredients ranked
from collections import Counter
ingredients_counter = Counter() 
for elem in lines:
    ingredients = [clean_french(eng) for eng in elem['ingredients']]
    for ingredient in ingredients:
        ingredients_counter[ingredient] += 1

print(ingredients_counter.most_common()) 

[('sel fin', 2585), ('poivre noir', 2256), ("huile d'olive", 1554), ('beurre', 1322), ('oeuf', 1259), ('sucre', 1126), ('farine', 1092), ("gousse d'ail", 827), ('oignon jaune', 693), ('lait', 554), ('citron', 493), ('creme epaisse', 482), ('persil', 447), ('levure chimique', 393), ('creme liquide entiere', 326), ('sucre glace', 316), ('huile de tournesol', 302), ('echalote', 299), ('pomme de terre', 297), ('cassonade', 289), ('miel liquide', 286), ('carotte', 286), ("jaune d'oeuf", 282), ('chocolat noir', 279), ('basilic', 279), ('tomate', 279), ('citron vert', 255), ('thym seche', 229), ('eau', 224), ('oignon rouge', 209), ('bouillon de legumes', 201), ('coriandre', 196), ('cumin', 194), ('oignon nouveau', 188), ('vin blanc', 180), ('gousse de vanille', 179), ('ciboulette', 178), ('paprika', 174), ('courgette', 173), ('sauce soja', 172), ('cannelle moulue', 171), ('sucre vanille', 169), ('poivron rouge', 169), ('champignon', 160), ('creme liquide legere', 160), ('parmesan rape', 160),