# Introduction

This notebook is used for retrieving product meta data from Edamam API

In [12]:
!pip install openpyxl gensim

import os
import json
import utils
import requests
import pandas as pd
from tqdm import tqdm
from time import sleep

PROJECT_DIR = "."
SOURCES_DIR = os.path.join(PROJECT_DIR, "sources")
DATASETS_DIR = os.path.join(PROJECT_DIR, "datasets")
PRODUCTS_METADATA = os.path.join(SOURCES_DIR, "product_metadata")

os.makedirs(PRODUCTS_METADATA, exist_ok=True)

Defaulting to user installation because normal site-packages is not writeable


In [13]:
nosh_products = utils.read_nosh_products(os.path.join(SOURCES_DIR, "nosh_product_data.xlsx"))

In [14]:
nosh_products

Unnamed: 0,product_id,product,shelf_life,usual_storage
0,1,spaghetti,,pantry
1,2,onion,13.0,pantry
2,3,sugar,,pantry
3,4,mustard,60.0,pantry
4,5,tomato sauce,,pantry
...,...,...,...,...
202,206,cooked broccoli,7.0,fridge
203,207,mushroom,7.0,fridge
204,208,cooked mushroom,7.0,fridge
205,209,sliced mushroom,5.0,fridge


# Downloading Metadata

The code cell below is used for downloading the metadata relating to each nosh product.

In [2]:
APP_ID = "38278946"
APP_KEY = "9786b96489a752a946c983be874cd290"
ACCESS_POINT = "https://api.edamam.com/api/food-database"

In [6]:
def extract_product_metadata(product):
    """ Extract product information using Edamam API.
    
    Args:
    ---
    - `product`: str
        Product name
    
    Returns:
    ---
    Dict[str,Any]
        A meta data dictionary containing all information relating to `product` from Edamam.
    """
    metadata = {"product": product}
    parser_result = requests.get(
        f"{ACCESS_POINT}/v2/parser?app_id={APP_ID}&app_key={APP_KEY}",
        params={
            'ingr': product
        }
    ).json()
    
    match = parser_result['hints'][0]
    
    metadata['foodId'] = match['food']['foodId']
    metadata['category'] = match['food']['categoryLabel']
    metadata['nutrients'] = match['food']['nutrients']
    metadata['image'] = match['food']['image'] if 'image' in match['food'].keys() else None
    
    metadata['measures'] = match['measures'][0]
    
    ing_response = requests.post(
        f"{ACCESS_POINT}/v2/nutrients?app_id={APP_ID}&app_key={APP_KEY}",
        json={
          "ingredients": [
            {
              "quantity": 1,
              "measureURI": metadata['measures']['uri'],
              "foodId": metadata['foodId']
            }
          ]
        },
        headers={'Content-type': 'application/json', 'Accept': 'application/json'}
    ).json()
    
    metadata['health'] = ing_response
    
    return metadata

In [8]:
for idx, row in tqdm(list(nosh_products.iterrows())):
    filepath = os.path.join(PRODUCTS_METADATA, f"{row['product_id']}.json")
    
    print(f"product: {row['product_id']}")
    
    if os.path.exists(filepath):
        print(f"-- exist, skipped")
    else:
        metadata = extract_product_metadata(row['product'])
        metadata['product_id'] = row['product_id']
        
        if metadata['image'] == None:
            print(f"-- does not have image")
        
        with open(filepath, 'w') as outfile:
            outfile.write(json.dumps(metadata))
        
        sleep(1)

  0%|                                                                                          | 0/207 [00:00<?, ?it/s]

product: 1


  0%|▍                                                                                 | 1/207 [00:01<06:00,  1.75s/it]

product: 2


  1%|▊                                                                                 | 2/207 [00:03<06:34,  1.92s/it]

product: 3


  1%|█▏                                                                                | 3/207 [00:07<10:02,  2.95s/it]

product: 4


  2%|█▌                                                                                | 4/207 [00:09<08:20,  2.47s/it]

product: 5


  2%|█▉                                                                                | 5/207 [00:11<07:32,  2.24s/it]

product: 6


  3%|██▍                                                                               | 6/207 [00:13<06:56,  2.07s/it]

product: 7


  3%|██▊                                                                               | 7/207 [00:15<06:32,  1.96s/it]

product: 8


  4%|███▏                                                                              | 8/207 [00:16<06:12,  1.87s/it]

product: 9


  4%|███▌                                                                              | 9/207 [00:18<06:03,  1.84s/it]

product: 10


  5%|███▉                                                                             | 10/207 [00:20<05:54,  1.80s/it]

product: 11


  5%|████▎                                                                            | 11/207 [00:22<05:55,  1.82s/it]

product: 12


  6%|████▋                                                                            | 12/207 [00:23<05:49,  1.79s/it]

product: 13


  6%|█████                                                                            | 13/207 [00:25<05:43,  1.77s/it]

product: 14


  7%|█████▍                                                                           | 14/207 [00:27<05:40,  1.77s/it]

product: 15


  7%|█████▊                                                                           | 15/207 [00:28<05:36,  1.75s/it]

product: 16


  8%|██████▎                                                                          | 16/207 [00:30<05:36,  1.76s/it]

product: 17


  8%|██████▋                                                                          | 17/207 [00:32<05:33,  1.75s/it]

product: 18


  9%|███████                                                                          | 18/207 [00:34<05:29,  1.74s/it]

product: 19


  9%|███████▍                                                                         | 19/207 [00:35<05:29,  1.75s/it]

product: 20


 10%|███████▊                                                                         | 20/207 [00:37<05:25,  1.74s/it]

product: 21


 10%|████████▏                                                                        | 21/207 [00:39<05:24,  1.75s/it]

product: 22


 11%|████████▌                                                                        | 22/207 [00:41<05:25,  1.76s/it]

product: 23


 11%|█████████                                                                        | 23/207 [00:42<05:22,  1.75s/it]

product: 24


 12%|█████████▍                                                                       | 24/207 [00:44<05:19,  1.75s/it]

product: 25


 12%|█████████▊                                                                       | 25/207 [00:46<05:17,  1.74s/it]

product: 26


 13%|██████████▏                                                                      | 26/207 [00:48<05:16,  1.75s/it]

product: 27


 13%|██████████▌                                                                      | 27/207 [00:49<05:12,  1.73s/it]

product: 28


 14%|██████████▉                                                                      | 28/207 [00:51<05:11,  1.74s/it]

product: 29


 14%|███████████▎                                                                     | 29/207 [00:53<05:09,  1.74s/it]

product: 30


 14%|███████████▋                                                                     | 30/207 [00:55<05:05,  1.73s/it]

product: 31


 15%|████████████▏                                                                    | 31/207 [00:56<05:03,  1.72s/it]

product: 32


 15%|████████████▌                                                                    | 32/207 [00:58<04:59,  1.71s/it]

product: 33


 16%|████████████▉                                                                    | 33/207 [01:00<05:02,  1.74s/it]

product: 34


 16%|█████████████▎                                                                   | 34/207 [01:02<05:03,  1.75s/it]

product: 35


 17%|█████████████▋                                                                   | 35/207 [01:03<05:03,  1.76s/it]

product: 36


 17%|██████████████                                                                   | 36/207 [01:08<07:08,  2.51s/it]

product: 37


 18%|██████████████▍                                                                  | 37/207 [01:09<06:28,  2.29s/it]

product: 38


 18%|██████████████▊                                                                  | 38/207 [01:11<06:03,  2.15s/it]

product: 39


 19%|███████████████▎                                                                 | 39/207 [01:13<05:39,  2.02s/it]

product: 40


 19%|███████████████▋                                                                 | 40/207 [01:15<05:22,  1.93s/it]

product: 41


 20%|████████████████                                                                 | 41/207 [01:16<05:09,  1.87s/it]

product: 42


 20%|████████████████▍                                                                | 42/207 [01:18<04:59,  1.82s/it]

product: 43


 21%|████████████████▊                                                                | 43/207 [01:20<04:55,  1.80s/it]

product: 44


 21%|█████████████████▏                                                               | 44/207 [01:22<04:49,  1.78s/it]

product: 45


 22%|█████████████████▌                                                               | 45/207 [01:23<04:47,  1.77s/it]

product: 46


 22%|██████████████████                                                               | 46/207 [01:25<04:43,  1.76s/it]

product: 47


 23%|██████████████████▍                                                              | 47/207 [01:27<04:40,  1.75s/it]

product: 48


 23%|██████████████████▊                                                              | 48/207 [01:29<04:39,  1.76s/it]

product: 49


 24%|███████████████████▏                                                             | 49/207 [01:30<04:34,  1.74s/it]

product: 50


 24%|███████████████████▌                                                             | 50/207 [01:32<04:32,  1.73s/it]

product: 51


 25%|███████████████████▉                                                             | 51/207 [01:34<04:29,  1.73s/it]

product: 52


 25%|████████████████████▎                                                            | 52/207 [01:35<04:28,  1.73s/it]

product: 53


 26%|████████████████████▋                                                            | 53/207 [01:37<04:24,  1.72s/it]

product: 54


 26%|█████████████████████▏                                                           | 54/207 [01:39<04:23,  1.72s/it]

product: 55


 27%|█████████████████████▌                                                           | 55/207 [01:41<04:20,  1.72s/it]

product: 56


 27%|█████████████████████▉                                                           | 56/207 [01:42<04:17,  1.71s/it]

product: 57


 28%|██████████████████████▎                                                          | 57/207 [01:44<04:18,  1.73s/it]

product: 58


 28%|██████████████████████▋                                                          | 58/207 [01:46<04:16,  1.72s/it]

product: 59
-- does not have image


 29%|███████████████████████                                                          | 59/207 [01:47<04:16,  1.73s/it]

product: 60


 29%|███████████████████████▍                                                         | 60/207 [01:49<04:16,  1.74s/it]

product: 61


 29%|███████████████████████▊                                                         | 61/207 [01:51<04:13,  1.74s/it]

product: 62


 30%|████████████████████████▎                                                        | 62/207 [01:53<04:11,  1.74s/it]

product: 63


 30%|████████████████████████▋                                                        | 63/207 [01:54<04:11,  1.74s/it]

product: 64
-- does not have image


 31%|█████████████████████████                                                        | 64/207 [01:56<04:08,  1.74s/it]

product: 65


 31%|█████████████████████████▍                                                       | 65/207 [01:58<04:09,  1.76s/it]

product: 66


 32%|█████████████████████████▊                                                       | 66/207 [02:00<04:04,  1.74s/it]

product: 67


 32%|██████████████████████████▏                                                      | 67/207 [02:01<04:04,  1.75s/it]

product: 68


 33%|██████████████████████████▌                                                      | 68/207 [02:03<04:03,  1.75s/it]

product: 69


 33%|███████████████████████████                                                      | 69/207 [02:05<04:03,  1.76s/it]

product: 70
-- does not have image


 34%|███████████████████████████▍                                                     | 70/207 [02:08<05:04,  2.22s/it]

product: 71


 34%|███████████████████████████▊                                                     | 71/207 [02:10<04:43,  2.09s/it]

product: 72


 35%|████████████████████████████▏                                                    | 72/207 [02:12<04:36,  2.05s/it]

product: 73


 35%|████████████████████████████▌                                                    | 73/207 [02:14<04:22,  1.96s/it]

product: 75


 36%|████████████████████████████▉                                                    | 74/207 [02:15<04:10,  1.88s/it]

product: 76


 36%|█████████████████████████████▎                                                   | 75/207 [02:17<04:02,  1.84s/it]

product: 77


 37%|█████████████████████████████▋                                                   | 76/207 [02:19<03:55,  1.80s/it]

product: 78


 37%|██████████████████████████████▏                                                  | 77/207 [02:21<03:53,  1.79s/it]

product: 79


 38%|██████████████████████████████▌                                                  | 78/207 [02:22<03:48,  1.77s/it]

product: 80


 38%|██████████████████████████████▉                                                  | 79/207 [02:24<03:46,  1.77s/it]

product: 81


 39%|███████████████████████████████▎                                                 | 80/207 [02:26<03:44,  1.77s/it]

product: 82


 39%|███████████████████████████████▋                                                 | 81/207 [02:28<03:43,  1.77s/it]

product: 83


 40%|████████████████████████████████                                                 | 82/207 [02:30<03:43,  1.79s/it]

product: 84


 40%|████████████████████████████████▍                                                | 83/207 [02:31<03:43,  1.81s/it]

product: 85


 41%|████████████████████████████████▊                                                | 84/207 [02:33<03:40,  1.79s/it]

product: 86


 41%|█████████████████████████████████▎                                               | 85/207 [02:35<03:33,  1.75s/it]

product: 87
-- does not have image


 42%|█████████████████████████████████▋                                               | 86/207 [02:37<03:32,  1.76s/it]

product: 88


 42%|██████████████████████████████████                                               | 87/207 [02:38<03:31,  1.76s/it]

product: 89


 43%|██████████████████████████████████▍                                              | 88/207 [02:40<03:26,  1.74s/it]

product: 90


 43%|██████████████████████████████████▊                                              | 89/207 [02:42<03:25,  1.74s/it]

product: 91


 43%|███████████████████████████████████▏                                             | 90/207 [02:43<03:22,  1.73s/it]

product: 92


 44%|███████████████████████████████████▌                                             | 91/207 [02:45<03:20,  1.73s/it]

product: 93
-- does not have image


 44%|████████████████████████████████████                                             | 92/207 [02:47<03:19,  1.73s/it]

product: 94


 45%|████████████████████████████████████▍                                            | 93/207 [02:49<03:17,  1.74s/it]

product: 95


 45%|████████████████████████████████████▊                                            | 94/207 [02:50<03:14,  1.72s/it]

product: 96


 46%|█████████████████████████████████████▏                                           | 95/207 [02:52<03:13,  1.73s/it]

product: 97


 46%|█████████████████████████████████████▌                                           | 96/207 [02:54<03:12,  1.73s/it]

product: 98


 47%|█████████████████████████████████████▉                                           | 97/207 [02:56<03:09,  1.73s/it]

product: 99


 47%|██████████████████████████████████████▎                                          | 98/207 [02:57<03:08,  1.73s/it]

product: 100


 48%|██████████████████████████████████████▋                                          | 99/207 [02:59<03:07,  1.73s/it]

product: 101


 48%|██████████████████████████████████████▋                                         | 100/207 [03:01<03:06,  1.74s/it]

product: 102


 49%|███████████████████████████████████████                                         | 101/207 [03:03<03:06,  1.76s/it]

product: 103


 49%|███████████████████████████████████████▍                                        | 102/207 [03:04<03:05,  1.76s/it]

product: 104


 50%|███████████████████████████████████████▊                                        | 103/207 [03:09<04:29,  2.59s/it]

product: 105


 50%|████████████████████████████████████████▏                                       | 104/207 [03:11<03:58,  2.32s/it]

product: 106


 51%|████████████████████████████████████████▌                                       | 105/207 [03:12<03:37,  2.14s/it]

product: 107


 51%|████████████████████████████████████████▉                                       | 106/207 [03:14<03:23,  2.02s/it]

product: 108


 52%|█████████████████████████████████████████▎                                      | 107/207 [03:16<03:14,  1.95s/it]

product: 109


 52%|█████████████████████████████████████████▋                                      | 108/207 [03:18<03:06,  1.88s/it]

product: 110


 53%|██████████████████████████████████████████▏                                     | 109/207 [03:19<03:01,  1.85s/it]

product: 111


 53%|██████████████████████████████████████████▌                                     | 110/207 [03:21<02:56,  1.82s/it]

product: 112


 54%|██████████████████████████████████████████▉                                     | 111/207 [03:23<02:53,  1.81s/it]

product: 113


 54%|███████████████████████████████████████████▎                                    | 112/207 [03:25<02:50,  1.79s/it]

product: 114


 55%|███████████████████████████████████████████▋                                    | 113/207 [03:26<02:47,  1.78s/it]

product: 116


 55%|████████████████████████████████████████████                                    | 114/207 [03:28<02:45,  1.78s/it]

product: 117


 56%|████████████████████████████████████████████▍                                   | 115/207 [03:30<02:42,  1.77s/it]

product: 118


 56%|████████████████████████████████████████████▊                                   | 116/207 [03:32<02:39,  1.75s/it]

product: 119


 57%|█████████████████████████████████████████████▏                                  | 117/207 [03:33<02:38,  1.76s/it]

product: 120


 57%|█████████████████████████████████████████████▌                                  | 118/207 [03:35<02:36,  1.75s/it]

product: 121


 57%|█████████████████████████████████████████████▉                                  | 119/207 [03:37<02:33,  1.74s/it]

product: 122


 58%|██████████████████████████████████████████████▍                                 | 120/207 [03:39<02:32,  1.75s/it]

product: 123


 58%|██████████████████████████████████████████████▊                                 | 121/207 [03:40<02:28,  1.73s/it]

product: 124


 59%|███████████████████████████████████████████████▏                                | 122/207 [03:42<02:28,  1.75s/it]

product: 125


 59%|███████████████████████████████████████████████▌                                | 123/207 [03:44<02:25,  1.73s/it]

product: 126


 60%|███████████████████████████████████████████████▉                                | 124/207 [03:45<02:22,  1.72s/it]

product: 127


 60%|████████████████████████████████████████████████▎                               | 125/207 [03:47<02:20,  1.71s/it]

product: 128


 61%|████████████████████████████████████████████████▋                               | 126/207 [03:49<02:19,  1.72s/it]

product: 129


 61%|█████████████████████████████████████████████████                               | 127/207 [03:51<02:18,  1.73s/it]

product: 130


 62%|█████████████████████████████████████████████████▍                              | 128/207 [03:53<02:21,  1.79s/it]

product: 131


 62%|█████████████████████████████████████████████████▊                              | 129/207 [03:54<02:16,  1.76s/it]

product: 132


 63%|██████████████████████████████████████████████████▏                             | 130/207 [03:56<02:14,  1.75s/it]

product: 133


 63%|██████████████████████████████████████████████████▋                             | 131/207 [03:58<02:11,  1.73s/it]

product: 134


 64%|███████████████████████████████████████████████████                             | 132/207 [03:59<02:08,  1.72s/it]

product: 135


 64%|███████████████████████████████████████████████████▍                            | 133/207 [04:01<02:06,  1.71s/it]

product: 136


 65%|███████████████████████████████████████████████████▊                            | 134/207 [04:03<02:04,  1.71s/it]

product: 137


 65%|████████████████████████████████████████████████████▏                           | 135/207 [04:05<02:06,  1.76s/it]

product: 138


 66%|████████████████████████████████████████████████████▌                           | 136/207 [04:09<02:52,  2.43s/it]

product: 139


 66%|████████████████████████████████████████████████████▉                           | 137/207 [04:10<02:35,  2.23s/it]

product: 140


 67%|█████████████████████████████████████████████████████▎                          | 138/207 [04:12<02:23,  2.08s/it]

product: 141


 67%|█████████████████████████████████████████████████████▋                          | 139/207 [04:14<02:12,  1.95s/it]

product: 142


 68%|██████████████████████████████████████████████████████                          | 140/207 [04:16<02:07,  1.90s/it]

product: 143


 68%|██████████████████████████████████████████████████████▍                         | 141/207 [04:17<02:01,  1.84s/it]

product: 144


 69%|██████████████████████████████████████████████████████▉                         | 142/207 [04:19<01:57,  1.81s/it]

product: 145


 69%|███████████████████████████████████████████████████████▎                        | 143/207 [04:21<01:54,  1.79s/it]

product: 146


 70%|███████████████████████████████████████████████████████▋                        | 144/207 [04:22<01:51,  1.77s/it]

product: 147


 70%|████████████████████████████████████████████████████████                        | 145/207 [04:24<01:48,  1.74s/it]

product: 148


 71%|████████████████████████████████████████████████████████▍                       | 146/207 [04:26<01:46,  1.75s/it]

product: 149


 71%|████████████████████████████████████████████████████████▊                       | 147/207 [04:28<01:43,  1.73s/it]

product: 150


 71%|█████████████████████████████████████████████████████████▏                      | 148/207 [04:29<01:42,  1.73s/it]

product: 151


 72%|█████████████████████████████████████████████████████████▌                      | 149/207 [04:31<01:40,  1.73s/it]

product: 152


 72%|█████████████████████████████████████████████████████████▉                      | 150/207 [04:33<01:40,  1.76s/it]

product: 153


 73%|██████████████████████████████████████████████████████████▎                     | 151/207 [04:35<01:39,  1.77s/it]

product: 154


 73%|██████████████████████████████████████████████████████████▋                     | 152/207 [04:36<01:37,  1.77s/it]

product: 155


 74%|███████████████████████████████████████████████████████████▏                    | 153/207 [04:38<01:35,  1.77s/it]

product: 156


 74%|███████████████████████████████████████████████████████████▌                    | 154/207 [04:40<01:33,  1.77s/it]

product: 157


 75%|███████████████████████████████████████████████████████████▉                    | 155/207 [04:42<01:32,  1.77s/it]

product: 158


 75%|████████████████████████████████████████████████████████████▎                   | 156/207 [04:43<01:29,  1.75s/it]

product: 159


 76%|████████████████████████████████████████████████████████████▋                   | 157/207 [04:45<01:27,  1.74s/it]

product: 160


 76%|█████████████████████████████████████████████████████████████                   | 158/207 [04:47<01:25,  1.74s/it]

product: 161


 77%|█████████████████████████████████████████████████████████████▍                  | 159/207 [04:49<01:23,  1.74s/it]

product: 162


 77%|█████████████████████████████████████████████████████████████▊                  | 160/207 [04:50<01:21,  1.73s/it]

product: 163


 78%|██████████████████████████████████████████████████████████████▏                 | 161/207 [04:52<01:18,  1.72s/it]

product: 164


 78%|██████████████████████████████████████████████████████████████▌                 | 162/207 [04:54<01:17,  1.72s/it]

product: 165


 79%|██████████████████████████████████████████████████████████████▉                 | 163/207 [04:55<01:15,  1.72s/it]

product: 166


 79%|███████████████████████████████████████████████████████████████▍                | 164/207 [04:57<01:14,  1.74s/it]

product: 168


 80%|███████████████████████████████████████████████████████████████▊                | 165/207 [04:59<01:12,  1.74s/it]

product: 169


 80%|████████████████████████████████████████████████████████████████▏               | 166/207 [05:01<01:10,  1.73s/it]

product: 170


 81%|████████████████████████████████████████████████████████████████▌               | 167/207 [05:02<01:09,  1.73s/it]

product: 171


 81%|████████████████████████████████████████████████████████████████▉               | 168/207 [05:04<01:07,  1.72s/it]

product: 172


 82%|█████████████████████████████████████████████████████████████████▎              | 169/207 [05:08<01:32,  2.42s/it]

product: 173


 82%|█████████████████████████████████████████████████████████████████▋              | 170/207 [05:10<01:22,  2.23s/it]

product: 174


 83%|██████████████████████████████████████████████████████████████████              | 171/207 [05:12<01:15,  2.09s/it]

product: 175


 83%|██████████████████████████████████████████████████████████████████▍             | 172/207 [05:13<01:09,  1.97s/it]

product: 176


 84%|██████████████████████████████████████████████████████████████████▊             | 173/207 [05:15<01:04,  1.90s/it]

product: 177


 84%|███████████████████████████████████████████████████████████████████▏            | 174/207 [05:17<01:00,  1.85s/it]

product: 178


 85%|███████████████████████████████████████████████████████████████████▋            | 175/207 [05:19<00:58,  1.82s/it]

product: 179


 85%|████████████████████████████████████████████████████████████████████            | 176/207 [05:20<00:55,  1.78s/it]

product: 180


 86%|████████████████████████████████████████████████████████████████████▍           | 177/207 [05:22<00:53,  1.78s/it]

product: 181


 86%|████████████████████████████████████████████████████████████████████▊           | 178/207 [05:24<00:50,  1.75s/it]

product: 182


 86%|█████████████████████████████████████████████████████████████████████▏          | 179/207 [05:26<00:49,  1.75s/it]

product: 183
-- does not have image


 87%|█████████████████████████████████████████████████████████████████████▌          | 180/207 [05:27<00:47,  1.75s/it]

product: 184


 87%|█████████████████████████████████████████████████████████████████████▉          | 181/207 [05:29<00:45,  1.75s/it]

product: 185


 88%|██████████████████████████████████████████████████████████████████████▎         | 182/207 [05:31<00:43,  1.76s/it]

product: 186


 88%|██████████████████████████████████████████████████████████████████████▋         | 183/207 [05:33<00:42,  1.77s/it]

product: 187


 89%|███████████████████████████████████████████████████████████████████████         | 184/207 [05:34<00:40,  1.76s/it]

product: 188


 89%|███████████████████████████████████████████████████████████████████████▍        | 185/207 [05:36<00:38,  1.76s/it]

product: 189


 90%|███████████████████████████████████████████████████████████████████████▉        | 186/207 [05:38<00:36,  1.75s/it]

product: 190


 90%|████████████████████████████████████████████████████████████████████████▎       | 187/207 [05:40<00:34,  1.74s/it]

product: 191


 91%|████████████████████████████████████████████████████████████████████████▋       | 188/207 [05:41<00:32,  1.73s/it]

product: 192
-- does not have image


 91%|█████████████████████████████████████████████████████████████████████████       | 189/207 [05:43<00:30,  1.72s/it]

product: 193


 92%|█████████████████████████████████████████████████████████████████████████▍      | 190/207 [05:45<00:29,  1.71s/it]

product: 194


 92%|█████████████████████████████████████████████████████████████████████████▊      | 191/207 [05:46<00:27,  1.73s/it]

product: 195


 93%|██████████████████████████████████████████████████████████████████████████▏     | 192/207 [05:48<00:25,  1.72s/it]

product: 196


 93%|██████████████████████████████████████████████████████████████████████████▌     | 193/207 [05:50<00:23,  1.70s/it]

product: 197


 94%|██████████████████████████████████████████████████████████████████████████▉     | 194/207 [05:52<00:22,  1.71s/it]

product: 198


 94%|███████████████████████████████████████████████████████████████████████████▎    | 195/207 [05:53<00:20,  1.72s/it]

product: 199


 95%|███████████████████████████████████████████████████████████████████████████▋    | 196/207 [05:55<00:18,  1.72s/it]

product: 200


 95%|████████████████████████████████████████████████████████████████████████████▏   | 197/207 [05:57<00:17,  1.73s/it]

product: 201


 96%|████████████████████████████████████████████████████████████████████████████▌   | 198/207 [05:58<00:15,  1.72s/it]

product: 202


 96%|████████████████████████████████████████████████████████████████████████████▉   | 199/207 [06:00<00:13,  1.73s/it]

product: 203


 97%|█████████████████████████████████████████████████████████████████████████████▎  | 200/207 [06:02<00:12,  1.73s/it]

product: 204


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 201/207 [06:04<00:10,  1.71s/it]

product: 205


 98%|██████████████████████████████████████████████████████████████████████████████  | 202/207 [06:08<00:12,  2.58s/it]

product: 206


 98%|██████████████████████████████████████████████████████████████████████████████▍ | 203/207 [06:10<00:09,  2.33s/it]

product: 207


 99%|██████████████████████████████████████████████████████████████████████████████▊ | 204/207 [06:12<00:06,  2.16s/it]

product: 208


 99%|███████████████████████████████████████████████████████████████████████████████▏| 205/207 [06:13<00:04,  2.02s/it]

product: 209


100%|███████████████████████████████████████████████████████████████████████████████▌| 206/207 [06:15<00:01,  1.94s/it]

product: 210


100%|████████████████████████████████████████████████████████████████████████████████| 207/207 [06:17<00:00,  1.82s/it]


# Merging metadata to nosh products

In [18]:
def read_metadata_json(filepath):
    """ Read metadata json into a pandas DataFrame.
    
    Args:
    ---
    - `filepath`: str
        Path to meta data json file.
        
    Returns:
    ---
    DataFrame
        A DataFrame representing the a metadata.
    """
    with open(filepath, 'r') as fp:
        metadata = json.load(fp)
        
    for k, v in metadata['nutrients'].items():
        metadata[f"nutrients.{k}"] = v
        
    for k, v in metadata['measures'].items():
        metadata[f"measures.{k}"] = v
        
    del metadata['nutrients']
    del metadata['measures']
    
    if 'measures.qualified' in metadata:
        del metadata['measures.qualified']
        
    del metadata['health']['totalNutrients']
    del metadata['health']['totalDaily']
    del metadata['health']['ingredients']
    
    metadata[f"health.healthLabels"] = [str(i) for i in metadata['health']['healthLabels']]
    
    del metadata['health']['healthLabels']
    
    for k, v in metadata['health'].items():
        metadata[f"health.{k}"] = v
        
    del metadata['health']
    del metadata['health.uri']
    del metadata['measures.uri']
    del metadata['foodId']
    del metadata['product']
    
    return pd.DataFrame.from_dict(metadata, orient='index').transpose()

def build_metadata_dataframe(nosh_products):
    """ Read all product metadata into 1 DataFrame.
    
    Args:
    ---
    - `nosh_products`: DataFrame
        The nosh product DataFrame.
        
    Returns:
    ---
    DataFrame
        A metadata DataFrame.
    """
    results = []
    
    for idx, row in nosh_products.iterrows():
        metadata = read_metadata_json(os.path.join(PRODUCTS_METADATA, f"{row['product_id']}.json"))
        results.append(metadata)
    
    return pd.concat(results, axis=0).reset_index(drop=True)

In [19]:
metadata = build_metadata_dataframe(nosh_products)
products = nosh_products.merge(
    right=metadata,
    left_on='product_id',
    right_on='product_id',
    how='left',
)

In [20]:
products.head()

Unnamed: 0,product_id,product,shelf_life,usual_storage,category,image,nutrients.ENERC_KCAL,nutrients.PROCNT,nutrients.FAT,nutrients.CHOCDF,nutrients.FIBTG,measures.label,measures.weight,health.healthLabels,health.calories,health.totalWeight,health.dietLabels,health.cautions
0,1,spaghetti,,pantry,food,https://www.edamam.com/food-img/296/296ff2b02e...,371.0,13.04,1.51,74.67,3.2,Whole,16.8,"[FAT_FREE, KETO_FRIENDLY, VEGAN, VEGETARIAN, P...",62,16.8,[],[]
1,2,onion,13.0,pantry,food,https://www.edamam.com/food-img/205/205e6bf239...,40.0,1.1,0.1,9.34,1.7,Whole,125.0,"[FAT_FREE, KETO_FRIENDLY, VEGAN, VEGETARIAN, P...",50,125.0,[],[]
2,3,sugar,,pantry,food,https://www.edamam.com/food-img/ecb/ecb3f5aaed...,387.0,0.0,0.0,99.98,0.0,Cube,4.2,"[FAT_FREE, KETO_FRIENDLY, VEGAN, VEGETARIAN, P...",16,4.2,[],[]
3,4,mustard,60.0,pantry,food,https://www.edamam.com/food-img/e23/e238f2e4cf...,60.0,3.74,3.34,5.83,4.0,Serving,30.0,"[KETO_FRIENDLY, VEGAN, VEGETARIAN, PESCATARIAN...",18,30.0,[],[]
4,5,tomato sauce,,pantry,food,https://www.edamam.com/food-img/23e/23e727a14f...,18.0,0.88,0.2,3.89,1.2,Whole,123.0,"[FAT_FREE, KETO_FRIENDLY, VEGAN, VEGETARIAN, P...",22,123.0,[],[]


In [21]:
products.to_csv(os.path.join(DATASETS_DIR, "products.csv"), index=False)

# Link Recipe with Nosh Products

In [7]:
def read_recipe_data(filepath):
    tqdm.pandas()
    df = pd.read_json(filepath)
    df['ingredients'] = df['ingredients'].progress_apply(lambda x: [utils.match_closest_nosh_product(p, nosh_products)['nosh_product_id'] for p in x])
    return df

In [8]:
recipes = read_recipe_data(os.path.join(SOURCES_DIR, "recipes.json")) 

100%|██████████████████████████████████████████████████████████████████████████| 39774/39774 [2:25:05<00:00,  4.57it/s]


In [9]:
recipes.head()

Unnamed: 0,id,cuisine,ingredients
0,10259,greek,"[72, 192, 72, 75, 85, 2, 87, 61, 139]"
1,25693,southern_us,"[6, 85, 84, 72, 85, 136, 99, 133, 61, 141, 49]"
2,20130,filipino,"[99, 85, 84, 131, 49, 133, 113, 126, 2, 7, 97,..."
3,22213,indian,"[98, 49, 48, 84]"
4,13162,indian,"[85, 91, 34, 85, 2, 149, 141, 97, 84, 92, 98, ..."


In [10]:
recipes.sort_values(by=['id'])\
    .drop('ingredients', axis=1)\
    .to_csv(os.path.join(DATASETS_DIR, 'recipes.csv'), index=False)

In [11]:
recipes.sort_values(by=['id'])\
    .explode('ingredients')\
    .drop('cuisine', axis=1)\
    .rename(columns={"ingredients":"product_id", "id":"recipe_id"})\
    .to_csv(os.path.join(DATASETS_DIR, 'products_recipes.csv'), index=False)