In [1]:
import os
import re
import numpy as np
import pandas as pd
import json
from pprint import pprint
from tqdm import tqdm_notebook as tqdm
from multiprocessing import Pool, cpu_count

### Determining food names and tables

In [2]:
root = "../raw/it.openfoodfacts.org"
foods = [food for food in os.listdir(root) if food[0] != "."]

### Merging csv files

In [3]:
def parse_food(food):
    textual = set([
        "Categorie", "Confezionamento", "Etichette, certificazioni, premi",
        "Nutrition score  France", "barcode",
        "Link alla pagina del prodotto sul sito ufficiale del produttore",
        "Quantità", "Luoghi di produzione o lavorazione", "Marche", "Negozi",
        "Nome generico", "NutriScore", "Origine degli ingredienti",
        "Paesi di vendita", "additives", "codice EMB", "ingredients", "name"
    ])
    root = "../raw/it.openfoodfacts.org"
    file_path = "{path}/{name}/Informazioni nutrizionali.csv".format(
        path=root, name=food)
    try:
        df = pd.read_csv(
            file_path,
            usecols=[
                "Informazioni nutrizionali", "Come vendutoper 100 g / 100 ml"
            ],
            index_col="Informazioni nutrizionali")
    except Exception as e:
        return None
    if (df == "?").any().any():
        return None
    for index, value in df.iterrows():
        value = value["Come vendutoper 100 g / 100 ml"]
        if isinstance(value, str):
            unit = ""
            value = value.replace(".", "").replace(",", ".").replace("<", "")
            if "mg" in value:
                value = float(value.split("mg")[0]) * 1e-3
                unit = "g"
            elif "µg" in value:
                value = float(value.split("µg")[0]) * 1e-6
                unit = "g"
            elif "g" in value:
                value = float(value.split("g")[0])
                unit = "g"
            elif "% vol" in value:
                value = float(value.split("% vol")[0])
                unit = "% vol"
            elif "%" in value:
                value = float(value.split("%")[0])
                unit = "%"
            elif re.match("-?[\dA-Z]", value):
                pass
            else:
                raise ValueError(str((value, index)))
            df.loc[index] = value
            if unit:
                df = df.rename(
                    index={
                        index:
                        "{index} | {unit}".format(index=index, unit=unit)
                        .lower().strip().replace("  ", " ")
                    })

    df = df.transpose()
    with open("{path}/{name}/metadata.json".format(path=root, name=food),
              "r") as f:
        for key, value in json.load(f).items():
            if value:
                df[key] = value.replace("\n", "; ")
    df.index = df["name"]
    df.index.name = "name"
    df = df.drop(columns=["name"])
    df.columns = [c.replace("-", "").strip() for c in df.columns]
    del df.columns.name
    df = df.astype({
        c:float
        for c in set(df.columns) - textual
    })
    return df

In [4]:
from IPython.display import display
with Pool(cpu_count()) as p:
    open_food_facts = pd.concat(
        list(tqdm(p.imap(parse_food, foods), total=len(foods))))

HBox(children=(IntProgress(value=0, max=867), HTML(value='')))




In [5]:
tofloat = [
    'zuccheri | g'
]
open_food_facts = open_food_facts.astype({k: float for k in tofloat})

### Drop columns that have more than 90% of nan values

In [6]:
open_food_facts = open_food_facts.drop(columns=open_food_facts.columns[np.mean(pd.isna(open_food_facts))>0.9])

In [7]:
open_food_facts.columns

Index(['Categorie', 'Confezionamento', 'Etichette, certificazioni, premi',
       'Link alla pagina del prodotto sul sito ufficiale del produttore',
       'Luoghi di produzione o lavorazione', 'Marche', 'Negozi',
       'Nome generico', 'NutriScore', 'Nutrition score  France',
       'Origine degli ingredienti', 'Paesi di vendita', 'Quantità',
       'acidi grassi saturi | g', 'additives', 'barcode', 'carboidrati | g',
       'codice EMB', 'fibra alimentare | g', 'grassi | g', 'ingredients',
       'proteine | g', 'sale | g', 'sodio | g', 'zuccheri | g'],
      dtype='object')

In [8]:
grams = [
    'carboidrati | g', 'proteine | g', 'sale | g', 'sodio | g',
    'fibra alimentare | g', 'grassi | g'
]

In [9]:
to_normalize = [c for c in open_food_facts.columns if "| g" in c]

In [10]:
def _and(*args):
    return np.all(args, axis=0)

def _or(*args):
    return np.any(args, axis=0)

In [11]:
with open("./sanitization_parameters.json", "r") as f:
    window = json.load(f)["grams_maximal_window"]
sums = np.sum(open_food_facts[grams], axis=1)
around_100g = open_food_facts.iloc[_and(sums<100+window, sums>100-window)].copy()
around_100g[to_normalize] = around_100g[to_normalize].divide(np.sum(around_100g[grams], axis=1), axis="index")*100
open_food_facts=around_100g

### Drop columns that don't sum to 100

In [12]:
open_food_facts.to_csv("../csv/openfoodsfacts.csv")