# Presentation du cas

L'objectif du cas est de manipuler une base de données de telle sorte à pouvoir alimenter une application dans le domaine de la santé alimentaire. En l'occurence, l'application proposée récupère les caractéristiques d'un article scanné et propose des alternatives plus saines, en fonction du nutriscore, ayant le plus de points de similarités, notamment la catégorie et les groupes d'aliments, afin d'avoir des suggestions aussi pertinentes que possible.
La préparation des données nécessite donc d'extraire les colonnes avec des codes d'identification, les catégories d'aliments, les différentes évalutions nutritives dont le nutriscore, ainsi que les données nutritives qui pourront éventuellement être utilisée dans des analyses de régimes.

# Import librairies

In [2]:
# Librairies standards
import pandas as pd
import numpy as np
import os
import sys
import tqdm as tqdm
import glob
import string
import matplotlib.pyplot as plt
from scipy.stats import rankdata
import warnings
from pandas_profiling import ProfileReport
from sklearn.impute import KNNImputer
warnings.filterwarnings('ignore')

# Telechargements donnees

In [3]:
data=pd.read_csv("../../data/sante/openfoodfacts_search.csv")
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9937 entries, 0 to 9936
Columns: 174 entries, code to carnitine_100g
dtypes: float64(123), int64(3), object(48)
memory usage: 13.2+ MB


# Data format

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9937 entries, 0 to 9936
Columns: 174 entries, code to carnitine_100g
dtypes: float64(123), int64(3), object(48)
memory usage: 13.2+ MB


In [8]:
data.duplicated().sum()

0

Les données n'ont pas de lignes répétées.

In [6]:
data.isna().sum()

code                     0
url                      0
creator                  0
created_t                0
last_modified_t          0
                      ... 
choline_100g          9935
phylloquinone_100g    9937
beta-glucan_100g      9936
inositol_100g         9935
carnitine_100g        9937
Length: 174, dtype: int64

On constate que certaines colonnes sont presque entièrement constituées de données manquantes. Que ce soit dû à une mauvaise collecte de données ou des ingrédients particulièrement rares, il faudra filtrer les colonnes qui dépassent un certain seuil de données manquantes.

In [7]:
threshold=0.5
data=data.dropna(axis=1,thresh=(data.shape)[0]*threshold)
data.shape

(9937, 56)

# Data cleaning

In [6]:
def cleaning_data(data,threshold=0.5):
    """
    Fonction qui prépare automatiquement une dataframe avec des données utilisables et 
    des colonnes spécifiques, ainsi qu'en ajoutant quelques nouveaux
    features en partant d'une dataframe brute contenant des données manquantes.
    """
    # Filtration des colonnes constituees de donnees manquantes au-dessus d'un certain seuil defini par threshold
    data=data.dropna(axis=1,thresh=(data.shape)[0]*threshold)
    
    # Selection des colonnes interessantes
    clean_data=data[["code","product_name","generic_name","pnns_groups_1","pnns_groups_2","additives_n"]]
    for a in data.columns:
        if "100g" in a:
            clean_data[a]=data[a]
        if "tags" in a:
            clean_data[a]=data[a]
        if "_score" in a:
            clean_data[a]=data[a]
    
    # Creation d'une nouvelle colonne indiquant si les nutriscore ont ete donnees ou sont absentes
    clean_data["provided_nutriscore"]=clean_data["nutriscore_score"].isna().astype(int).map({0:1,1:0})
    
    # Creation de variables dummies pour des colonnes contenants des donnees categoriques.
    dummies=pd.get_dummies(clean_data[["pnns_groups_1","pnns_groups_2"]])
    clean_data[dummies.columns]=dummies
    
    
    # Imputation de donnees manquantes par knn des colonnes numeriques.
    quant_columns=["additives_n","nutriscore_score","energy-kcal_100g","energy_100g","fat_100g","saturated-fat_100g","carbohydrates_100g",
                       "sugars_100g","proteins_100g","salt_100g","sodium_100g","nutrition-score-fr_100g"] + list(dummies.columns)
    quant_data=clean_data[quant_columns]
    print(quant_data.isna().sum())
    imp=KNNImputer()
    quant_data=pd.DataFrame(imp.fit_transform(quant_data),columns=quant_columns)
    for a in quant_columns:
        clean_data[a]=quant_data[a]
    
    clean_data["additives_n"]=clean_data["additives_n"].round()
        
        
    return clean_data


clean_data=cleaning_data(data,threshold=0.5)
clean_data.info()

additives_n                  279
nutriscore_score            2125
energy-kcal_100g            3355
energy_100g                 1704
fat_100g                    1686
                            ... 
pnns_groups_2_fruits           0
pnns_groups_2_legumes          0
pnns_groups_2_pastries         0
pnns_groups_2_unknown          0
pnns_groups_2_vegetables       0
Length: 68, dtype: int64
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9937 entries, 0 to 9936
Data columns (total 83 columns):
 #   Column                                          Non-Null Count  Dtype  
---  ------                                          --------------  -----  
 0   code                                            9937 non-null   int64  
 1   product_name                                    9915 non-null   object 
 2   generic_name                                    5612 non-null   object 
 3   pnns_groups_1                                   9397 non-null   object 
 4   pnns_groups_2                         

# Saved data

Sauvegarde de la nouvelle base cleanee en format pickle (serialise)

In [114]:
with open("cleaned_data.pkl","wb") as f:
    pickle.dump(clean_data,f)