In [1]:
import pandas as pd
import numpy as np

from collections import Counter

In [2]:
#on charge le dataframe depuis un format pickle ce qui est plus rapide
data = pd.read_pickle("products")

## On filtre le dataframe sur les indicateurs les plus pertinents pour notre application.
L'objectif est d'explorer et de nettoyer ce nouveau dataframe pour pouvoir exploiter les indicateurs et travailler sur le nutriscore.

Les indicateurs pertinents pour notre application sont :
"code"
"product_name"
"categories"
"generic_name"
"countries"
"main_category"
"nutriscore_score"
"nutriscore_grade"
"energy-kj_100g"
"sugars_100g"
"saturated-fat_100g","sodium_100g","fruits-vegetables-nuts_100g","fiber_100g","proteins_100g"

![Google logo](https://www.researchgate.net/profile/Hassan_Aguenaou/publication/328136107/figure/fig1/AS:679251904835597@1538957682395/Calcul-de-lalgorithme-du-Nutri-Score-le-score-FRSm-HCSP.ppm "google logo")

In [3]:
#On garde seulement les colonnes pertinentes pour notre analyse
products = data[["code","created_datetime","product_name","generic_name","brands","countries_tags"
                 ,"categories_en","main_category_en","nutriscore_score","nutriscore_grade","energy-kj_100g","energy-kcal_100g"
                 ,"sugars_100g","saturated-fat_100g","sodium_100g","fruits-vegetables-nuts_100g","fiber_100g","proteins_100g"]]

In [4]:
products.head()

Unnamed: 0,code,created_datetime,product_name,generic_name,brands,countries_tags,categories_en,main_category_en,nutriscore_score,nutriscore_grade,energy-kj_100g,energy-kcal_100g,sugars_100g,saturated-fat_100g,sodium_100g,fruits-vegetables-nuts_100g,fiber_100g,proteins_100g
0,17,2018-06-15 10:38:00+00:00,Vitória crackers,,,en:france,,,,,,375.0,15.0,3.08,0.56,,,7.8
1,31,2018-10-13 21:06:14+00:00,Cacao,,,en:france,,,,,,,,,,,,
2,3327986,2019-11-19 15:02:16+00:00,Filetes de pollo empanado,,,en:spain,,,,,,,,,,,,
3,100,2015-10-11 14:09:21+00:00,moutarde au moût de raisin,,courte paille,en:france,"Groceries,Condiments,Sauces,Mustards",Mustards,18.0,d,936.0,,22.0,2.2,1.84,,0.0,5.1
4,1111111111,2019-06-08 18:56:13+00:00,Sfiudwx,,Watt,en:france,fr:xsf,fr:xsf,,,,,,,,,,


In [5]:
products.describe(include="all")

Unnamed: 0,code,created_datetime,product_name,generic_name,brands,countries_tags,categories_en,main_category_en,nutriscore_score,nutriscore_grade,energy-kj_100g,energy-kcal_100g,sugars_100g,saturated-fat_100g,sodium_100g,fruits-vegetables-nuts_100g,fiber_100g,proteins_100g
count,1555491.0,1555491,1475940,107909,855624,1550329,789898,789898,617047.0,617047,114493.0,1171645.0,1208137.0,1183546.0,1202396.0,8679.0,454522.0,1230710.0
unique,1555125.0,1307562,983358,79119,149085,3281,59689,26794,,5,,,,,,,,
top,59263020000.0,2020-04-23 17:22:07+00:00,Aceite de oliva virgen extra,Ice cream,Carrefour,en:france,Snacks,Snacks,,d,,,,,,,,
freq,2.0,28,1156,180,13412,677031,32865,32872,,191062,,,,,,,,
first,,2012-01-31 14:43:58+00:00,,,,,,,,,,,,,,,,
last,,2020-12-16 12:26:23+00:00,,,,,,,,,,,,,,,,
mean,,,,,,,,,9.149256,,5.821805e+37,7429025.0,13.71063,114908900.0,0.7127955,34.26983,2.969742,8.517973
std,,,,,,,,,8.901728,,1.969913e+40,8031833000.0,20.01887,125010500000.0,29.62545,36.594116,6.309339,10.84817
min,,,,,,,,,-15.0,,0.0,0.0,-1.0,0.0,0.0,0.0,-20.0,-500.0
25%,,,,,,,,,1.0,,399.0,101.0,0.7,0.1,0.024,0.0,0.0,1.2


In [6]:
#On regarde le nombre de données nulles par colonne 
products.isnull().sum()

code                                 0
created_datetime                     0
product_name                     79551
generic_name                   1447582
brands                          699867
countries_tags                    5162
categories_en                   765593
main_category_en                765593
nutriscore_score                938444
nutriscore_grade                938444
energy-kj_100g                 1440998
energy-kcal_100g                383846
sugars_100g                     347354
saturated-fat_100g              371945
sodium_100g                     353095
fruits-vegetables-nuts_100g    1546812
fiber_100g                     1100969
proteins_100g                   324781
dtype: int64

In [7]:
#on trie les valeurs par ordre décroissant de date de création du produit sur Open Foods Facts
products = products.sort_values(by=["created_datetime"], ascending=False)
#on stocke les doublons ayant la date de création la plus ancienne dans le dataframe "doublons"
doublons = products[products["code"].duplicated()]

doublons.count()

code                           366
created_datetime               366
product_name                   355
generic_name                    29
brands                         243
countries_tags                 365
categories_en                  184
main_category_en               184
nutriscore_score               164
nutriscore_grade               164
energy-kj_100g                  16
energy-kcal_100g               314
sugars_100g                    312
saturated-fat_100g             310
sodium_100g                    319
fruits-vegetables-nuts_100g      0
fiber_100g                     175
proteins_100g                  321
dtype: int64

In [8]:
#on garde seulement les lignes uniques ayant la date de création la plus récente
products = products.drop_duplicates(subset=["code"])
#on supprime les lignes ayant des valeurs nulles pour le nutriscore car c'est la valeur centrale de l'analyse
products = products.dropna(subset=['nutriscore_score'])

In [9]:
#On regarde le nombre de valeur nulle
products.isnull().sum()

code                                0
created_datetime                    0
product_name                     2365
generic_name                   532199
brands                         171093
countries_tags                    765
categories_en                       2
main_category_en                    2
nutriscore_score                    0
nutriscore_grade                    0
energy-kj_100g                 524215
energy-kcal_100g                53593
sugars_100g                      1660
saturated-fat_100g               1663
sodium_100g                      1243
fruits-vegetables-nuts_100g    609489
fiber_100g                     249140
proteins_100g                    1650
dtype: int64

In [10]:
#on consolide les colonnes que nous allons utiliser pour nos analsyes avec des colonnes complémentaires
#Le nom de notre produit peut être consolidé à partir de son nom générique et de sa marque
consolidation_name = products["generic_name"] + products["brands"]
#L'energie d'un produit en kJ est égal à son energie en kcal multiplié par 4,1868
consolidation_energy = products["energy-kcal_100g"].map(lambda x: x*4,1868)

#On remplace les valeurs manquantes
products["product_name"].fillna(consolidation_name, inplace=True)
products["energy-kj_100g"].fillna(consolidation_energy, inplace=True)

In [11]:
#Cette fonction permet de décompter les valeurs ayant le plus d'itérations au sein d'une colonne
def count_libelle(colonne, nb_most_common):
    
    words = []
    list_words = []
    for libelle in colonne:
        words += str(libelle).split(",")

    for word in (Counter(words).most_common(nb_most_common)):
        list_words.append((word[0].replace("en:","")).capitalize())
    
    return list_words

In [12]:
#On obtient ici la liste des 50 pays ayant le plus de produits
countries = count_libelle(products["countries_tags"].values, 60)

#si le tag est dans notre liste, on affecte le pays sinon on affecte la valeur AUTRE
column_country = [str(m).replace("en:","").capitalize() if (str(m).replace("en:","")).capitalize() in countries else "Autre" for m in products["countries_tags"]]
products.loc[:,"countries"] = column_country

In [13]:
#On obtient ici la liste des 500 catégories principales ayant le plus de produits
main_categories = count_libelle(products["main_category_en"].values, 500)

#si le tag est dans notre liste, on affecte la catégorie principale sinon on affecte la valeur AUTRE
column_main_category = [str(m).strip().capitalize() if str(m).strip().capitalize() in main_categories else "Autre" for m in products["main_category_en"]]
products.loc[:,"main_categories"] = column_main_category

In [14]:
#On obtient ici la liste des 1000 catégories secondaires ayant le plus de produits
categories = count_libelle(products["categories_en"].values, 1000)
#On retire la valeur NaN de la liste
categories = categories[1:]

#si le tag est dans notre liste, on affecte la catégorie secondaire sinon on affecte la valeur AUTRE
column_category = [str(m).split(",")[0] if str(m).split(",")[0] in categories else "Autre" for m in products["categories_en"]]
products.loc[:,"categories"] = column_category

In [15]:
#On regarde le nombre de valeur nulle
products.isnull().sum()

code                                0
created_datetime                    0
product_name                     2304
generic_name                   532199
brands                         171093
countries_tags                    765
categories_en                       2
main_category_en                    2
nutriscore_score                    0
nutriscore_grade                    0
energy-kj_100g                   1694
energy-kcal_100g                53593
sugars_100g                      1660
saturated-fat_100g               1663
sodium_100g                      1243
fruits-vegetables-nuts_100g    609489
fiber_100g                     249140
proteins_100g                    1650
countries                           0
main_categories                     0
categories                          0
dtype: int64

In [16]:
#Nous avons maintenant nos colonnes pour l'analyse
#On ne garde pas fruits-vegetables-nuts_100g car la colonne est est vide à 98%
#On ne garde pas fiber_100g car la colonne est est vide à 98%
products_optimized = products[['code', 'created_datetime', 'product_name','countries','main_categories','categories'
                              ,'nutriscore_score', 'nutriscore_grade', 'energy-kj_100g', 'sugars_100g'
                              , 'saturated-fat_100g', 'sodium_100g', 'fiber_100g', 'proteins_100g']]

#On décide de ne pas supprimer les lignes ayant un product_name null car on ne va pas utiliser la valeur pour l'analyse
#Pour les autres valeurs on supprime les lignes
products_optimized = products_optimized.dropna(subset = ['energy-kj_100g','sugars_100g','saturated-fat_100g'
                                                         ,'sodium_100g','fiber_100g','proteins_100g'])

In [17]:
#Le nutriscore est une valeur comprise entre -15 et 40
products_optimized = products_optimized[(products_optimized["nutriscore_score"] >= -15) & (products_optimized["nutriscore_score"] <= 40)]
#Le nutriscore est également une valeur égale à : a, b, c, d ou e
products_optimized = products_optimized[products_optimized["nutriscore_grade"].isin(['a', 'b', 'c', 'd', 'e'])]

#On enlève les valeurs abberantes d'énergie (en Kj) qui sont négatives, nulles ou supérieures à 3000 Kj 
products_optimized = products_optimized[(products_optimized["energy-kj_100g"] > 0) & (products_optimized["energy-kj_100g"] <= 3000)]

#La valeur étant donné pour 100g, elle est comprise entre 0 et 100
products_optimized = products_optimized[(products_optimized["sugars_100g"] >= 0) & (products_optimized["sugars_100g"] <= 50)]
products_optimized = products_optimized[(products_optimized["saturated-fat_100g"] >= 0) & (products_optimized["saturated-fat_100g"] <= 20)]
products_optimized = products_optimized[(products_optimized["sodium_100g"] >= 0) & (products_optimized["sodium_100g"] <= 10)]
products_optimized = products_optimized[(products_optimized["fiber_100g"] >= 0) & (products_optimized["fiber_100g"] <= 60)]
products_optimized = products_optimized[(products_optimized["proteins_100g"] >= 0) & (products_optimized["proteins_100g"] <= 90)]

In [18]:
#On regarde le nombre de valeur non nulle par colonne
products_optimized.notnull().sum()

code                  325973
created_datetime      325973
product_name          325056
countries             325973
main_categories       325973
categories            325973
nutriscore_score      325973
nutriscore_grade      325973
energy-kj_100g        325973
sugars_100g           325973
saturated-fat_100g    325973
sodium_100g           325973
fiber_100g            325973
proteins_100g         325973
dtype: int64

In [None]:
#On enregistre le jeu de données nettoyé sous format pickle
products_optimized.to_pickle("products_optimized")