# Parcours Data Scientist - Yann Pham-Van

## Projet 3 : Concevez une application au service de la santé publique

**Mission**

L'agence "Santé publique France" a lancé **un appel à projets pour trouver des idées innovantes d’applications en lien avec l'alimentation**. Vous souhaitez y participer et proposer une idée d’application.

**Les données**

Extrait de l’appel à projets :

Le jeu de données Open Food Facts est disponible sur le site officiel (ou disponible à ce lien en téléchargement). Les variables sont définies à cette adresse.

Les champs sont séparés en quatre sections :

- Les informations générales sur la fiche du produit : nom, date de modification, etc.
- Un ensemble de tags : catégorie du produit, localisation, origine, etc.
- Les ingrédients composant les produits et leurs additifs éventuels.
- Des informations nutritionnelles : quantité en grammes d’un nutriment pour 100 grammes du produit.

**Votre mission**

Après avoir lu l’appel à projets, voici les différentes étapes que vous avez identifiées :

1) **Traiter le jeu de données**, en :

- **Réfléchissant à une idée d’application**.
- **Repérant des variables pertinentes** pour les traitements à venir, et nécessaires pour votre idée d’application.
- **Nettoyant les données** en :
    - mettant en évidence les éventuelles **valeurs manquantes**, avec au moins 3 méthodes de traitement adaptées aux variables concernées,
    - identifiant et en quantifiant les éventuelles **valeurs aberrantes** de chaque variable.
- **Automatisant ces traitements** pour éviter de répéter ces opérations

Le programme doit fonctionner si la base de données est légèrement modifiée (ajout d’entrées, par exemple).

2) Tout au long de l’analyse, **produire des visualisations** afin de mieux comprendre les données.

**Effectuer une analyse univariée** pour chaque variable intéressante, afin de synthétiser son comportement.

L’appel à projets spécifie que l’analyse doit être simple à comprendre pour un public néophyte. **Soyez donc attentif à la lisibilité** : taille des textes, choix des couleurs, netteté suffisante, et variez les graphiques (boxplots, histogrammes, diagrammes circulaires, nuages de points…) pour illustrer au mieux votre propos.

3) **Confirmer ou infirmer les hypothèses à l’aide d’une analyse multivariée. Effectuer les tests statistiques appropriés** pour vérifier la significativité des résultats.

4) **Justifier votre idée d’application**. Identifier des arguments justifiant la faisabilité (ou non) de l’application à partir des données Open Food Facts.

5) **Rédiger un rapport d’exploration** et **pitcher votre idée** durant la soutenance du projet.

# Nettoyage des données

Appel des librairies utilisées

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

## Inspection des données

Je crée le dataframe à partir du jeu de données.

In [2]:
df = pd.read_csv('fr.openfoodfacts.org.products.csv', sep = '\t', low_memory=False)

J'affiche les premières lignes des dataframes pour vérifier que les données sont bien chargées, puis leur structure et enfin le type des colonnes, la présence de doublons ou le taux de données manquantes.

In [3]:
df.head(5)

Unnamed: 0,code,url,creator,created_t,created_datetime,last_modified_t,last_modified_datetime,product_name,generic_name,quantity,...,ph_100g,fruits-vegetables-nuts_100g,collagen-meat-protein-ratio_100g,cocoa_100g,chlorophyl_100g,carbon-footprint_100g,nutrition-score-fr_100g,nutrition-score-uk_100g,glycemic-index_100g,water-hardness_100g
0,3087,http://world-fr.openfoodfacts.org/produit/0000...,openfoodfacts-contributors,1474103866,2016-09-17T09:17:46Z,1474103893,2016-09-17T09:18:13Z,Farine de blé noir,,1kg,...,,,,,,,,,,
1,4530,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489069957,2017-03-09T14:32:37Z,1489069957,2017-03-09T14:32:37Z,Banana Chips Sweetened (Whole),,,...,,,,,,,14.0,14.0,,
2,4559,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489069957,2017-03-09T14:32:37Z,1489069957,2017-03-09T14:32:37Z,Peanuts,,,...,,,,,,,0.0,0.0,,
3,16087,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489055731,2017-03-09T10:35:31Z,1489055731,2017-03-09T10:35:31Z,Organic Salted Nut Mix,,,...,,,,,,,12.0,12.0,,
4,16094,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489055653,2017-03-09T10:34:13Z,1489055653,2017-03-09T10:34:13Z,Organic Polenta,,,...,,,,,,,,,,


In [4]:
df.shape

(320772, 162)

In [5]:
df.dtypes

code                        object
url                         object
creator                     object
created_t                   object
created_datetime            object
                            ...   
carbon-footprint_100g      float64
nutrition-score-fr_100g    float64
nutrition-score-uk_100g    float64
glycemic-index_100g        float64
water-hardness_100g        float64
Length: 162, dtype: object

In [6]:
df.duplicated().sum()

0

In [7]:
df.isna().mean().sort_values(ascending=False)

water-hardness_100g                      1.000000
no_nutriments                            1.000000
ingredients_that_may_be_from_palm_oil    1.000000
nutrition_grade_uk                       1.000000
nervonic-acid_100g                       1.000000
                                           ...   
created_datetime                         0.000028
created_t                                0.000009
creator                                  0.000006
last_modified_datetime                   0.000000
last_modified_t                          0.000000
Length: 162, dtype: float64

## Recherche des variables

Il me faut identifier les variables permettant :
- une utilisation par l'application lors de la phase d'exploration
- de catégoriser les individus/produits
- un taux de remplissage suffisant.

J'observe l'ensemble des variables à disposition.

In [8]:
colonnes = df.columns.tolist()
colonnes

['code',
 'url',
 'creator',
 'created_t',
 'created_datetime',
 'last_modified_t',
 'last_modified_datetime',
 'product_name',
 'generic_name',
 'quantity',
 'packaging',
 'packaging_tags',
 'brands',
 'brands_tags',
 'categories',
 'categories_tags',
 'categories_fr',
 'origins',
 'origins_tags',
 'manufacturing_places',
 'manufacturing_places_tags',
 'labels',
 'labels_tags',
 'labels_fr',
 'emb_codes',
 'emb_codes_tags',
 'first_packaging_code_geo',
 'cities',
 'cities_tags',
 'purchase_places',
 'stores',
 'countries',
 'countries_tags',
 'countries_fr',
 'ingredients_text',
 'allergens',
 'allergens_fr',
 'traces',
 'traces_tags',
 'traces_fr',
 'serving_size',
 'no_nutriments',
 'additives_n',
 'additives',
 'additives_tags',
 'additives_fr',
 'ingredients_from_palm_oil_n',
 'ingredients_from_palm_oil',
 'ingredients_from_palm_oil_tags',
 'ingredients_that_may_be_from_palm_oil_n',
 'ingredients_that_may_be_from_palm_oil',
 'ingredients_that_may_be_from_palm_oil_tags',
 'nutritio

La méthode pour afficher les taux de manquants, utilisée ci-dessus, ne permet pas une vision complète.

Pour trier les variables à retenir, il me faudrait une fonction pour afficher l'intégralité des variables et le taux de remplissage.

Elle sera réutilisée au fur et à mesure du nettoyage des données.

In [9]:
def calcul_remplissage(dataframe):
    
    dictionnaire = {}

    for colonne in dataframe.columns:
        dictionnaire[colonne] = []
        dictionnaire[colonne].append(round((1 - dataframe[colonne].isna().mean())*100, 1))
        dictionnaire[colonne].append(dataframe[colonne].isna().sum())

    return pd.DataFrame.from_dict(data=dictionnaire, orient='index', columns = ['Taux de remplissage', 'Nombre de manquants']).sort_values(by='Taux de remplissage', ascending=False)

In [10]:
pd.set_option('display.max_rows', 300)
calcul_remplissage(df)

Unnamed: 0,Taux de remplissage,Nombre de manquants
code,100.0,23
creator,100.0,2
created_t,100.0,3
created_datetime,100.0,9
last_modified_t,100.0,0
last_modified_datetime,100.0,0
states_fr,100.0,46
states_tags,100.0,46
states,100.0,46
url,100.0,23


Le niveau de remplissage est très fluctuant. Peu de variables sont bien renseignées.
A peine 34 sur les 162 sont remplies à plus de 50% et tout juste un tiers (54) est carrément à 0% !!!

### **Idée d'application**

Au vu de ces résultats, une idée d'application commence à germer.
Il serait intéressant de se concentrer sur la partie négative du nutriscore afin de la minimiser en effectuant une cotation des composantes *énergie*, *graisses saturées*, *sucres* et *sodium*.

L'idée de l'application consisterait à déterminer la catégorie d'un produit alimentaire afin de suggérer les meilleures alternatives dans cette catégorie ou catégorie élargie, c'est-à-dire les moins caloriques, grasses, sucrées et salées.

**Sélection simple des variables**

Pour démarrer le nettoyage, plusieurs variables sont disponibles.

Je sélectionne celles qui vont me permettre d'identifier les produits et de les catégoriser :
- code : code-barres du produit
- product_name : nom du produit
- brands : marque du produit
- countries_fr : pays de vente du produit
- pnns_groups_1 et pnns_groups_2 : familles et sous-familles de produits définies dans le cadre du *Plan National Nutrition Santé* (PNNS)
- nutrition_grade_fr : classes du Nutri-Score

En réalité, il me faut absolument les variables de familles et sous-familles pour catégoriser un produit. Cela est nécessaire pour que l'application puisse suggérer d'autres produits similaires mieux classés.

In [11]:
df_categorisable = df.loc[df['product_name'].notna() & df['pnns_groups_1'].notna() & df['pnns_groups_2'].notna()]

print(f'Il subsiste {df_categorisable.shape[0]} sur {df.shape[0]} observations initiales.')
print(f'Cela représente un taux de {df_categorisable.shape[0]/df.shape[0]*100:.1f} %.')

Il subsiste 88498 sur 320772 observations initiales.
Cela représente un taux de 27.6 %.


Quelles sont les conséquences de ce premier filtre sur les taux de remplissage ?

In [12]:
calcul_remplissage(df_categorisable)

Unnamed: 0,Taux de remplissage,Nombre de manquants
code,100.0,0
product_name,100.0,0
states_tags,100.0,0
states,100.0,0
pnns_groups_2,100.0,0
pnns_groups_1,100.0,0
url,100.0,0
states_fr,100.0,0
last_modified_datetime,100.0,0
creator,100.0,1


Maintenant que tous les produits restants peuvent être catégoriser, je m'intéresse aux variables supplémentaires utilisables par l'application.

Aux 7 précédemment identifiées, je retiens les données quantitatives relatives directement ou indirectement au Nutri-Score, soit les  variables supplémentaires :
- energy_100g
- saturated-fat_100g
- sodium_100g
- sugars_100g
- proteins_100g
- fiber_100g
- fruits-vegetables-nuts_100g
- fat_100g
- nutrition-score-fr_100g

In [13]:
variables_quantitatives = ['energy_100g', 'saturated-fat_100g', 'sodium_100g', 'sugars_100g', 'proteins_100g', 'fiber_100g',
             'fruits-vegetables-nuts_100g', 'fat_100g', 'nutrition-score-fr_100g']
variables = ['code', 'product_name', 'brands', 'countries_fr', 'pnns_groups_1', 'pnns_groups_2', 'nutrition_grade_fr'] + variables_quantitatives
df_filtre = df_categorisable[variables]
df_filtre = df_filtre.reset_index(drop=True)

In [14]:
df_filtre.head()

Unnamed: 0,code,product_name,brands,countries_fr,pnns_groups_1,pnns_groups_2,nutrition_grade_fr,energy_100g,saturated-fat_100g,sodium_100g,sugars_100g,proteins_100g,fiber_100g,fruits-vegetables-nuts_100g,fat_100g,nutrition-score-fr_100g
0,24600,Filet de bœuf,,France,unknown,unknown,,,,,,,,,,
1,36252,Lion Peanut x2,Sunridge,"France,États-Unis",unknown,unknown,e,1883.0,12.5,0.038,57.5,2.5,2.5,,20.0,22.0
2,39259,Twix x2,,France,unknown,unknown,,,,,,,,,,
3,39529,Pack de 2 Twix,"Twix, Lundberg","France,États-Unis",unknown,unknown,,1481.0,,,,6.25,6.2,,4.17,
4,290616,Salade Cesar,Kirkland Signature,Canada,Fruits and vegetables,Vegetables,c,1210.0,7.0,0.85,0.0,22.0,2.0,,12.0,6.0


In [15]:
calcul_remplissage(df_filtre)

Unnamed: 0,Taux de remplissage,Nombre de manquants
code,100.0,0
product_name,100.0,0
pnns_groups_1,100.0,0
pnns_groups_2,100.0,0
countries_fr,99.9,131
brands,97.4,2268
energy_100g,75.7,21461
proteins_100g,75.0,22116
fat_100g,71.9,24863
sodium_100g,71.3,25365


Je note que même si les familles et sous-familles sont remplies à 100%, il apparaît des valeurs *unknown*.

**Traitement des *pnns_groups_1* et *pnns_groups_2***

Il s'agit des valeurs *unknown* qu'il me faut quantifier.

In [16]:
pnns1_unknown = df_filtre.loc[df_filtre['pnns_groups_1'] == 'unknown'].shape[0]
print('Il y a', pnns1_unknown, 'observations avec unknown comme valeur de pnns_groups_1')
pnns2_unknown = df_filtre.loc[df_filtre['pnns_groups_2'] == 'unknown'].shape[0]
print('Il y a', pnns2_unknown, 'observations avec unknown comme valeur de pnns_groups_2')

Il y a 20154 observations avec unknown comme valeur de pnns_groups_1
Il y a 20154 observations avec unknown comme valeur de pnns_groups_2


Je supprime toutes les observations présentes ou futures concernées.

In [17]:
df_filtre = df_filtre.loc[(df_filtre['pnns_groups_1'] != 'unknown') & (df_filtre['pnns_groups_2'] != 'unknown')]
print(f'Il subsiste {df_filtre.shape[0]} sur {df.shape[0]} observations initiales.')
print(f'Cela représente un taux de {df_filtre.shape[0]/df.shape[0]*100:.1f} %.')

Il subsiste 68344 sur 320772 observations initiales.
Cela représente un taux de 21.3 %.


Voyons les modalités prises :

In [18]:
df_filtre['pnns_groups_1'].unique()

array(['Fruits and vegetables', 'Sugary snacks', 'Cereals and potatoes',
       'Composite foods', 'Fish Meat Eggs', 'Beverages', 'Fat and sauces',
       'fruits-and-vegetables', 'Milk and dairy products', 'Salty snacks',
       'sugary-snacks', 'cereals-and-potatoes', 'salty-snacks'],
      dtype=object)

In [19]:
df_filtre['pnns_groups_2'].unique()

array(['Vegetables', 'Biscuits and cakes', 'Bread', 'Legumes',
       'Pizza pies and quiche', 'Meat', 'Non-sugared beverages', 'Sweets',
       'Sweetened beverages', 'Dressings and sauces', 'One-dish meals',
       'vegetables', 'Soups', 'Chocolate products', 'Fruits', 'Cereals',
       'Milk and yogurt', 'Fats', 'Cheese', 'Sandwich', 'Appetizers',
       'Nuts', 'Breakfast cereals', 'Artificially sweetened beverages',
       'Fruit juices', 'Eggs', 'Fish and seafood', 'Dried fruits',
       'Ice cream', 'Processed meat', 'Potatoes', 'Dairy desserts',
       'Fruit nectars', 'pastries', 'fruits', 'Salty and fatty products',
       'cereals', 'legumes', 'nuts'], dtype=object)

Je constate des variations sur des modalités similaires dans ces variables.
Par exemple :
- sugary-snacks
- Sugary snacks

Des modalités ont une variante avec tiret et tout en minuscules.

Je transforme les variantes en modalités d'origine.

In [20]:
df_filtre['pnns_groups_1'] = df_filtre['pnns_groups_1'].str.capitalize().str.replace('-', ' ')
df_filtre['pnns_groups_2'] = df_filtre['pnns_groups_2'].str.capitalize().str.replace('-', ' ')

J'ai aussi un doute avec la modalité *Legumes* qui pourrait être une traduction en français pour *Vegetables* mais pourrait aussi désigner, en anglais, la famille des *Légumineuses*, je vérifie d'abord.

In [21]:
df_filtre.loc[df_filtre['pnns_groups_2'] == 'Legumes'].sample(10)

Unnamed: 0,code,product_name,brands,countries_fr,pnns_groups_1,pnns_groups_2,nutrition_grade_fr,energy_100g,saturated-fat_100g,sodium_100g,sugars_100g,proteins_100g,fiber_100g,fruits-vegetables-nuts_100g,fat_100g,nutrition-score-fr_100g
57743,3760042970040,haricots mange tout,Le Marché,France,Cereals and potatoes,Legumes,,,,,,,,,,
62115,4010355208576,Erdnussmus,dm Bio,"Autriche,République tchèque,Allemagne",Cereals and potatoes,Legumes,c,2667.0,7.7,0.007874,4.5,25.0,8.6,,50.0,9.0
41434,3351700067112,Peanut Butter Crunchy,Duerr s,France,Cereals and potatoes,Legumes,d,2385.0,8.0,0.255906,10.0,21.0,0.0,,,18.0
82038,8422584000351,Tofu estilo japonés,"Ecocesta Productos Ecológicos,//Propiedad de:/...",Espagne,Cereals and potatoes,Legumes,a,615.0,1.3,0.03937,0.03,15.2,1.6,,8.5,-5.0
62857,4019738103491,Räuchertofu Premium,veggie life,Allemagne,Cereals and potatoes,Legumes,d,839.0,1.9,0.787,1.0,21.7,,,11.7,11.0
65772,4388844021389,Erdnussbutter creamy,REWE Bio,Allemagne,Cereals and potatoes,Legumes,e,2630.0,10.6,0.393701,7.3,26.6,,,51.5,22.0
83887,8480017012333,Alubias blancas cocidas en conserva,"Dia,//Propiedad de://,Dia - Distribuidora Inte...","Maroc,Espagne",Cereals and potatoes,Legumes,,336.0,,,,4.8,,,0.6,
21682,3222474196547,Lentilles corail Bio - 500 g - Casino,Casino,France,Cereals and potatoes,Legumes,a,1320.0,0.3,0.01,2.5,23.0,19.0,,1.7,-7.0
38965,3307130000199,Haricots rouges biologiques,Bioviver,France,Cereals and potatoes,Legumes,a,308.0,0.1,0.153543,0.4,5.3,4.8,,0.5,-7.0
34968,3268387010501,Pois chiches,Conserverie casatorra,France,Cereals and potatoes,Legumes,,,,,,,,,,


Il s'agit bien de légumineuses donc il faut laisser cette distinction.

Je place les familles et sous-familles dans des listes pour pourront m'être utiles plus tard.

In [22]:
familles = df_filtre['pnns_groups_1'].unique().tolist()
sous_familles = df_filtre['pnns_groups_2'].unique().tolist()

## Traitement des valeurs aberrantes

**Données nutritionnelles**

Par nature, les données nutritionnelles sont un pourcentage, sauf pour l'énergie fournie en kJ.

Les valeurs aberrantes sont celles négatives ou >100.
Je vérifie à quoi ressemblent ces éventuelles observations.

In [23]:
outliers_nutrition = df_filtre.loc[(df_filtre['saturated-fat_100g'] > 100) | (df_filtre['saturated-fat_100g'] < 0) 
              | (df_filtre['sodium_100g'] > 100) | (df_filtre['sodium_100g'] < 0) 
              | (df_filtre['sugars_100g'] > 100) | (df_filtre['sugars_100g'] < 0) 
              | (df_filtre['proteins_100g'] > 100) | (df_filtre['proteins_100g'] < 0) 
              | (df_filtre['fat_100g'] > 100) | (df_filtre['fat_100g'] < 0) 
              | (df_filtre['fiber_100g'] > 100) | (df_filtre['fiber_100g'] < 0) 
              | (df_filtre['fruits-vegetables-nuts_100g'] > 100) | (df_filtre['fruits-vegetables-nuts_100g'] < 0)]
outliers_nutrition

Unnamed: 0,code,product_name,brands,countries_fr,pnns_groups_1,pnns_groups_2,nutrition_grade_fr,energy_100g,saturated-fat_100g,sodium_100g,sugars_100g,proteins_100g,fiber_100g,fruits-vegetables-nuts_100g,fat_100g,nutrition-score-fr_100g
2849,1364008,Tomato Ketchup,Heinz,États-Unis,Fat and sauces,Dressings and sauces,d,2510.0,0.588,0.00417,134.0,7.06,0.0,,0.588,17.0
6026,2000000045416,flake,,en:السعودية,Sugary snacks,Chocolate products,e,519.0,17.7,109.0,57.6,8.5,1.9,,28.5,29.0
17980,3161712000928,Caprice des dieux,Caprice des Dieux,France,Milk and dairy products,Cheese,d,1379.0,21.0,0.551181,-0.1,15.3,,,30.0,15.0
49003,3560070740338,Sirop d'agave,Carrefour Bio,France,Sugary snacks,Sweets,,1785.0,,,105.0,,,,,
53352,3596710288755,mini choux goût fromage de chèvre - poivre,Auchan,France,Salty snacks,Appetizers,e,18700.0,210.0,3.67,22.7,0.0,0.0,,380.0,35.0
69702,5060224881163,Cheese salad,,Royaume-Uni,Composite foods,Sandwich,d,348.0,4.8,117.165354,0.4,3.6,0.1,,4.7,15.0
79181,8005305900255,Ekstra Jomfru Olivenolie,Santagata,Danemark,Fat and sauces,Fats,d,3737.0,15.0,0.0,0.0,0.0,,,101.0,11.0
79979,8032942610032,Graine de couscous moyen,La méditerranéa,France,Cereals and potatoes,Cereals,a,1482.0,0.3,0.003937,2.5,12.0,,,105.0,-1.0


Il y a finalement peu d'observations correspondantes.

Quelques unes pourraient être récupérées, comme le fromage *Caprice des dieux* avec -0.1% en sucres ou les sirops d'agave.

Mais vu le faible nombre et dans le cadre d'un **traitement automatisé**, je ne ferai pas de cas par cas.

In [24]:
df_filtre.drop(index=outliers_nutrition.index, inplace=True)
print(f'Il subsiste {df_filtre.shape[0]} sur {df.shape[0]} observations initiales.')
print(f'Cela représente un taux de {df_filtre.shape[0]/df.shape[0]*100:.1f} %.')

Il subsiste 68336 sur 320772 observations initiales.
Cela représente un taux de 21.3 %.


**Variable énergétique *energy_100g***

Diverses sources mentionnent les aliments les plus caloriques jusqu'à 900kcal/100g, soit 3765 kJ/100g.
Je fixe comme outliers les valeurs négatives ou au-delà de 3800.

In [25]:
outliers_energie = df_filtre.loc[(df_filtre['energy_100g'] > 3800) | (df_filtre['energy_100g'] < 0)]
outliers_energie

Unnamed: 0,code,product_name,brands,countries_fr,pnns_groups_1,pnns_groups_2,nutrition_grade_fr,energy_100g,saturated-fat_100g,sodium_100g,sugars_100g,proteins_100g,fiber_100g,fruits-vegetables-nuts_100g,fat_100g,nutrition-score-fr_100g
1468,51500239131,Crisco All-Vegetable Shortening,Crisco,États-Unis,Fat and sauces,Fats,,3830.0,29.2,0.0,,0.0,,,100.0,
6028,2000000045489,bubbly,dairy milk,en:السعودية,Sugary snacks,Chocolate products,e,22000.0,18.0,0.11,54.0,8.9,1.8,,29.5,29.0
7308,20233679,Halva with Almonds,"Eridanous,Lidl",France,Sugary snacks,Sweets,e,9983.0,7.8,0.0,32.0,12.9,,,36.8,24.0
9004,20842437,Lardons fumés,Saint Alby,France,Fish meat eggs,Processed meat,e,4356.0,6.6,1.102362,0.7,17.0,,,20.0,26.0
10375,26009575,Pruneaux d'Agen Dénoyautés,Golden Fruit,France,Fruits and vegetables,Dried fruits,d,4117.0,0.1,0.003937,37.9,2.4,0.0,,0.2,12.0
16241,3092718605216,Sirop de cerise,Teisseire,France,Beverages,Non sugared beverages,e,5904.0,0.0,0.0,83.0,0.0,0.0,,,20.0
16627,3101740020017,Confiture de Châtaignes d'Ardèche,Sabaton,France,Sugary snacks,Sweets,d,4159.0,0.2,0.003937,41.0,0.46,2.3,50.0,,15.0
23623,3245390220660,Rillettes de sardine de Bretagne,Reflets de France,France,Fish meat eggs,Fish and seafood,d,4000.0,4.6,0.433071,0.1,14.0,0.0,,,18.0
24609,3250390001522,Sirop Grenadine - Recette William,Paquito,France,Beverages,Sweetened beverages,e,5268.0,0.1,0.003937,73.5,0.5,0.0,,,20.0
26570,3250392034757,Pains Au Chocolat,Netto,France,Sugary snacks,Pastries,e,6109.0,19.0,0.354331,13.4,7.3,0.0,,,25.0


In [26]:
outliers_energie.shape

(24, 16)

Je supprime ces observations.

In [27]:
df_filtre.drop(index=outliers_energie.index, inplace=True)
print(f'Il subsiste {df_filtre.shape[0]} sur {df.shape[0]} observations initiales.')
print(f'Cela représente un taux de {df_filtre.shape[0]/df.shape[0]*100:.1f} %.')

Il subsiste 68312 sur 320772 observations initiales.
Cela représente un taux de 21.3 %.


**Score nutritionnel *nutrition-score-fr_100g***

Ce score est mathématiquement borné entre -15 et +40.
Quelles observations sont concernées ?

In [28]:
outliers_nutriscore = df_filtre.loc[(df_filtre['nutrition-score-fr_100g'] > 40) | (df_filtre['nutrition-score-fr_100g'] < -15)]
outliers_nutriscore

Unnamed: 0,code,product_name,brands,countries_fr,pnns_groups_1,pnns_groups_2,nutrition_grade_fr,energy_100g,saturated-fat_100g,sodium_100g,sugars_100g,proteins_100g,fiber_100g,fruits-vegetables-nuts_100g,fat_100g,nutrition-score-fr_100g


Parfait, la variable est bien cadrée.
Dans le cadre d'une automatisation, je procède à la suppression d'éventuelles futures entrées erronées.

In [29]:
df_filtre.drop(index=outliers_nutriscore.index, inplace=True)
print(f'Il subsiste {df_filtre.shape[0]} sur {df.shape[0]} observations initiales.')
print(f'Cela représente un taux de {df_filtre.shape[0]/df.shape[0]*100:.1f} %.')

Il subsiste 68312 sur 320772 observations initiales.
Cela représente un taux de 21.3 %.


**Variables qualitatives**

Pour aborder les variables de nature qualitative, je continue sur les classes du nutriscore ***nutrition_grade_fr***.
Quelles sont les différentes modalités ?

In [30]:
classes_nutriscore = df_filtre['nutrition_grade_fr'].unique().tolist()
classes_nutriscore

['c', nan, 'b', 'e', 'd', 'a']

Parfait, là aussi : il n'y a que les classes de valeurs attendues ou des manquants qu'il me sera peut-être possible de recalculer.

Je veille à supprimer toute autre éventuelle future entrée non conforme.

In [31]:
df_filtre = df_filtre.loc[(df_filtre['nutrition_grade_fr'].isin(['e', 'c', 'b', 'd', 'a'])) | (df_filtre['nutrition_grade_fr'].isna())]

## Traitement des dernières valeurs manquantes

Je récapitule les taux de remplissage des variables.

In [32]:
calcul_remplissage(df_filtre)

Unnamed: 0,Taux de remplissage,Nombre de manquants
code,100.0,0
product_name,100.0,0
pnns_groups_1,100.0,0
pnns_groups_2,100.0,0
countries_fr,99.9,51
brands,98.8,808
energy_100g,80.1,13584
proteins_100g,79.4,14055
fat_100g,76.7,15912
sodium_100g,75.7,16588


**Variable *countries_fr***

La méconnaissance du pays de vente, surtout en si faible proportion, n'est pas un frein à la mise en oeuvre de l'application.
Je décide d'affecter la valeur *Inconnu* à ces observations.

In [33]:
df_filtre.loc[df_filtre['countries_fr'].isna(), 'countries_fr'] = 'Inconnu'

**Variable *brands***

Voyons de quoi il retourne :

In [34]:
df_filtre.loc[df_filtre['brands'].isna()]

Unnamed: 0,code,product_name,brands,countries_fr,pnns_groups_1,pnns_groups_2,nutrition_grade_fr,energy_100g,saturated-fat_100g,sodium_100g,sugars_100g,proteins_100g,fiber_100g,fruits-vegetables-nuts_100g,fat_100g,nutrition-score-fr_100g
44,00008761,Spring onions,,Royaume-Uni,Fruits and vegetables,Vegetables,,,,,,,,,,
99,0007200000021,Sauce bolognaise,,Suisse,Fat and sauces,Dressings and sauces,,,,,,,,,,
116,0009138378043,Rainbow Cherry,,États-Unis,Sugary snacks,Sweets,,,,,,,,,,
135,0010700531001,Milk Duds,,États-Unis,Sugary snacks,Sweets,e,1820.0,8.97,0.179,51.3,2.56,0.0,,15.4,24.0
240,0013000001243,Ketchup Heinze,,Inconnu,Fat and sauces,Dressings and sauces,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
88109,9315748110005,McLaren Vale Free Range Eggs,,Australie,Fish meat eggs,Eggs,b,559.0,3.30,0.136,0.3,12.20,,,9.9,0.0
88215,9332907005101,Sweet Baby Munch and Crunch Carrots,,Australie,Fruits and vegetables,Vegetables,,,,,,,,,,
88262,9342508000061,Strawberry cheesecake,,Australie,Sugary snacks,Biscuits and cakes,,,,,,,,,,
88271,9344378000059,Chicken tandoori pizza,,Australie,Composite foods,Pizza pies and quiche,,,,,,,,,,


De même, la marque est moins primordiale que le nom du produit et il serait dommage de supprimer une observation pour ce manquant.

Je décide d'affecter le nom de produit à la marque, quand elle manque.

In [35]:
df_filtre.loc[df_filtre['brands'].isna(), 'brands'] = df_filtre['product_name']

Je laisse de côté la dernière variable qualitative contenant encore des manquants *nutrition_grade_fr* car elle dépend directement de la variable quantitative *nutrition-score-fr_100g* qu'il sera possible reconstruire.

**variables quantitatives**

Je souhaite implémenter la médiane des valeurs par sous-famille.
J'observe ces médianes :

In [36]:
df_filtre.groupby('pnns_groups_2')[variables_quantitatives].median()

Unnamed: 0_level_0,energy_100g,saturated-fat_100g,sodium_100g,sugars_100g,proteins_100g,fiber_100g,fruits-vegetables-nuts_100g,fat_100g,nutrition-score-fr_100g
pnns_groups_2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Appetizers,2110.0,3.1,0.629921,2.4,6.4,4.0,5.5,27.1,13.0
Artificially sweetened beverages,19.75,0.0,0.00909,0.785,0.0,0.0,12.0,0.0,2.0
Biscuits and cakes,1936.0,9.6,0.224409,30.55,6.1,2.6,20.0,21.0,19.0
Bread,1240.5,0.6,0.472441,4.2,9.2,4.4,0.0,4.3,1.0
Breakfast cereals,1640.0,1.7,0.15748,21.9,8.5,6.635,5.0,7.1,8.0
Cereals,1489.0,0.4755,0.012598,2.4,10.5,3.0,0.0,2.0,-2.0
Cheese,1253.0,17.0,0.551181,0.5,18.0,0.0,0.0,25.0,14.0
Chocolate products,2273.0,19.0,0.051181,47.0,6.7,4.9,5.0,34.2,23.0
Dairy desserts,573.0,3.3,0.051181,16.0,3.4,0.4,4.0,5.15,5.0
Dressings and sauces,611.0,1.0,0.63,4.8,1.5,1.0,0.0,6.9,11.0


Je ne note pas d'incohérence mais je remarque 2 manquants en *fruits-vegetables-nuts_100g* pour *Potatoes* et *Salty and fatty products*. Il faudra mettre ces valeurs à 0 plus tard.

En attendant, j'effectue le remplacement de tous les manquants restants par la médiane de sous-famille.

In [37]:
df_filtre.fillna(df_filtre.groupby('pnns_groups_2').transform('median'),inplace=True)

  df_filtre.fillna(df_filtre.groupby('pnns_groups_2').transform('median'),inplace=True)


Les taux de remplacement ont dû bien évoluer.

In [38]:
calcul_remplissage(df_filtre)

Unnamed: 0,Taux de remplissage,Nombre de manquants
code,100.0,0
product_name,100.0,0
brands,100.0,0
countries_fr,100.0,0
pnns_groups_1,100.0,0
pnns_groups_2,100.0,0
energy_100g,100.0,0
saturated-fat_100g,100.0,0
sodium_100g,100.0,0
sugars_100g,100.0,0


Comme prévu, il subsiste des manquants sur la variable *fruits-vegetables-nuts_100g*.

Je vérifie ce qu'il en est.

In [39]:
df_filtre.loc[df_filtre['fruits-vegetables-nuts_100g'].isna()]

Unnamed: 0,code,product_name,brands,countries_fr,pnns_groups_1,pnns_groups_2,nutrition_grade_fr,energy_100g,saturated-fat_100g,sodium_100g,sugars_100g,proteins_100g,fiber_100g,fruits-vegetables-nuts_100g,fat_100g,nutrition-score-fr_100g
725,28400040112,Cheetos,Cheetos,États-Unis,Cereals and potatoes,Potatoes,,402.0,15.0,0.25,1.0,2.0,2.0,,20.0,-4.0
735,28400090858,Lays,Lays,États-Unis,Cereals and potatoes,Potatoes,,402.0,1.5,0.17,1.0,2.0,2.0,,65.0,-4.0
840,33383570051,Sweet Potatoes,Topashaw Farms,États-Unis,Cereals and potatoes,Potatoes,,402.0,0.5,0.202362,0.7,2.0,2.0,,2.15,-4.0
2733,1058963,Desiree potatoes,by sainsbury's,Royaume-Uni,Cereals and potatoes,Potatoes,a,343.0,0.1,0.00394,0.8,1.8,1.6,,0.5,-7.0
2852,1370300,lady baffour potatoes,"sainsbury's,sainsbury's SO Organic",Royaume-Uni,Cereals and potatoes,Potatoes,,343.0,0.1,0.202362,0.8,1.8,1.6,,0.5,-4.0
3576,3248461,Tesco British maris piper potatoes,Tesco,Royaume-Uni,Cereals and potatoes,Potatoes,a,346.0,0.1,0.03937,0.6,2.1,1.3,,0.2,-6.0
4923,2000000003778,Deluxe Potatoes Moyenne,McDonald's,France,Cereals and potatoes,Potatoes,a,816.0,1.0,0.472441,0.0,3.0,3.0,,9.0,-3.0
6363,20024451,Pommes de terres entières,Freshona,France,Cereals and potatoes,Potatoes,a,319.0,0.1,0.03937,0.5,2.0,2.0,,0.2,-6.0
6912,20141486,PopCorn,Mcennedy,France,Salty snacks,Salty and fatty products,c,1780.0,4.67,0.0333,23.7,9.67,10.3,,8.0,9.0
7022,20163822,Deutsches Kartoffelpüree,Ein gutes Stück Heimat,Allemagne,Cereals and potatoes,Potatoes,a,1492.0,0.4,0.1,0.8,8.3,4.6,,0.6,-5.0


On a bien que des produits du type *Potatoes* ou *Salty and fatty products* pour lesquels je vais affecter la valeur 0.

In [40]:
df_filtre.loc[df_filtre['fruits-vegetables-nuts_100g'].isna(), 'fruits-vegetables-nuts_100g'] = 0

A présent, je peux finaliser les manquants de *nutrition_grade_fr* en me servant du *nutrition-score-fr_100g* en prenant garde au classement particulier concernant les boissons.

In [41]:
df_filtre['pnns_groups_1'].unique()

array(['Fruits and vegetables', 'Sugary snacks', 'Cereals and potatoes',
       'Composite foods', 'Fish meat eggs', 'Beverages', 'Fat and sauces',
       'Milk and dairy products', 'Salty snacks'], dtype=object)

In [42]:
df_filtre.loc[(df_filtre['nutrition_grade_fr'].isna())
             & (df_filtre['pnns_groups_1']=='Beverages') 
             & (df_filtre['nutrition-score-fr_100g']<=1), 'nutrition_grade_fr'] = 'b'

df_filtre.loc[(df_filtre['nutrition_grade_fr'].isna())
             & (df_filtre['pnns_groups_1']=='Beverages') 
             & (df_filtre['nutrition-score-fr_100g']<=5)
             & (df_filtre['nutrition-score-fr_100g']>1), 'nutrition_grade_fr'] = 'c'
                
df_filtre.loc[(df_filtre['nutrition_grade_fr'].isna())
             & (df_filtre['pnns_groups_1']=='Beverages') 
             & (df_filtre['nutrition-score-fr_100g']<=9)
             & (df_filtre['nutrition-score-fr_100g']>5), 'nutrition_grade_fr'] = 'd'

df_filtre.loc[(df_filtre['nutrition_grade_fr'].isna())
             & (df_filtre['pnns_groups_1']=='Beverages') 
             & (df_filtre['nutrition-score-fr_100g']>9), 'nutrition_grade_fr'] = 'e'
                
df_filtre.loc[(df_filtre['nutrition_grade_fr'].isna())
             & (df_filtre['pnns_groups_1']!='Beverages') 
             & (df_filtre['nutrition-score-fr_100g']<=-1), 'nutrition_grade_fr'] = 'a'
                
df_filtre.loc[(df_filtre['nutrition_grade_fr'].isna())
             & (df_filtre['pnns_groups_1']!='Beverages') 
             & (df_filtre['nutrition-score-fr_100g']<=2)
             & (df_filtre['nutrition-score-fr_100g']>-1), 'nutrition_grade_fr'] = 'b'

df_filtre.loc[(df_filtre['nutrition_grade_fr'].isna())
             & (df_filtre['pnns_groups_1']!='Beverages') 
             & (df_filtre['nutrition-score-fr_100g']<=10)
             & (df_filtre['nutrition-score-fr_100g']>2), 'nutrition_grade_fr'] = 'c'

df_filtre.loc[(df_filtre['nutrition_grade_fr'].isna())
             & (df_filtre['pnns_groups_1']!='Beverages') 
             & (df_filtre['nutrition-score-fr_100g']<=18)
             & (df_filtre['nutrition-score-fr_100g']>10), 'nutrition_grade_fr'] = 'd'

df_filtre.loc[(df_filtre['nutrition_grade_fr'].isna())
             & (df_filtre['pnns_groups_1']!='Beverages')
             & (df_filtre['nutrition-score-fr_100g']>18), 'nutrition_grade_fr'] = 'e'

Je vérifie que les taux de remplissage sont à 100% partout.

In [43]:
calcul_remplissage(df_filtre)

Unnamed: 0,Taux de remplissage,Nombre de manquants
code,100.0,0
product_name,100.0,0
brands,100.0,0
countries_fr,100.0,0
pnns_groups_1,100.0,0
pnns_groups_2,100.0,0
nutrition_grade_fr,100.0,0
energy_100g,100.0,0
saturated-fat_100g,100.0,0
sodium_100g,100.0,0


## Préparation du dataframe pour l'analyse exploratoire

In [44]:
df_filtre.to_csv("off_propre.csv", sep=',', index=False)