## Importation des différentes librairies dont nous avons besoin et ouverture du fichier de données que nous allons étudier

In [380]:
# Import of all the libraries useful for this file
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pylab as plt
import seaborn as sns

# Reading of the CSV file for the MVP
MVP_food_data = pd.read_csv('/home/apprenant/Documents/Brief-5-Rachid-Karbiche-2/data/02_intermediate_data/MVP_openfoodfacts_data.csv', low_memory= False)

# Print of the current versions of our libraries
print('Matplotlib Version: ' + mpl.__version__)
print('NumPy Version: ' + np.version.full_version)
print('Python Version: ' + sys.version)
print('Seaborn Version: ' + sns.__version__)

Matplotlib Version: 3.3.2
NumPy Version: 1.19.2
Python Version: 3.8.5 (default, Sep  4 2020, 07:30:14) 
[GCC 7.3.0]
Seaborn Version: 0.11.0


In [381]:
MVP_food_data.head()

Unnamed: 0,product_name,categories,countries_en,ingredients_text,nutrition_grade_fr,pnns_groups_1,energy_100g,fat_100g,saturated-fat_100g,sugars_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,fruits-vegetables-nuts_100g,nutrition-score-fr_100g
0,Farine de blé noir,,France,,,,,,,,,,,,,
1,Naturablue original,,France,,,,,,,,,,,,,
2,Filet de bœuf,Filet de bœuf,France,,,unknown,,,,,,,,,,
3,,,France,,,,,,,,,,,,,
4,Naturakrill original,,France,,,,,,,,,,,,,


In [382]:
MVP_food_data.shape

(129320, 16)

Pour le MVP, j'ai donc conservé 16 colonnes sur lesquels j'ai travaillé. Sans plus tarder, commençons par faire le data cleaning :

## Recherche et traitement des doublons

Recherchons d'abord les doublons parfaits :

In [383]:
duplicateRowsDF = MVP_food_data[MVP_food_data.duplicated()]
print(duplicateRowsDF)

       product_name                                     categories  \
32              NaN                                            NaN   
39              NaN                                            NaN   
46              NaN                                            NaN   
49              NaN                                            NaN   
50              NaN                                            NaN   
...             ...                                            ...   
129305          NaN  fr:Pâtes à tartiner aux noisettes et au cacao   
129306          NaN  fr:Pâtes à tartiner aux noisettes et au cacao   
129307          NaN  fr:Pâtes à tartiner aux noisettes et au cacao   
129310          NaN  fr:Pâtes à tartiner aux noisettes et au cacao   
129313     Poireaux                                            NaN   

       countries_en ingredients_text nutrition_grade_fr  pnns_groups_1  \
32           France              NaN                NaN            NaN   
39         

In [384]:
MVP_food_data.duplicated().value_counts()

False    122473
True       6847
dtype: int64

On remarque donc qu'il y a 6 847 doublons parfaits dans notre database. Nous avons ici deux possibilités par rapport à la variable principale de notre database : product_name. La première est le fait que product_name est NaN, auquel cas les doublons ne nous permettront pas de l'identifier (on supprimera d'ailleurs les index contenant un product_name NaN). La second est le fait que product_name existe et qu'il n'est donc pas nécessaire de conserver les doublons. De plus, on pourra repérer plus facilement ces doublons en filtrant des colonnes telles que product_name, categories, ingredients_text et pnns_groups_1. Privilégions d'abord la second option en ne gardant qu'une occurrence de ces index.

In [385]:
MVP_food_data.drop_duplicates(subset=['product_name', 'categories', 'ingredients_text', 'pnns_groups_1'])

Unnamed: 0,product_name,categories,countries_en,ingredients_text,nutrition_grade_fr,pnns_groups_1,energy_100g,fat_100g,saturated-fat_100g,sugars_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,fruits-vegetables-nuts_100g,nutrition-score-fr_100g
0,Farine de blé noir,,France,,,,,,,,,,,,,
1,Naturablue original,,France,,,,,,,,,,,,,
2,Filet de bœuf,Filet de bœuf,France,,,unknown,,,,,,,,,,
3,,,France,,,,,,,,,,,,,
4,Naturakrill original,,France,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129315,Thé vert Earl grey,thés verts,France,"thé vert, arôme naturel bergamote avec autres ...",,Beverages,21.0,0.2,0.2,0.5,0.2,0.5,0.0254,0.01,,
129316,"Cheese cake thé vert, yuzu",,France,,,,,,,,,,,,,
129317,Rillette d'oie,"Viandes,Produits à tartiner,Charcuteries,Produ...",France,"viande d'oie, graisse de canard, épices, sel, ...",,Fish Meat Eggs,,,,,,,,,,
129318,Biscottes bio,,France,,,unknown,,,,,,,,,,


In [386]:
no_duplicates_MVP_data = MVP_food_data.drop_duplicates(subset=['product_name', 'categories', 'ingredients_text', 'pnns_groups_1'])

## Traitement des valeurs manquantes

Dans un premier temps, on va s'intéresser à product_name. Il s'agit de ne pas se précipiter en supprimant directement les index ne mentionnant aucun product_name. On sait en effet que categories ou pnns_groups_1 peuvent nous apporter des renseignements précieux afin de trouver le nom du produit.

In [387]:
no_duplicates_MVP_data.product_name.isnull().value_counts()

False    120326
True        405
Name: product_name, dtype: int64

Nous avons 405 product_name inconnus. Eliminons déjà ceux qu'on ne peut pas du tout identifier :

In [388]:
no_duplicates_MVP_data.loc[(no_duplicates_MVP_data['product_name'].isnull()) & (no_duplicates_MVP_data['categories'].isnull()) & (no_duplicates_MVP_data['ingredients_text'].isnull()) & (no_duplicates_MVP_data['pnns_groups_1'].isnull())]

Unnamed: 0,product_name,categories,countries_en,ingredients_text,nutrition_grade_fr,pnns_groups_1,energy_100g,fat_100g,saturated-fat_100g,sugars_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,fruits-vegetables-nuts_100g,nutrition-score-fr_100g
3,,,France,,,,,,,,,,,,,


Cette ligne n'a aucun renseignement. Supprimons-la !

In [389]:
removed_product_MVP_data = no_duplicates_MVP_data.drop(no_duplicates_MVP_data.index[3])

In [390]:
removed_product_MVP_data.product_name.isnull().value_counts()

False    120326
True        404
Name: product_name, dtype: int64

Poursuivons maintenant en vérifiant si un product_name inconnu a une catégorie :

In [391]:
removed_product_MVP_data.loc[(removed_product_MVP_data['product_name'].isnull()) & (removed_product_MVP_data['categories'].notnull())]

Unnamed: 0,product_name,categories,countries_en,ingredients_text,nutrition_grade_fr,pnns_groups_1,energy_100g,fat_100g,saturated-fat_100g,sugars_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,fruits-vegetables-nuts_100g,nutrition-score-fr_100g
22,,Sauces,France,,d,Fat and sauces,1215.0,23.800,1.8,17.0,,1.30,1.70,0.669291,,14.0
41,,Crème de marrons,France,,,unknown,,,,,,,,,,
96,,Lagers,France,,,,,,,,,,,,,
131,,it:Aglianico del Vulture,France,,,,,,,,,,,,,
135,,"sandwich,sandwich au jambon,sandwich au jambon...",France,,,Composite foods,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
127798,,sucre d'érable,France,,,Sugary snacks,,,,,,,,,,
127913,,Noodles,France,,b,Cereals and potatoes,585.0,0.300,0.0,0.2,,3.70,0.31,0.122047,,0.0
127921,,"Plant-based foods and beverages,Plant-based fo...",France,,,Cereals and potatoes,551.0,0.455,0.0,,1.36,3.18,1.75,0.691000,,
128265,,Biscuit asiatique,France,,a,unknown,930.0,13.000,2.5,13.0,3.00,5.00,0.02,0.007874,,-1.0


Pour tous ces index, passons la valeur de categories à product_name :

In [392]:
removed_product_MVP_data.loc[(removed_product_MVP_data['product_name'].isnull()) & (removed_product_MVP_data['categories'].notnull()), 'product_name'] = removed_product_MVP_data['categories']

Vérifions :

In [393]:
removed_product_MVP_data.loc[(removed_product_MVP_data['product_name'].isnull()) & (removed_product_MVP_data['categories'].notnull())]

Unnamed: 0,product_name,categories,countries_en,ingredients_text,nutrition_grade_fr,pnns_groups_1,energy_100g,fat_100g,saturated-fat_100g,sugars_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,fruits-vegetables-nuts_100g,nutrition-score-fr_100g


C'est ok ! Maintenant, voyons les index de product_name inconnus ayant un pnns_groups_1 :

In [394]:
removed_product_MVP_data.loc[(removed_product_MVP_data['product_name'].isnull()) & (removed_product_MVP_data['pnns_groups_1'].notnull())]

Unnamed: 0,product_name,categories,countries_en,ingredients_text,nutrition_grade_fr,pnns_groups_1,energy_100g,fat_100g,saturated-fat_100g,sugars_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,fruits-vegetables-nuts_100g,nutrition-score-fr_100g
92,,,France,,,unknown,,,,,,,,,,
4629,,,France,"_Graines de sésame_ 34%, _cacahuètes_, [???],...",,unknown,,,,,,,,,,
5177,,,France,"Farine de _blé_ 22%, eau, _œufs_ frais 16%, de...",,unknown,,,,,,,,,,
8826,,,France,"sel de mer, 15% poivre noir, 11% graines de _m...",,unknown,,,,,,,,,,
9417,,,France,café torréfié et moulu.,,unknown,,,,,,,,,,
28370,,,France,Eau - lentilles réhydratée 30% - saucisses fum...,a,unknown,464.0,5.1,1.8,0.5,2.5,7.1,1.0,0.393701,,-1.0
34536,,,France,"_Lait_ entier 98%, protéines de _lait_, minéra...",b,unknown,251.0,3.5,2.2,3.6,,3.8,0.1,0.03937,,0.0
56672,,,France,"Huile de colza*, _Œufs_ frais*, Ail*, Sel, Cur...",,unknown,,,,,,,,,,
62555,,,France,Viande de porc - sel - dextrose - poivre noir ...,,unknown,,,,,,,,,,
70700,,,France,fibre de chicorée ; maltodextrine ; légumes 21...,d,unknown,1377.0,2.3,0.7,11.0,18.0,12.0,6.2,2.440945,,11.0


Ici, on constate que tous les pnns_groups_1 sont mentionnés comme étant inconnus. Par contre, on voit que les ingrédients sont mentionnés et qu'on pourrait compléter notre colonne product_name par cela. Cependant, cela créerait des product_name à rallonge. On ne va donc pas y toucher, d'autant plus qu'il n'y a que trop peu de données concernées.

In [395]:
removed_unknown_product_MVP_data = removed_product_MVP_data.dropna(subset=['product_name'])

In [396]:
removed_unknown_product_MVP_data.product_name.isnull().value_counts()

False    120703
Name: product_name, dtype: int64

Pour la colonne categories, je préfère ne pas y toucher parce que donner un product_name à une categorie serait moins cohérent que l'inverse. De ce fait, on va remplacer les NaN par 'Not specified'

In [397]:
removed_unknown_product_MVP_data.loc[removed_unknown_product_MVP_data['categories'].isnull(), 'categories'] = removed_unknown_product_MVP_data['categories'].fillna('Not specified')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  isetter(ilocs[0], value)


In [398]:
removed_unknown_product_MVP_data.categories.isnull().value_counts()

False    120703
Name: categories, dtype: int64

Idem par la colonne ingredients_text où l'on va remplacer les valeurs manquantes par 'Not specified'

In [399]:
removed_unknown_product_MVP_data.loc[removed_unknown_product_MVP_data['ingredients_text'].isnull(), 'ingredients_text'] = removed_unknown_product_MVP_data['ingredients_text'].fillna('Not specified')

In [400]:
removed_unknown_product_MVP_data.ingredients_text.isnull().value_counts()

False    120703
Name: ingredients_text, dtype: int64

Pareil pour la colonne pnns_groups_1

In [401]:
removed_unknown_product_MVP_data.loc[removed_unknown_product_MVP_data['pnns_groups_1'].isnull(), 'pnns_groups_1'] = removed_unknown_product_MVP_data['pnns_groups_1'].fillna('Not specified')

In [402]:
removed_unknown_product_MVP_data.pnns_groups_1.isnull().value_counts()

False    120703
Name: pnns_groups_1, dtype: int64

Maintenant, nous allons pouvoir nous intéresser aux valeurs nutritives de ces produits. On va faire un premier tri au niveau de nos index où il n'y a aucun renseignement sur les valeurs nutritives. On va donc supprimer toutes celles qui n'ont tout simplement aucune donnée chiffrée.

In [403]:
removed_unknown_product_MVP_data.columns

Index(['product_name', 'categories', 'countries_en', 'ingredients_text',
       'nutrition_grade_fr', 'pnns_groups_1', 'energy_100g', 'fat_100g',
       'saturated-fat_100g', 'sugars_100g', 'fiber_100g', 'proteins_100g',
       'salt_100g', 'sodium_100g', 'fruits-vegetables-nuts_100g',
       'nutrition-score-fr_100g'],
      dtype='object')

In [404]:
checked_columns = ['nutrition_grade_fr', 'energy_100g', 'fat_100g',
       'saturated-fat_100g', 'sugars_100g', 'fiber_100g', 'proteins_100g',
       'salt_100g', 'sodium_100g', 'fruits-vegetables-nuts_100g',
       'nutrition-score-fr_100g']
removed_unknown_product_MVP_data.loc[:,checked_columns].isnull()

Unnamed: 0,nutrition_grade_fr,energy_100g,fat_100g,saturated-fat_100g,sugars_100g,fiber_100g,proteins_100g,salt_100g,sodium_100g,fruits-vegetables-nuts_100g,nutrition-score-fr_100g
0,True,True,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,True
5,True,True,True,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...,...
129315,True,False,False,False,False,False,False,False,False,True,True
129316,True,True,True,True,True,True,True,True,True,True,True
129317,True,True,True,True,True,True,True,True,True,True,True
129318,True,True,True,True,True,True,True,True,True,True,True


24 803 index sont donc concernés. On sait donc qu'ils ne nous seront d'aucune utilité dans la mesure où on ne pourra rien en tirer. Nous allons donc les supprimer.

In [407]:
removed_unknown_product_MVP_data = removed_unknown_product_MVP_data.drop(removed_unknown_product_MVP_data.loc[removed_unknown_product_MVP_data.isnull().index,checked_columns])

KeyError: "['nutrition_grade_fr' 'energy_100g' 'fat_100g' 'saturated-fat_100g'\n 'sugars_100g' 'fiber_100g' 'proteins_100g' 'salt_100g' 'sodium_100g'\n 'fruits-vegetables-nuts_100g' 'nutrition-score-fr_100g'] not found in axis"

In [378]:
removed_unknown_product_MVP_data.shape

(120703, 16)