<h1 style="text-align: center; font-weight: bold;"><u>Étape 1 Nettoyer et filtrer les features et produits</u></h1>

<h2 style="font-weight: bold;"><u>Import et chargement des données</u></h2>

In [2]:
# Importation des bibliothèques pandas, numpy, la fonction filter_duplicates
import pandas as pd, numpy as np
from myFonctions import filter_duplicates

# Cette fonction lit un fichier csv et l'importe dans une variable
nutritional_products  = pd.read_csv("data/foodfacts.csv", sep="\t", encoding="utf-8", low_memory=False)

# Désactiver la limitation d'affichage pour voir toutes les colonnes
pd.set_option("display.max_rows", None)

<h2 style="font-weight: bold;">1.A) <u>Identifier les doublons</u></h2>

<h3><u>Colonne qui doit être unique</u></h3>

<ol>
    <li>CODE</li>
    <ul>
        <li>Il s'agit du code-barres du produit (EAN-13 ou un code interne).</li>
       <li>Ce code est censé être unique pour chaque produit.</li>
       <li>Doit être une clé primaire (PRIMARY KEY).</li>
    </ul>
</ol>

In [3]:
# Filtrer les doublons basés sur la colonne "code"
duplicates_code = filter_duplicates(nutritional_products, columns="code")

print(duplicates_code["code"])

189068    NaN
189103    NaN
189109    NaN
189119    NaN
189152    NaN
189160    NaN
189162    NaN
189168    NaN
189242    NaN
189244    NaN
189248    NaN
189250    NaN
189260    NaN
189262    NaN
189269    NaN
189272    NaN
189345    NaN
189362    NaN
189364    NaN
189379    NaN
189404    NaN
189406    NaN
189417    NaN
Name: code, dtype: object


<h2 style="font-weight: bold;">1.B) <u>Repérer des variables pertinentes</u></h2>

In [4]:
# Aperçu des données du dataFrame, permettant de sélectionner par défaut les 5 premières lignes du cadre de données.
nutritional_products.head()

Unnamed: 0,code,url,creator,created_t,created_datetime,last_modified_t,last_modified_datetime,product_name,generic_name,quantity,...,ph_100g,fruits-vegetables-nuts_100g,collagen-meat-protein-ratio_100g,cocoa_100g,chlorophyl_100g,carbon-footprint_100g,nutrition-score-fr_100g,nutrition-score-uk_100g,glycemic-index_100g,water-hardness_100g
0,3087,http://world-fr.openfoodfacts.org/produit/0000...,openfoodfacts-contributors,1474103866,2016-09-17T09:17:46Z,1474103893,2016-09-17T09:18:13Z,Farine de blé noir,,1kg,...,,,,,,,,,,
1,4530,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489069957,2017-03-09T14:32:37Z,1489069957,2017-03-09T14:32:37Z,Banana Chips Sweetened (Whole),,,...,,,,,,,14.0,14.0,,
2,4559,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489069957,2017-03-09T14:32:37Z,1489069957,2017-03-09T14:32:37Z,Peanuts,,,...,,,,,,,0.0,0.0,,
3,16087,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489055731,2017-03-09T10:35:31Z,1489055731,2017-03-09T10:35:31Z,Organic Salted Nut Mix,,,...,,,,,,,12.0,12.0,,
4,16094,http://world-fr.openfoodfacts.org/produit/0000...,usda-ndb-import,1489055653,2017-03-09T10:34:13Z,1489055653,2017-03-09T10:34:13Z,Organic Polenta,,,...,,,,,,,,,,


In [5]:
# La fonction shape renvoie les dimensions du DataFrame sous la forme d'un tuple :
# n_lignes : le nombre de lignes dans le DataFrame.
# n_colonnes : le nombre de colonnes dans le DataFrame.
dimensions_table = nutritional_products.shape
number_of_lines = dimensions_table[0]
number_of_columns = dimensions_table[1]
print(number_of_lines) # 320772
print(number_of_columns) # 162

320772
162


In [6]:
# Affiche uniquement la liste des noms de colonnes et non les valeurs
print(list(nutritional_products.columns))

['code', 'url', 'creator', 'created_t', 'created_datetime', 'last_modified_t', 'last_modified_datetime', 'product_name', 'generic_name', 'quantity', 'packaging', 'packaging_tags', 'brands', 'brands_tags', 'categories', 'categories_tags', 'categories_fr', 'origins', 'origins_tags', 'manufacturing_places', 'manufacturing_places_tags', 'labels', 'labels_tags', 'labels_fr', 'emb_codes', 'emb_codes_tags', 'first_packaging_code_geo', 'cities', 'cities_tags', 'purchase_places', 'stores', 'countries', 'countries_tags', 'countries_fr', 'ingredients_text', 'allergens', 'allergens_fr', 'traces', 'traces_tags', 'traces_fr', 'serving_size', 'no_nutriments', 'additives_n', 'additives', 'additives_tags', 'additives_fr', 'ingredients_from_palm_oil_n', 'ingredients_from_palm_oil', 'ingredients_from_palm_oil_tags', 'ingredients_that_may_be_from_palm_oil_n', 'ingredients_that_may_be_from_palm_oil', 'ingredients_that_may_be_from_palm_oil_tags', 'nutrition_grade_uk', 'nutrition_grade_fr', 'pnns_groups_1', 

In [7]:
# Calcule le taux de remplissage de toutes les colonnes du DataFrame.
taux_remplissage_colonnes = nutritional_products.notnull().mean() * 100  

seuil = 50  # On cherche les colonnes avec plus de 50% de valeurs manquantes
colonnes_manquantes = taux_remplissage_colonnes[taux_remplissage_colonnes <= seuil]

print("Colonnes avec plus de 50% de valeurs manquantes :")
print(colonnes_manquantes.sort_values())

Colonnes avec plus de 50% de valeurs manquantes :
ingredients_that_may_be_from_palm_oil          0.000000
no_nutriments                                  0.000000
ingredients_from_palm_oil                      0.000000
cerotic-acid_100g                              0.000000
lignoceric-acid_100g                           0.000000
caproic-acid_100g                              0.000000
butyric-acid_100g                              0.000000
nutrition_grade_uk                             0.000000
melissic-acid_100g                             0.000000
chlorophyl_100g                                0.000000
water-hardness_100g                            0.000000
glycemic-index_100g                            0.000000
nervonic-acid_100g                             0.000000
elaidic-acid_100g                              0.000000
erucic-acid_100g                               0.000000
mead-acid_100g                                 0.000000
myristic-acid_100g                             0.00031

In [8]:
# Sélectionne les colonnes spécifiques qu'on souhaite
colonnes_specifiques = ['omega-3-fat_100g', 'omega-6-fat_100g', 'iron_100g', 'calcium_100g', 'energy-from-fat_100g']

# Calculer le taux de remplissage pour ces colonnes spécifiques
taux_remplissage_colonnes_specifiques = nutritional_products[colonnes_specifiques].notnull().mean() * 100

seuil = 50  # On cherche les colonnes avec plus de 50% de valeurs manquantes

# Appliquer un seuil de 50% pour identifier les colonnes manquantes
colonnes_manquantes_specifiques = taux_remplissage_colonnes_specifiques[taux_remplissage_colonnes_specifiques <= seuil]

print("Colonnes spécifiques sélectionnées avec plus de 50% de valeurs manquantes :")
print(colonnes_manquantes_specifiques.sort_values())

Colonnes spécifiques sélectionnées avec plus de 50% de valeurs manquantes :
omega-6-fat_100g         0.058609
omega-3-fat_100g         0.262180
energy-from-fat_100g     0.267168
iron_100g               43.788735
calcium_100g            43.972042
dtype: float64


In [9]:
# Liste des colonnes nutritionnelles à vérifier
columns_to_check = ["nutrition-score-fr_100g", "nutrition-score-uk_100g", "nutrition_grade_uk", "nutrition_grade_fr"]

# Calcul du taux de remplissage (pourcentage de valeurs non nulles) des colonnes sélectionnées
fill_rate_selected = nutritional_products[columns_to_check].notnull().mean() * 100

print(fill_rate_selected)

nutrition-score-fr_100g    68.961755
nutrition-score-uk_100g    68.961755
nutrition_grade_uk          0.000000
nutrition_grade_fr         68.961755
dtype: float64
