---

# Notebook : Préparation des données pour la prédiction du Nutri-Score

**Objectif :** Sélectionner et trier les colonnes pertinentes pour la prédiction de `nutriscore_grade` en fonction d'une liste d'ingrédients.

---

## Étape 1 : Importer les bibliothèques nécessaires et charger les données consolidées

In [1]:
import pandas as pd
import os

# Charger le fichier consolidé
file_path = 'note-books/phase_2_training/02_data_consolidation/data_consolidated.csv'
df = pd.read_csv(file_path)

# Afficher un aperçu des colonnes et des premières lignes
print("Colonnes disponibles dans le jeu de données :")
print(df.columns.tolist())
print("\nAperçu des premières lignes :")
df.head()

Colonnes disponibles dans le jeu de données :
['code', 'url', 'creator', 'created_t', 'created_datetime', 'last_modified_t', 'last_modified_datetime', 'last_modified_by', 'last_updated_t', 'last_updated_datetime', 'product_name', 'brands', 'categories', 'countries', 'nutriscore_score', 'nutriscore_grade', 'pnns_groups_1', 'pnns_groups_2', 'food_groups', 'states', 'ecoscore_grade', 'completeness', 'last_image_t', 'last_image_datetime', 'main_category', 'image_url', 'image_small_url', 'image_nutrition_url', 'image_nutrition_small_url', 'energy-kcal_100g', 'energy_100g', 'fat_100g', 'saturated-fat_100g', 'carbohydrates_100g', 'sugars_100g', 'proteins_100g', 'salt_100g', 'sodium_100g', 'quantity', 'ecoscore_score', 'nutrition-score-fr_100g', 'unique_scans_n', 'image_ingredients_url', 'image_ingredients_small_url']

Aperçu des premières lignes :


  df = pd.read_csv(file_path)


Unnamed: 0,code,url,creator,created_t,created_datetime,last_modified_t,last_modified_datetime,last_modified_by,last_updated_t,last_updated_datetime,...,sugars_100g,proteins_100g,salt_100g,sodium_100g,quantity,ecoscore_score,nutrition-score-fr_100g,unique_scans_n,image_ingredients_url,image_ingredients_small_url
0,9050482371038,http://world-en.openfoodfacts.org/product/9050...,kiliweb,1663653000.0,2022-09-20T05:58:08Z,1722137000.0,2024-07-28T03:26:29Z,quentinbrd,1724328000.0,2024-08-22T11:55:54Z,...,5.0,7.4,1.17,0.468,,,,,,
1,9050482388685,http://world-en.openfoodfacts.org/product/9050...,openfoodfacts-contributors,1643376000.0,2022-01-28T13:23:57Z,1664807000.0,2022-10-03T14:24:40Z,roboto-app,1707853000.0,2024-02-13T19:42:41Z,...,3.2,,0.68,0.272,,,,,,
2,9050482407287,http://world-en.openfoodfacts.org/product/9050...,kiliweb,1652297000.0,2022-05-11T19:29:38Z,1675498000.0,2023-02-04T08:12:42Z,itsjustruby,1707861000.0,2024-02-13T21:47:23Z,...,6.4,4.9,0.2,0.08,,,,,,
3,9050482450139,http://world-en.openfoodfacts.org/product/9050...,dieta2022,1642262000.0,2022-01-15T15:58:05Z,1644517000.0,2022-02-10T18:22:06Z,packbot,1707852000.0,2024-02-13T19:22:54Z,...,0.8,16.0,2.5,1.0,,,,,,
4,9050482487661,http://world-en.openfoodfacts.org/product/9050...,kiliweb,1663241000.0,2022-09-15T11:18:02Z,1682903000.0,2023-05-01T01:10:36Z,guezguez-majed,1707868000.0,2024-02-13T23:54:04Z,...,3.7,13.6,0.08,0.032,,,,,,


**Explication :**  
- Nous chargeons le fichier consolidé avec `pd.read_csv` et affichons la liste des colonnes disponibles ainsi que les premières lignes pour vérifier les données.

---

## Étape 2 : Sélectionner les colonnes pertinentes pour la prédiction

En fonction de notre analyse, nous sélectionnons les colonnes importantes pour l’entraînement du modèle.

In [2]:
# Liste des colonnes pertinentes pour la prédiction de nutriscore_grade
selected_columns = [
    'code', 'product_name', 'brands', 'categories', 'countries', 'main_category',
    'nutriscore_grade',  # Cible
    'pnns_groups_1', 'pnns_groups_2', 'food_groups',
    'energy-kcal_100g', 'energy_100g', 'fat_100g', 'saturated-fat_100g', 
    'carbohydrates_100g', 'sugars_100g', 'proteins_100g', 'salt_100g', 'sodium_100g'
]

# Créer un DataFrame avec les colonnes sélectionnées
df_selected = df[selected_columns]

# Afficher les premières lignes pour vérifier la sélection
df_selected.head()

Unnamed: 0,code,product_name,brands,categories,countries,main_category,nutriscore_grade,pnns_groups_1,pnns_groups_2,food_groups,energy-kcal_100g,energy_100g,fat_100g,saturated-fat_100g,carbohydrates_100g,sugars_100g,proteins_100g,salt_100g,sodium_100g
0,9050482371038,Pain de mie extra moelleux sans sucres ajoutÃ©s,"Lidl,MaÃ®tre Jean Pierre",Pains de mie,France,en:sliced-breads,b,Cereals and potatoes,Bread,en:bread,277.0,1159.0,5.1,0.8,48.8,5.0,7.4,1.17,0.468
1,9050482388685,Vegan Protein Bar Almond Cookie Dough,IronMaxx,NahrungsergÃ¤nzungsmittel,en:Germany,en:protein-bars,d,unknown,unknown,,361.0,1511.0,14.7,8.1,28.6,3.2,,0.68,0.272
2,9050482407287,cuajada,Milbona,Lcteos,en:es,en:cuajada,b,Milk and dairy products,Dairy desserts,en:dairy-desserts,93.0,389.0,5.3,3.4,6.4,6.4,4.9,0.2,0.08
3,9050482450139,Salad cheese Greek Style,Milbona,Lcteos,Spain,en:greek-cheeses,d,Milk and dairy products,Cheese,en:cheese,247.0,1026.0,20.0,,0.8,0.8,16.0,2.5,1.0
4,9050482487661,Fusilli,Lidl,Pflanzliche Lebensmittel und GetrÃ¤nke,Allemagne,af:fusilli,a,Cereals and potatoes,Cereals,en:cereals,377.0,1577.0,1.0,0.5,77.2,3.7,13.6,0.08,0.032


**Explication :**  
- `selected_columns` est la liste des colonnes que nous avons jugées pertinentes.
- `df[selected_columns]` crée un DataFrame `df_selected` avec uniquement ces colonnes.

---

## Étape 3 : Gérer les valeurs manquantes

Pour garantir la qualité des données, nous allons gérer les valeurs manquantes, en particulier dans la colonne cible `nutriscore_grade` et les colonnes nutritionnelles.

In [3]:
# Supprimer les lignes où nutriscore_grade est manquant
df_selected = df_selected.dropna(subset=['nutriscore_grade'])

# Remplir les valeurs manquantes dans les colonnes nutritionnelles avec 0 (si pertinent)
nutrition_columns = [
    'energy-kcal_100g', 'energy_100g', 'fat_100g', 'saturated-fat_100g', 
    'carbohydrates_100g', 'sugars_100g', 'proteins_100g', 'salt_100g', 'sodium_100g'
]

df_selected[nutrition_columns] = df_selected[nutrition_columns].fillna(0)

# Afficher le nombre de valeurs manquantes pour vérifier le remplissage
print("Nombre de valeurs manquantes par colonne :")
print(df_selected.isnull().sum())

Nombre de valeurs manquantes par colonne :
code                   3970
product_name           1634
brands                18889
categories                0
countries               777
main_category             0
nutriscore_grade          0
pnns_groups_1             0
pnns_groups_2             0
food_groups           22155
energy-kcal_100g          0
energy_100g               0
fat_100g                  0
saturated-fat_100g        0
carbohydrates_100g        0
sugars_100g               0
proteins_100g             0
salt_100g                 0
sodium_100g               0
dtype: int64


**Explication :**  
- Nous supprimons les lignes où `nutriscore_grade` est manquant, car il s’agit de la variable cible.
- Pour les valeurs nutritionnelles, nous remplissons les valeurs manquantes par `0`, car ces colonnes représentent des quantités (par exemple, s’il n’y a pas de sucre, la valeur est `0`).

---

## Étape 4 : Enregistrer les données triées et préparées

Nous enregistrons le DataFrame nettoyé et trié pour l’entraînement du modèle dans un nouveau fichier CSV.


In [4]:
# Définir le dossier de sortie
output_folder = 'note-books/phase_2_training/03_feature_selection'

# Créer le dossier s'il n'existe pas
os.makedirs(output_folder, exist_ok=True)

# Définir le chemin complet pour le fichier de données préparées
output_path = os.path.join(output_folder, 'data_selected_features.csv')

# Sauvegarder le DataFrame sélectionné
df_selected.to_csv(output_path, index=False)

print(f"Fichier des données préparées sauvegardé sous : {output_path}")

Fichier des données préparées sauvegardé sous : note-books/phase_2_training/03_feature_selection/data_selected_features.csv



**Explication :**  
- `os.makedirs(output_folder, exist_ok=True)` crée le dossier `03_feature_selection` s’il n'existe pas déjà.
- `df_selected.to_csv(output_path, index=False)` enregistre les données nettoyées et triées dans un fichier `data_selected_features.csv` pour une utilisation future.

---

### Résumé

Dans ce notebook, nous avons :
1. Chargé les données consolidées.
2. Sélectionné les colonnes pertinentes pour la prédiction de `nutriscore_grade`.
3. Géré les valeurs manquantes en supprimant les lignes sans `nutriscore_grade` et en remplissant les valeurs nutritionnelles manquantes par `0`.
4. Sauvegardé le fichier final sous `data_selected_features.csv` dans le dossier `03_feature_selection`.

Le fichier est maintenant prêt pour les étapes d’analyse de corrélation et de modélisation dans le prochain notebook. 

--- 

