---

# Notebook : Préparation des données pour la prédiction du Nutri-Score

**Objectif :** Sélectionner et trier les colonnes pertinentes pour la prédiction de `nutriscore_grade` en fonction d'une liste d'ingrédients.

---

## Étape 1 : Importer les bibliothèques nécessaires et charger les données consolidées

In [None]:
import pandas as pd
import os

# Charger le fichier consolidé
file_path = 'note-books/phase_2_training/02_data_consolidation/data_consolidated.csv'
df = pd.read_csv(file_path)

# Afficher un aperçu des colonnes et des premières lignes
print("Colonnes disponibles dans le jeu de données :")
print(df.columns.tolist())
print("\nAperçu des premières lignes :")
df.head()

**Explication :**  
- Nous chargeons le fichier consolidé avec `pd.read_csv` et affichons la liste des colonnes disponibles ainsi que les premières lignes pour vérifier les données.

---

## Étape 2 : Sélectionner les colonnes pertinentes pour la prédiction

En fonction de notre analyse, nous sélectionnons les colonnes importantes pour l’entraînement du modèle.

In [None]:
# Liste des colonnes pertinentes pour la prédiction de nutriscore_grade
selected_columns = [
    'code', 'product_name', 'brands', 'categories', 'countries', 'main_category',
    'nutriscore_grade',  # Cible
    'pnns_groups_1', 'pnns_groups_2', 'food_groups',
    'energy-kcal_100g', 'energy_100g', 'fat_100g', 'saturated-fat_100g', 
    'carbohydrates_100g', 'sugars_100g', 'proteins_100g', 'salt_100g', 'sodium_100g'
]

# Créer un DataFrame avec les colonnes sélectionnées
df_selected = df[selected_columns]

# Afficher les premières lignes pour vérifier la sélection
df_selected.head()

**Explication :**  
- `selected_columns` est la liste des colonnes que nous avons jugées pertinentes.
- `df[selected_columns]` crée un DataFrame `df_selected` avec uniquement ces colonnes.

---

## Étape 3 : Gérer les valeurs manquantes

Pour garantir la qualité des données, nous allons gérer les valeurs manquantes, en particulier dans la colonne cible `nutriscore_grade` et les colonnes nutritionnelles.

In [None]:
# Supprimer les lignes où nutriscore_grade est manquant
df_selected = df_selected.dropna(subset=['nutriscore_grade'])

# Remplir les valeurs manquantes dans les colonnes nutritionnelles avec 0 (si pertinent)
nutrition_columns = [
    'energy-kcal_100g', 'energy_100g', 'fat_100g', 'saturated-fat_100g', 
    'carbohydrates_100g', 'sugars_100g', 'proteins_100g', 'salt_100g', 'sodium_100g'
]

df_selected[nutrition_columns] = df_selected[nutrition_columns].fillna(0)

# Afficher le nombre de valeurs manquantes pour vérifier le remplissage
print("Nombre de valeurs manquantes par colonne :")
print(df_selected.isnull().sum())

**Explication :**  
- Nous supprimons les lignes où `nutriscore_grade` est manquant, car il s’agit de la variable cible.
- Pour les valeurs nutritionnelles, nous remplissons les valeurs manquantes par `0`, car ces colonnes représentent des quantités (par exemple, s’il n’y a pas de sucre, la valeur est `0`).

---

## Étape 4 : Enregistrer les données triées et préparées

Nous enregistrons le DataFrame nettoyé et trié pour l’entraînement du modèle dans un nouveau fichier CSV.


In [None]:
# Définir le dossier de sortie
output_folder = 'note-books/phase_2_training/03_feature_selection'

# Créer le dossier s'il n'existe pas
os.makedirs(output_folder, exist_ok=True)

# Définir le chemin complet pour le fichier de données préparées
output_path = os.path.join(output_folder, 'data_selected_features.csv')

# Sauvegarder le DataFrame sélectionné
df_selected.to_csv(output_path, index=False)

print(f"Fichier des données préparées sauvegardé sous : {output_path}")


**Explication :**  
- `os.makedirs(output_folder, exist_ok=True)` crée le dossier `03_feature_selection` s’il n'existe pas déjà.
- `df_selected.to_csv(output_path, index=False)` enregistre les données nettoyées et triées dans un fichier `data_selected_features.csv` pour une utilisation future.

---

### Résumé

Dans ce notebook, nous avons :
1. Chargé les données consolidées.
2. Sélectionné les colonnes pertinentes pour la prédiction de `nutriscore_grade`.
3. Géré les valeurs manquantes en supprimant les lignes sans `nutriscore_grade` et en remplissant les valeurs nutritionnelles manquantes par `0`.
4. Sauvegardé le fichier final sous `data_selected_features.csv` dans le dossier `03_feature_selection`.

Le fichier est maintenant prêt pour les étapes d’analyse de corrélation et de modélisation dans le prochain notebook. 

--- 

