---

# **Notebook : Suppression des lignes sans données de nutriments***

---


# **Phase 5 : Suppression des lignes de nutriments vides**

---

### **1. Importation des bibliothèques**

La première section est dédiée à l'importation des bibliothèques nécessaires pour manipuler les fichiers et les données.



# 1. Importation des bibliothèques


In [1]:
import os
import pandas as pd

---

### **2. Définition de la fonction pour supprimer les lignes sans données de nutriments**

Cette fonction lit chaque chunk de données, vérifie les colonnes de nutriments (`energy_100g`, `fat_100g`, `carbohydrates_100g`, `proteins_100g`), et supprime les lignes qui sont entièrement vides pour ces colonnes.


# 2. Définition de la fonction de suppression des lignes sans nutriments

In [2]:
def supprimer_lignes_sans_nutriments(input_directory, output_directory, nutriment_columns, chunk_size):
    # Création du dossier de sortie si inexistant
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)
    
    # Parcourir les fichiers dans le dossier des chunks
    for file_name in os.listdir(input_directory):
        input_file_path = os.path.join(input_directory, file_name)
        
        # Lire le fichier en chunks
        chunk_iter = pd.read_csv(input_file_path, sep=',', chunksize=chunk_size, low_memory=False, on_bad_lines="skip")
        
        for i, chunk in enumerate(chunk_iter):
            # Vérifier les colonnes présentes dans le chunk
            columns_present = [col for col in nutriment_columns if col in chunk.columns]
            
            # Suppression des lignes où tous les nutriments sont vides
            if columns_present:
                chunk = chunk.dropna(subset=columns_present, how='all')
                
                # Sauvegarde du chunk filtré si non vide
                if not chunk.empty:
                    output_file_path = os.path.join(output_directory, f"{file_name}_cleaned_chunk_{i+1}.csv")
                    chunk.to_csv(output_file_path, index=False)
                    print(f"Chunk {i+1} de {file_name} sauvegardé dans {output_file_path}.")
                else:
                    print(f"Chunk {i+1} de {file_name} est vide après suppression et est ignoré.")
            else:
                print(f"Chunk {i+1} de {file_name} ne contient pas les colonnes de nutriments spécifiées. Il est ignoré.")

---

### **3. Exécution de la fonction avec le dossier `05_chunk_nutri_clean`**

# Chemins vers les répertoires de chunks et de sortie

In [3]:
input_directory = 'note-books/phase_1_data/04_chunk_filtered_columns'
output_directory = 'note-books/phase_1_data/05_chunk_nutri_clean'

# Colonnes de nutriments à vérifier

In [4]:
nutriment_columns = ['energy_100g', 'fat_100g', 'carbohydrates_100g', 'proteins_100g']
chunk_size = 10000  # Taille des chunks

# Application de la fonction

In [5]:
supprimer_lignes_sans_nutriments(input_directory, output_directory, nutriment_columns, chunk_size)

Chunk 1 de chunk_30.csv_filtered_chunk_1.csv_filtered_columns.csv sauvegardé dans note-books/phase_1_data/05_chunk_nutri_clean/chunk_30.csv_filtered_chunk_1.csv_filtered_columns.csv_cleaned_chunk_1.csv.
Chunk 2 de chunk_30.csv_filtered_chunk_1.csv_filtered_columns.csv sauvegardé dans note-books/phase_1_data/05_chunk_nutri_clean/chunk_30.csv_filtered_chunk_1.csv_filtered_columns.csv_cleaned_chunk_2.csv.
Chunk 3 de chunk_30.csv_filtered_chunk_1.csv_filtered_columns.csv sauvegardé dans note-books/phase_1_data/05_chunk_nutri_clean/chunk_30.csv_filtered_chunk_1.csv_filtered_columns.csv_cleaned_chunk_3.csv.
Chunk 1 de chunk_5.csv_filtered_chunk_1.csv_filtered_columns.csv sauvegardé dans note-books/phase_1_data/05_chunk_nutri_clean/chunk_5.csv_filtered_chunk_1.csv_filtered_columns.csv_cleaned_chunk_1.csv.
Chunk 2 de chunk_5.csv_filtered_chunk_1.csv_filtered_columns.csv sauvegardé dans note-books/phase_1_data/05_chunk_nutri_clean/chunk_5.csv_filtered_chunk_1.csv_filtered_columns.csv_cleaned_ch

### **Explication :**

- **`dropna()` avec `how='all'`** : Supprime les lignes où toutes les valeurs dans les colonnes de nutriments sont manquantes.
- **Vérification des colonnes de nutriments** : La fonction vérifie que les colonnes de nutriments sont présentes dans chaque chunk avant de procéder à la suppression.

---

Les chunks nettoyés seront enregistrés dans le dossier **`05_chunk_nutri_clean`** une fois cette étape terminée. Fais-moi savoir si tu souhaites d'autres ajustements ou si nous passons à une autre étape !