---

# **Notebook : Analyse et Nettoyage de Données Open Food Facts avec Chunks**

---


# **Phase 3 : Suppression des Colonnes avec Moins de 61% de Données**

---

### **1. Importation des bibliothèques**

La première section est dédiée à l'importation des bibliothèques nécessaires pour manipuler les fichiers et les données.



# 1. Importation des bibliothèques


In [1]:
import os
import pandas as pd

### **2. Définition de la Fonction de Filtrage des Colonnes**

Cette fonction va lire chaque chunk, évaluer la complétude des colonnes, supprimer celles qui ont moins de 61% de valeurs non manquantes, puis sauvegarder les fichiers nettoyés dans un nouveau dossier **`04_chunk_filtered_columns`**.


In [2]:
def filtrer_colonnes_par_completude(input_directory, output_directory, seuil=0.61):
    # Vérifier l'existence du dossier de sortie
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)

# 2. Définition de la fonction de filtrage des colonnes

In [3]:
def filtrer_colonnes_par_completude(input_directory, output_directory, seuil=0.75):
    # Vérifier l'existence du dossier de sortie
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)
    
    # Parcourir les fichiers dans le dossier des chunks filtrés
    for file_name in os.listdir(input_directory):
        input_file_path = os.path.join(input_directory, file_name)
        
        # Lire chaque fichier chunk
        try:
            chunk = pd.read_csv(input_file_path, sep=',', low_memory=False)
            
            # Calculer le pourcentage de données non manquantes
            completude_colonnes = chunk.notna().mean()
            
            # Garder uniquement les colonnes ayant une complétude supérieure ou égale au seuil
            colonnes_a_conserver = completude_colonnes[completude_colonnes >= seuil].index
            chunk_filtre = chunk[colonnes_a_conserver]
            
            # Sauvegarder le chunk filtré dans le répertoire de sortie
            output_file_path = os.path.join(output_directory, f"{file_name}_filtered_columns.csv")
            chunk_filtre.to_csv(output_file_path, index=False)
            print(f"Fichier {file_name} traité et sauvegardé dans {output_file_path}.")
        
        except Exception as e:
            print(f"Erreur lors du traitement de {file_name}: {e}")

### **3. Application de la Fonction avec le Dossier `04_chunk_filtered_columns`**

Dans cette section, nous appliquons la fonction de filtrage aux chunks présents dans **`03_chunk_nutri`** et sauvegardons les fichiers nettoyés dans **`04_chunk_filtered_columns`**.


# Chemins des répertoires d'entrée et de sortie

In [4]:


input_directory = 'note-books/phase_1_data/03_chunk_nutri'
output_directory = 'note-books/phase_1_data/04_chunk_filtered_columns'

# Exécution de la fonction pour filtrer les colonnes par complétude


In [5]:
filtrer_colonnes_par_completude(input_directory, output_directory, seuil=0.75)

Fichier chunk_8.csv_filtered_chunk_1.csv traité et sauvegardé dans note-books/phase_1_data/04_chunk_filtered_columns/chunk_8.csv_filtered_chunk_1.csv_filtered_columns.csv.
Fichier chunk_31.csv_filtered_chunk_1.csv traité et sauvegardé dans note-books/phase_1_data/04_chunk_filtered_columns/chunk_31.csv_filtered_chunk_1.csv_filtered_columns.csv.
Fichier chunk_4.csv_filtered_chunk_1.csv traité et sauvegardé dans note-books/phase_1_data/04_chunk_filtered_columns/chunk_4.csv_filtered_chunk_1.csv_filtered_columns.csv.
Fichier chunk_35.csv_filtered_chunk_1.csv traité et sauvegardé dans note-books/phase_1_data/04_chunk_filtered_columns/chunk_35.csv_filtered_chunk_1.csv_filtered_columns.csv.
Fichier chunk_18.csv_filtered_chunk_1.csv traité et sauvegardé dans note-books/phase_1_data/04_chunk_filtered_columns/chunk_18.csv_filtered_chunk_1.csv_filtered_columns.csv.
Fichier chunk_14.csv_filtered_chunk_1.csv traité et sauvegardé dans note-books/phase_1_data/04_chunk_filtered_columns/chunk_14.csv_fil

### **Explication :**

- **`seuil=0.75`** : Ce paramètre indique que seules les colonnes ayant au moins 75% de valeurs non manquantes seront conservées.
- **`chunk.notna().mean()`** : Cette opération calcule le pourcentage de valeurs non manquantes pour chaque colonne.
- **`colonnes_a_conserver`** : Cette variable stocke les noms des colonnes à conserver, celles ayant une complétude supérieure ou égale au seuil défini.

---

Après avoir exécuté ce code, les chunks dans le dossier **`04_chunk_filtered_columns`** contiendront uniquement les colonnes ayant au moins 75% de données.