---

# **Notebook 17 : Suppression des Colonnes Redondantes dans les Données Catégorisées**

---

### **1. Importation des Bibliothèques**

In [1]:
import os
import pandas as pd

### **2. Définition des Répertoires d'Entrée et de Sortie**

Nous allons définir le répertoire contenant les données à nettoyer (`14_categorized_data`) et créer un répertoire de sortie (`17_cleaned_data`) pour sauvegarder les fichiers avec les colonnes redondantes supprimées.

In [2]:
# Répertoires d'entrée et de sortie
input_directory = 'note-books/phase_1_data/14_categorized_data'
output_directory = 'note-books/phase_1_data/17_cleaned_data'
os.makedirs(output_directory, exist_ok=True)

---

### **3. Détection et Suppression des Colonnes Redondantes**

Cette fonction identifie les colonnes redondantes, telles que les colonnes contenant des informations dupliquées ou des valeurs constantes.

In [3]:
# Fonction de détection et suppression des colonnes redondantes
def supprimer_variables_redondantes(df):
    # Identification des colonnes constantes
    colonnes_constantes = [col for col in df.columns if df[col].nunique() <= 1]
    
    # Identification des colonnes dupliquées
    colonnes_dupliquees = []
    for i in range(len(df.columns)):
        col1 = df.columns[i]
        for j in range(i + 1, len(df.columns)):
            col2 = df.columns[j]
            if df[col1].equals(df[col2]):
                colonnes_dupliquees.append(col2)
                
    # Fusion des deux listes de colonnes redondantes
    colonnes_redondantes = list(set(colonnes_constantes + colonnes_dupliquees))
    
    # Suppression des colonnes redondantes
    df_cleaned = df.drop(columns=colonnes_redondantes)
    
    return df_cleaned, colonnes_redondantes

---

### **4. Application de la Fonction et Sauvegarde des Fichiers Nettoyés**

Nous appliquons la fonction à chaque fichier dans le dossier `14_categorized_data` pour créer des versions nettoyées sans les colonnes redondantes, que nous enregistrons dans `17_cleaned_data`.


In [4]:
# Parcourir les fichiers et appliquer le nettoyage
for file_name in os.listdir(input_directory):
    file_path = os.path.join(input_directory, file_name)
    output_file_path = os.path.join(output_directory, file_name)
    
    # Charger le fichier avec encodage
    try:
        df = pd.read_csv(file_path, encoding='ISO-8859-1')
    except UnicodeDecodeError:
        print(f"Problème d'encodage pour {file_name}. Réessai avec 'utf-8'.")
        df = pd.read_csv(file_path, encoding='utf-8', errors='replace')
    
    # Application de la fonction pour supprimer les colonnes redondantes
    df_cleaned, colonnes_supprimees = supprimer_variables_redondantes(df)
    
    # Sauvegarder le fichier nettoyé
    df_cleaned.to_csv(output_file_path, index=False)
    print(f"Fichier nettoyé sauvegardé : {output_file_path}")
    print(f"Colonnes supprimées dans {file_name} : {colonnes_supprimees}")

Fichier nettoyé sauvegardé : note-books/phase_1_data/17_cleaned_data/chunk_35_filtered_part_0.csv
Colonnes supprimées dans chunk_35_filtered_part_0.csv : ['nutrition-score-fr_100g']
Fichier nettoyé sauvegardé : note-books/phase_1_data/17_cleaned_data/chunk_34_filtered_part_0.csv
Colonnes supprimées dans chunk_34_filtered_part_0.csv : ['nutrition-score-fr_100g']
Fichier nettoyé sauvegardé : note-books/phase_1_data/17_cleaned_data/.DS_Store
Colonnes supprimées dans .DS_Store : ['Unnamed: 0']
Fichier nettoyé sauvegardé : note-books/phase_1_data/17_cleaned_data/chunk_33_filtered_part_0.csv
Colonnes supprimées dans chunk_33_filtered_part_0.csv : ['nutrition-score-fr_100g']
Fichier nettoyé sauvegardé : note-books/phase_1_data/17_cleaned_data/chunk_29_filtered_part_0.csv
Colonnes supprimées dans chunk_29_filtered_part_0.csv : ['nutrition-score-fr_100g']
Fichier nettoyé sauvegardé : note-books/phase_1_data/17_cleaned_data/chunk_30_filtered_part_0.csv
Colonnes supprimées dans chunk_30_filtered_

---

### **5. Explications**

- **Colonnes constantes** : Les colonnes avec une seule valeur unique sont supprimées car elles n'apportent pas d'information pertinente.
- **Colonnes dupliquées** : Les colonnes avec des valeurs identiques à d'autres sont identifiées comme redondantes et supprimées.
- **Exportation des données** : Les fichiers nettoyés sans colonnes redondantes sont enregistrés dans `17_cleaned_data`.

--- 