

---


# **Notebook 7 : Suppression des colonnes redondantes (`_tags`, `_en`)**

---

### **1. Importation des bibliothèques**

La première section est dédiée à l'importation des bibliothèques nécessaires pour manipuler les fichiers et les données.



# 1. Importation des bibliothèques


In [1]:
import os
import pandas as pd

---

### **2. Définition de la fonction pour supprimer les colonnes redondantes**

Cette étape consiste à lire les fichiers de chunks, supprimer les colonnes redondantes qui se terminent par **`_tags`** et **`_en`**, et sauvegarder les fichiers nettoyés.

# 2. Définition de la fonction pour suppression des colonnes redondantes



In [2]:
def supprimer_variables_redondantes(input_directory, output_directory, chunk_size):
    # Vérification et création du dossier de sortie s'il n'existe pas
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)
    
    # Parcourir les fichiers dans le dossier des chunks
    for file_name in os.listdir(input_directory):
        input_file_path = os.path.join(input_directory, file_name)
        
        # Lire les fichiers en chunks
        chunk_iter = pd.read_csv(input_file_path, sep=',', chunksize=chunk_size, low_memory=False, on_bad_lines="skip")
        
        for i, chunk in enumerate(chunk_iter):
            # Identification des colonnes à supprimer
            colonnes_redondantes = [col for col in chunk.columns if col.endswith('_tags') or col.endswith('_en')]
            
            # Suppression des colonnes redondantes
            chunk_cleaned = chunk.drop(columns=colonnes_redondantes, errors='ignore')
            
            # Sauvegarde du chunk nettoyé
            output_file_path = os.path.join(output_directory, f"{file_name}_no_redundant_columns_chunk_{i+1}.csv")
            chunk_cleaned.to_csv(output_file_path, index=False)
            print(f"Chunk {i+1} de {file_name} nettoyé et sauvegardé dans {output_file_path}.")

---

### **3. Exécution de la fonction avec le dossier `07_chunk_no_redundant_columns`**

In [None]:
# Chemins vers les répertoires d'entrée et de sortie
input_directory = 'note-books/phase_1_data/06_chunk_no_duplicates'
output_directory = 'note-books/phase_1_data/07_chunk_no_redundant_columns'

# Taille des chunks
chunk_size = 10000  # Ajustez selon vos besoins

# Appel de la fonction pour supprimer les colonnes redondantes
supprimer_variables_redondantes(input_directory, output_directory, chunk_size)

### **Explication :**

- **`col.endswith('_tags') or col.endswith('_en')`** : Cette condition permet d'identifier toutes les colonnes dont les noms se terminent par **`_tags`** ou **`_en`**, typiquement des colonnes redondantes dans les fichiers de données massives.
- **`drop(columns=..., errors='ignore')`** : Supprime les colonnes spécifiées, et **`errors='ignore'`** assure qu'aucune erreur ne survient si une colonne à supprimer est absente dans certains chunks.
