
---

# **Phase 6 : Suppression des doublons sur `product_name` et `brands`****

---

### **1. Importation des bibliothèques**

La première section est dédiée à l'importation des bibliothèques nécessaires pour manipuler les fichiers et les données.



# 1. Importation des bibliothèques


In [4]:
import os
import pandas as pd

### **2. Définition de la fonction pour supprimer les doublons**

Dans cette étape, nous allons lire les fichiers des chunks, identifier les doublons sur les colonnes **`product_name`** et **`brands`**, et supprimer les lignes redondantes avant de sauvegarder les fichiers nettoyés.

# 2. Définition de la fonction pour suppression des doublons sur 'product_name' et 'brands'

In [5]:
# 2. Définition de la fonction pour suppression des doublons sur 'product_name' et 'brands'

def supprimer_doublons_sur_produits(input_directory, output_directory, chunk_size):
    # Création du dossier de sortie s'il n'existe pas
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)
    
    # Parcourir les fichiers dans le dossier des chunks
    for file_name in os.listdir(input_directory):
        input_file_path = os.path.join(input_directory, file_name)
        
        # Lire le fichier en chunks
        chunk_iter = pd.read_csv(input_file_path, sep=',', chunksize=chunk_size, low_memory=False, on_bad_lines="skip")
        
        for i, chunk in enumerate(chunk_iter):
            # Vérifier si les colonnes 'product_name' et 'brands' sont présentes
            if 'product_name' in chunk.columns and 'brands' in chunk.columns:
                
                # Supprimer les doublons sur les colonnes 'product_name' et 'brands'
                chunk_cleaned = chunk.drop_duplicates(subset=['product_name', 'brands'], keep='first')
                
                # Sauvegarde du chunk nettoyé si non vide
                if not chunk_cleaned.empty:
                    output_file_path = os.path.join(output_directory, f"{file_name}_no_duplicates_chunk_{i+1}.csv")
                    chunk_cleaned.to_csv(output_file_path, index=False)
                    print(f"Chunk {i+1} de {file_name} nettoyé et sauvegardé dans {output_file_path}.")
                else:
                    print(f"Chunk {i+1} de {file_name} est vide après suppression et est ignoré.")
            else:
                print(f"Chunk {i+1} de {file_name} ne contient pas les colonnes 'product_name' et 'brands'. Il est ignoré.")


### **3. Exécution de la fonction avec le dossier `06_chunk_no_duplicates`**

# Chemins vers les répertoires de chunks et de sortie

In [6]:

input_directory = 'note-books/phase_1_data/05_chunk_nutri_clean'
output_directory = 'note-books/phase_1_data/06_chunk_no_duplicates'



# Taille des chunks


In [7]:
chunk_size = 10000  # Ajustez cette taille selon votre capacité mémoire

# Application de la fonction

In [8]:
supprimer_doublons_sur_produits(input_directory, output_directory, chunk_size)

Chunk 1 de chunk_34.csv_filtered_chunk_1.csv_filtered_columns.csv_cleaned_chunk_2.csv nettoyé et sauvegardé dans note-books/phase_1_data/06_chunk_no_duplicates/chunk_34.csv_filtered_chunk_1.csv_filtered_columns.csv_cleaned_chunk_2.csv_no_duplicates_chunk_1.csv.
Chunk 1 de chunk_32.csv_filtered_chunk_1.csv_filtered_columns.csv_cleaned_chunk_2.csv ne contient pas les colonnes 'product_name' et 'brands'. Il est ignoré.
Chunk 1 de chunk_32.csv_filtered_chunk_1.csv_filtered_columns.csv_cleaned_chunk_3.csv ne contient pas les colonnes 'product_name' et 'brands'. Il est ignoré.
Chunk 1 de chunk_34.csv_filtered_chunk_1.csv_filtered_columns.csv_cleaned_chunk_3.csv nettoyé et sauvegardé dans note-books/phase_1_data/06_chunk_no_duplicates/chunk_34.csv_filtered_chunk_1.csv_filtered_columns.csv_cleaned_chunk_3.csv_no_duplicates_chunk_1.csv.
Chunk 1 de chunk_4.csv_filtered_chunk_1.csv_filtered_columns.csv_cleaned_chunk_6.csv ne contient pas les colonnes 'product_name' et 'brands'. Il est ignoré.
Chu

### **Explication :**

- **`drop_duplicates()`** : Supprime les doublons dans les colonnes **`product_name`** et **`brands`**, tout en conservant la première occurrence de chaque combinaison unique.
- **Conditions de suppression** : Les doublons ne sont supprimés que si **`product_name`** et **`brands`** sont identiques sur la même ligne. Si l'une des deux colonnes a une valeur différente, la ligne n'est pas considérée comme un doublon.

---
