In [2]:
import os
import pandas as pd

def count_csv_files(root_folder_path):
    """
    Compte le nombre de fichiers CSV dans le dossier racine et tous ses sous-dossiers.

    Args:
    root_folder_path (str): Le chemin du dossier racine contenant les fichiers CSV.

    Returns:
    int: Le nombre total de fichiers CSV.
    """
    total_files = 0

    # Parcourir tous les sous-dossiers et fichiers dans le dossier racine
    for subdir, _, files in os.walk(root_folder_path):
        for file in files:
            if file.endswith('.csv'):
                total_files += 1

    return total_files

def merge_all_csv_files(root_folder_path, output_file_path):
    """
    Parcourt tous les fichiers CSV dans le dossier racine spécifié et ses sous-dossiers,
    ajoute une colonne 'site' basée sur le nom du fichier, et fusionne tous les fichiers dans un seul fichier CSV.

    Args:
    root_folder_path (str): Le chemin du dossier racine contenant les sous-dossiers avec les fichiers CSV.
    output_file_path (str): Le chemin du fichier de sortie pour le fichier fusionné.
    """
    # Compter le nombre total de fichiers CSV
    total_files = count_csv_files(root_folder_path)
    print(f"Nombre total de fichiers CSV dans le dossier racine et ses sous-dossiers : {total_files}")

    # Créer une liste pour stocker les DataFrames
    dataframes = []
    files_merged = []

    # Parcourir tous les sous-dossiers et fichiers dans le dossier racine
    for subdir, _, files in os.walk(root_folder_path):
        for file in files:
            if file.endswith('.csv'):
                # Lire le fichier CSV
                file_path = os.path.join(subdir, file)
                df = pd.read_csv(file_path)
                
                # Ajouter la colonne 'site' basée sur le nom du fichier
                site_name = os.path.splitext(file)[0]
                df['site'] = site_name
                
                # Ajouter le DataFrame à la liste
                dataframes.append(df)
                files_merged.append(file_path)

    # Fusionner tous les DataFrames
    combined_df = pd.concat(dataframes, ignore_index=True)

    # Sauvegarder le fichier fusionné
    combined_df.to_csv(output_file_path, index=False)

    # Afficher les informations de fusion
    print(f"Nombre de fichiers CSV fusionnés : {len(files_merged)}")
    print(f"Fichiers fusionnés : {files_merged}")
    print(f"Nombre total de lignes dans le fichier fusionné : {len(combined_df)}")
    print(f"Le fichier fusionné a été créé avec succès : {output_file_path}")

    # Vérifier si tous les fichiers ont été fusionnés
    if total_files == len(files_merged):
        print("Tous les fichiers ont été fusionnés avec succès.")
    else:
        print("Attention : certains fichiers n'ont pas été fusionnés.")

# Exemple d'utilisation de la fonction
root_folder_path = r'D:\Bureau\MemoiresStages\Travaux_techniques\Scrapping\Datasets'
output_file_path = r'D:\Bureau\MemoiresStages\Travaux_techniques\Scrapping\Datasets\donnees_brutes.csv'

merge_all_csv_files(root_folder_path, output_file_path)


Nombre total de fichiers CSV dans le dossier racine et ses sous-dossiers : 380
Nombre de fichiers CSV fusionnés : 380
Fichiers fusionnés : ['D:\\Bureau\\MemoiresStages\\Travaux_techniques\\Scrapping\\Datasets\\Juin\\06_juin\\AbidjanNet_06_juin.csv', 'D:\\Bureau\\MemoiresStages\\Travaux_techniques\\Scrapping\\Datasets\\Juin\\06_juin\\AICI_06_juin.csv', 'D:\\Bureau\\MemoiresStages\\Travaux_techniques\\Scrapping\\Datasets\\Juin\\06_juin\\AnnoncesImmobilieresCI_06_juin.csv', 'D:\\Bureau\\MemoiresStages\\Travaux_techniques\\Scrapping\\Datasets\\Juin\\06_juin\\Yapgi_appartements_06_juin.csv', 'D:\\Bureau\\MemoiresStages\\Travaux_techniques\\Scrapping\\Datasets\\Juin\\06_juin\\Yapgi_villas_06_juin.csv', 'D:\\Bureau\\MemoiresStages\\Travaux_techniques\\Scrapping\\Datasets\\Juin\\07_juin\\AbidjanNet_07_juin.csv', 'D:\\Bureau\\MemoiresStages\\Travaux_techniques\\Scrapping\\Datasets\\Juin\\07_juin\\AICI_07_juin.csv', 'D:\\Bureau\\MemoiresStages\\Travaux_techniques\\Scrapping\\Datasets\\Juin\\07_j