---

# Notebook : Réunion des fichiers CSV en un fichier consolidé

**Objectif :** Ce notebook a pour but de rassembler tous les fichiers CSV situés dans le dossier `note-books/phase_2_training/01_tri_CSV` en un seul fichier, sans faire de tri ni de nettoyage. Cela nous permettra de disposer d'un fichier de données unique pour faciliter les analyses futures.

---

## Étape 1 : Importer les bibliothèques nécessaires

In [None]:
import pandas as pd
import os

**Explication :**  
- `pandas` est utilisé pour manipuler les données, en particulier les fichiers CSV.
- `os` nous aide à naviguer dans le système de fichiers et à créer des dossiers.

---

## Étape 2 : Lister tous les fichiers CSV dans le dossier cible

In [None]:
# Spécifiez le dossier contenant les fichiers CSV
folder_path = 'note-books/phase_2_training/01_tri_CSV'

# Lister tous les fichiers CSV dans le dossier
csv_files = [f for f in os.listdir(folder_path) if f.endswith('.csv')]

# Afficher la liste des fichiers trouvés
print("Fichiers CSV trouvés dans le dossier :")
print(csv_files)

**Explication :**  
- `os.listdir(folder_path)` liste tous les fichiers dans le dossier, et nous filtrons pour ne garder que ceux qui se terminent par `.csv`.
- Cela nous permet de vérifier que tous les fichiers CSV ont bien été trouvés.

---
## Étape 3 : Charger chaque fichier CSV et les ajouter à une liste

In [None]:
# Initialiser une liste pour stocker les DataFrames
dataframes = []

# Charger chaque fichier CSV et l'ajouter à la liste des DataFrames
for file in csv_files:
    file_path = os.path.join(folder_path, file)
    df = pd.read_csv(file_path)
    dataframes.append(df)
    print(f"{file} chargé avec succès.")

In [None]:
**Explication :**  
- Nous chargeons chaque fichier CSV dans un DataFrame, puis l'ajoutons à la liste `dataframes`.
- Cela permet de préparer chaque fichier pour la concaténation.

---

## Étape 4 : Concaténer tous les DataFrames en un seul

In [None]:
# Concaténer tous les DataFrames en un seul
data_consolidated = pd.concat(dataframes, ignore_index=True)

# Afficher un aperçu des premières lignes du fichier consolidé
print("Aperçu des données consolidées :")
print(data_consolidated.head())

**Explication :**  
- `pd.concat(dataframes, ignore_index=True)` combine tous les DataFrames de la liste `dataframes` en un seul DataFrame `data_consolidated`.

---

## Étape 5 : Créer le dossier de sortie et sauvegarder le fichier consolidé

Avant de sauvegarder, nous vérifions si le dossier de destination `02_data_consolidation` existe ; s'il n'existe pas, nous le créons avec `os.makedirs()`.

In [None]:
# Définir le dossier de sortie
output_folder = 'note-books/phase_2_training/02_data_consolidation'

# Créer le dossier s'il n'existe pas
os.makedirs(output_folder, exist_ok=True)

# Définir le chemin complet pour le fichier consolidé
output_path = os.path.join(output_folder, 'data_consolidated.csv')

# Sauvegarder le fichier consolidé
data_consolidated.to_csv(output_path, index=False)

print(f"Fichier consolidé sauvegardé sous : {output_path}")

**Explication :**  
- `os.makedirs(output_folder, exist_ok=True)` crée le dossier `02_data_consolidation` s'il n'existe pas déjà.
- `data_consolidated.to_csv(output_path, index=False)` enregistre le DataFrame consolidé dans le dossier `02_data_consolidation` avec le nom `data_consolidated.csv`.

---

### Résumé

Ce notebook :
1. Importe les bibliothèques nécessaires.
2. Liste les fichiers CSV dans le dossier source.
3. Charge chaque fichier CSV et les concatène en un seul DataFrame.
4. Crée un dossier `02_data_consolidation` pour ranger le fichier de sortie.
5. Sauvegarde le DataFrame consolidé dans `02_data_consolidation/data_consolidated.csv`.