---

# Notebook : Réunion des fichiers CSV en un fichier consolidé

**Objectif :** Ce notebook a pour but de rassembler tous les fichiers CSV situés dans le dossier `note-books/phase_2_training/01_tri_CSV` en un seul fichier, sans faire de tri ni de nettoyage. Cela nous permettra de disposer d'un fichier de données unique pour faciliter les analyses futures.

---

## Étape 1 : Importer les bibliothèques nécessaires

In [1]:
import pandas as pd
import os

**Explication :**  
- `pandas` est utilisé pour manipuler les données, en particulier les fichiers CSV.
- `os` nous aide à naviguer dans le système de fichiers et à créer des dossiers.

---

## Étape 2 : Lister tous les fichiers CSV dans le dossier cible

In [2]:
# Spécifiez le dossier contenant les fichiers CSV
folder_path = 'note-books/phase_2_training/01_tri_CSV'

# Lister tous les fichiers CSV dans le dossier
csv_files = [f for f in os.listdir(folder_path) if f.endswith('.csv')]

# Afficher la liste des fichiers trouvés
print("Fichiers CSV trouvés dans le dossier :")
print(csv_files)

Fichiers CSV trouvés dans le dossier :
['chunk_35_filtered_part_0.csv', 'chunk_34_filtered_part_0.csv', 'chunk_33_filtered_part_0.csv', 'chunk_29_filtered_part_0.csv', 'chunk_30_filtered_part_0.csv', 'chunk_28_filtered_part_0.csv', 'chunk_31_filtered_part_0.csv', 'chunk_25_filtered_part_0.csv', 'chunk_24_filtered_part_0.csv', 'chunk_27_filtered_part_0.csv', 'chunk_26_filtered_part_0.csv', 'chunk_20_filtered_part_0.csv', 'chunk_21_filtered_part_0.csv', 'chunk_22_filtered_part_0.csv', 'chunk_23_filtered_part_0.csv', 'chunk_11_filtered_part_0.csv', 'chunk_16_filtered_part_0.csv', 'chunk_17_filtered_part_0.csv', 'chunk_14_filtered_part_0.csv', 'chunk_15_filtered_part_0.csv', 'chunk_19_filtered_part_0.csv']


**Explication :**  
- `os.listdir(folder_path)` liste tous les fichiers dans le dossier, et nous filtrons pour ne garder que ceux qui se terminent par `.csv`.
- Cela nous permet de vérifier que tous les fichiers CSV ont bien été trouvés.

---
## Étape 3 : Charger chaque fichier CSV et les ajouter à une liste

In [3]:
# Initialiser une liste pour stocker les DataFrames
dataframes = []

# Charger chaque fichier CSV et l'ajouter à la liste des DataFrames
for file in csv_files:
    file_path = os.path.join(folder_path, file)
    df = pd.read_csv(file_path)
    dataframes.append(df)
    print(f"{file} chargé avec succès.")

chunk_35_filtered_part_0.csv chargé avec succès.
chunk_34_filtered_part_0.csv chargé avec succès.
chunk_33_filtered_part_0.csv chargé avec succès.
chunk_29_filtered_part_0.csv chargé avec succès.
chunk_30_filtered_part_0.csv chargé avec succès.
chunk_28_filtered_part_0.csv chargé avec succès.
chunk_31_filtered_part_0.csv chargé avec succès.
chunk_25_filtered_part_0.csv chargé avec succès.
chunk_24_filtered_part_0.csv chargé avec succès.
chunk_27_filtered_part_0.csv chargé avec succès.
chunk_26_filtered_part_0.csv chargé avec succès.
chunk_20_filtered_part_0.csv chargé avec succès.
chunk_21_filtered_part_0.csv chargé avec succès.
chunk_22_filtered_part_0.csv chargé avec succès.
chunk_23_filtered_part_0.csv chargé avec succès.
chunk_11_filtered_part_0.csv chargé avec succès.
chunk_16_filtered_part_0.csv chargé avec succès.
chunk_17_filtered_part_0.csv chargé avec succès.
chunk_14_filtered_part_0.csv chargé avec succès.
chunk_15_filtered_part_0.csv chargé avec succès.
chunk_19_filtered_pa

**Explication :**  
- Nous chargeons chaque fichier CSV dans un DataFrame, puis l'ajoutons à la liste `dataframes`.
- Cela permet de préparer chaque fichier pour la concaténation.

---

## Étape 4 : Concaténer tous les DataFrames en un seul

In [5]:
# Concaténer tous les DataFrames en un seul
data_consolidated = pd.concat(dataframes, ignore_index=True)

# Afficher un aperçu des premières lignes du fichier consolidé
print("Aperçu des données consolidées :")
print(data_consolidated.head())

Aperçu des données consolidées :
            code                                                url  \
0  9050482371038  http://world-en.openfoodfacts.org/product/9050...   
1  9050482388685  http://world-en.openfoodfacts.org/product/9050...   
2  9050482407287  http://world-en.openfoodfacts.org/product/9050...   
3  9050482450139  http://world-en.openfoodfacts.org/product/9050...   
4  9050482487661  http://world-en.openfoodfacts.org/product/9050...   

                      creator     created_t      created_datetime  \
0                     kiliweb  1.663653e+09  2022-09-20T05:58:08Z   
1  openfoodfacts-contributors  1.643376e+09  2022-01-28T13:23:57Z   
2                     kiliweb  1.652297e+09  2022-05-11T19:29:38Z   
3                   dieta2022  1.642262e+09  2022-01-15T15:58:05Z   
4                     kiliweb  1.663241e+09  2022-09-15T11:18:02Z   

   last_modified_t last_modified_datetime last_modified_by  last_updated_t  \
0     1.722137e+09   2024-07-28T03:26:29Z      

**Explication :**  
- `pd.concat(dataframes, ignore_index=True)` combine tous les DataFrames de la liste `dataframes` en un seul DataFrame `data_consolidated`.

---

## Étape 5 : Créer le dossier de sortie et sauvegarder le fichier consolidé

Avant de sauvegarder, nous vérifions si le dossier de destination `02_data_consolidation` existe ; s'il n'existe pas, nous le créons avec `os.makedirs()`.

In [6]:
# Définir le dossier de sortie
output_folder = 'note-books/phase_2_training/02_data_consolidation'

# Créer le dossier s'il n'existe pas
os.makedirs(output_folder, exist_ok=True)

# Définir le chemin complet pour le fichier consolidé
output_path = os.path.join(output_folder, 'data_consolidated.csv')

# Sauvegarder le fichier consolidé
data_consolidated.to_csv(output_path, index=False)

print(f"Fichier consolidé sauvegardé sous : {output_path}")

Fichier consolidé sauvegardé sous : note-books/phase_2_training/02_data_consolidation/data_consolidated.csv


**Explication :**  
- `os.makedirs(output_folder, exist_ok=True)` crée le dossier `02_data_consolidation` s'il n'existe pas déjà.
- `data_consolidated.to_csv(output_path, index=False)` enregistre le DataFrame consolidé dans le dossier `02_data_consolidation` avec le nom `data_consolidated.csv`.

---

### Résumé

Ce notebook :
1. Importe les bibliothèques nécessaires.
2. Liste les fichiers CSV dans le dossier source.
3. Charge chaque fichier CSV et les concatène en un seul DataFrame.
4. Crée un dossier `02_data_consolidation` pour ranger le fichier de sortie.
5. Sauvegarde le DataFrame consolidé dans `02_data_consolidation/data_consolidated.csv`.