In [1]:
import pandas as pd
import os
import pyarrow.parquet as pq

In [4]:
# Dossiers source et destination
data_dir = os.path.join("..","data", "raw")  # Dossier contenant les fichiers CSV
dest_dir = os.path.join("..","data", "processed")  # Dossier où stocker les fichiers Parquet

# Liste des fichiers CSV à convertir
csv_files = [f for f in os.listdir(data_dir) if f.endswith(".csv")]

# Conversion des fichiers CSV en Parquet
for file in csv_files:
    csv_path = os.path.join(data_dir, file)
    parquet_path = os.path.join(dest_dir, file.replace(".csv", ".parquet"))
    
    print(f"Conversion de {file} en Parquet...")
    
    # Lecture et conversion par morceaux
    chunksize = 1_000_000  # Lecture en chunks pour éviter les problèmes de mémoire
    chunk_list = []
    
    for chunk in pd.read_csv(csv_path, chunksize=chunksize, low_memory=False):
        chunk_list.append(chunk)
    
    df = pd.concat(chunk_list)
    df.to_parquet(parquet_path, index=False)
    
    print(f"✅ {file} converti avec succès en {parquet_path}")

print("🎯 Tous les fichiers ont été convertis en Parquet !")


Conversion de 2019-Dec.csv en Parquet...
✅ 2019-Dec.csv converti avec succès en ..\data\processed\2019-Dec.parquet
Conversion de 2019-Nov.csv en Parquet...
✅ 2019-Nov.csv converti avec succès en ..\data\processed\2019-Nov.parquet
Conversion de 2019-Oct.csv en Parquet...
✅ 2019-Oct.csv converti avec succès en ..\data\processed\2019-Oct.parquet
Conversion de 2020-Apr.csv en Parquet...
✅ 2020-Apr.csv converti avec succès en ..\data\processed\2020-Apr.parquet
Conversion de 2020-Feb.csv en Parquet...
✅ 2020-Feb.csv converti avec succès en ..\data\processed\2020-Feb.parquet
Conversion de 2020-Jan.csv en Parquet...
✅ 2020-Jan.csv converti avec succès en ..\data\processed\2020-Jan.parquet
Conversion de 2020-Mar.csv en Parquet...
✅ 2020-Mar.csv converti avec succès en ..\data\processed\2020-Mar.parquet
🎯 Tous les fichiers ont été convertis en Parquet !
