In [11]:
import pandas as pd
import os
from typing import Iterator, Generator, List, Dict

# --- Constantes ---
CSV_FILE_PATH = '../TEP_Faulty_Training.csv'
CHUNK_SIZE = 100000  # D√©finir une taille de morceau (par exemple, 100 000 lignes)

def process_csv_by_chunks(path: str, chunk_size: int) -> List[pd.DataFrame] | None:
    """
    Charge un fichier CSV par morceaux, traite chaque morceau,
    et retourne une liste des DataFrames trait√©s.

    Args:
        path (str): Le chemin vers le fichier CSV.
        chunk_size (int): Le nombre de lignes √† lire √† la fois.

    Returns:
        List[pd.DataFrame] | None: Une liste des DataFrames trait√©s, ou None en cas d'erreur.
    """

    print(f"Tentative de chargement du fichier : {os.path.abspath(path)}")
    print(f"Chargement par morceaux de taille : {chunk_size} lignes.")

    if not os.path.exists(path):
        print(f"Erreur: Le fichier '{path}' est introuvable. V√©rifiez le chemin d'acc√®s.")
        return None

    processed_chunks = []
    chunk_index = 0

    try:
        # Cr√©er un it√©rateur (TextFileReader) au lieu d'un DataFrame unique
        csv_iterator = pd.read_csv(path, chunksize=chunk_size)

        # Parcourir les morceaux g√©n√©r√©s par l'it√©rateur
        for chunk in csv_iterator:
            chunk_index += 1
            print(f"Traitement du morceau #{chunk_index} (taille: {len(chunk)} lignes)...")

            # üí° --- Zone de Traitement des Donn√©es --- üí°
            # Ici, vous pouvez appliquer des op√©rations qui r√©duisent la taille du morceau,
            # comme le filtrage, l'agr√©gation ou le calcul de statistiques.

            # Exemple : Calculer la moyenne de toutes les colonnes et stocker
            # stats_df = chunk.mean().to_frame().T
            # processed_chunks.append(stats_df)

            # Exemple : Filtrer pour garder uniquement les lignes o√π 'col_A' > 10
            # filtered_chunk = chunk[chunk['col_A'] > 10]
            # processed_chunks.append(filtered_chunk)

            # --- Fin de la Zone de Traitement ---

            # Dans cet exemple, nous stockons le morceau complet filtr√©
            # Si vous avez 500Mo, vous DEVEZ faire un traitement pour r√©duire le morceau avant de l'ajouter
            # √† 'processed_chunks', sinon vous resaturerez votre RAM.
            processed_chunks.append(chunk)


        print(f"\nChargement et traitement termin√©s. {chunk_index} morceaux trait√©s.")

        # ‚ö†Ô∏è ATTENTION : La ligne suivante va CONSOLIDER TOUS les morceaux.
        # Si vous n'avez pas r√©duit la taille des morceaux, vous risquez une saturation RAM.
        # Si vous n'avez besoin que de statistiques, vous pouvez retourner processed_chunks directement.
        final_dataframe = pd.concat(processed_chunks, ignore_index=True)
        print(f"Taille du DataFrame final: {len(final_dataframe)} lignes.")
        return final_dataframe

    except Exception as e:
        print(f"Une erreur s'est produite lors du traitement du fichier CSV : {e}")
        return None

# --- Exemple d'utilisation (√† d√©commenter pour tester) ---
# TEP_DF = process_csv_by_chunks(CSV_FILE_PATH, CHUNK_SIZE)
# if TEP_DF is not None:
#     print(TEP_DF.head())

In [6]:
TEP_DF = process_csv_by_chunks("/home/bapt/code/BSchelle/Projet/TEP_Faulty_Training.csv", CHUNK_SIZE)
if TEP_DF is not None:
    print(TEP_DF.head())

Tentative de chargement du fichier : /home/bapt/code/BSchelle/Projet/TEP_Faulty_Training.csv
Chargement par morceaux de taille : 100000 lignes.
Traitement du morceau #1 (taille: 100000 lignes)...
Traitement du morceau #2 (taille: 100000 lignes)...
Traitement du morceau #3 (taille: 100000 lignes)...
Traitement du morceau #4 (taille: 100000 lignes)...
Traitement du morceau #5 (taille: 100000 lignes)...
Traitement du morceau #6 (taille: 100000 lignes)...
Traitement du morceau #7 (taille: 100000 lignes)...
Traitement du morceau #8 (taille: 100000 lignes)...
Traitement du morceau #9 (taille: 100000 lignes)...
Traitement du morceau #10 (taille: 100000 lignes)...
Traitement du morceau #11 (taille: 100000 lignes)...
Traitement du morceau #12 (taille: 100000 lignes)...
Traitement du morceau #13 (taille: 56289 lignes)...

Chargement et traitement termin√©s. 13 morceaux trait√©s.
Taille du DataFrame final: 1256289 lignes.
   faultNumber  simulationRun  sample  xmeas_1  xmeas_2  xmeas_3  xmeas_4  

In [8]:
display(TEP_DF)

Unnamed: 0,faultNumber,simulationRun,sample,xmeas_1,xmeas_2,xmeas_3,xmeas_4,xmeas_5,xmeas_6,xmeas_7,...,xmv_2,xmv_3,xmv_4,xmv_5,xmv_6,xmv_7,xmv_8,xmv_9,xmv_10,xmv_11
0,1,1,1,0.25038,3674.0,4529.0,9.2320,26.889,42.402,2704.3,...,53.744,24.657,62.544,22.137,39.935,42.323,47.757,47.510,41.258,18.447
1,1,1,2,0.25109,3659.4,4556.6,9.4264,26.721,42.576,2705.0,...,53.414,24.588,59.259,22.084,40.176,38.554,43.692,47.427,41.359,17.194
2,1,1,3,0.25038,3660.3,4477.8,9.4426,26.875,42.070,2706.2,...,54.357,24.666,61.275,22.380,40.244,38.990,46.699,47.468,41.199,20.530
3,1,1,4,0.24977,3661.3,4512.1,9.4776,26.758,42.063,2707.2,...,53.946,24.725,59.856,22.277,40.257,38.072,47.541,47.658,41.643,18.089
4,1,1,5,0.29405,3679.0,4497.0,9.3381,26.889,42.650,2705.1,...,53.658,28.797,60.717,21.947,39.144,41.955,47.645,47.346,41.507,18.461
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1256284,13,126,285,0.22660,3612.8,4441.8,9.0014,26.794,41.703,2735.7,...,53.519,22.212,61.254,23.988,30.398,41.106,47.999,97.169,41.465,17.819
1256285,13,126,286,0.22636,3591.5,4464.4,9.0860,26.570,42.027,2727.7,...,53.248,22.236,60.733,23.696,30.576,39.712,49.291,97.966,41.129,19.339
1256286,13,126,287,0.21035,3609.7,4483.2,9.0564,26.326,42.385,2717.4,...,53.092,21.077,60.164,23.141,35.115,34.524,43.848,99.543,43.099,20.752
1256287,13,126,288,0.21127,3620.7,4435.8,8.9627,26.794,41.998,2705.0,...,53.660,20.986,60.561,22.851,35.075,40.165,47.138,100.000,40.096,19.401


In [10]:
TEP_DF.shape

(1256289, 55)