In [0]:
"""
Script de préparation finale des données RUL pour apprentissage automatique.

Ce script charge le fichier global `all_scenarios_with_RUL.csv` contenant l’ensemble
des simulations avec leurs RUL calculées. Il effectue les opérations suivantes :

1. Chargement du dataset complet et conversion de `unit_id` en chaîne de caractères.
2. Normalisation du temps (`Time`) pour chaque unité : remise à zéro à t=0 pour chaque unité.
3. Filtrage des colonnes pour ne garder que les capteurs utiles, la RUL et l’identifiant.
4. Sauvegarde dans un fichier `.txt` séparé par des virgules, prêt à être utilisé dans
   des notebooks ou des pipelines d'entraînement de modèles ML/DL.
5. Affichage de statistiques générales :
    - Nombre de lignes / colonnes / unités
    - Statistiques descriptives sur la RUL
    - Distribution des points par unité
    - Aperçu des premières lignes

Destination finale :
    /Volumes/dbe_dbx_internships/justin/predictive_maintenance/donneeML.txt
    
"""


In [0]:
import pandas as pd
import numpy as np

DATA_PATH = "/Volumes/dbe_dbx_internships/justin/predictive_maintenance/all_scenarios_with_RUL.csv"
SAVE_DIR = "/Volumes/dbe_dbx_internships/justin/predictive_maintenance/"
OUTPUT_FILE = f"{SAVE_DIR}/donneeML.txt"

columns_to_keep = [ # Colonnes utiles à conserver (features finales + RUL + unit_id)
    "Time","Nref","N","Power_Shaft","Eff_Cycle","Power_Comp","Power_Turb","Beta_Comp","Beta_Turb",
    "Is_Eff_Comp","Is_Eff_Turb","T_amb","T_c_in","T_c_out","T_rec_c_in","T_rec_c_out","T_cc_in",
    "T_cc_out","T_t_in","T_t_out","T_rec_h_in","T_rec_h_out","p_amb","p_c_in","p_c_out",
    "p_rec_c_in","p_rec_c_out","p_cc_in","p_cc_out","p_t_in","p_t_out","p_rec_h_in","p_rec_h_out",
    "m_amb","m_c_in","m_c_out","m_rec_c_in","m_rec_c_out","m_cc_in","m_cc_out",
    "m_t_in","m_t_out","m_rec_h_in","m_rec_h_out","m_fuel", "RUL", "unit_id"
]

print(" Chargement des données...")
df = pd.read_csv(DATA_PATH)
df["unit_id"] = df["unit_id"].astype(str)

print(f" Données chargées : {df.shape[0]:,} lignes, {df.shape[1]} colonnes")
print(f" Nombre d'unités : {df['unit_id'].nunique()}")

print(" Normalisation du temps par unité...")
df_reset = df.copy()
for uid in df_reset["unit_id"].unique():
    mask = df_reset["unit_id"] == uid
    df_reset.loc[mask, "Time"] -= df_reset.loc[mask, "Time"].min()
    df_reset.loc[mask, "Time"] = df_reset.loc[mask, "Time"].round(2)
print(" Normalisation terminée")

df_final = df_reset[columns_to_keep].copy() # Application du filtrage des colonnes

print(f" Sauvegarde vers : {OUTPUT_FILE}")
df_final.to_csv(OUTPUT_FILE, index=False)

print("\n" + "=" * 60)
print(" STATISTIQUES GÉNÉRALES SUR donneeML.txt")
print("=" * 60)

print(f" Fichier généré : {OUTPUT_FILE}")
print(f" Lignes : {df_final.shape[0]:,}")
print(f" Colonnes : {df_final.shape[1]}")
print(f" Unités : {df_final['unit_id'].nunique()}")

rul_stats = df_final['RUL'].describe()
print(f"\n Statistiques RUL :")
print(f"   Min      : {rul_stats['min']:.2f}")
print(f"   Max      : {rul_stats['max']:.2f}")
print(f"   Moyenne  : {rul_stats['mean']:.2f}")

unit_counts = df_final['unit_id'].value_counts()
print(f"\n Points par unité :")
print(f"   Min      : {unit_counts.min()}")
print(f"   Max      : {unit_counts.max()}")
print(f"   Moyenne  : {unit_counts.mean():.1f}")

print("\n Aperçu des premières lignes :")
print(df_final.head())


 Chargement des données...
 Données chargées : 16,104,431 lignes, 47 colonnes
 Nombre d'unités : 1039
 Normalisation du temps par unité...
 Normalisation terminée
 Sauvegarde vers : /Volumes/dbe_dbx_internships/justin/predictive_maintenance//donneeML.txt

 STATISTIQUES GÉNÉRALES SUR donneeML.txt
 Fichier généré : /Volumes/dbe_dbx_internships/justin/predictive_maintenance//donneeML.txt
 Lignes : 16,104,431
 Colonnes : 47
 Unités : 1039

 Statistiques RUL :
   Min      : 0.00
   Max      : 7001.30
   Moyenne  : 918.95

 Points par unité :
   Min      : 2101
   Max      : 70014
   Moyenne  : 15499.9

 Aperçu des premières lignes :
   Time  ...                                            unit_id
0   0.0  ...  Sim_10_N_87.96_TOT_678.18_Tamb_311.11_pamb_0.9...
1   0.1  ...  Sim_10_N_87.96_TOT_678.18_Tamb_311.11_pamb_0.9...
2   0.2  ...  Sim_10_N_87.96_TOT_678.18_Tamb_311.11_pamb_0.9...
3   0.3  ...  Sim_10_N_87.96_TOT_678.18_Tamb_311.11_pamb_0.9...
4   0.4  ...  Sim_10_N_87.96_TOT_678.18_Tamb