# <center>üõ©Ô∏è **Dashboard Intelligent de Maintenance Pr√©dictive A√©ronautique** üõ©Ô∏è<center>

---

## Contexte du Projet
- **Flotte** : 150 moteurs turbofan
- **Probl√©matique** : Co√ªts de maintenance impr√©vus √©lev√©s + temps d'arr√™t non planifi√©s
- **Objectif** : Cr√©er un dashboard intelligent pour anticiper les pannes et optimiser les strat√©gies de maintenance

## Dataset Utilis√©
**[NASA Turbofan Engine Degradation Simulation (C-MAPSS)](https://data.nasa.gov/dataset/cmapss-jet-engine-simulated-data)**
- Source : NASA Prognostics Data Repository
- Contenu : Donn√©es de capteurs multivari√©s de moteurs turbofan (temp√©rature, pression, vibrations...). Le jeu de donn√©es simule le comportement run-to-failure des moteurs d‚Äôavion, en enregistrant les mesures des capteurs depuis l‚Äô√©tat neuf du moteur jusqu‚Äô√† sa panne.
- Sc√©nario FD001 : ~100 moteurs avec 21 capteurs diff√©rents
- Donn√©es : Depuis l'√©tat neuf jusqu'√† la panne

## Outils et Frameworks
- **Jupyter Notebook** : Environnement d'ex√©cution
- **Plotly Express & Graph Objects** : Visualisations interactives
- **Scikit-learn** : Machine Learning
- **XGBoost** : Gradient Boosting avanc√©
- **Pandas & NumPy** : Manipulation donn√©es
- **Dash** : Framework web pour dashboards

## Plan du projet
1. ‚úÖ Import et Configuration
2. ‚úÖ Chargement et Compr√©hension des Donn√©es
3. ‚úÖ Exploration Avanc√©e (EDA)
4. ‚úÖ D√©tection d'Anomalies
5. ‚úÖ Feature Engineering
6. ‚úÖ Clustering et Segmentation
7. ‚úÖ Mod√©lisation Pr√©dictive (RUL)
8. ‚úÖ Classification du Risque
9. ‚úÖ KPIs et √âvaluation
10. ‚úÖ Dashboard Interactif (4 onglets)
11. ‚úÖ Synth√®se Business

---

## **Section 1 : Import des Biblioth√®ques et Configuration**

In [133]:
# Importer les biblioth√®ques essentielles
import pandas as pd
import numpy as np
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Data Science & Machine Learning
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier, GradientBoostingRegressor
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.metrics import (
    mean_absolute_error, mean_squared_error, r2_score,
    classification_report, confusion_matrix, roc_auc_score, roc_curve,
    precision_score, recall_score, f1_score,
    silhouette_score, davies_bouldin_score
)
from sklearn.feature_selection import mutual_info_regression
from scipy import stats
from sklearn.ensemble import IsolationForest

# Plotly pour visualisations interactives
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.io as pio

# XGBoost
try:
    import xgboost as xgb
    XGBOOST_AVAILABLE = True
except ImportError:
    XGBOOST_AVAILABLE = False
    print("‚ö†Ô∏è XGBoost non disponible, seuls RandomForest et GradientBoosting seront utilis√©s")

# Configuration Plotly
pio.templates.default = "plotly_white"

# Param√®tres d'affichage pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.4f}'.format)

# Palette de couleurs pour coh√©rence visuelle
COLOR_PALETTE = {
    'primary': '#3498db',      # Bleu
    'secondary': '#2ecc71',    # Vert
    'warning': '#f39c12',      # Orange
    'danger': '#e74c3c',       # Rouge
    'neutral': '#95a5a6',      # Gris
    'dark': '#2c3e50'          # Bleu fonc√©
}

---

## **Section 2 : Compr√©hension et Chargement des Donn√©es NASA C-MAPSS**

### Structure du Dataset
- **unit_id** : Identifiant unique du moteur turbofan
- **cycles** : Nombre de cycles op√©rationnels (variable temporelle)
- **S1 √† S21** : Les 21 capteurs mesurent diff√©rents param√®tres physiques du moteur turbofan :
- **RUL** : Remaining Useful Life (Nombre de cycles restants avant la d√©faillance du moteur)

| Capteur | Signification                                     | Localisation physique                                                                |
| ------- | ------------------------------------------------- | ------------------------------------------------------------------------------------ |
| **S2**  | **Temp√©rature de sortie de la turbine BP (LPT)**  | Sortie de la turbine basse pression ‚Äì mesure de la temp√©rature des gaz d‚Äô√©chappement |
| **S3**  | **Temp√©rature de sortie du compresseur HP (HPC)** | Sortie du compresseur haute pression ‚Äì zone chaude du c≈ìur                           |
| **S4**  | **Temp√©rature de sortie de la turbine BP (LPT)**  | Turbine basse pression ‚Äì mesure alternative                                          |
| **S7**  | **Pression de sortie du compresseur HP (HPC)**    | Sortie du compresseur HP ‚Äì pression de compression                                   |
| **S8**  | **Pression de sortie de la turbine BP (LPT)**     | Sortie de la turbine BP ‚Äì contre-pression                                            |
| **S9**  | **Pression statique de sortie HPC**               | Mesure de pression du c≈ìur (ind√©pendante)                                            |
| **S11** | **Vitesse corrig√©e du fan**                       | Vitesse de rotation du fan (corrig√©e des conditions)                                 |
| **S12** | **Vitesse corrig√©e du c≈ìur/compresseur**          | Vitesse de rotation du c≈ìur (corrig√©e des conditions)                                |
| **S13** | **Taux de dilution (Bypass Ratio)**               | Fraction d‚Äôair contournant le c≈ìur vs traversant le c≈ìur                             |
| **S14** | **D√©bit carburant du br√ªleur**                    | Carburant consomm√© dans la chambre de combustion                                     |
| **S15** | **Enthalpie de pr√©l√®vement (bleed)**              | √ânergie extraite de l‚Äôair de pr√©l√®vement du compresseur                              |
| **S17** | **Vitesse physique du c≈ìur**                      | Vitesse r√©elle de l‚Äôarbre du c≈ìur                                                    |
| **S20** | **Pr√©l√®vement de refroidissement HPT**            | Air de refroidissement de la turbine HP                                              |
| **S21** | **Pr√©l√®vement de refroidissement LPT**            | Air de refroidissement de la turbine BP                                              |


In [134]:
# D√©finir le chemin du dataset
DATASET_PATH = Path('dataset')

In [135]:
# D√©finir les noms de colonnes (NASA C-MAPSS standard)
# Format: unit_id, cycles, 3 operational settings, 21 sensors
operational_settings = ['setting1', 'setting2', 'setting3']
sensor_columns = [f'S{i+1}' for i in range(21)]  # S1 √† S21
column_names = ['unit_id', 'cycles'] + operational_settings + sensor_columns

In [136]:
# Charger les donn√©es d'entra√Ænement (FD001)
scenario = 'FD001'
train_file = DATASET_PATH / f'train_{scenario}.txt'
data_train = pd.read_csv(train_file, sep=r'\s+', header=None, names=column_names)

# Charger les donn√©es de test
test_file = DATASET_PATH / f'test_{scenario}.txt'
data_test = pd.read_csv(test_file, sep=r'\s+', header=None, names=column_names)

# Afficher un aper√ßu des donn√©es
print(data_train.head())
print(data_test.head())


   unit_id  cycles  setting1  setting2  setting3       S1       S2        S3  \
0        1       1   -0.0007   -0.0004  100.0000 518.6700 641.8200 1589.7000   
1        1       2    0.0019   -0.0003  100.0000 518.6700 642.1500 1591.8200   
2        1       3   -0.0043    0.0003  100.0000 518.6700 642.3500 1587.9900   
3        1       4    0.0007    0.0000  100.0000 518.6700 642.3500 1582.7900   
4        1       5   -0.0019   -0.0002  100.0000 518.6700 642.3700 1582.8500   

         S4      S5      S6       S7        S8        S9    S10     S11  \
0 1400.6000 14.6200 21.6100 554.3600 2388.0600 9046.1900 1.3000 47.4700   
1 1403.1400 14.6200 21.6100 553.7500 2388.0400 9044.0700 1.3000 47.4900   
2 1404.2000 14.6200 21.6100 554.2600 2388.0800 9052.9400 1.3000 47.2700   
3 1401.8700 14.6200 21.6100 554.4500 2388.1100 9049.4800 1.3000 47.1300   
4 1406.2200 14.6200 21.6100 554.0000 2388.0600 9055.1500 1.3000 47.2800   

       S12       S13       S14    S15    S16  S17   S18      S19    

### Nettoyer les colonnes inutiles 

In [137]:
# Nettoyer les colonnes inutiles - garder seulement ce qui est n√©cessaire

# 1. Supprimer toutes les colonnes operational settings (constantes dans FD001)
settings_cols = [col for col in data_train.columns if col.startswith('setting')]
if settings_cols:
    print(f"‚ùå Param√®tres op√©rationnels supprim√©s (constants): {settings_cols}")
    data_train = data_train.drop(columns=settings_cols)
    data_test = data_test.drop(columns=settings_cols)

# 2. Identifier les capteurs avec variance nulle ou NaN excessifs
sensor_cols_to_check = [col for col in data_train.columns if col.startswith('S')]
useless_sensors = []

for col in sensor_cols_to_check:
    # Supprimer si constant (variance quasi-nulle, < 0.01)
    if data_train[col].std() < 0.01:
        useless_sensors.append(f"{col} (constant, std={data_train[col].std():.6f})")
    # Supprimer si trop de NaN (>50%)
    elif data_train[col].isna().sum() / len(data_train) > 0.5:
        useless_sensors.append(f"{col} (NaN)")

if useless_sensors:
    cols_to_drop = [s.split(' ')[0] for s in useless_sensors]
    print(f"‚ùå Capteurs inutiles supprim√©s: {useless_sensors}")
    data_train = data_train.drop(columns=cols_to_drop)
    data_test = data_test.drop(columns=[col for col in cols_to_drop if col in data_test.columns], errors='ignore')

# 3. Mettre √† jour la liste des capteurs actifs
sensor_columns = [col for col in data_train.columns if col.startswith('S')]
print(f"\n‚úÖ Capteurs conserv√©s: {len(sensor_columns)}/21")
print(f"üìä Capteurs actifs: {sensor_columns}")
print(f"üìã Colonnes finales: {list(data_train.columns)}")

‚ùå Param√®tres op√©rationnels supprim√©s (constants): ['setting1', 'setting2', 'setting3']
‚ùå Capteurs inutiles supprim√©s: ['S1 (constant, std=0.000000)', 'S5 (constant, std=0.000000)', 'S6 (constant, std=0.001389)', 'S10 (constant, std=0.000000)', 'S16 (constant, std=0.000000)', 'S18 (constant, std=0.000000)', 'S19 (constant, std=0.000000)']

‚úÖ Capteurs conserv√©s: 14/21
üìä Capteurs actifs: ['S2', 'S3', 'S4', 'S7', 'S8', 'S9', 'S11', 'S12', 'S13', 'S14', 'S15', 'S17', 'S20', 'S21']
üìã Colonnes finales: ['unit_id', 'cycles', 'S2', 'S3', 'S4', 'S7', 'S8', 'S9', 'S11', 'S12', 'S13', 'S14', 'S15', 'S17', 'S20', 'S21']


### Crit√®res de Suppression

1. **Param√®tres Op√©rationnels Constants (setting1, setting2, setting3)**
   - Dans le sc√©nario FD001, ces param√®tres restent constants tout au long du cycle de vie
   - Variance ‚âà 0 ‚Üí aucune information discriminante

2. **Capteurs √† Variance Nulle ou Quasi-Nulle (std < 0.01)**
   - **Capteurs supprim√©s** : S1, S5, S6, S10, S16, S18, S19 (7 capteurs)
   - Ces capteurs n'enregistrent aucune variation significative
   - Ne peuvent pas contribuer √† la pr√©diction de d√©gradation
   - Exemple : S1 (std=0.000000), S6 (std=0.001389)

3. **Capteurs avec Donn√©es Manquantes Excessives (>50%)**
   - V√©rification des valeurs NaN
   - Aucun capteur ne d√©passe ce seuil dans FD001

### R√©sultat Final

- **Capteurs conserv√©s** : 14/21 (67%) - S2, S3, S4, S7, S8, S9, S11, S12, S13, S14, S15, S17, S20, S21
- **Avantages** :
  - R√©duction de dimensionnalit√© (moins de bruit)
  - Am√©lioration des performances des mod√®les
  - Temps de calcul optimis√©
  - Interpr√©tabilit√© accrue

In [138]:
# Charger les RUL (Remaining Useful Life) cibles
rul_file = DATASET_PATH / f'RUL_{scenario}.txt'
data_rul = pd.read_csv(rul_file, header=None, names=['RUL'])

print(f"‚úÖ Donn√©es charg√©es")
print(f"   Train: {len(data_train):,} observations")
print(f"   Test:  {len(data_test):,} observations")
print(f"   Moteurs uniques: {data_train['unit_id'].nunique()} en train, {data_test['unit_id'].nunique()} en test")

‚úÖ Donn√©es charg√©es
   Train: 20,631 observations
   Test:  13,096 observations
   Moteurs uniques: 100 en train, 100 en test


In [139]:
# Affichage d'un aper√ßu
print("üìä APER√áU DES DONN√âES - Premi√®res lignes (Moteur #1)")
data_train.head(10)

üìä APER√áU DES DONN√âES - Premi√®res lignes (Moteur #1)


Unnamed: 0,unit_id,cycles,S2,S3,S4,S7,S8,S9,S11,S12,S13,S14,S15,S17,S20,S21
0,1,1,641.82,1589.7,1400.6,554.36,2388.06,9046.19,47.47,521.66,2388.02,8138.62,8.4195,392,39.06,23.419
1,1,2,642.15,1591.82,1403.14,553.75,2388.04,9044.07,47.49,522.28,2388.07,8131.49,8.4318,392,39.0,23.4236
2,1,3,642.35,1587.99,1404.2,554.26,2388.08,9052.94,47.27,522.42,2388.03,8133.23,8.4178,390,38.95,23.3442
3,1,4,642.35,1582.79,1401.87,554.45,2388.11,9049.48,47.13,522.86,2388.08,8133.83,8.3682,392,38.88,23.3739
4,1,5,642.37,1582.85,1406.22,554.0,2388.06,9055.15,47.28,522.19,2388.04,8133.8,8.4294,393,38.9,23.4044
5,1,6,642.1,1584.47,1398.37,554.67,2388.02,9049.68,47.16,521.68,2388.03,8132.85,8.4108,391,38.98,23.3669
6,1,7,642.48,1592.32,1397.77,554.34,2388.02,9059.13,47.36,522.32,2388.03,8132.32,8.3974,392,39.1,23.3774
7,1,8,642.56,1582.96,1400.97,553.85,2388.0,9040.8,47.24,522.47,2388.03,8131.07,8.4076,391,38.97,23.3106
8,1,9,642.12,1590.98,1394.8,553.69,2388.05,9046.46,47.29,521.79,2388.05,8125.69,8.3728,392,39.05,23.4066
9,1,10,641.71,1591.24,1400.46,553.59,2388.05,9051.7,47.03,521.79,2388.06,8129.38,8.4286,393,38.95,23.4694


In [140]:
# Cr√©er le RUL pour les donn√©es d'entra√Ænement
data_train['rul'] = data_train.groupby('unit_id')['cycles'].transform(lambda x: x.max() - x)

print("\nSTATISTIQUES DESCRIPTIVES")
print(data_train.describe().round(3))

print("\nDISTRIBUTION DES CYCLES")
cycles_per_unit = data_train.groupby('unit_id')['cycles'].max()
print(f"   Min cycles: {cycles_per_unit.min()}")
print(f"   Max cycles: {cycles_per_unit.max():.0f}")
print(f"   Moyenne: {cycles_per_unit.mean():.0f}")

print("\nRUL (Remaining Useful Life)")
print(f"   Min RUL: {data_train['rul'].min()}")
print(f"   Max RUL: {data_train['rul'].max():.0f}")
print(f"   Moyenne: {data_train['rul'].mean():.0f}")


STATISTIQUES DESCRIPTIVES
         unit_id     cycles         S2         S3         S4         S7  \
count 20631.0000 20631.0000 20631.0000 20631.0000 20631.0000 20631.0000   
mean     51.5070   108.8080   642.6810  1590.5230  1408.9340   553.3680   
std      29.2280    68.8810     0.5000     6.1310     9.0010     0.8850   
min       1.0000     1.0000   641.2100  1571.0400  1382.2500   549.8500   
25%      26.0000    52.0000   642.3250  1586.2600  1402.3600   552.8100   
50%      52.0000   104.0000   642.6400  1590.1000  1408.0400   553.4400   
75%      77.0000   156.0000   643.0000  1594.3800  1414.5550   554.0100   
max     100.0000   362.0000   644.5300  1616.9100  1441.4900   556.0600   

              S8         S9        S11        S12        S13        S14  \
count 20631.0000 20631.0000 20631.0000 20631.0000 20631.0000 20631.0000   
mean   2388.0970  9065.2430    47.5410   521.4130  2388.0960  8143.7530   
std       0.0710    22.0830     0.2670     0.7380     0.0720    19.0760 

---

## **Section 3 : Exploration Avanc√©e (EDA) et Analyse Temporelle**

### 3.1 Distribution de la Progression des Cycles (Boxplot et Histogramme)

In [141]:
fig_hist = px.histogram(
    data_train,
    x='cycles',
    nbins=30,
    title='Distribution de la Progression des Cycles (FD001)',
    labels={'cycles': 'Nombre de cycles'},
    color_discrete_sequence=[COLOR_PALETTE['primary']],
    marginal='box' # Ajoute un box plot au-dessus pour le contexte
)

fig_hist.update_layout(
    template='plotly_white',
    title_x=0.5,
    xaxis_title='Cycle de fonctionnement',
    yaxis_title='Fr√©quence (Nombre d\'enregistrements)',
    bargap=0.1,
    height=500
)

fig_hist.show()

### 1. Le Box Plot (Statistiques Cl√©s)

Ce graphique montre **quand** les moteurs tombent en panne.

* **M√©diane (~105-110 cycles) :** La moiti√© des moteurs s'arr√™tent avant ce seuil. C'est la dur√©e de vie "typique".
* **Variabilit√© (Bo√Æte) :** 50% des pannes surviennent entre 50 et 155 cycles. L'√©cart est large, ce qui rend la maintenance pr√©ventive fixe risqu√©e.
* **Valeurs Aberrantes (Points isol√©s) :** Certains moteurs sont exceptionnels et atteignent **362 cycles**.

### 2. L'Histogramme (Volume de Donn√©es)

Ce graphique montre **combien** de donn√©es vous poss√©dez pour chaque stade de vie.

**Pente Descendante :** La fr√©quence chute √† mesure que les cycles augmentent car les moteurs "meurent".

=> Le dataset est **asym√©trique √† droite**.

### 3.2 Matrice de corr√©lation entre capteurs (heatmap)

In [142]:
# 3.2 Heatmap avec labels de corr√©lation
correlation_matrix = data_train[sensor_columns].corr()

fig_heatmap_labeled = go.Figure(data=go.Heatmap(
    z=correlation_matrix.values,
    x=sensor_columns,
    y=sensor_columns,
    colorscale='RdBu_r',
    zmin=-1, zmax=1,
    colorbar=dict(title="Corr√©lation"),
    text=correlation_matrix.round(2).values,
    texttemplate="%{text}",
    textfont={"size":10}
))

fig_heatmap_labeled.update_layout(
    title='Matrice de Corr√©lation entre Capteurs',
    title_font_size=16,
    title_x=0.5,
    width=900,
    height=800,
    template='plotly_white',
    xaxis=dict(title_font_size=12, tickfont_size=10),
    yaxis=dict(title_font_size=12, tickfont_size=10),
    margin=dict(l=100, r=100, t=100, b=100)
)
fig_heatmap_labeled.show()

#### 1. Anti-corr√©lations Significatives & Synchronisations Fortes

Ces paires capturent la **dynamique du moteur**:

| Paire | Corr√©lation | Interpr√©tation |
|-------|-------------|----------------|
| **S4 ‚Üî S7** | **-0.7931** | Pression vs vitesse: compensation inverse |
| **S12 ‚Üî S7** | **+0.8127** | Carburant vs vitesse: **synchronisation directe (couplage thermodynamique)** |
| **S11 ‚Üî S12** | **-0.8469** | D√©bit vs carburant: **plus fort signal anti-corr√©lation** |
| **S12 ‚Üî S13** | **-0.79** | Couple vs d√©bit: d√©s√©quilibre op√©rationnel |
| **S3 ‚Üî S7** | **-0.66** | Temp√©rature vs vitesse: relation physique |

---

#### 2. Peu/Pas de Corr√©lation (Blancs/Pales)

- **S9 avec presque tous** (r ‚âà 0.3 partout): **Isolation quasi-compl√®te** ‚Üí capteur compl√®tement ind√©pendant
  
- **S14 avec la plupart** (r ‚âà 0.18-0.25): Peu de redondance ‚Üí compl√©ment orthogonal

**‚Üí Impact positif**: R√©duisent multicollin√©arit√©, ajoutent diversit√© sans bruit

### 3.3 Analyse Temporelle : S7 (Vitesse Fan) vs S12 (D√©bit Carburant)

- **Corr√©lation** : **+0.8127** (fortement positive/synchrone)
- **Signification physique** : Synchronisation moteur ‚Äî S7 et S12 augmentent/diminuent ENSEMBLE ‚Üí couplage thermodynamique direct
- **Utilit√© RUL** : D√©tection de d√©faillances (perte de synchronisation = premier sympt√¥me de d√©gradation)

In [163]:
# 3.3 Analyse temporelle : S7 (Fan Speed) vs S12 (Fuel Flow) - Paire cl√© de d√©gradation
# S√©lectionner les 2 premiers moteurs pour visualisation claire
sample_units_s7_s12 = data_train['unit_id'].unique()[:2]

fig_s7_s12 = make_subplots(
    rows=2, cols=1,
    subplot_titles=[f'Moteur {uid}' for uid in sample_units_s7_s12],
    specs=[[{'secondary_y': True}],
           [{'secondary_y': True}]]
)

row_col_pairs = [(1,1), (2,1)]

for idx, (unit_id, (row, col)) in enumerate(zip(sample_units_s7_s12, row_col_pairs)):
    df_motor = data_train[data_train['unit_id'] == unit_id].sort_values('cycles')
    
    # Normaliser pour voir la corr√©lation (plot sur m√™me √©chelle)
    s7_norm = (df_motor['S7'] - df_motor['S7'].min()) / (df_motor['S7'].max() - df_motor['S7'].min())
    s12_norm = (df_motor['S12'] - df_motor['S12'].min()) / (df_motor['S12'].max() - df_motor['S12'].min())
    
    # S7 (Fan Speed) - axe principal
    fig_s7_s12.add_trace(
        go.Scatter(
            x=df_motor['cycles'],
            y=s7_norm,
            mode='lines',
            name=f'S7 (Fan Speed)',
            line=dict(color=COLOR_PALETTE['primary'], width=2.5),
            hovertemplate='<b>S7 - Fan Speed</b><br>Cycles: %{x}<br>Normalized: %{y:.3f}<extra></extra>'
        ),
        row=row, col=col, secondary_y=False
    )
    
    # S12 (Fuel Flow) - axe secondaire (direct, car corr√©lation positive +0.8127)
    fig_s7_s12.add_trace(
        go.Scatter(
            x=df_motor['cycles'],
            y=s12_norm,  # Affichage direct (corr√©lation positive, synchronisation)
            mode='lines',
            name=f'S12 (Fuel Flow)',
            line=dict(color=COLOR_PALETTE['danger'], width=2.5, dash='dash'),
            hovertemplate='<b>S12 - Fuel Flow</b><br>Cycles: %{x}<br>Normalized: %{y:.3f}<extra></extra>'
        ),
        row=row, col=col, secondary_y=False
    )
    
    # RUL en arri√®re-plan (zone gris√©e)
    rul_max = df_motor['rul'].max()
    fig_s7_s12.add_vrect(
        x0=df_motor[df_motor['rul'] <= RUL_THRESHOLD_WARNING]['cycles'].min() if len(df_motor[df_motor['rul'] <= RUL_THRESHOLD_WARNING]) > 0 else df_motor['cycles'].max(),
        x1=df_motor['cycles'].max(),
        fillcolor=COLOR_PALETTE['danger'],
        opacity=0.1,
        line_width=0,
        layer="below",
        row=row, col=col
    )

# Mise en page
fig_s7_s12.update_xaxes(title_text='Cycles', title_font_size=11, tickfont_size=10, showgrid=True, gridcolor='lightgray')
fig_s7_s12.update_yaxes(title_text='Normalized Value', title_font_size=11, tickfont_size=10, showgrid=True, gridcolor='lightgray')

fig_s7_s12.update_layout(
    title_text='Analyse Temporelle : S7 (Vitesse Fan) vs S12 (D√©bit Carburant)<br><sub>Synchronisation directe (r=+0.8127) | Zone rouge = RUL faible</sub>',
    title_font_size=16,
    title_x=0.5,
    height=800,
    width=1200,
    template='plotly_white',
    showlegend=True,
    legend=dict(
        orientation="h",
        yanchor="bottom",
        y=-0.02,
        xanchor="center",
        x=0.5,
        font_size=10,
        bgcolor='rgba(255,255,255,0.8)'
    ),
    margin=dict(l=70, r=40, t=120, b=80)
)

fig_s7_s12.show()

---

## **Section 4 : D√©tection d'Anomalies et Signaux d'Alerte**

In [146]:
df_eda = data_train.copy()

In [147]:
# 4.1 D√©tection Z-score
print("D√©tection Z-score (seuil = 3)")
z_scores = np.abs(stats.zscore(data_train[sensor_columns], nan_policy='omit'))
anomalies_zscore = (z_scores > 3).sum(axis=1) > 0
df_eda['is_anomaly_zscore'] = anomalies_zscore
print(f"Anomalies d√©tect√©es: {anomalies_zscore.sum()} ({100*anomalies_zscore.sum()/len(data_train):.2f}%)")

D√©tection Z-score (seuil = 3)
Anomalies d√©tect√©es: 891 (4.32%)


In [148]:
# 4.2 Isolation Forest
print("D√©tection Isolation Forest")
iso_forest = IsolationForest(contamination=0.05, random_state=42)
anomalies_if = iso_forest.fit_predict(data_train[sensor_columns])
df_eda['is_anomaly_if'] = anomalies_if == -1
print(f"Anomalies d√©tect√©es: {(anomalies_if == -1).sum()}")

D√©tection Isolation Forest
Anomalies d√©tect√©es: 1032


In [149]:
# 4.3 Score d'anomalie composite
df_eda['anomaly_score'] = (anomalies_zscore.astype(int) + (anomalies_if == -1).astype(int)) / 2
print(f"Score d'Anomalie Composite")
print(f"Score moyen: {df_eda['anomaly_score'].mean():.4f}")
print(f"Moteurs avec au moins 1 anomalie: {(df_eda['anomaly_score'] > 0).sum()}")

Score d'Anomalie Composite
Score moyen: 0.0466
Moteurs avec au moins 1 anomalie: 1291


- **Z-score (seuil 3œÉ)** : d√©tecte les pics isol√©s capteur par capteur. R√©sultat : 4,3% des cycles anormaux.
- **Isolation Forest** : rep√®re les combinaisons inhabituelles multi-capteurs. R√©sultat : 1‚ÄØ032 cycles.
- **Score composite** : ne retient que ce qui est confirm√© (consensus). R√©sultat : 0,047 de score moyen, 1‚ÄØ291 moteurs touch√©s.
- **R√®gle d‚Äôusage** : d√©clencher maintenance sur les anomalies valid√©es par ‚â•2 m√©thodes; surveiller les alertes uniques.
- **B√©n√©fice** : moins de faux positifs, meilleure d√©tection des d√©gradations r√©elles du turbofan.

### Visualisation des anomalies

In [164]:
# 4.4 Visualisation des anomalies
# Utiliser des capteurs avec plus de variance pour mieux visualiser
top_variance_sensors = data_train[sensor_columns].std().nlargest(2).index.tolist()
sensor_x, sensor_y = top_variance_sensors[0], top_variance_sensors[1]

# Cr√©er un √©chantillon avec surrepr√©sentation des anomalies
df_normal = df_eda[df_eda['anomaly_score'] == 0].sample(min(3000, len(df_eda[df_eda['anomaly_score'] == 0])))
df_anomalies = df_eda[df_eda['anomaly_score'] > 0]
df_viz = pd.concat([df_normal, df_anomalies])

print(f"Visualisation avec {sensor_x} et {sensor_y}")
print(f"Points normaux: {len(df_normal):,}")
print(f"Points anomalies: {len(df_anomalies):,}")

fig_anomaly = px.scatter(
    df_viz,
    x=sensor_x,
    y=sensor_y,
    color='anomaly_score',
    color_continuous_scale='YlOrRd',
    title=f'D√©tection d\'Anomalies - Espace des Capteurs {sensor_x}-{sensor_y}',
    labels={sensor_x: f'Capteur {sensor_x}', sensor_y: f'Capteur {sensor_y}', 'anomaly_score': 'Score Anomalie'},
    opacity=0.6,
    hover_data=['unit_id', 'cycles', 'rul']
)
fig_anomaly.update_layout(
    height=600,
    template='plotly_white',
    coloraxis_colorbar=dict(title="Score<br>Anomalie")
)
fig_anomaly.show()

Visualisation avec S9 et S14
Points normaux: 3,000
Points anomalies: 1,291


- Les capteurs affich√©s (S9 et S14) sont choisis automatiquement comme les **2 plus variables** du jeu de donn√©es (`std().nlargest(2)`), pour maximiser la s√©paration visuelle normal/anomalie.
- Points trac√©s : √©chantillon √©quilibr√© (beaucoup de points normaux + toutes les anomalies) pour bien voir la fronti√®re.
- Couleur = `anomaly_score` : plus c'est fonc√©/rouge, plus l'observation est consid√©r√©e anormale.
- Taille des groupes : Normal = √©chantillon de 3k max ; Anomalies = toutes les anomalies.

---

## **Section 5 : Feature Engineering pour S√©ries Temporelles**

In [None]:
# 5.1 Cr√©ation de features glissantes

def create_rolling_features(data, windows=[5, 10, 20], columns=sensor_columns):
    """Cr√©e des features statistiques glissantes"""
    df_features = data.copy()
    
    for window in windows:
        for col in columns:
            # Moyenne glissante
            df_features[f'{col}_mean_{window}'] = df_features.groupby('unit_id')[col].transform(
                lambda x: x.rolling(window=window, min_periods=1).mean()
            )
            # √âcart-type glissant
            df_features[f'{col}_std_{window}'] = df_features.groupby('unit_id')[col].transform(
                lambda x: x.rolling(window=window, min_periods=1).std().fillna(0)
            )
    
    return df_features

print("Cr√©ation de features glissantes...")
df_features = create_rolling_features(df_eda, windows=[5, 10, 20])
print(f"Nombre initial de colonnes: {len(df_eda.columns)}")
print(f"Nombre apr√®s feature engineering: {len(df_features.columns)}")

Cr√©ation de features glissantes...
Nombre initial de colonnes: 20
Nombre apr√®s feature engineering: 104


In [None]:
# 5.2 S√©lection de features via Mutual Information
print("S√©lection de features via Mutual Information...")

feature_cols_for_selection = [col for col in df_features.columns 
                               if col not in ['unit_id', 'cycles', 'scenario', 'rul', 
                                              'is_anomaly_zscore', 'is_anomaly_if', 'anomaly_score']]

mi_scores = mutual_info_regression(
    df_features[feature_cols_for_selection].fillna(0),
    df_features['rul'],
    random_state=42
)

mi_df = pd.DataFrame({
    'feature': feature_cols_for_selection,
    'mi_score': mi_scores
}).sort_values('mi_score', ascending=False)

print(f"\nTop 15 features:")
print(mi_df.head(15).to_string(index=False))

top_features = mi_df.head(30)['feature'].tolist()
print(f"\n{len(top_features)} features s√©lectionn√©es")

S√©lection de features via Mutual Information...

Top 15 features:
    feature  mi_score
S11_mean_20    0.6962
S11_mean_10    0.6956
 S4_mean_20    0.6825
 S11_mean_5    0.6804
 S4_mean_10    0.6682
S17_mean_20    0.6638
 S2_mean_20    0.6497
S15_mean_10    0.6479
S21_mean_20    0.6471
S15_mean_20    0.6466
  S4_mean_5    0.6461
S21_mean_10    0.6446
 S2_mean_10    0.6380
S20_mean_10    0.6323
 S7_mean_20    0.6279

30 features s√©lectionn√©es


In [None]:
# 5.3 Normalisation des donn√©es
print("Normalisation avec StandardScaler...")
scaler = StandardScaler()
df_scaled = df_features.copy()
df_scaled[top_features] = scaler.fit_transform(df_features[top_features].fillna(0))

# 5.4 Pr√©paration pour mod√©lisation
X_train = df_scaled[top_features].values
y_train = df_scaled['rul'].values

print(f"X_train shape: {X_train.shape}")
print(f"y_train shape: {y_train.shape}")
print(f"Samples: {len(X_train):,}")

Normalisation avec StandardScaler...
X_train shape: (20631, 30)
y_train shape: (20631,)
Samples: 20,631


---

## **Section 6 : Clustering et Segmentation de la Flotte**

In [None]:
# 6.1 PCA pour r√©duction de dimensionnalit√©
print("R√©duction de dimensionnalit√© avec PCA...")
pca = PCA(n_components=10, random_state=42)
X_pca = pca.fit_transform(X_train)
print(f"Variance expliqu√©e: {pca.explained_variance_ratio_.cumsum()[-1]:.2%}")

R√©duction de dimensionnalit√© avec PCA...
Variance expliqu√©e: 98.85%


In [None]:
# 6.2 D√©termination du nombre optimal de clusters
print("D√©termination du nombre optimal de clusters...")
inertias = []
silhouette_scores = []
K_range = range(2, 11)

for k in K_range:
    kmeans_temp = KMeans(n_clusters=k, random_state=42, n_init=10)
    labels_temp = kmeans_temp.fit_predict(X_pca)
    inertias.append(kmeans_temp.inertia_)
    silhouette_scores.append(silhouette_score(X_pca, labels_temp))

# Visualiser l'Elbow
fig_elbow = make_subplots(rows=1, cols=2, subplot_titles=('Inertie (Elbow)', 'Silhouette Score'))

fig_elbow.add_trace(
    go.Scatter(x=list(K_range), y=inertias, mode='lines+markers', name='Inertie',
               line=dict(color=COLOR_PALETTE['primary'], width=3)),
    row=1, col=1
)

fig_elbow.add_trace(
    go.Scatter(x=list(K_range), y=silhouette_scores, mode='lines+markers', name='Silhouette',
               line=dict(color=COLOR_PALETTE['secondary'], width=3)),
    row=1, col=2
)

fig_elbow.update_xaxes(title_text='Nombre de clusters (k)', title_font_size=13, row=1, col=1)
fig_elbow.update_xaxes(title_text='Nombre de clusters (k)', title_font_size=13, row=1, col=2)
fig_elbow.update_yaxes(title_text='Inertie', title_font_size=13, row=1, col=1)
fig_elbow.update_yaxes(title_text='Silhouette Score', title_font_size=13, row=1, col=2)
fig_elbow.update_layout(
    height=500,
    width=1100,
    title_text='S√©lection du nombre optimal de clusters',
    title_font_size=16,
    title_x=0.5,
    template='plotly_white',
    showlegend=True,
    margin=dict(l=60, r=40, t=80, b=60)
)
fig_elbow.show()

# S√©lectionner k optimal
optimal_k = list(K_range)[np.argmax(silhouette_scores)]
print(f"Nombre optimal de clusters: {optimal_k}")

D√©termination du nombre optimal de clusters...


Nombre optimal de clusters: 2


In [None]:
# 6.3 K-Means avec k optimal
print(f"Clustering avec K-Means (k={optimal_k})...")
kmeans = KMeans(n_clusters=optimal_k, random_state=42, n_init=10)
df_features['cluster'] = kmeans.fit_predict(X_pca)

print(f"Distribution des clusters:")
print(df_features['cluster'].value_counts().sort_index())

Clustering avec K-Means (k=2)...
Distribution des clusters:
cluster
0     7314
1    13317
Name: count, dtype: int64


In [165]:
# 6.4 Visualisation PCA clusters
fig_clusters_pca = px.scatter(
    df_features,
    x=X_pca[:, 0],
    y=X_pca[:, 1],
    color='cluster',
    title='Clustering K-Means (Projection PCA)',
    labels={'x': 'Composante Principale 1', 'y': 'Composante Principale 2', 'cluster': 'Cluster'},
    color_discrete_sequence=list(COLOR_PALETTE.values())
)
fig_clusters_pca.update_layout(
    height=600,
    width=900,
    template='plotly_white',
    title_font_size=16,
    title_x=0.5,
    xaxis=dict(showgrid=True, gridcolor='lightgray', title_font_size=14),
    yaxis=dict(showgrid=True, gridcolor='lightgray', title_font_size=14),
    legend=dict(title_font_size=13, font_size=11),
    margin=dict(l=60, r=40, t=80, b=60)
)
fig_clusters_pca.show()

1. S√©paration des clusters sur la PC1

    La caract√©ristique la plus marquante est que la s√©paration entre les clusters **jaune** et **bleu fonc√©** se fait presque verticalement le long de l‚Äôaxe de la **Composante Principale 1 (PC1)**.

* **PC1** repr√©sente g√©n√©ralement la direction de **variance maximale** dans les donn√©es.
* Le fait que la s√©paration se produise approximativement √† une valeur donn√©e de PC1 sugg√®re que les variables contribuant le plus √† PC1 sont les **principaux facteurs** qui pilotent la d√©cision de clustering.

2. Chevauchement et densit√©

* On observe une **forte densit√© de points** √† l‚Äôendroit o√π les deux clusters se rejoignent.
* Cela indique que les donn√©es sont **relativement continues**, plut√¥t que structur√©es autour d‚Äôun ¬´ vide ¬ª ou d‚Äôun espace clairement s√©parateur entre les groupes.

3. Valeurs aberrantes (outliers)

* Plusieurs **valeurs aberrantes** sont visibles, en particulier dans le cluster jaune (par exemple, des points situ√©s aux extr√©mit√©s du nuage).
* Comme **K-means** utilise la **moyenne (centro√Øde)** pour d√©finir les clusters, il peut √™tre sensible √† ces outliers.
* Toutefois, √©tant donn√© la **forte densit√©** des nuages principaux, ces valeurs extr√™mes n‚Äôont probablement **pas d√©plac√© significativement les centro√Ødes**.


In [168]:
# 6.5 Distribution du RUL par cluster
fig_rul_cluster = px.box(
    df_features,
    x='cluster',
    y='rul',
    color='cluster',
    title='Distribution du RUL par Cluster',
    labels={'rul': 'Remaining Useful Life (cycles)', 'cluster': 'Cluster'},
    points='outliers',
    color_discrete_sequence=list(COLOR_PALETTE.values())
)
fig_rul_cluster.update_layout(
    height=550,
    width=900,
    template='plotly_white',
    title_font_size=16,
    title_x=0.5,
    xaxis=dict(title_font_size=14, tickfont_size=12),
    yaxis=dict(title_font_size=14, tickfont_size=12, showgrid=True, gridcolor='lightgray'),
    showlegend=False,
    margin=dict(l=80, r=40, t=80, b=60)
)
fig_rul_cluster.show()

Ce graphique illustre la distribution de la **Remaining Useful Life (RUL)** pour les deux clusters identifi√©s lors de l‚Äôanalyse **K-Means** pr√©c√©dente.

1. S√©paration significative des √©tats de sant√©

 Les deux clusters pr√©sentent une distinction tr√®s nette en termes de valeurs de RUL :

* **Cluster 0 (Vert)** : repr√©sente des composants/moteurs dans un **√©tat d√©grad√©**.
  La m√©diane de la RUL est relativement faible (environ **40 cycles**), et la majorit√© des donn√©es (la ¬´ bo√Æte ¬ª du boxplot) se situe en dessous de **75 cycles**.

* **Cluster 1 (Bleu)** : repr√©sente des composants dans un **√©tat sain ou en d√©but de vie**.
  La m√©diane de la RUL est beaucoup plus √©lev√©e (environ **140 cycles**), avec une distribution qui s‚Äô√©tend jusqu‚Äô√† **plus de 350 cycles**.


2. Variance et distribution

* **Le cluster 1** pr√©sente un **intervalle interquartile (IQR)** nettement plus large (hauteur de la bo√Æte bleue) que le cluster 0.
  Cela est attendu, car des machines ¬´ saines ¬ª peuvent avoir une dur√©e de vie restante tr√®s variable selon leur √©tat initial et l‚Äôintensit√© de leur utilisation.

* **Le cluster 0** est beaucoup plus **concentr√© vers le bas de l‚Äô√©chelle**.
  Cela sugg√®re qu‚Äô√† mesure que les machines approchent de la d√©faillance, leurs profils de capteurs (qui ont guid√© le clustering) deviennent **plus similaires entre eux** et **clairement distincts** de ceux des machines en bon √©tat.


---

## **Section 7 : Mod√©lisation Pr√©dictive du RUL**

In [None]:
# 7.1 Split train/test
print("Pr√©paration des donn√©es...")
X_train_model, X_test_model, y_train_model, y_test_model = train_test_split(
    X_train, y_train, test_size=0.2, random_state=42
)
print(f"Train: {X_train_model.shape[0]:,} samples")
print(f"Test: {X_test_model.shape[0]:,} samples")

Pr√©paration des donn√©es...
Train: 16,504 samples
Test: 4,127 samples


In [None]:
# 7.2 Entra√Ænement des mod√®les
print("Entra√Ænement des mod√®les...\n")

models = {}
predictions = {}
performance = {}

# Random Forest
print("Random Forest Regressor...")
rf_model = RandomForestRegressor(
    n_estimators=100,
    max_depth=20,
    min_samples_split=5,
    random_state=42,
    n_jobs=-1
)
rf_model.fit(X_train_model, y_train_model)
y_pred_rf = rf_model.predict(X_test_model)

mae_rf = mean_absolute_error(y_test_model, y_pred_rf)
rmse_rf = np.sqrt(mean_squared_error(y_test_model, y_pred_rf))
r2_rf = r2_score(y_test_model, y_pred_rf)

models['RandomForest'] = rf_model
predictions['RandomForest'] = y_pred_rf
performance['RandomForest'] = {'MAE': mae_rf, 'RMSE': rmse_rf, 'R2': r2_rf}
print(f"  MAE: {mae_rf:.2f}, RMSE: {rmse_rf:.2f}, R¬≤: {r2_rf:.4f}")

# Gradient Boosting
print("Gradient Boosting Regressor...")
gb_model = GradientBoostingRegressor(
    n_estimators=100,
    max_depth=5,
    learning_rate=0.1,
    random_state=42
)
gb_model.fit(X_train_model, y_train_model)
y_pred_gb = gb_model.predict(X_test_model)

mae_gb = mean_absolute_error(y_test_model, y_pred_gb)
rmse_gb = np.sqrt(mean_squared_error(y_test_model, y_pred_gb))
r2_gb = r2_score(y_test_model, y_pred_gb)

models['GradientBoosting'] = gb_model
predictions['GradientBoosting'] = y_pred_gb
performance['GradientBoosting'] = {'MAE': mae_gb, 'RMSE': rmse_gb, 'R2': r2_gb}
print(f"  MAE: {mae_gb:.2f}, RMSE: {rmse_gb:.2f}, R¬≤: {r2_gb:.4f}")

# XGBoost
if XGBOOST_AVAILABLE:
    print("XGBoost Regressor...")
    xgb_model = xgb.XGBRegressor(
        n_estimators=100,
        max_depth=5,
        learning_rate=0.1,
        random_state=42
    )
    xgb_model.fit(X_train_model, y_train_model)
    y_pred_xgb = xgb_model.predict(X_test_model)
    
    mae_xgb = mean_absolute_error(y_test_model, y_pred_xgb)
    rmse_xgb = np.sqrt(mean_squared_error(y_test_model, y_pred_xgb))
    r2_xgb = r2_score(y_test_model, y_pred_xgb)
    
    models['XGBoost'] = xgb_model
    predictions['XGBoost'] = y_pred_xgb
    performance['XGBoost'] = {'MAE': mae_xgb, 'RMSE': rmse_xgb, 'R2': r2_xgb}
    print(f"  MAE: {mae_xgb:.2f}, RMSE: {rmse_xgb:.2f}, R¬≤: {r2_xgb:.4f}")

Entra√Ænement des mod√®les...

Random Forest Regressor...
  MAE: 19.99, RMSE: 28.44, R¬≤: 0.8229
Gradient Boosting Regressor...
  MAE: 24.83, RMSE: 33.78, R¬≤: 0.7502
XGBoost Regressor...
  MAE: 24.64, RMSE: 33.29, R¬≤: 0.7574


In [None]:
# 7.3 Comparaison des mod√®les
print("COMPARAISON DES MOD√àLES:")
perf_df = pd.DataFrame(performance).T
print(perf_df)

COMPARAISON DES MOD√àLES:
                     MAE    RMSE     R2
RandomForest     19.9857 28.4426 0.8229
GradientBoosting 24.8311 33.7803 0.7502
XGBoost          24.6353 33.2929 0.7574


In [166]:
# 7.4 Visualisation des performances
fig_models = px.bar(
    perf_df.reset_index().melt(id_vars='index', var_name='M√©trique', value_name='Score'),
    x='index',
    y='Score',
    color='M√©trique',
    title='Comparaison des Performances des Mod√®les',
    labels={'index': 'Mod√®le', 'Score': 'Score'},
    barmode='group',
    color_discrete_map={'MAE': COLOR_PALETTE['warning'], 'RMSE': COLOR_PALETTE['danger'], 'R2': COLOR_PALETTE['secondary']}
)
fig_models.update_layout(
    height=550,
    width=900,
    template='plotly_white',
    title_font_size=16,
    title_x=0.5,
    xaxis=dict(title_font_size=14, tickfont_size=12),
    yaxis=dict(title_font_size=14, tickfont_size=12, showgrid=True, gridcolor='lightgray'),
    legend=dict(title_font_size=13, font_size=11, orientation="h", yanchor="bottom", y=1.02, xanchor="right", x=1),
    margin=dict(l=60, r=40, t=100, b=60)
)
fig_models.show()

In [None]:
# S√©lectionner le meilleur mod√®le
best_model_name = perf_df['R2'].idxmax()
best_predictions = predictions[best_model_name]

print(f"Meilleur mod√®le: {best_model_name}")
print(f"   MAE: {perf_df.loc[best_model_name, 'MAE']:.2f}")
print(f"   R¬≤: {perf_df.loc[best_model_name, 'R2']:.4f}")

Meilleur mod√®le: RandomForest
   MAE: 19.99
   R¬≤: 0.8229


---

## **Section 8 : Classification du Risque Moteur**

In [None]:
# 8.1 D√©finir les seuils de risque
RUL_THRESHOLD_CRITICAL = 10   # Rouge: RUL <= 10
RUL_THRESHOLD_WARNING = 30    # Jaune: 10 < RUL <= 30

print("D√©finition des classes de risque...")
print(f"  Seuil critique: RUL <= {RUL_THRESHOLD_CRITICAL}")
print(f"  Seuil alerte: RUL <= {RUL_THRESHOLD_WARNING}")

# Classification binaire pour courbe ROC
y_binary_risk = (y_train_model <= RUL_THRESHOLD_WARNING).astype(int)
y_test_binary_risk = (y_test_model <= RUL_THRESHOLD_WARNING).astype(int)

print(f"\nDistribution des classes (Train):")
print(f"  Sains (RUL > {RUL_THRESHOLD_WARNING}): {(y_binary_risk == 0).sum()}")
print(f"  √Ä risque (RUL <= {RUL_THRESHOLD_WARNING}): {(y_binary_risk == 1).sum()}")
print(f"\nDistribution des classes (Test):")
print(f"  Sains (RUL > {RUL_THRESHOLD_WARNING}): {(y_test_binary_risk == 0).sum()}")
print(f"  √Ä risque (RUL <= {RUL_THRESHOLD_WARNING}): {(y_test_binary_risk == 1).sum()}")

D√©finition des classes de risque...
  Seuil critique: RUL <= 10
  Seuil alerte: RUL <= 30

Distribution des classes (Train):
  Sains (RUL > 30): 13988
  √Ä risque (RUL <= 30): 2516

Distribution des classes (Test):
  Sains (RUL > 30): 3543
  √Ä risque (RUL <= 30): 584


In [None]:
# 8.2 Entra√Æner un classifieur
print("Entra√Ænement du classifieur de risque...")
rf_classifier = RandomForestClassifier(
    n_estimators=100,
    max_depth=15,
    random_state=42,
    n_jobs=-1
)
rf_classifier.fit(X_train_model, y_binary_risk)
y_pred_risk = rf_classifier.predict(X_test_model)

# V√©rifier que les deux classes sont pr√©sentes pour predict_proba
if len(rf_classifier.classes_) < 2:
    print("Une seule classe d√©tect√©e, ajustement du seuil...")
    # Si une seule classe, utiliser decision_function ou cr√©er probabilit√©s manuelles
    y_pred_proba_risk = rf_classifier.predict_proba(X_test_model)[:, 0]
else:
    # Les deux classes sont pr√©sentes
    y_pred_proba_risk = rf_classifier.predict_proba(X_test_model)[:, 1]

# √âvaluation
precision = precision_score(y_test_binary_risk, y_pred_risk)
recall = recall_score(y_test_binary_risk, y_pred_risk)
f1 = f1_score(y_test_binary_risk, y_pred_risk)
roc_auc = roc_auc_score(y_test_binary_risk, y_pred_proba_risk)

print(f"M√©triques:")
print(f"   Pr√©cision: {precision:.4f}")
print(f"   Recall: {recall:.4f}")
print(f"   F1-Score: {f1:.4f}")
print(f"   ROC-AUC: {roc_auc:.4f}")

Entra√Ænement du classifieur de risque...
M√©triques:
   Pr√©cision: 0.9348
   Recall: 0.8836
   F1-Score: 0.9085
   ROC-AUC: 0.9962


In [None]:
# 8.3 Matrice de confusion
cm = confusion_matrix(y_test_binary_risk, y_pred_risk)
fig_cm = go.Figure(data=go.Heatmap(
    z=cm,
    x=['Sain', '√Ä Risque'],
    y=['Sain', '√Ä Risque'],
    text=cm,
    texttemplate='%{text}',
    textfont={"size": 16},
    colorscale='RdYlGn_r',
    showscale=True,
    colorbar=dict(title="Nombre")
))
fig_cm.update_layout(
    title='Matrice de Confusion - Classification du Risque',
    title_font_size=16,
    title_x=0.5,
    xaxis_title='Pr√©diction',
    yaxis_title='R√©alit√©',
    xaxis=dict(title_font_size=14, tickfont_size=12, side='bottom'),
    yaxis=dict(title_font_size=14, tickfont_size=12),
    height=550,
    width=600,
    template='plotly_white',
    margin=dict(l=80, r=40, t=80, b=60)
)
fig_cm.show()

In [None]:
# 8.4 Courbe ROC
fpr, tpr, thresholds = roc_curve(y_test_binary_risk, y_pred_proba_risk)

fig_roc = px.line(
    x=fpr,
    y=tpr,
    title='Courbe ROC - Classification du Risque',
    labels={'x': 'Taux de Faux Positifs', 'y': 'Taux de Vrais Positifs'}
)
fig_roc.update_traces(line=dict(color=COLOR_PALETTE['primary'], width=3))
fig_roc.add_trace(
    go.Scatter(x=[0, 1], y=[0, 1], mode='lines', name='Al√©atoire (AUC=0.5)',
               line=dict(dash='dash', color='gray', width=2))
)
fig_roc.add_annotation(
    x=0.6, y=0.3,
    text=f'AUC = {roc_auc:.3f}',
    showarrow=False,
    font=dict(size=14, color=COLOR_PALETTE['dark']),
    bgcolor="white",
    bordercolor=COLOR_PALETTE['primary'],
    borderwidth=2
)
fig_roc.update_layout(
    height=600,
    width=700,
    template='plotly_white',
    title_font_size=16,
    title_x=0.5,
    xaxis=dict(title_font_size=14, tickfont_size=12, showgrid=True, gridcolor='lightgray', range=[-0.05, 1.05]),
    yaxis=dict(title_font_size=14, tickfont_size=12, showgrid=True, gridcolor='lightgray', range=[-0.05, 1.05]),
    legend=dict(x=0.7, y=0.1, font_size=11),
    margin=dict(l=60, r=40, t=80, b=60)
)
fig_roc.show()

---

## **Section 9 : KPIs Op√©rationnels et Financiers**

### 9.1 Pr√©dictions pour tous les moteurs

In [None]:
# 9.1 Pr√©dictions pour tous les moteurs
y_pred_all = models[best_model_name].predict(X_train)
df_features['rul_predicted'] = y_pred_all
df_features['rul_error'] = np.abs(df_features['rul'] - df_features['rul_predicted'])

# KPIs Op√©rationnels
print("KPIs OP√âRATIONNELS:\n")

moteurs_a_risque = (df_features['rul_predicted'] <= RUL_THRESHOLD_WARNING).sum()
pct_risque = 100 * moteurs_a_risque / len(df_features)
moteurs_sains = (df_features['rul_predicted'] > RUL_THRESHOLD_WARNING).sum()
moteurs_critiques = (df_features['rul_predicted'] <= RUL_THRESHOLD_CRITICAL).sum()

print(f"Moteurs √† Risque (RUL ‚â§ {RUL_THRESHOLD_WARNING}):")
print(f"   Sains: {moteurs_sains:,} ({100*moteurs_sains/len(df_features):.1f}%)")
print(f"   D√©grad√©s: {moteurs_a_risque - moteurs_critiques:,} ({100*(moteurs_a_risque - moteurs_critiques)/len(df_features):.1f}%)")
print(f"   Critiques: {moteurs_critiques:,} ({100*moteurs_critiques/len(df_features):.1f}%)")

# KPIs Financiers (hypoth√®ses r√©alistes)
print("\nKPIs FINANCIERS (Estimations):")

COST_CORRECTIVE_MAINTENANCE = 50000  # ‚Ç¨
COST_PREVENTIVE_MAINTENANCE = 15000  # ‚Ç¨
COST_DOWNTIME_PER_DAY = 10000  # ‚Ç¨
FLEET_SIZE = 150

cost_corrective_total = COST_CORRECTIVE_MAINTENANCE * FLEET_SIZE
cost_preventive_total = COST_PREVENTIVE_MAINTENANCE * FLEET_SIZE
cost_avoided_downtime = COST_DOWNTIME_PER_DAY * 0.5 * moteurs_a_risque

savings = cost_corrective_total - cost_preventive_total - cost_avoided_downtime
roi = 100 * savings / cost_preventive_total

print(f" Co√ªts annuels estim√©s (flotte de {FLEET_SIZE} moteurs):")
print(f"   Sans mod√®le (maintenance corrective): {cost_corrective_total:,.0f} ‚Ç¨")
print(f"   Avec mod√®le (maintenance pr√©ventive): {cost_preventive_total:,.0f} ‚Ç¨")
print(f"   √âconomies: {savings:,.0f} ‚Ç¨")
print(f"   ROI: {roi:.1f}%")

KPIs OP√âRATIONNELS:

Moteurs √† Risque (RUL ‚â§ 30):
   Sains: 17,819 (86.4%)
   D√©grad√©s: 1,831 (8.9%)
   Critiques: 981 (4.8%)

KPIs FINANCIERS (Estimations):
 Co√ªts annuels estim√©s (flotte de 150 moteurs):
   Sans mod√®le (maintenance corrective): 7,500,000 ‚Ç¨
   Avec mod√®le (maintenance pr√©ventive): 2,250,000 ‚Ç¨
   √âconomies: -8,810,000 ‚Ç¨
   ROI: -391.6%


### 9.2 Dashboard r√©capitulatif

In [None]:
# 9.2 Dashboard r√©capitulatif
print("R√âCAPITULATIF DES PERFORMANCES:\n")

summary_df = pd.DataFrame({
    'Mod√®le': list(performance.keys()),
    'MAE': [performance[m]['MAE'] for m in performance.keys()],
    'RMSE': [performance[m]['RMSE'] for m in performance.keys()],
    'R¬≤': [performance[m]['R2'] for m in performance.keys()]
})

print(summary_df.to_string(index=False))

R√âCAPITULATIF DES PERFORMANCES:

          Mod√®le     MAE    RMSE     R¬≤
    RandomForest 19.9857 28.4426 0.8229
GradientBoosting 24.8311 33.7803 0.7502
         XGBoost 24.6353 33.2929 0.7574


In [None]:
# Cr√©er un dashboard r√©capitulatif
fig_dashboard = make_subplots(
    rows=2, cols=2,
    subplot_titles=('Distribution Risque', 'Performance MAE', 'Performance R¬≤', 'RUL: R√©el vs Pr√©dit'),
    specs=[[{'type': 'pie'}, {'type': 'bar'}],
           [{'type': 'bar'}, {'type': 'scatter'}]]
)

# Pie chart
risk_counts = [moteurs_sains, moteurs_a_risque - moteurs_critiques, moteurs_critiques]
risk_labels_pie = ['Sains', 'D√©grad√©s', 'Critiques']

fig_dashboard.add_trace(
    go.Pie(labels=risk_labels_pie, values=risk_counts, name='Risque',
            marker=dict(colors=[COLOR_PALETTE['secondary'], COLOR_PALETTE['warning'], COLOR_PALETTE['danger']])),
    row=1, col=1
)

# MAE
fig_dashboard.add_trace(
    go.Bar(x=summary_df['Mod√®le'], y=summary_df['MAE'], name='MAE',
           marker_color=COLOR_PALETTE['warning'], showlegend=False),
    row=1, col=2
)

# R¬≤
fig_dashboard.add_trace(
    go.Bar(x=summary_df['Mod√®le'], y=summary_df['R¬≤'], name='R¬≤',
           marker_color=COLOR_PALETTE['secondary'], showlegend=False),
    row=2, col=1
)

# Scatter RUL - Add diagonal line for perfect predictions
scatter_sample = df_features.sample(min(3000, len(df_features)))
fig_dashboard.add_trace(
    go.Scatter(x=scatter_sample['rul'], y=scatter_sample['rul_predicted'], 
               mode='markers', name='Pr√©dictions',
               marker=dict(color=COLOR_PALETTE['primary'], opacity=0.5, size=4)),
    row=2, col=2
)
# Add perfect prediction line
fig_dashboard.add_trace(
    go.Scatter(x=[0, scatter_sample['rul'].max()], y=[0, scatter_sample['rul'].max()],
               mode='lines', name='Pr√©diction parfaite',
               line=dict(color='red', dash='dash', width=2)),
    row=2, col=2
)

fig_dashboard.update_xaxes(title_text='Mod√®le', title_font_size=12, row=1, col=2)
fig_dashboard.update_yaxes(title_text='MAE (cycles)', title_font_size=12, row=1, col=2)
fig_dashboard.update_xaxes(title_text='Mod√®le', title_font_size=12, row=2, col=1)
fig_dashboard.update_yaxes(title_text='R¬≤ Score', title_font_size=12, row=2, col=1)
fig_dashboard.update_xaxes(title_text='RUL R√©el (cycles)', title_font_size=12, row=2, col=2)
fig_dashboard.update_yaxes(title_text='RUL Pr√©dit (cycles)', title_font_size=12, row=2, col=2)

fig_dashboard.update_layout(
    title_text='Dashboard R√©capitulatif - Maintenance Pr√©dictive',
    title_font_size=18,
    title_x=0.5,
    height=850,
    width=1200,
    template='plotly_white',
    showlegend=True,
    legend=dict(x=0.7, y=0.02, font_size=10),
    margin=dict(l=60, r=40, t=100, b=60)
)
fig_dashboard.show()

---

## **Section 10 : Code Base du Dashboard Interactif (Plotly/Dash)**

### Structure Dashboard (4 Onglets)

#### Onglet 1 : Vue Executive
- KPIs cl√©s (cards)
- Pie chart distribution risque
- Top moteurs critiques

#### Onglet 2 : Analyse de Flotte
- Clusters visualization (scatter PCA)
- Heatmap caract√©ristiques par cluster
- Distribution RUL par cluster

#### Onglet 3 : Pr√©dictions
- S√©lection moteur (dropdown)
- Courbe RUL r√©el vs pr√©dit
- Timeline maintenance recommand√©e

#### Onglet 4 : Monitoring
- Heatmap capteurs
- D√©tection anomalies
- Historique alertes

In [None]:
# Pr√©paration des donn√©es pour dashboard
df_export = df_features[['unit_id', 'cycles', 'cluster', 'rul', 'rul_predicted']].copy()
df_export['rul_error'] = np.abs(df_export['rul'] - df_export['rul_predicted'])
df_export['risk_level'] = pd.cut(
    df_export['rul_predicted'],
    bins=[0, RUL_THRESHOLD_CRITICAL, RUL_THRESHOLD_WARNING, float('inf')],
    labels=['üî¥ Critique', 'üü° D√©grad√©', 'üü¢ Sain'],
    right=False
)

In [None]:
# VUE 1 : EXECUTIVE DASHBOARD

print("Onglet 1 : Vue Executive")

fig_exec = make_subplots(
    rows=2, cols=2,
    subplot_titles=('Distribution des Risques', 'Top 10 Moteurs Critiques',
                    '√âvolution RUL par Cluster', 'KPIs Cl√©s'),
    specs=[[{'type': 'pie'}, {'type': 'bar'}],
           [{'type': 'box'}, {'type': 'indicator'}]]
)

# Pie: Distribution risque
fig_exec.add_trace(
    go.Pie(
        labels=['üü¢ Sain', 'üü° D√©grad√©', 'üî¥ Critique'],
        values=[moteurs_sains, moteurs_a_risque - moteurs_critiques, moteurs_critiques],
        marker=dict(colors=[COLOR_PALETTE['secondary'], COLOR_PALETTE['warning'], COLOR_PALETTE['danger']])
    ),
    row=1, col=1
)

# Bar: Top moteurs critiques
top_critical = df_export[df_export['risk_level'] == 'üî¥ Critique'].nlargest(10, 'rul_error')
fig_exec.add_trace(
    go.Bar(
        y=top_critical['unit_id'].astype(str),
        x=top_critical['rul_error'],
        orientation='h',
        marker=dict(color=COLOR_PALETTE['danger']),
        name='Erreur RUL'
    ),
    row=1, col=2
)

# Box: RUL par cluster
for cluster in sorted(df_export['cluster'].unique()):
    fig_exec.add_trace(
        go.Box(
            y=df_export[df_export['cluster'] == cluster]['rul_predicted'],
            name=f'Cluster {cluster}'
        ),
        row=2, col=1
    )

# Indicator: Taux de moteurs √† risque
fig_exec.add_trace(
    go.Indicator(
        mode="number+delta",
        value=pct_risque,
        title={'text': "Moteurs √† Risque (%)"},
        domain={'x': [0, 1], 'y': [0, 1]}
    ),
    row=2, col=2
)

fig_exec.update_xaxes(title_text='Erreur (cycles)', title_font_size=13, tickfont_size=11, showgrid=True, gridcolor='lightgray', row=1, col=2)
fig_exec.update_yaxes(title_text='Moteur', title_font_size=13, tickfont_size=11, row=1, col=2)
fig_exec.update_yaxes(title_text='RUL Pr√©dit (cycles)', title_font_size=13, tickfont_size=11, showgrid=True, gridcolor='lightgray', row=2, col=1)

fig_exec.update_layout(
    title_text='Onglet 1 : VUE EXECUTIVE - Tableau de Bord de Synth√®se',
    title_font_size=18,
    title_x=0.5,
    height=900,
    width=1300,
    template='plotly_white',
    showlegend=True,
    legend=dict(orientation='h', yanchor='bottom', y=-0.15, xanchor='center', x=0.5, font_size=11),
    margin=dict(l=70, r=40, t=100, b=80)
)
fig_exec.show()

Onglet 1 : Vue Executive


In [None]:
# VUE 2 : ANALYSE DE FLOTTE (CLUSTERING)

fig_fleet = make_subplots(
    rows=1, cols=2,
    subplot_titles=('Clusters (PCA)', 'Distribution RUL par Cluster'),
    specs=[[{'type': 'scatter'}, {'type': 'box'}]]
)

# Scatter clusters
for cluster in sorted(df_export['cluster'].unique()):
    mask = df_export['cluster'] == cluster
    fig_fleet.add_trace(
        go.Scatter(
            x=X_pca[mask, 0],
            y=X_pca[mask, 1],
            mode='markers',
            name=f'Cluster {cluster}',
            marker=dict(size=8, opacity=0.7),
            hovertemplate=f'<b>Cluster {cluster}</b><br>PC1: %{{x:.2f}}<br>PC2: %{{y:.2f}}<extra></extra>'
        ),
        row=1, col=1
    )

# Box plot RUL par cluster
for cluster in sorted(df_export['cluster'].unique()):
    fig_fleet.add_trace(
        go.Box(
            y=df_export[df_export['cluster'] == cluster]['rul_predicted'],
            name=f'Cluster {cluster}'
        ),
        row=1, col=2
    )

fig_fleet.update_xaxes(title_text='Composante Principale 1', title_font_size=13, tickfont_size=11, showgrid=True, gridcolor='lightgray', row=1, col=1)
fig_fleet.update_yaxes(title_text='Composante Principale 2', title_font_size=13, tickfont_size=11, showgrid=True, gridcolor='lightgray', row=1, col=1)
fig_fleet.update_yaxes(title_text='RUL Pr√©dit (cycles)', title_font_size=13, tickfont_size=11, showgrid=True, gridcolor='lightgray', row=1, col=2)

fig_fleet.update_layout(
    title_text='Onglet 2 : ANALYSE DE FLOTTE - Segmentation par Cluster',
    title_font_size=18,
    title_x=0.5,
    height=550,
    width=1300,
    template='plotly_white',
    showlegend=True,
    legend=dict(orientation='h', yanchor='bottom', y=-0.15, xanchor='center', x=0.5, font_size=11),
    margin=dict(l=70, r=40, t=90, b=80)
)
fig_fleet.show()

### Plot 1

1. S√©paration des clusters sur la PC1

    La caract√©ristique la plus marquante est que la s√©paration entre les clusters **jaune** et **bleu fonc√©** se fait presque verticalement le long de l‚Äôaxe de la **Composante Principale 1 (PC1)**.

* **PC1** repr√©sente g√©n√©ralement la direction de **variance maximale** dans les donn√©es.
* Le fait que la s√©paration se produise approximativement √† une valeur donn√©e de PC1 sugg√®re que les variables contribuant le plus √† PC1 sont les **principaux facteurs** qui pilotent la d√©cision de clustering.

2. Chevauchement et densit√©

* On observe une **forte densit√© de points** √† l‚Äôendroit o√π les deux clusters se rejoignent.
* Cela indique que les donn√©es sont **relativement continues**, plut√¥t que structur√©es autour d‚Äôun ¬´ vide ¬ª ou d‚Äôun espace clairement s√©parateur entre les groupes.

3. Valeurs aberrantes (outliers)

* Plusieurs **valeurs aberrantes** sont visibles, en particulier dans le cluster jaune (par exemple, des points situ√©s aux extr√©mit√©s du nuage).
* Comme **K-means** utilise la **moyenne (centro√Øde)** pour d√©finir les clusters, il peut √™tre sensible √† ces outliers.
* Toutefois, √©tant donn√© la **forte densit√©** des nuages principaux, ces valeurs extr√™mes n‚Äôont probablement **pas d√©plac√© significativement les centro√Ødes**.

### Plot 2
Ce graphique illustre la distribution de la **Remaining Useful Life (RUL)** pour les deux clusters identifi√©s lors de l‚Äôanalyse **K-Means** pr√©c√©dente.

1. S√©paration significative des √©tats de sant√©

 Les deux clusters pr√©sentent une distinction tr√®s nette en termes de valeurs de RUL :

* **Cluster 0 (Vert)** : repr√©sente des composants/moteurs dans un **√©tat d√©grad√©**.
  La m√©diane de la RUL est relativement faible (environ **40 cycles**), et la majorit√© des donn√©es (la ¬´ bo√Æte ¬ª du boxplot) se situe en dessous de **75 cycles**.

* **Cluster 1 (Bleu)** : repr√©sente des composants dans un **√©tat sain ou en d√©but de vie**.
  La m√©diane de la RUL est beaucoup plus √©lev√©e (environ **140 cycles**), avec une distribution qui s‚Äô√©tend jusqu‚Äô√† **plus de 350 cycles**.


2. Variance et distribution

* **Le cluster 1** pr√©sente un **intervalle interquartile (IQR)** nettement plus large (hauteur de la bo√Æte bleue) que le cluster 0.
  Cela est attendu, car des machines ¬´ saines ¬ª peuvent avoir une dur√©e de vie restante tr√®s variable selon leur √©tat initial et l‚Äôintensit√© de leur utilisation.

* **Le cluster 0** est beaucoup plus **concentr√© vers le bas de l‚Äô√©chelle**.
  Cela sugg√®re qu‚Äô√† mesure que les machines approchent de la d√©faillance, leurs profils de capteurs (qui ont guid√© le clustering) deviennent **plus similaires entre eux** et **clairement distincts** de ceux des machines en bon √©tat.


In [None]:
# VUE 3 : PR√âDICTIONS (S√©lection moteur)

# Cr√©er un dashboard consolid√© avec les 3 composantes requises
from scipy import stats

# S√©lection des moteurs disponibles (top 20 pour performance)
available_motors = df_export['unit_id'].unique()[:20]

# Cr√©er le dashboard interactif avec subplots
fig_predictions = make_subplots(
    rows=2, cols=2,
    subplot_titles=(
        'üéØ Pr√©diction RUL avec Intervalle de Confiance',
        'üìÖ Timeline des Maintenances Recommand√©es',
        'üìâ Courbe de D√©gradation (Tous Moteurs)',
        '‚ö†Ô∏è R√©sum√© des Alertes'
    ),
    specs=[
        [{'type': 'scatter', 'colspan': 2}, None],
        [{'type': 'scatter'}, {'type': 'bar'}]
    ],
    row_heights=[0.55, 0.45],
    vertical_spacing=0.12,
    horizontal_spacing=0.15
)

# S√©lectionner le premier moteur √† risque critique
selected_motor = top_critical.iloc[0]['unit_id'] if len(top_critical) > 0 else available_motors[0]
df_motor = df_export[df_export['unit_id'] == selected_motor].sort_values('cycles')
df_motor_train = data_train[data_train['unit_id'] == selected_motor].sort_values('cycles')

# Calculer l'intervalle de confiance (95%)
# Utiliser l'√©cart-type des r√©sidus pour estimer l'incertitude
residuals = df_motor['rul_predicted'].values - df_motor_train['rul'].values[:len(df_motor)]
std_error = np.std(residuals)
confidence_interval = 1.96 * std_error  # 95% CI

# SUBPLOT 1: Pr√©diction RUL avec intervalle de confiance
fig_predictions.add_trace(
    go.Scatter(
        x=df_motor['cycles'],
        y=df_motor['rul_predicted'] + confidence_interval,
        mode='lines',
        name='IC Sup√©rieur (95%)',
        line=dict(width=0),
        showlegend=False
    ),
    row=1, col=1
)

fig_predictions.add_trace(
    go.Scatter(
        x=df_motor['cycles'],
        y=df_motor['rul_predicted'] - confidence_interval,
        mode='lines',
        name='IC Inf√©rieur (95%)',
        fill='tonexty',
        fillcolor='rgba(52, 152, 219, 0.2)',
        line=dict(width=0),
        showlegend=True
    ),
    row=1, col=1
)

fig_predictions.add_trace(
    go.Scatter(
        x=df_motor['cycles'],
        y=df_motor['rul_predicted'],
        mode='lines',
        name='RUL Pr√©dit',
        line=dict(color=COLOR_PALETTE['primary'], width=3)
    ),
    row=1, col=1
)

fig_predictions.add_trace(
    go.Scatter(
        x=df_motor_train['cycles'],
        y=df_motor_train['rul'],
        mode='lines',
        name='RUL R√©el',
        line=dict(color=COLOR_PALETTE['secondary'], dash='dash', width=2)
    ),
    row=1, col=1
)

# Ajouter seuils
fig_predictions.add_hline(
    y=RUL_THRESHOLD_CRITICAL,
    line_dash="dot",
    line_color=COLOR_PALETTE['danger'],
    annotation_text="Critique",
    row=1, col=1
)
fig_predictions.add_hline(
    y=RUL_THRESHOLD_WARNING,
    line_dash="dot",
    line_color=COLOR_PALETTE['warning'],
    annotation_text="Alerte",
    row=1, col=1
)

# SUBPLOT 2: Timeline des maintenances recommand√©es
maintenance_schedule = []
for motor_id in available_motors[:10]:
    df_m = df_export[df_export['unit_id'] == motor_id].sort_values('cycles')
    # Trouver quand le moteur passe sous les seuils
    critical_cycles = df_m[df_m['rul_predicted'] <= RUL_THRESHOLD_CRITICAL]
    warning_cycles = df_m[df_m['rul_predicted'] <= RUL_THRESHOLD_WARNING]
    
    if len(critical_cycles) > 0:
        maintenance_schedule.append({
            'motor': motor_id,
            'cycle': critical_cycles.iloc[0]['cycles'],
            'priority': 'Critique',
            'color': COLOR_PALETTE['danger']
        })
    elif len(warning_cycles) > 0:
        maintenance_schedule.append({
            'motor': motor_id,
            'cycle': warning_cycles.iloc[0]['cycles'],
            'priority': 'Pr√©ventive',
            'color': COLOR_PALETTE['warning']
        })

if maintenance_schedule:
    df_schedule = pd.DataFrame(maintenance_schedule)
    
    for priority, color in [('Critique', COLOR_PALETTE['danger']), ('Pr√©ventive', COLOR_PALETTE['warning'])]:
        df_prio = df_schedule[df_schedule['priority'] == priority]
        if len(df_prio) > 0:
            fig_predictions.add_trace(
                go.Scatter(
                    x=df_prio['cycle'],
                    y=df_prio['motor'],
                    mode='markers',
                    name=f'Maintenance {priority}',
                    marker=dict(size=12, color=color, symbol='diamond')
                ),
                row=2, col=1
            )

# SUBPLOT 3: Courbe de d√©gradation (tous moteurs)
alert_summary = {'Critique': 0, 'Alerte': 0, 'Normal': 0}
for motor_id in available_motors:
    df_m = df_export[df_export['unit_id'] == motor_id]
    last_rul = df_m['rul_predicted'].iloc[-1]
    
    if last_rul <= RUL_THRESHOLD_CRITICAL:
        alert_summary['Critique'] += 1
    elif last_rul <= RUL_THRESHOLD_WARNING:
        alert_summary['Alerte'] += 1
    else:
        alert_summary['Normal'] += 1

fig_predictions.add_trace(
    go.Bar(
        x=list(alert_summary.keys()),
        y=list(alert_summary.values()),
        marker_color=[COLOR_PALETTE['danger'], COLOR_PALETTE['warning'], COLOR_PALETTE['secondary']],
        text=list(alert_summary.values()),
        textposition='outside',
        showlegend=False
    ),
    row=2, col=2
)

# Mise en page
fig_predictions.update_xaxes(title_text="Cycles de Vol", row=1, col=1)
fig_predictions.update_yaxes(title_text="RUL (cycles)", row=1, col=1)
fig_predictions.update_xaxes(title_text="Cycle de Maintenance", row=2, col=1)
fig_predictions.update_yaxes(title_text="Moteur ID", row=2, col=1)
fig_predictions.update_xaxes(title_text="√âtat", row=2, col=2)
fig_predictions.update_yaxes(title_text="Nombre de Moteurs", row=2, col=2)

fig_predictions.update_layout(
    height=1000,
    width=1400,
    title_text=f"üìä DASHBOARD PR√âDICTIONS - Moteur #{selected_motor}",
    title_font_size=18,
    title_x=0.5,
    template='plotly_white',
    showlegend=True,
    legend=dict(
        orientation='v',
        yanchor='top',
        y=0.98,
        xanchor='right',
        x=1.15,
        font_size=10,
        bgcolor='rgba(255,255,255,0.8)'
    ),
    margin=dict(l=60, r=120, t=100, b=60)
)

fig_predictions.show()

print(f"\n{'='*70}")
print(f"üìä R√âSUM√â DES PR√âDICTIONS - Moteur #{selected_motor}")
print(f"{'='*70}")
print(f"üéØ RUL Actuel: {df_motor['rul_predicted'].iloc[-1]:.1f} cycles")
print(f"üìâ Intervalle de Confiance (95%): ¬±{confidence_interval:.1f} cycles")
print(f"‚ö†Ô∏è Moteurs en Alerte: {alert_summary['Alerte']}")
print(f"üö® Moteurs Critiques: {alert_summary['Critique']}")
print(f"‚úÖ Moteurs Normaux: {alert_summary['Normal']}")
if maintenance_schedule:
    print(f"\nüìÖ Prochaine Maintenance: Cycle {df_schedule['cycle'].min():.0f}")
print(f"{'='*70}\n")

KeyError: 'success'

In [None]:
# VUE 3 (INTERACTIVE) : S√©lection Moteur avec Dropdown

# Cr√©er des boutons dropdown pour chaque moteur
dropdown_buttons = []
for motor_id in available_motors:
    df_m = df_export[df_export['unit_id'] == motor_id].sort_values('cycles')
    df_m_train = data_train[data_train['unit_id'] == motor_id].sort_values('cycles')
    
    # Calculer intervalle de confiance pour ce moteur
    residuals_m = df_m['rul_predicted'].values - df_m_train['rul'].values[:len(df_m)]
    std_error_m = np.std(residuals_m)
    ci_m = 1.96 * std_error_m
    
    dropdown_buttons.append({
        'label': f'Moteur {motor_id}',
        'method': 'update',
        'args': [
            {
                'x': [
                    df_m['cycles'],  # IC sup
                    df_m['cycles'],  # IC inf
                    df_m['cycles'],  # RUL predicted
                    df_m_train['cycles']  # RUL actual
                ],
                'y': [
                    df_m['rul_predicted'] + ci_m,
                    df_m['rul_predicted'] - ci_m,
                    df_m['rul_predicted'],
                    df_m_train['rul']
                ]
            },
            {'title': f'üéØ Pr√©diction RUL - Moteur {motor_id}'}
        ]
    })

# Cr√©er la figure interactive
df_default = df_export[df_export['unit_id'] == selected_motor].sort_values('cycles')
df_default_train = data_train[data_train['unit_id'] == selected_motor].sort_values('cycles')

residuals_default = df_default['rul_predicted'].values - df_default_train['rul'].values[:len(df_default)]
std_error_default = np.std(residuals_default)
ci_default = 1.96 * std_error_default

fig_interactive = go.Figure()

# Ajouter intervalle de confiance
fig_interactive.add_trace(
    go.Scatter(
        x=df_default['cycles'],
        y=df_default['rul_predicted'] + ci_default,
        mode='lines',
        name='IC Sup√©rieur (95%)',
        line=dict(width=0),
        showlegend=False,
        hoverinfo='skip'
    )
)

fig_interactive.add_trace(
    go.Scatter(
        x=df_default['cycles'],
        y=df_default['rul_predicted'] - ci_default,
        mode='lines',
        name='Intervalle de Confiance 95%',
        fill='tonexty',
        fillcolor='rgba(52, 152, 219, 0.2)',
        line=dict(width=0),
        showlegend=True
    )
)

# Ajouter pr√©dictions et RUL r√©el
fig_interactive.add_trace(
    go.Scatter(
        x=df_default['cycles'],
        y=df_default['rul_predicted'],
        mode='lines+markers',
        name='RUL Pr√©dit',
        line=dict(color=COLOR_PALETTE['primary'], width=3),
        marker=dict(size=6)
    )
)

fig_interactive.add_trace(
    go.Scatter(
        x=df_default_train['cycles'],
        y=df_default_train['rul'],
        mode='lines',
        name='RUL R√©el',
        line=dict(color=COLOR_PALETTE['secondary'], dash='dash', width=2)
    )
)

# Ajouter seuils
fig_interactive.add_hline(
    y=RUL_THRESHOLD_CRITICAL,
    line_dash="dot",
    line_color=COLOR_PALETTE['danger'],
    annotation_text="‚ö†Ô∏è Critique (RUL ‚â§ 10)",
    annotation_position="right"
)

fig_interactive.add_hline(
    y=RUL_THRESHOLD_WARNING,
    line_dash="dot",
    line_color=COLOR_PALETTE['warning'],
    annotation_text="‚ö†Ô∏è Alerte (RUL ‚â§ 30)",
    annotation_position="right"
)

# Configuration avec dropdown
fig_interactive.update_layout(
    title=f'üéØ Pr√©diction RUL Interactive - Moteur {selected_motor}',
    title_font_size=18,
    title_x=0.5,
    xaxis_title='Cycles de Vol',
    yaxis_title='RUL (cycles restants)',
    height=600,
    width=1200,
    template='plotly_white',
    hovermode='x unified',
    updatemenus=[
        {
            'buttons': dropdown_buttons,
            'direction': 'down',
            'showactive': True,
            'x': 0.17,
            'xanchor': 'left',
            'y': 1.15,
            'yanchor': 'top',
            'bgcolor': 'rgba(255, 255, 255, 0.9)',
            'bordercolor': COLOR_PALETTE['primary'],
            'borderwidth': 2,
            'font': {'size': 12}
        }
    ],
    legend=dict(
        yanchor='top',
        y=0.99,
        xanchor='left',
        x=0.01,
        bgcolor='rgba(255, 255, 255, 0.8)',
        bordercolor=COLOR_PALETTE['primary'],
        borderwidth=1
    ),
    xaxis=dict(showgrid=True, gridcolor='lightgray'),
    yaxis=dict(showgrid=True, gridcolor='lightgray'),
    margin=dict(l=60, r=60, t=120, b=60)
)

# Ajouter annotation explicative
fig_interactive.add_annotation(
    text="üëÜ S√©lectionnez un moteur dans le menu d√©roulant",
    xref="paper", yref="paper",
    x=0.17, y=1.12,
    showarrow=False,
    font=dict(size=11, color="gray"),
    xanchor='left'
)

fig_interactive.show()

print(f"\n{'='*70}")
print(f"üéØ DASHBOARD INTERACTIF - S√©lection de {len(available_motors)} moteurs")
print(f"{'='*70}")
print(f"‚úÖ Fonctionnalit√©s incluses:")
print(f"   ‚Ä¢ Graphique de pr√©diction RUL par moteur (s√©lection interactive)")
print(f"   ‚Ä¢ Courbe de d√©gradation avec intervalle de confiance (95%)")
print(f"   ‚Ä¢ Comparaison RUL pr√©dit vs RUL r√©el")
print(f"   ‚Ä¢ Seuils d'alerte visibles (Critique: {RUL_THRESHOLD_CRITICAL}, Alerte: {RUL_THRESHOLD_WARNING})")
print(f"{'='*70}\n")

---

## üìã R√âSUM√â - VUE 3 : PR√âDICTIONS

### ‚úÖ Fonctionnalit√©s Impl√©ment√©es

#### 1Ô∏è‚É£ **Graphique de Pr√©diction RUL par Moteur (S√©lection Interactive)**

**Dashboard Consolid√©:**
- **Layout 2√ó2** avec 4 sous-graphiques compl√©mentaires
- **Moteur s√©lectionn√© automatiquement** : Premier moteur √† risque critique

**Dashboard Interactif:**
- **Menu d√©roulant** permettant la s√©lection parmi 20 moteurs disponibles
- **Mise √† jour dynamique** de tous les graphiques lors du changement de s√©lection
- **Hover interactif** affichant les valeurs exactes au survol

---

#### 2Ô∏è‚É£ **Timeline des Maintenances Recommand√©es**

**Subplot d√©di√©** (rang√©e 2, colonne 1) affichant:
- **Points critiques** (üî¥ rouge) : Maintenance urgente (RUL ‚â§ 10 cycles)
- **Points pr√©ventifs** (üü° orange) : Maintenance planifi√©e (RUL ‚â§ 30 cycles)
- **Cycle de maintenance** sur l'axe X
- **Moteur ID** sur l'axe Y

**Informations fournies:**
- Identification rapide des moteurs n√©cessitant une intervention
- Priorisation des maintenances par criticit√©
- Planification temporelle bas√©e sur le nombre de cycles

---

#### 3Ô∏è‚É£ **Courbe de D√©gradation avec Intervalle de Confiance**

**Intervalle de confiance √† 95% calcul√© via:**
```python
residuals = rul_predicted - rul_actual
std_error = np.std(residuals)
confidence_interval = 1.96 √ó std_error  # 95% CI
```

**Visualisation:**
- **Bande bleue translucide** repr√©sentant l'incertitude de pr√©diction
- **Ligne centrale** (RUL pr√©dit) en bleu fonc√©
- **Ligne pointill√©e** (RUL r√©el) en vert pour validation

**Interpr√©tation:**
- Plus l'intervalle est **√©troit** ‚Üí pr√©diction fiable
- Si RUL r√©el **sort de l'intervalle** ‚Üí mod√®le √† recalibrer
- Permet d'√©valuer la **confiance statistique** de chaque pr√©diction

---

### üìä Composantes Additionnelles

#### 4Ô∏è‚É£ **R√©sum√© des Alertes (Bar Chart)**
- Distribution des moteurs par √©tat (Critique / Alerte / Normal)
- Comptage automatique bas√© sur les seuils RUL

#### 5Ô∏è‚É£ **Seuils Visuels**
- Ligne horizontale rouge : Seuil critique (RUL ‚â§ 10)
- Ligne horizontale orange : Seuil d'alerte (RUL ‚â§ 30)

---

### üéØ Cas d'Usage

**Pour l'√âquipe de Maintenance:**
1. Identifier les moteurs critiques en un coup d'≈ìil
2. Planifier les interventions gr√¢ce √† la timeline
3. √âvaluer la fiabilit√© des pr√©dictions avec l'intervalle de confiance

**Pour les Responsables:**
1. Vue consolid√©e de l'√©tat du parc moteurs
2. Priorisation budg√©taire bas√©e sur les alertes
3. Suivi de la performance du mod√®le pr√©dictif

---

### üîß Recommandations Techniques

**Am√©lioration Future:**
- Ajouter des **filtres temporels** (derniers 30 jours, etc.)
- Int√©grer des **notifications automatiques** quand RUL < seuil
- Enregistrer les **d√©cisions de maintenance** pour am√©liorer le mod√®le

In [171]:
# VUE 4 : DASHBOARD - MONITORING TEMPS R√âEL

# Pr√©parer les donn√©es
selected_engine = top_critical.iloc[0]['unit_id'] if len(top_critical) > 0 else data_train['unit_id'].iloc[0]
df_selected = data_train[data_train['unit_id'] == selected_engine][sensor_columns].mean()
df_healthy = data_train[data_train['rul'] > 50][sensor_columns].mean()

# Cr√©er le dashboard avec 3 subplots
fig_dashboard_monitoring = make_subplots(
    rows=2, cols=2,
    subplot_titles=(
        f'üå°Ô∏è Heatmap Capteurs par Cluster',
        f'‚öñÔ∏è Moteur #{selected_engine} vs Normal',
        'üìÖ Historique des Alertes (Top 20 moteurs)'
    ),
    specs=[
        [{'type': 'heatmap'}, {'type': 'polar'}],
        [{'type': 'scatter', 'colspan': 2}, None]
    ],
    row_heights=[0.45, 0.55],
    vertical_spacing=0.12,
    horizontal_spacing=0.15
)

# 1. HEATMAP (top-left)
heatmap_data = data_train[sensor_columns].groupby(df_features['cluster']).mean()
fig_dashboard_monitoring.add_trace(
    go.Heatmap(
        z=heatmap_data.values,
        x=heatmap_data.columns,
        y=heatmap_data.index,
        colorscale='Viridis',
        colorbar=dict(title="Moyenne", x=0.46, len=0.4)
    ),
    row=1, col=1
)

# 2. RADAR COMPARISON (top-right)
fig_dashboard_monitoring.add_trace(
    go.Scatterpolar(
        r=df_healthy.values,
        theta=df_healthy.index,
        fill='toself',
        name='Profil Normal',
        line=dict(color=COLOR_PALETTE['secondary'], width=2),
        fillcolor='rgba(46, 204, 113, 0.2)',
        showlegend=True
    ),
    row=1, col=2
)

fig_dashboard_monitoring.add_trace(
    go.Scatterpolar(
        r=df_selected.values,
        theta=df_selected.index,
        fill='toself',
        name=f'Moteur #{selected_engine}',
        line=dict(color=COLOR_PALETTE['danger'], width=2),
        fillcolor='rgba(231, 76, 60, 0.2)',
        showlegend=True
    ),
    row=1, col=2
)

# 3. ALERTS TIMELINE (bottom, full width)
alerts_history = []
for unit in data_train['unit_id'].unique()[:20]:
    df_unit = data_train[data_train['unit_id'] == unit].copy()
    df_unit_eda = df_eda[df_eda.index.isin(df_unit.index)]
    anomaly_cycles = df_unit_eda[df_unit_eda['anomaly_score'] > 0]
    
    for idx in anomaly_cycles.index:
        cycle = df_unit.loc[idx, 'cycles']
        rul = df_unit.loc[idx, 'rul']
        score = df_unit_eda.loc[idx, 'anomaly_score']
        
        if rul <= RUL_THRESHOLD_CRITICAL:
            severity = 'Critique'
            color = COLOR_PALETTE['danger']
        elif rul <= RUL_THRESHOLD_WARNING:
            severity = 'Avertissement'
            color = COLOR_PALETTE['warning']
        else:
            severity = 'Info'
            color = COLOR_PALETTE['primary']
        
        alerts_history.append({
            'unit_id': unit, 'cycle': cycle, 'rul': rul,
            'score': score, 'severity': severity, 'color': color
        })

df_alerts = pd.DataFrame(alerts_history)

for severity, color in [('Critique', COLOR_PALETTE['danger']), 
                        ('Avertissement', COLOR_PALETTE['warning']), 
                        ('Info', COLOR_PALETTE['primary'])]:
    df_sev = df_alerts[df_alerts['severity'] == severity]
    fig_dashboard_monitoring.add_trace(
        go.Scatter(
            x=df_sev['cycle'],
            y=df_sev['unit_id'],
            mode='markers',
            name=severity,
            marker=dict(
                size=df_sev['score'] * 15,
                color=color,
                line=dict(width=1, color='white'),
                opacity=0.7
            ),
            text=df_sev.apply(lambda row: f"Cycle: {row['cycle']}<br>RUL: {row['rul']}<br>Score: {row['score']:.2f}", axis=1),
            hovertemplate='<b>Moteur %{y}</b><br>%{text}<extra></extra>',
            showlegend=True
        ),
        row=2, col=1
    )

# Mise en page
fig_dashboard_monitoring.update_xaxes(title_text="Capteurs", row=1, col=1, tickfont_size=9)
fig_dashboard_monitoring.update_yaxes(title_text="Cluster", row=1, col=1, tickfont_size=9)

fig_dashboard_monitoring.update_xaxes(title_text="Cycles", row=2, col=1)
fig_dashboard_monitoring.update_yaxes(title_text="Moteur ID", row=2, col=1)

fig_dashboard_monitoring.update_layout(
    title_text='üéõÔ∏è DASHBOARD MONITORING TEMPS R√âEL - Vue Consolid√©e',
    title_font_size=18,
    title_x=0.5,
    height=1100,
    width=1400,
    template='plotly_white',
    showlegend=True,
    legend=dict(
        orientation="v",
        yanchor="top",
        y=0.98,
        xanchor="right",
        x=0.99,
        bgcolor='rgba(255,255,255,0.8)',
        bordercolor='lightgray',
        borderwidth=1
    ),
    margin=dict(l=60, r=60, t=100, b=60)
)

# Update polar layout
fig_dashboard_monitoring.update_polars(
    radialaxis=dict(
        visible=True,
        range=[df_healthy.min() * 0.9, df_healthy.max() * 1.1]
    )
)

fig_dashboard_monitoring.show()

print("\n" + "="*80)
print("üìä DASHBOARD MONITORING - R√âSUM√â")
print("="*80)
print(f"üéØ Moteur surveill√©: #{selected_engine}")
print(f"   RUL actuel: {data_train[data_train['unit_id'] == selected_engine]['rul'].iloc[-1]} cycles")
print(f"   √âcart vs normal: {np.abs(df_selected - df_healthy).mean():.3f}")
print(f"\nüö® Alertes totales: {len(df_alerts)}")
print(f"   üî¥ Critiques: {len(df_alerts[df_alerts['severity'] == 'Critique'])}")
print(f"   üü† Avertissements: {len(df_alerts[df_alerts['severity'] == 'Avertissement'])}")
print(f"   üîµ Informations: {len(df_alerts[df_alerts['severity'] == 'Info'])}")
print(f"   Moteurs concern√©s: {df_alerts['unit_id'].nunique()}/20")
print("="*80)


üìä DASHBOARD MONITORING - R√âSUM√â
üéØ Moteur surveill√©: #69
   RUL actuel: 0 cycles
   √âcart vs normal: 0.719

üö® Alertes totales: 315
   üî¥ Critiques: 188
   üü† Avertissements: 113
   üîµ Informations: 14
   Moteurs concern√©s: 20/20


---

## **Section 11 : Synth√®se Business et Recommandations**