<h3 style="text-align: center; font-family: Arial, sans-serif; color: #4CAF50;">Modeles pour l’Imputation des Données Manquantes (Modele 2)</h3>
<ul style="font-family: Arial, sans-serif; font-size: 12pt; color: #333;">
    <li><strong>Temporal Fusion Transformer (TFT) :</strong>
        <ul style="font-size: 11pt; color: #555;">
            <li>Grâce à sa capacité à modéliser les dépendances temporelles et à intégrer les informations catégoriques et continues.</li>
        </ul>
    </li>
    <li><strong>Interpolation ou régression sur séries temporelles :</strong>
        <ul style="font-size: 11pt; color: #555;">
            <li>Approches simples et efficaces comme l’interpolation linéaire ou les modeles ARIMA/SARIMA.</li>
        </ul>
    </li>
    <li><strong>KNN Imputation :</strong>
        <ul style="font-size: 11pt; color: #555;">
            <li>Pour imputer les valeurs manquantes en fonction des observations les plus similaires.</li>
        </ul>
    </li>
    <li><strong>Réseaux de neurones (LSTM) :</strong>
        <ul style="font-size: 11pt; color: #555;">
            <li>Pour prédire les valeurs manquantes à partir des séquences temporelles.</li>
        </ul>
    </li>
    <li><strong>Clustering temporel (k-means, DBSCAN) :</strong>
        <ul style="font-size: 11pt; color: #555;">
            <li>Pour exploiter les patterns similaires dans des données avec des gaps significatifs.</li>
        </ul>
    </li>
</ul>


In [37]:
import pandas as pd

In [44]:
df = pd.read_csv("MetroPT3_corrected.csv", delimiter=",", decimal=".", index_col=0)

<h3 style="text-align: center; font-family: Arial, sans-serif; color: RED;">################# DÉCLARATION / INITIALISATION #################</h3>
<ul style="font-family: Arial, sans-serif; font-size: 12pt; color: #333;">
</ul>

In [45]:
# Convertir timestamp
df['timestamp'] = pd.to_datetime(df['timestamp'], errors='coerce')
#display(df.dtypes)

In [7]:
# Colonnes marquant les valeurs manquantes (is_missing)
cols_is_missing = [col + '_is_missing' for col in ['TP2', 'TP3', 'H1', 'DV_pressure', 'Reservoirs', 
                                                   'Oil_temperature', 'Motor_current', 'COMP', 'DV_eletric', 
                                                   'Towers', 'MPG', 'LPS', 'Pressure_switch', 'Oil_level', 
                                                   'Caudal_impulses']]

In [21]:
# Filtrer les colonnes sans "_is_missing"
columns_without_is_missing = [col for col in df.columns if not col.endswith('_is_missing')]

In [46]:
# Colonnes continues
cols_continuous = ['TP2', 'TP3', 'H1', 'DV_pressure', 'Reservoirs', 'Oil_temperature', 'Motor_current']

# Colonnes binaires ou catégoriques
cols_categorical = ['COMP', 'DV_eletric', 'Towers', 'MPG', 'LPS', 'Pressure_switch', 'Oil_level', 'Caudal_impulses']

<h3 style="text-align: center; font-family: Arial, sans-serif; color: RED;">#################### FIN DÉCLARATION #################</h3>
<ul style="font-family: Arial, sans-serif; font-size: 12pt; color: #333;">
</ul>

In [8]:
# Statistiques descriptives globales (exclure les colonnes `_is_missing`)
pd.options.display.float_format = '{:,.2f}'.format

# Statistiques descriptives globales
print("Statistiques descriptives :")
display(df[columns_without_is_missing].describe())

# Statistiques pour les colonnes spécifiques (exclure les colonnes `_is_missing`)
# Statistiques pour les colonnes spécifiques
print("\nNombre de valeurs manquantes par colonne :")
missing_counts = df.isnull().sum()
missing_percent = (df.isnull().mean() * 100).map("{:,.2f}%".format)
missing_stats = pd.DataFrame({
    'Valeurs manquantes': missing_counts.map("{:,}".format),
    'Pourcentage manquant': missing_percent
})

# Afficher les statistiques
display(missing_stats)


Statistiques descriptives :


Unnamed: 0,TP2,TP3,H1,DV_pressure,Reservoirs,Oil_temperature,Motor_current,COMP,DV_eletric,Towers,MPG,LPS,Pressure_switch,Oil_level,Caudal_impulses,panne
count,1841760.0,1841760.0,1841760.0,1841760.0,1841760.0,1841760.0,1841760.0,1841760.0,1841760.0,1841760.0,1841760.0,1841760.0,1841760.0,1841760.0,1841760.0,1841760.0
mean,1.37,7.48,7.58,0.05,7.48,60.85,2.25,0.68,0.31,0.75,0.68,0.0,0.81,0.74,0.77,0.02
std,2.94,3.23,3.01,0.35,3.24,7.0,2.12,0.47,0.46,0.43,0.47,0.05,0.39,0.44,0.42,0.14
min,-0.03,0.73,-0.04,-0.03,0.71,15.4,0.02,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,-0.01,8.18,7.66,-0.02,8.18,53.73,0.04,0.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0
50%,-0.01,8.73,8.54,-0.02,8.74,60.58,3.15,1.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,0.0
75%,1.39,9.37,9.24,-0.01,9.37,66.25,3.76,1.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0,0.0
max,10.68,10.3,10.29,9.84,10.3,89.05,9.29,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0



Nombre de valeurs manquantes par colonne :


Unnamed: 0,Valeurs manquantes,Pourcentage manquant
timestamp,0,0.00%
TP2,0,0.00%
TP3,0,0.00%
H1,0,0.00%
DV_pressure,0,0.00%
Reservoirs,0,0.00%
Oil_temperature,0,0.00%
Motor_current,0,0.00%
COMP,0,0.00%
DV_eletric,0,0.00%


<ul style="font-family: times, serif; font-size:14pt; color:blue;">
<strong>METHODE IMPUTATION AVEC XGBOOST</strong>
</ul>

In [5]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
import xgboost as xgb
import mlflow
import mlflow.xgboost
import joblib

# --- 1. Conversion des Colonnes datetime64 ---
# Identifier les colonnes datetime
datetime_cols = df.select_dtypes(include=['datetime64']).columns

# Convertir datetime en timestamp (secondes depuis l'époque Unix)
for col in datetime_cols:
    df[col] = pd.to_datetime(df[col], errors='coerce')  # Assurez-vous du bon format
    df[col] = df[col].apply(lambda x: x.timestamp() if pd.notnull(x) else np.nan)

# --- 2. Simulation de Valeurs Manquantes ---
np.random.seed(42)
missing_percentage = 0.10  # Simuler 10% de valeurs manquantes

for col in df.columns:
    missing_indices = np.random.choice(
        df.index,
        size=int(len(df) * missing_percentage),
        replace=False
    )
    df.loc[missing_indices, col] = np.nan

# Identifier les lignes avec des valeurs manquantes
df['missing_flag'] = df.isnull().any(axis=1).astype(int)

# Séparer les valeurs manquantes pour l'entrainement
df_complete = df.dropna()
df_missing = df[df['missing_flag'] == 1].copy()

# --- 3. Préparation des Données ---
# Définir les features et la cible
features = [col for col in df.columns if col != 'missing_flag']
target = 'missing_flag'

X = df_complete[features]
y = df_complete['missing_flag']

# Remplir temporairement les valeurs manquantes pour l'entrainement
df.fillna(df.mean(), inplace=True)

# --- 4. Configuration de MLflow ---
mlflow.set_experiment("XGBoost_Imputation_Experiment_nestimator_2000")

with mlflow.start_run():
    # Enregistrer les parametres de l'expérience
    mlflow.log_param("model", "XGBoost")
    mlflow.log_param("missing_percentage", missing_percentage)
    
    # Entrainement du modele
    print("🔄 Entrainement du modele XGBoost...")
    model = xgb.XGBRegressor(
        objective='reg:squarederror',
        n_estimators=2000,
        learning_rate=0.01,
        max_depth=10,
        random_state=42
    )
    
    # Diviser les données pour le test final
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=42
    )
    
    model.fit(
        X_train, y_train,
        eval_set=[(X_test, y_test)],
        eval_metric='mae',
        early_stopping_rounds=50,
        verbose=True
    )
    
    # Prédiction sur les lignes avec valeurs manquantes
    print("🔮 Prédiction des valeurs manquantes...")
    df_missing['missing_flag'] = model.predict(df_missing[features])
    
    # Évaluation du modele
    y_pred = model.predict(X_test)
    mae = mean_absolute_error(y_test, y_pred)
    print(f"✅ MAE du modele XGBoost : {mae:.4f}")
    
    # Enregistrement dans MLflow
    mlflow.log_metric("MAE", mae)
    mlflow.xgboost.log_model(model, artifact_path="xgboost_imputer")
    
    # Sauvegarde du modele avec Joblib
    model_path = "xgboost_imputer_2000.pkl"
    joblib.dump(model, model_path)
    mlflow.log_artifact(model_path)

print("🏁 Modele XGBoost sauvegardé avec succes et expérimentation enregistrée dans MLflow.")


🔄 Entrainement du modele XGBoost...
[0]	validation_0-mae:0.00000
[1]	validation_0-mae:0.00000
[2]	validation_0-mae:0.00000
[3]	validation_0-mae:0.00000
[4]	validation_0-mae:0.00000
[5]	validation_0-mae:0.00000
[6]	validation_0-mae:0.00000
[7]	validation_0-mae:0.00000
[8]	validation_0-mae:0.00000
[9]	validation_0-mae:0.00000
[10]	validation_0-mae:0.00000
[11]	validation_0-mae:0.00000
[12]	validation_0-mae:0.00000
[13]	validation_0-mae:0.00000
[14]	validation_0-mae:0.00000
[15]	validation_0-mae:0.00000
[16]	validation_0-mae:0.00000
[17]	validation_0-mae:0.00000
[18]	validation_0-mae:0.00000
[19]	validation_0-mae:0.00000
[20]	validation_0-mae:0.00000
[21]	validation_0-mae:0.00000
[22]	validation_0-mae:0.00000
[23]	validation_0-mae:0.00000
[24]	validation_0-mae:0.00000
[25]	validation_0-mae:0.00000
[26]	validation_0-mae:0.00000
[27]	validation_0-mae:0.00000
[28]	validation_0-mae:0.00000
[29]	validation_0-mae:0.00000
[30]	validation_0-mae:0.00000




[31]	validation_0-mae:0.00000
[32]	validation_0-mae:0.00000
[33]	validation_0-mae:0.00000
[34]	validation_0-mae:0.00000
[35]	validation_0-mae:0.00000
[36]	validation_0-mae:0.00000
[37]	validation_0-mae:0.00000
[38]	validation_0-mae:0.00000
[39]	validation_0-mae:0.00000
[40]	validation_0-mae:0.00000
[41]	validation_0-mae:0.00000
[42]	validation_0-mae:0.00000
[43]	validation_0-mae:0.00000
[44]	validation_0-mae:0.00000
[45]	validation_0-mae:0.00000
[46]	validation_0-mae:0.00000
[47]	validation_0-mae:0.00000
[48]	validation_0-mae:0.00000
[49]	validation_0-mae:0.00000
[50]	validation_0-mae:0.00000
🔮 Prédiction des valeurs manquantes...
✅ MAE du modele XGBoost : 0.0000




🏁 Modele XGBoost sauvegardé avec succes et expérimentation enregistrée dans MLflow.


<ul style="font-family: times, serif; font-size:14pt; color:blue;">
<strong>METHODE IMPUTATION AVEC XGBOOST enregistrement avec booster.savemodel</strong>
</ul>

In [6]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
import xgboost as xgb
import mlflow
import mlflow.xgboost

# --- 1. Simulation de Valeurs Manquantes ---
np.random.seed(42)
missing_percentage = 0.10  # Simuler 10% de valeurs manquantes

for col in df.columns:
    missing_indices = np.random.choice(
        df.index,
        size=int(len(df) * missing_percentage),
        replace=False
    )
    df.loc[missing_indices, col] = np.nan

# Identifier les lignes avec des valeurs manquantes
df['missing_flag'] = df.isnull().any(axis=1).astype(int)

# Séparer les valeurs manquantes pour l'entrainement
df_complete = df.dropna()
df_missing = df[df['missing_flag'] == 1].copy()

# --- 2. Préparation des Données ---
# Exclure les colonnes datetime
datetime_cols = df.select_dtypes(include=['datetime64']).columns
features = [col for col in df.columns if col not in datetime_cols and col != 'missing_flag']
target = 'missing_flag'

X = df_complete[features]
y = df_complete['missing_flag']

# Remplir temporairement les valeurs manquantes pour l'entrainement
df.fillna(df.mean(), inplace=True)

# --- 3. Configuration de MLflow ---
mlflow.set_experiment("XGBoost_Imputation_Experiment_nestimator_2000")

with mlflow.start_run():
    # Enregistrer les parametres de l'expérience
    mlflow.log_param("model", "XGBoost")
    mlflow.log_param("missing_percentage", missing_percentage)
    
    # Entrainement du modele
    print("🔄 Entrainement du modele XGBoost...")
    model = xgb.XGBRegressor(
        objective='reg:squarederror',
        n_estimators=2000,
        learning_rate=0.01,
        max_depth=10,
        random_state=42
    )
    
    # Diviser les données pour le test final
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=42
    )
    
    model.fit(
        X_train, y_train,
        eval_set=[(X_test, y_test)],
        eval_metric='mae',
        early_stopping_rounds=50,
        verbose=True
    )
    
    # Prédiction sur les lignes avec valeurs manquantes
    print("🔮 Prédiction des valeurs manquantes...")
    df_missing['missing_flag'] = model.predict(df_missing[features])
    
    # Évaluation du modele
    y_pred = model.predict(X_test)
    mae = mean_absolute_error(y_test, y_pred)
    print(f"✅ MAE du modele XGBoost : {mae:.4f}")
    
    # Enregistrement dans MLflow
    mlflow.log_metric("MAE", mae)
    mlflow.xgboost.log_model(model, artifact_path="xgboost_imputer")
    
    # Sauvegarde du modele avec Booster.save_model
    model_path = "xgboost_imputer_2000.model"
    model.save_model(model_path)
    mlflow.log_artifact(model_path)

print("🏁 Modele XGBoost sauvegardé avec succes avec Booster.save_model et expérimentation enregistrée dans MLflow.")



🔄 Entrainement du modele XGBoost...
[0]	validation_0-mae:0.18186
[1]	validation_0-mae:0.18186
[2]	validation_0-mae:0.18187
[3]	validation_0-mae:0.18187
[4]	validation_0-mae:0.18186
[5]	validation_0-mae:0.18186
[6]	validation_0-mae:0.18187
[7]	validation_0-mae:0.18186
[8]	validation_0-mae:0.18186
[9]	validation_0-mae:0.18186
[10]	validation_0-mae:0.18187
[11]	validation_0-mae:0.18186
[12]	validation_0-mae:0.18186
[13]	validation_0-mae:0.18187
[14]	validation_0-mae:0.18187




[15]	validation_0-mae:0.18187
[16]	validation_0-mae:0.18188
[17]	validation_0-mae:0.18188
[18]	validation_0-mae:0.18187
[19]	validation_0-mae:0.18188
[20]	validation_0-mae:0.18188
[21]	validation_0-mae:0.18188
[22]	validation_0-mae:0.18188
[23]	validation_0-mae:0.18188
[24]	validation_0-mae:0.18188
[25]	validation_0-mae:0.18188
[26]	validation_0-mae:0.18188
[27]	validation_0-mae:0.18188
[28]	validation_0-mae:0.18187
[29]	validation_0-mae:0.18187
[30]	validation_0-mae:0.18186
[31]	validation_0-mae:0.18185
[32]	validation_0-mae:0.18185
[33]	validation_0-mae:0.18185
[34]	validation_0-mae:0.18185
[35]	validation_0-mae:0.18185
[36]	validation_0-mae:0.18184
[37]	validation_0-mae:0.18184
[38]	validation_0-mae:0.18184
[39]	validation_0-mae:0.18184
[40]	validation_0-mae:0.18184
[41]	validation_0-mae:0.18185
[42]	validation_0-mae:0.18185
[43]	validation_0-mae:0.18185
[44]	validation_0-mae:0.18185
[45]	validation_0-mae:0.18185
[46]	validation_0-mae:0.18186
[47]	validation_0-mae:0.18186
[48]	valid



🏁 Modele XGBoost sauvegardé avec succes avec Booster.save_model et expérimentation enregistrée dans MLflow.


In [31]:
# Créer une copie du DataFrame pour l'imputation
df_imputed_7 = df.copy()

# Imputation des colonnes continues avec XGBRegressor
for target_column in cols_continuous:
    print(f"Imputation pour la colonne continue : {target_column}")

    # Diviser les données en lignes completes et manquantes
    train_data = df[df[target_column].notna()]
    missing_data = df[df[target_column].isna()]

    if not train_data.empty and not missing_data.empty:
        # Préparer les données pour l'entrainement et la prédiction
        X_train = train_data[cols_continuous + cols_categorical].drop(columns=[target_column]).fillna(0)
        y_train = train_data[target_column]
        X_missing = missing_data[cols_continuous + cols_categorical].drop(columns=[target_column]).fillna(0)

        # Entrainer le modele XGBRegressor
        model = XGBRegressor(n_estimators=100, random_state=0)
        model.fit(X_train, y_train)

        # Prédire les valeurs manquantes
        predicted_values = model.predict(X_missing)

        # Remplir les valeurs manquantes dans le DataFrame
        df_imputed_7.loc[missing_data.index, target_column] = predicted_values
    else:
        print(f"Aucune donnée manquante pour la colonne continue : {target_column}.")

# Imputation des colonnes catégoriques avec XGBClassifier
for target_column in cols_categorical:
    print(f"Imputation pour la colonne catégorielle : {target_column}")

    # Diviser les données en lignes completes et manquantes
    train_data = df[df[target_column].notna()]
    missing_data = df[df[target_column].isna()]

    if not train_data.empty and not missing_data.empty:
        # Préparer les données pour l'entrainement et la prédiction
        X_train = train_data[cols_continuous + cols_categorical].drop(columns=[target_column]).fillna(0)
        y_train = train_data[target_column]
        X_missing = missing_data[cols_continuous + cols_categorical].drop(columns=[target_column]).fillna(0)

        # Entrainer le modele XGBClassifier
        model = XGBClassifier(n_estimators=100, random_state=0, use_label_encoder=False, eval_metric='mlogloss')
        model.fit(X_train, y_train)

        # Prédire les valeurs manquantes
        predicted_values = model.predict(X_missing)

        # Remplir les valeurs manquantes dans le DataFrame
        df_imputed_7.loc[missing_data.index, target_column] = predicted_values
    else:
        print(f"Aucune donnée manquante pour la colonne catégorielle : {target_column}.")

# Aperçu des données apres imputation
print("Aperçu des données apres imputation avec XGBoost :")
display(df_imputed_7.head())


Imputation pour la colonne continue : TP2
Aucune donnée manquante pour la colonne continue : TP2.
Imputation pour la colonne continue : TP3
Aucune donnée manquante pour la colonne continue : TP3.
Imputation pour la colonne continue : H1
Aucune donnée manquante pour la colonne continue : H1.
Imputation pour la colonne continue : DV_pressure
Aucune donnée manquante pour la colonne continue : DV_pressure.
Imputation pour la colonne continue : Reservoirs
Aucune donnée manquante pour la colonne continue : Reservoirs.
Imputation pour la colonne continue : Oil_temperature
Aucune donnée manquante pour la colonne continue : Oil_temperature.
Imputation pour la colonne continue : Motor_current
Aucune donnée manquante pour la colonne continue : Motor_current.
Imputation pour la colonne catégorielle : COMP
Aucune donnée manquante pour la colonne catégorielle : COMP.
Imputation pour la colonne catégorielle : DV_eletric
Aucune donnée manquante pour la colonne catégorielle : DV_eletric.
Imputation pou

Unnamed: 0_level_0,timestamp,TP2,TP3,H1,DV_pressure,Reservoirs,Oil_temperature,Motor_current,COMP,DV_eletric,...,Oil_temperature_is_missing,Motor_current_is_missing,COMP_is_missing,DV_eletric_is_missing,Towers_is_missing,MPG_is_missing,LPS_is_missing,Pressure_switch_is_missing,Oil_level_is_missing,Caudal_impulses_is_missing
Unnamed: 0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,2020-02-01 00:00:00,-0.012,9.358,9.34,-0.024,9.358,53.6,0.04,1.0,0.0,...,0,0,0,0,0,0,0,0,0,0
1,2020-02-01 00:00:10,-0.014,9.348,9.332,-0.022,9.348,53.675,0.04,1.0,0.0,...,0,0,0,0,0,0,0,0,0,0
2,2020-02-01 00:00:20,-0.012,9.338,9.322,-0.022,9.338,53.6,0.0425,1.0,0.0,...,0,0,0,0,0,0,0,0,0,0
3,2020-02-01 00:00:30,-0.012,9.328,9.312,-0.022,9.328,53.425,0.04,1.0,0.0,...,0,0,0,0,0,0,0,0,0,0
4,2020-02-01 00:00:40,-0.012,9.318,9.302,-0.022,9.318,53.475,0.04,1.0,0.0,...,0,0,0,0,0,0,0,0,0,0


In [32]:
# Statistiques pour les colonnes spécifiques
missing_counts = df_imputed_7.isnull().sum()
missing_percent = (df_imputed_7.isnull().mean() * 100).map("{:,.2f}%".format)
missing_stats = pd.DataFrame({
    'Valeurs manquantes': missing_counts.map("{:,}".format),
    'Pourcentage manquant': missing_percent
})

display(missing_stats)

Unnamed: 0,Valeurs manquantes,Pourcentage manquant
timestamp,0,0.00%
TP2,0,0.00%
TP3,0,0.00%
H1,0,0.00%
DV_pressure,0,0.00%
Reservoirs,0,0.00%
Oil_temperature,0,0.00%
Motor_current,0,0.00%
COMP,0,0.00%
DV_eletric,0,0.00%


In [34]:
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, mean_absolute_error
# Dictionnaire pour stocker les métriques de performance
validation_results = {}

# Validation des colonnes continues
for target_column in cols_continuous:
    print(f"Validation pour la colonne continue : {target_column}")

    # Identifier les données completes dans df
    complete_data = df[df[target_column].notna()]

    # Masquer 10% des données completes pour validation
    mask = np.random.rand(len(complete_data)) < 0.1
    masked_indices = complete_data.index[mask]  # Index des lignes masquées

    # Diviser les données en completes (train) et masquées (test)
    train_data = complete_data[~complete_data.index.isin(masked_indices)]
    test_data = complete_data.loc[masked_indices]

    if not train_data.empty and not test_data.empty:
        # Préparer les données pour l'entrainement et la prédiction
        X_train = train_data[cols_continuous + cols_categorical].drop(columns=[target_column]).fillna(0)
        y_train = train_data[target_column]
        X_test = test_data[cols_continuous + cols_categorical].drop(columns=[target_column]).fillna(0)
        y_test = test_data[target_column]

        # Vérifier si les données sont suffisantes pour entrainer un modele
        if len(y_train) > 10 and len(y_test) > 10:
            # Entrainer un modele pour validation (XGBoost ou RandomForest)
            from xgboost import XGBRegressor
            model = XGBRegressor(n_estimators=100, random_state=0)
            model.fit(X_train, y_train)

            # Prédire les valeurs masquées
            predicted_values = model.predict(X_test)

            # Calculer le MAE
            mae = mean_absolute_error(y_test, predicted_values)
            validation_results[target_column] = {"Type": "Continuous", "MAE": mae}
        else:
            print(f"Données insuffisantes pour valider {target_column}.")
    else:
        print(f"Aucune donnée valide pour valider la colonne {target_column}.")

# Validation des colonnes catégoriques
for target_column in cols_categorical:
    print(f"Validation pour la colonne catégorielle : {target_column}")

    # Identifier les données completes dans df
    complete_data = df[df[target_column].notna()]

    # Masquer 10% des données completes pour validation
    mask = np.random.rand(len(complete_data)) < 0.1
    masked_indices = complete_data.index[mask]  # Index des lignes masquées

    # Diviser les données en completes (train) et masquées (test)
    train_data = complete_data[~complete_data.index.isin(masked_indices)]
    test_data = complete_data.loc[masked_indices]

    if not train_data.empty and not test_data.empty:
        # Préparer les données pour l'entrainement et la prédiction
        X_train = train_data[cols_continuous + cols_categorical].drop(columns=[target_column]).fillna(0)
        y_train = train_data[target_column]
        X_test = test_data[cols_continuous + cols_categorical].drop(columns=[target_column]).fillna(0)
        y_test = test_data[target_column]

        # Vérifier si les données sont suffisantes pour entrainer un modele
        if len(y_train) > 10 and len(y_test) > 10:
            # Entrainer un modele pour validation (XGBoost ou RandomForest)
            from xgboost import XGBClassifier
            model = XGBClassifier(n_estimators=100, random_state=0, use_label_encoder=False, eval_metric='mlogloss')
            model.fit(X_train, y_train)

            # Prédire les valeurs masquées
            predicted_values = model.predict(X_test)

            # Calculer Accuracy et F1-Score
            accuracy = accuracy_score(y_test, predicted_values)
            f1 = f1_score(y_test, predicted_values, average="weighted")
            validation_results[target_column] = {"Type": "Categorical", "Accuracy": accuracy, "F1-Score": f1}
        else:
            print(f"Données insuffisantes pour valider {target_column}.")
    else:
        print(f"Aucune donnée valide pour valider la colonne {target_column}.")

# Convertir les résultats en DataFrame
validation_results_df = pd.DataFrame.from_dict(validation_results, orient="index").reset_index()

# Renommer dynamiquement les colonnes selon leur contenu
columns = ["Colonne", "Type"] + list(validation_results_df.columns[2:])
validation_results_df.columns = columns

# Afficher les résultats
print("\nRésultats de la validation avec masquage artificiel :")
display(validation_results_df)


Validation pour la colonne continue : TP2
Validation pour la colonne continue : TP3
Validation pour la colonne continue : H1
Validation pour la colonne continue : DV_pressure
Validation pour la colonne continue : Reservoirs
Validation pour la colonne continue : Oil_temperature
Validation pour la colonne continue : Motor_current
Validation pour la colonne catégorielle : COMP
Validation pour la colonne catégorielle : DV_eletric
Validation pour la colonne catégorielle : Towers
Validation pour la colonne catégorielle : MPG
Validation pour la colonne catégorielle : LPS
Validation pour la colonne catégorielle : Pressure_switch
Validation pour la colonne catégorielle : Oil_level
Validation pour la colonne catégorielle : Caudal_impulses

Résultats de la validation avec masquage artificiel :


Unnamed: 0,Colonne,Type,MAE,Accuracy,F1-Score
0,TP2,Continuous,0.014672,,
1,TP3,Continuous,0.003287,,
2,H1,Continuous,0.004429,,
3,DV_pressure,Continuous,0.01015,,
4,Reservoirs,Continuous,0.003391,,
5,Oil_temperature,Continuous,1.9342,,
6,Motor_current,Continuous,0.210016,,
7,COMP,Categorical,,0.999995,0.999995
8,DV_eletric,Categorical,,0.999962,0.999962
9,Towers,Categorical,,0.952148,0.952242


In [43]:
import mlflow
import mlflow.xgboost
from xgboost import XGBRegressor, XGBClassifier

# Initialisation du suivi MLflow
mlflow.set_experiment("imputation_with_xgboost")  # Crée un nouvel essai ou utilise un existant

# Créer une copie du DataFrame pour l'imputation
df_imputed_7 = df.copy()

# Imputation des colonnes continues avec XGBRegressor
for target_column in cols_continuous:
    print(f"Imputation pour la colonne continue : {target_column}")

    # Diviser les données en lignes completes et manquantes
    train_data = df[df[target_column].notna()]
    missing_data = df[df[target_column].isna()]

    if not train_data.empty and not missing_data.empty:
        # Préparer les données pour l'entrainement et la prédiction
        X_train = train_data[cols_continuous + cols_categorical].drop(columns=[target_column]).fillna(0)
        y_train = train_data[target_column]
        X_missing = missing_data[cols_continuous + cols_categorical].drop(columns=[target_column]).fillna(0)

        # Enregistrer l'expérience dans MLflow
        with mlflow.start_run():
            # Entrainer le modele XGBRegressor
            model = XGBRegressor(n_estimators=100, random_state=0)
            model.fit(X_train, y_train)

            # Enregistrer le modele
            model.get_booster().save_model(f"xgb_regressor_{target_column}.model")
            mlflow.log_artifact(f"xgb_regressor_{target_column}.model")  # Enregistrer le modele sous forme d'artéfact

            # Prédire les valeurs manquantes
            predicted_values = model.predict(X_missing)

            # Remplir les valeurs manquantes dans le DataFrame
            df_imputed_7.loc[missing_data.index, target_column] = predicted_values

            # Log des parametres et des métriques
            mlflow.log_param("model_type", "XGBRegressor")
            mlflow.log_param("target_column", target_column)
            mlflow.log_metric("n_estimators", 100)  # Exemple de métrique que vous pouvez enregistrer

    else:
        print(f"Aucune donnée manquante pour la colonne continue : {target_column}.")

# Imputation des colonnes catégoriques avec XGBClassifier
for target_column in cols_categorical:
    print(f"Imputation pour la colonne catégorielle : {target_column}")

    # Diviser les données en lignes completes et manquantes
    train_data = df[df[target_column].notna()]
    missing_data = df[df[target_column].isna()]

    if not train_data.empty and not missing_data.empty:
        # Préparer les données pour l'entrainement et la prédiction
        X_train = train_data[cols_continuous + cols_categorical].drop(columns=[target_column]).fillna(0)
        y_train = train_data[target_column]
        X_missing = missing_data[cols_continuous + cols_categorical].drop(columns=[target_column]).fillna(0)

        # Enregistrer l'expérience dans MLflow
        with mlflow.start_run():
            # Entrainer le modele XGBClassifier
            model = XGBClassifier(n_estimators=100, random_state=0, use_label_encoder=False, eval_metric='mlogloss')
            model.fit(X_train, y_train)

            # Enregistrer le modele
            model.get_booster().save_model(f"xgb_classifier_{target_column}.model")
            mlflow.log_artifact(f"xgb_classifier_{target_column}.model")  # Enregistrer le modele sous forme d'artéfact

            # Prédire les valeurs manquantes
            predicted_values = model.predict(X_missing)

            # Remplir les valeurs manquantes dans le DataFrame
            df_imputed_7.loc[missing_data.index, target_column] = predicted_values

            # Log des parametres et des métriques
            mlflow.log_param("model_type", "XGBClassifier")
            mlflow.log_param("target_column", target_column)
            mlflow.log_metric("n_estimators", 100)  # Exemple de métrique que vous pouvez enregistrer

    else:
        print(f"Aucune donnée manquante pour la colonne catégorielle : {target_column}.")

# Aperçu des données apres imputation
print("Aperçu des données apres imputation avec XGBoost :")
display(df_imputed_7.head())


Imputation pour la colonne continue : TP2




Imputation pour la colonne continue : TP3




Imputation pour la colonne continue : H1




Imputation pour la colonne continue : DV_pressure




Imputation pour la colonne continue : Reservoirs




Imputation pour la colonne continue : Oil_temperature




Imputation pour la colonne continue : Motor_current




Imputation pour la colonne catégorielle : COMP




Imputation pour la colonne catégorielle : DV_eletric




Imputation pour la colonne catégorielle : Towers




Imputation pour la colonne catégorielle : MPG




Imputation pour la colonne catégorielle : LPS




Imputation pour la colonne catégorielle : Pressure_switch




Imputation pour la colonne catégorielle : Oil_level




Imputation pour la colonne catégorielle : Caudal_impulses




Aperçu des données apres imputation avec XGBoost :


Unnamed: 0,timestamp,TP2,TP3,H1,DV_pressure,Reservoirs,Oil_temperature,Motor_current,COMP,DV_eletric,Towers,MPG,LPS,Pressure_switch,Oil_level,Caudal_impulses,panne
0,2020-02-01 00:00:00,-0.012,9.358,9.34,-0.024,9.358,53.6,0.04,1.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,0
1,2020-02-01 00:00:10,-0.014,9.348,9.332,-0.022,9.348,53.675,0.04,1.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,0
2,2020-02-01 00:00:20,-0.012,9.338,9.322,-0.022,9.338,53.6,0.0425,1.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,0
3,2020-02-01 00:00:30,-0.012,9.328,9.312,-0.022,9.328,53.425,0.04,1.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,0
4,2020-02-01 00:00:40,-0.012,9.318,9.302,-0.022,9.318,53.475,0.04,1.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,0


In [50]:
import mlflow
import mlflow.sklearn
import numpy as np
import pandas as pd
from sklearn.metrics import mean_squared_error, accuracy_score, f1_score, precision_score, recall_score
from xgboost import XGBRegressor, XGBClassifier
from sklearn.model_selection import train_test_split

# Nettoyage des données : Remplacer les NaN et valeurs infinies
def clean_data(df):
    df = df.replace([np.inf, -np.inf], np.nan)  # Remplacer les valeurs infinies par NaN
    df = df.fillna(0)  # Remplacer NaN par zéro (vous pouvez utiliser une autre méthode d'imputation)
    return df

# Créer une copie du DataFrame pour l'imputation
df_imputed_7 = df.copy()

# Imputation des colonnes continues avec XGBRegressor
for target_column in cols_continuous:
    print(f"Imputation pour la colonne continue : {target_column}")

    # Diviser les données en lignes completes et manquantes
    train_data = df[df[target_column].notna()]
    missing_data = df[df[target_column].isna()]

    if not train_data.empty and not missing_data.empty:
        # Préparer les données pour l'entrainement et la prédiction
        X_train = clean_data(train_data[cols_continuous + cols_categorical].drop(columns=[target_column]))
        y_train = train_data[target_column]
        X_missing = clean_data(missing_data[cols_continuous + cols_categorical].drop(columns=[target_column]))

        # Entrainer le modele XGBRegressor
        model = XGBRegressor(n_estimators=100, random_state=0)
        model.fit(X_train, y_train)

        # Prédire les valeurs manquantes
        predicted_values = model.predict(X_missing)

        # Remplir les valeurs manquantes dans le DataFrame
        df_imputed_7.loc[missing_data.index, target_column] = predicted_values

        # Enregistrer le modele avec MLflow
        with mlflow.start_run():
            mlflow.log_param("model_type", "XGBRegressor")
            mlflow.sklearn.log_model(model, "model")
            mlflow.log_metric("num_estimators", 100)
            
            # Enregistrer le modele
            model.save_model(f"xgb_regressor_{target_column}.json")

            # Calcul des métriques
            y_pred = model.predict(X_train)
            rmse = np.sqrt(mean_squared_error(y_train, y_pred))
            mlflow.log_metric("rmse", rmse)
            print(f"RMSE pour la colonne continue {target_column} : {rmse}")

    else:
        print(f"Aucune donnée manquante pour la colonne continue : {target_column}.")

# Imputation des colonnes catégorielles avec XGBClassifier
for target_column in cols_categorical:
    print(f"Imputation pour la colonne catégorielle : {target_column}")

    # Diviser les données en lignes completes et manquantes
    train_data = df[df[target_column].notna()]
    missing_data = df[df[target_column].isna()]

    if not train_data.empty and not missing_data.empty:
        # Préparer les données pour l'entrainement et la prédiction
        X_train = clean_data(train_data[cols_continuous + cols_categorical].drop(columns=[target_column]))
        y_train = train_data[target_column]
        X_missing = clean_data(missing_data[cols_continuous + cols_categorical].drop(columns=[target_column]))

        # Entrainer le modele XGBClassifier
        model = XGBClassifier(n_estimators=100, random_state=0, use_label_encoder=False, eval_metric='mlogloss')
        model.fit(X_train, y_train)

        # Prédire les valeurs manquantes
        predicted_values = model.predict(X_missing)

        # Remplir les valeurs manquantes dans le DataFrame
        df_imputed_7.loc[missing_data.index, target_column] = predicted_values

        # Enregistrer le modele avec MLflow
        with mlflow.start_run():
            mlflow.log_param("model_type", "XGBClassifier")
            mlflow.sklearn.log_model(model, "model")
            mlflow.log_metric("num_estimators", 100)
            
            # Enregistrer le modele
            model.save_model(f"xgb_classifier_{target_column}.json")

            # Calcul des métriques
            y_pred = model.predict(X_train)
            accuracy = accuracy_score(y_train, y_pred)
            precision = precision_score(y_train, y_pred, average='weighted')
            recall = recall_score(y_train, y_pred, average='weighted')
            f1 = f1_score(y_train, y_pred, average='weighted')

            mlflow.log_metric("accuracy", accuracy)
            mlflow.log_metric("precision", precision)
            mlflow.log_metric("recall", recall)
            mlflow.log_metric("f1_score", f1)

            print(f"Metrics pour la colonne catégorielle {target_column}:")
            print(f"Accuracy: {accuracy}")
            print(f"Precision: {precision}")
            print(f"Recall: {recall}")
            print(f"F1 Score: {f1}")

    else:
        print(f"Aucune donnée manquante pour la colonne catégorielle : {target_column}.")

# Aperçu des données apres imputation
print("Aperçu des données apres imputation avec XGBoost :")
display(df_imputed_7.head())


Imputation pour la colonne continue : TP2




RMSE pour la colonne continue TP2 : 0.10344134554827926
Imputation pour la colonne continue : TP3




RMSE pour la colonne continue TP3 : 0.02101342923808414
Imputation pour la colonne continue : H1




RMSE pour la colonne continue H1 : 0.03752059276094473
Imputation pour la colonne continue : DV_pressure




RMSE pour la colonne continue DV_pressure : 0.07468797309579277
Imputation pour la colonne continue : Reservoirs




RMSE pour la colonne continue Reservoirs : 0.020865431766074638
Imputation pour la colonne continue : Oil_temperature




RMSE pour la colonne continue Oil_temperature : 3.2841531436594784
Imputation pour la colonne continue : Motor_current




RMSE pour la colonne continue Motor_current : 0.654114200583238
Imputation pour la colonne catégorielle : COMP




Metrics pour la colonne catégorielle COMP:
Accuracy: 0.9999986703215096
Precision: 0.9999986703323464
Recall: 0.9999986703215096
F1 Score: 0.9999986703236907
Imputation pour la colonne catégorielle : DV_eletric




Metrics pour la colonne catégorielle DV_eletric:
Accuracy: 0.9999946812860384
Precision: 0.9999946813197432
Recall: 0.9999946812860384
F1 Score: 0.9999946812504548
Imputation pour la colonne catégorielle : Towers




Metrics pour la colonne catégorielle Towers:
Accuracy: 0.9458122773204053
Precision: 0.9470523345490346
Recall: 0.9458122773204053
F1 Score: 0.9463979635565656
Imputation pour la colonne catégorielle : MPG




Metrics pour la colonne catégorielle MPG:
Accuracy: 0.9999993351607548
Precision: 0.9999993351612858
Recall: 0.9999993351607548
F1 Score: 0.9999993351602278
Imputation pour la colonne catégorielle : LPS




Metrics pour la colonne catégorielle LPS:
Accuracy: 0.9999434886641585
Precision: 0.9999437379349048
Recall: 0.9999434886641585
F1 Score: 0.9999435785569643
Imputation pour la colonne catégorielle : Pressure_switch




Metrics pour la colonne catégorielle Pressure_switch:
Accuracy: 0.999501370566104
Precision: 0.9994990834129327
Recall: 0.999501370566104
F1 Score: 0.9994955569296589
Imputation pour la colonne catégorielle : Oil_level




Metrics pour la colonne catégorielle Oil_level:
Accuracy: 0.9185146427519558
Precision: 0.9170355585506507
Recall: 0.9185146427519558
F1 Score: 0.8923537922868184
Imputation pour la colonne catégorielle : Caudal_impulses




Metrics pour la colonne catégorielle Caudal_impulses:
Accuracy: 0.9724916113908237
Precision: 0.9708705585110947
Recall: 0.9724916113908237
F1 Score: 0.9707447795442117
Aperçu des données apres imputation avec XGBoost :


Unnamed: 0,timestamp,TP2,TP3,H1,DV_pressure,Reservoirs,Oil_temperature,Motor_current,COMP,DV_eletric,Towers,MPG,LPS,Pressure_switch,Oil_level,Caudal_impulses,panne
0,2020-02-01 00:00:00,-0.012,9.358,9.34,-0.024,9.358,53.6,0.04,1.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,0
1,2020-02-01 00:00:10,-0.014,9.348,9.332,-0.022,9.348,53.675,0.04,1.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,0
2,2020-02-01 00:00:20,-0.012,9.338,9.322,-0.022,9.338,53.6,0.0425,1.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,0
3,2020-02-01 00:00:30,-0.012,9.328,9.312,-0.022,9.328,53.425,0.04,1.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,0
4,2020-02-01 00:00:40,-0.012,9.318,9.302,-0.022,9.318,53.475,0.04,1.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,0
