In [29]:
import pandas as pd
from datetime import datetime

donnees = pd.read_excel('DATA-CONC1-140525-050625.xlsx')

# Étape 1 : Afficher les colonnes initiales et le nombre de lignes
print("Colonnes initiales :", donnees.columns.tolist())
print("Nombre de lignes initiales :", len(donnees))

# Étape 2 : Convertir les horodatages Excel en datetime
def excel_vers_datetime(date_excel):
    if pd.isna(date_excel):
        return pd.NaT
    try:
        return pd.to_datetime('1900-01-01') + pd.to_timedelta(date_excel - 2, unit='D')
    except:
        return pd.NaT

# Identifier les colonnes d'horodatage (valeurs comme 45791.xxxxx)
colonnes_horodatage = [col for col in donnees.columns if donnees[col].dtype == 'float64' and str(donnees[col].iloc[0]).startswith('45791')]
print("Colonnes d'horodatage détectées :", colonnes_horodatage)
if not colonnes_horodatage:
    print("Avertissement : Aucune colonne d'horodatage détectée. Vérifiez les valeurs des colonnes.")
    print("Exemple de premières valeurs des colonnes numériques :", {col: donnees[col].iloc[0] for col in donnees.columns if donnees[col].dtype == 'float64'})

# Appliquer la conversion aux colonnes d'horodatage
for col in colonnes_horodatage:
    donnees[col] = donnees[col].apply(excel_vers_datetime)

# Étape 3 : Unifier les horodatages
if colonnes_horodatage:
    col_horodatage_ref = colonnes_horodatage[0]
    donnees['Horodatage_Unifié'] = donnees[col_horodatage_ref]
else:
    raise ValueError("Aucune colonne d'horodatage détectée. Impossible de continuer.")

# Supprimer les autres colonnes d'horodatage
donnees = donnees.drop(columns=colonnes_horodatage)

# Étape 4 : Afficher les colonnes après suppression des horodatages
print("Colonnes après suppression des horodatages :", donnees.columns.tolist())
print("Nombre de lignes après suppression des horodatages :", len(donnees))

# Étape 5 : Définir les colonnes attendues
colonnes_attendues = [
    'Débit d\'entrée d\'acide m3/h',
    'Débit de vapeur Kg/h',
    'Température de sortie évaporateur en C°',
    'Vide bouilleur en torr',
    'Densité de sortie',
    'Horodatage_Unifié'
]
print("Colonnes attendues :", colonnes_attendues)

# Identifier et supprimer les colonnes supplémentaires
colonnes_supplementaires = [col for col in donnees.columns if col not in colonnes_attendues]
print("Colonnes supplémentaires détectées :", colonnes_supplementaires)
if colonnes_supplementaires:
    print(f"Suppression des colonnes supplémentaires : {colonnes_supplementaires}")
    donnees = donnees.drop(columns=colonnes_supplementaires)

# Étape 6 : Vérifier les colonnes après suppression
print("Colonnes après suppression des colonnes supplémentaires :", donnees.columns.tolist())
print("Nombre de lignes après suppression des colonnes supplémentaires :", len(donnees))
# Étape 7 : Vérifier les valeurs manquantes
print("Valeurs manquantes par colonne :")
print(donnees.isnull().sum())
# Imputer les valeurs manquantes par interpolation linéaire
donnees = donnees.interpolate(method='linear', limit_direction='both')
print("Valeurs manquantes après interpolation :")
print(donnees.isnull().sum())
# Étape 7 : Vérifier les horodatages
print("Plage des horodatages :", donnees['Horodatage_Unifié'].min(), "à", donnees['Horodatage_Unifié'].max())

# Étape 8 : Supprimer les périodes d'arrêt (débits nuls ou négatifs)
donnees_avant_filtrage_debits = donnees.copy()  # Sauvegarder une copie pour diagnostic
try:
    print("Statistiques des débits avant filtrage :")
    print("Débit d'entrée d'acide m3/h :", donnees["Débit d'entrée d'acide m3/h"].describe())
    print("Débit de vapeur Kg/h :", donnees["Débit de vapeur Kg/h"].describe())
    donnees = donnees[(donnees["Débit d'entrée d'acide m3/h"] > 0) & (donnees["Débit de vapeur Kg/h"] > 0)]
except KeyError as e:
    print(f"Erreur : Colonne manquante - {e}. Vérifiez les noms des colonnes dans 'Colonnes après suppression des colonnes supplémentaires'.")
    raise

# Étape 9 : Vérifier le nombre de lignes après filtrage des débits
print("Nombre de lignes après filtrage des débits nuls/négatifs :", len(donnees))

# Étape 10 : Formater la colonne Horodatage_Unifié en 'mois/jour/année Heure:Minutes'
donnees['Horodatage_Unifié'] = donnees['Horodatage_Unifié'].dt.strftime('%m/%d/%Y %H:%M')

# Étape 11 : Renommer les colonnes en français
donnees.columns = [
    'Débit_Acide_m3h',
    'Débit_Vapeur_kgh',
    'Température_Évaporateur_C',
    'Vide_Bouilleur_torr',
    'Densité_Sortie',
    'Horodatage_Unifié'
]

# Étape 12 : Réorganiser les colonnes pour placer l'horodatage en premier
ordre_souhaité = [
    'Horodatage_Unifié',
    'Débit_Acide_m3h',
    'Débit_Vapeur_kgh',
    'Température_Évaporateur_C',
    'Vide_Bouilleur_torr',
    'Densité_Sortie'
]
donnees = donnees[ordre_souhaité]

# Étape 13 : Enregistrer les données nettoyées dans un nouveau fichier Excel
donnees.to_excel('donnees_nettoyees.xlsx', index=False)


# Afficher les premières lignes des données nettoyées
print("\nDonnées nettoyées :")
print(donnees.head())


Colonnes initiales : ['Unnamed: 0', "Débit d'entrée d'acide m3/h", 'Unnamed: 2', 'Débit de vapeur Kg/h', 'Unnamed: 4', 'Unnamed: 5', 'Température de sortie évaporateur en C°', 'Unnamed: 7', 'Unnamed: 8', 'Vide bouilleur en torr', 'Unnamed: 10', 'Densité de sortie']
Nombre de lignes initiales : 2790
Colonnes d'horodatage détectées : ['Unnamed: 0', 'Unnamed: 2', 'Unnamed: 5', 'Unnamed: 8', 'Unnamed: 10']
Colonnes après suppression des horodatages : ["Débit d'entrée d'acide m3/h", 'Débit de vapeur Kg/h', 'Unnamed: 4', 'Température de sortie évaporateur en C°', 'Unnamed: 7', 'Vide bouilleur en torr', 'Densité de sortie', 'Horodatage_Unifié']
Nombre de lignes après suppression des horodatages : 2790
Colonnes attendues : ["Débit d'entrée d'acide m3/h", 'Débit de vapeur Kg/h', 'Température de sortie évaporateur en C°', 'Vide bouilleur en torr', 'Densité de sortie', 'Horodatage_Unifié']
Colonnes supplémentaires détectées : ['Unnamed: 4', 'Unnamed: 7']
Suppression des colonnes supplémentaires :

In [6]:
import numpy as np
from sklearn.preprocessing import StandardScaler
import joblib

# Étape 1 : Charger les données nettoyées
donnees = pd.read_excel('donnees_nettoyees.xlsx')

# Étape 2 : Convertir Horodatage_Unifié en datetime et trier
donnees['Horodatage_Unifié'] = pd.to_datetime(donnees['Horodatage_Unifié'], format='%m/%d/%Y %H:%M')
donnees = donnees.sort_values('Horodatage_Unifié')

# Étape 3 : Créer des caractéristiques supplémentaires
# Caractéristiques temporelles
donnees['Heure'] = donnees['Horodatage_Unifié'].dt.hour
donnees['Jour_Semaine'] = donnees['Horodatage_Unifié'].dt.dayofweek

# Caractéristiques dérivées
donnees['Diff_Débit_Acide'] = donnees['Débit_Acide_m3h'].diff()
donnees['Ratio_Débit_Acide_Vapeur'] = donnees['Débit_Acide_m3h'] / (donnees['Débit_Vapeur_kgh'] + 1e-6)  # Éviter division par zéro
donnees['Moyenne_Température_4h'] = donnees['Température_Évaporateur_C'].rolling(window=16).mean()  # Moyenne sur 4h (16 x 15min)

# Décalages temporels (lagged features)
for lag in [1, 2, 3]:  # Décalages de 15, 30, 45 minutes
    donnees[f'Débit_Acide_Lag_{lag}'] = donnees['Débit_Acide_m3h'].shift(lag)
    donnees[f'Débit_Vapeur_Lag_{lag}'] = donnees['Débit_Vapeur_kgh'].shift(lag)
    donnees[f'Température_Lag_{lag}'] = donnees['Température_Évaporateur_C'].shift(lag)
    donnees[f'Vide_Lag_{lag}'] = donnees['Vide_Bouilleur_torr'].shift(lag)

# Remplir les NaN créés par les décalages et la moyenne glissante avec la médiane
donnees.fillna(donnees.median(numeric_only=True), inplace=True)

# Vérifier les valeurs manquantes après imputation
print("Valeurs manquantes après imputation :")
print(donnees.isnull().sum())

# Étape 4 : Définir les caractéristiques et la cible
colonnes_caracteristiques = [
    'Débit_Acide_m3h', 'Débit_Vapeur_kgh', 'Température_Évaporateur_C', 'Vide_Bouilleur_torr',
    'Heure', 'Jour_Semaine', 'Diff_Débit_Acide', 'Ratio_Débit_Acide_Vapeur', 'Moyenne_Température_4h',
    'Débit_Acide_Lag_1', 'Débit_Vapeur_Lag_1', 'Température_Lag_1', 'Vide_Lag_1',
    'Débit_Acide_Lag_2', 'Débit_Vapeur_Lag_2', 'Température_Lag_2', 'Vide_Lag_2',
    'Débit_Acide_Lag_3', 'Débit_Vapeur_Lag_3', 'Température_Lag_3', 'Vide_Lag_3'
]
cible = 'Densité_Sortie'

# Vérifier que toutes les colonnes existent
missing_cols = [col for col in colonnes_caracteristiques if col not in donnees.columns]
if missing_cols:
    raise ValueError(f"Colonnes manquantes : {missing_cols}")

# Étape 5 : Diviser les données en ensembles d'entraînement (70%), validation (15%), et test (15%)
train_size = int(0.7 * len(donnees))
val_size = int(0.15 * len(donnees))
train_data = donnees.iloc[:train_size]
val_data = donnees.iloc[train_size:train_size + val_size]
test_data = donnees.iloc[train_size + val_size:]

# Séparer caractéristiques et cible
X_train = train_data[colonnes_caracteristiques].values  # Convertir en NumPy
y_train = train_data[cible].values  # Convertir en NumPy
X_val = val_data[colonnes_caracteristiques].values
y_val = val_data[cible].values
X_test = test_data[colonnes_caracteristiques].values
y_test = test_data[cible].values

# Étape 6 : Standardiser les caractéristiques
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_val = scaler.transform(X_val)
X_test = scaler.transform(X_test)

# Sauvegarder le scaler
joblib.dump(scaler, 'scaler.pkl')

# Étape 7 : Sauvegarder les ensembles pour l'entraînement
train_data.to_excel('train_data.xlsx', index=False)
val_data.to_excel('val_data.xlsx', index=False)
test_data.to_excel('test_data.xlsx', index=False)

# Afficher les tailles des ensembles
print("\nTaille des ensembles :")
print("Entraînement :", len(train_data))
print("Validation :", len(val_data))
print("Test :", len(test_data))

# Étape 8 : Vérifier les types de données et l'absence de valeurs manquantes
print("\nTypes de données (ensemble d'entraînement) :")
print(train_data.dtypes)
print("\nValeurs manquantes dans l'ensemble d'entraînement :")
print(train_data.isnull().sum())

# Étape 9 : Préparer les données pour un modèle de série temporelle (LSTM)
def creer_sequences(X, y, seq_length=10):
    Xs, ys = [], []
    for i in range(len(X) - seq_length):
        Xs.append(X[i:i+seq_length])
        ys.append(y[i+seq_length])
    return np.array(Xs), np.array(ys)

# Créer des séquences pour LSTM (10 pas de temps = 150 minutes)
seq_length = 10
X_train_seq, y_train_seq = creer_sequences(X_train, y_train, seq_length)
X_val_seq, y_val_seq = creer_sequences(X_val, y_val, seq_length)
X_test_seq, y_test_seq = creer_sequences(X_test, y_test, seq_length)

# Afficher les formes des séquences pour vérification
print("\nFormes des séquences pour LSTM :")
print("X_train_seq :", X_train_seq.shape)
print("y_train_seq :", y_train_seq.shape)
print("X_val_seq :", X_val_seq.shape)
print("y_val_seq :", y_val_seq.shape)
print("X_test_seq :", X_test_seq.shape)
print("y_test_seq :", y_test_seq.shape)

# Étape 10 : Sauvegarder les séquences pour un modèle de série temporelle
np.save('X_train_seq.npy', X_train_seq)
np.save('y_train_seq.npy', y_train_seq)
np.save('X_val_seq.npy', X_val_seq)
np.save('y_val_seq.npy', y_val_seq)
np.save('X_test_seq.npy', X_test_seq)
np.save('y_test_seq.npy', y_test_seq)
print("\nSéquences sauvegardées pour un modèle de série temporelle (LSTM).")

Valeurs manquantes après imputation :
Horodatage_Unifié            0
Débit_Acide_m3h              0
Débit_Vapeur_kgh             0
Température_Évaporateur_C    0
Vide_Bouilleur_torr          0
Densité_Sortie               0
Heure                        0
Jour_Semaine                 0
Diff_Débit_Acide             0
Ratio_Débit_Acide_Vapeur     0
Moyenne_Température_4h       0
Débit_Acide_Lag_1            0
Débit_Vapeur_Lag_1           0
Température_Lag_1            0
Vide_Lag_1                   0
Débit_Acide_Lag_2            0
Débit_Vapeur_Lag_2           0
Température_Lag_2            0
Vide_Lag_2                   0
Débit_Acide_Lag_3            0
Débit_Vapeur_Lag_3           0
Température_Lag_3            0
Vide_Lag_3                   0
dtype: int64

Taille des ensembles :
Entraînement : 1873
Validation : 401
Test : 402

Types de données (ensemble d'entraînement) :
Horodatage_Unifié            datetime64[ns]
Débit_Acide_m3h                     float64
Débit_Vapeur_kgh              

In [7]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
import joblib

# Étape 1 : Charger les données brutes
donnees = pd.read_excel('DATA-CONC1-140525-050625.xlsx')
print("Nombre de lignes initiales :", len(donnees))

# Étape 2 : Convertir les horodatages Excel en datetime
def excel_vers_datetime(date_excel):
    if pd.isna(date_excel):
        return pd.NaT
    try:
        return pd.to_datetime('1900-01-01') + pd.to_timedelta(date_excel - 2, unit='D')
    except:
        return pd.NaT

# Identifier les colonnes d'horodatage (valeurs comme 45791.xxxxx)
colonnes_horodatage = [col for col in donnees.columns if donnees[col].dtype == 'float64' and str(donnees[col].iloc[0]).startswith('45791')]
if not colonnes_horodatage:
    raise ValueError("Aucune colonne d'horodatage détectée. Vérifiez les valeurs des colonnes.")
print("Colonnes d'horodatage détectées :", colonnes_horodatage)

# Appliquer la conversion
for col in colonnes_horodatage:
    donnees[col] = donnees[col].apply(excel_vers_datetime)

# Étape 3 : Unifier les horodatages
donnees['Horodatage_Unifié'] = donnees[colonnes_horodatage[0]]
donnees = donnees.drop(columns=colonnes_horodatage)

# Étape 4 : Définir les colonnes attendues
colonnes_attendues = [
    'Débit d\'entrée d\'acide m3/h',
    'Débit de vapeur Kg/h',
    'Température de sortie évaporateur en C°',
    'Vide bouilleur en torr',
    'Densité de sortie',
    'Horodatage_Unifié'
]

# Supprimer les colonnes supplémentaires
colonnes_supplementaires = [col for col in donnees.columns if col not in colonnes_attendues]
if colonnes_supplementaires:
    print(f"Suppression des colonnes supplémentaires : {colonnes_supplementaires}")
    donnees = donnees.drop(columns=colonnes_supplementaires)

# Étape 5 : Interpoler les valeurs manquantes
print("Valeurs manquantes avant interpolation :")
print(donnees.isnull().sum())
donnees = donnees.interpolate(method='linear', limit_direction='both')
print("Valeurs manquantes après interpolation :")
print(donnees.isnull().sum())

# Étape 6 : Supprimer les périodes d'arrêt (débits nuls ou négatifs)
donnees = donnees[(donnees["Débit d'entrée d'acide m3/h"] > 0) & (donnees["Débit de vapeur Kg/h"] > 0)]
print("Nombre de lignes après filtrage des débits :", len(donnees))

# Étape 7 : Formater Horodatage_Unifié en 'mois/jour/année Heure:Minutes'
donnees['Horodatage_Unifié'] = donnees['Horodatage_Unifié'].dt.strftime('%m/%d/%Y %H:%M')

# Étape 8 : Renommer les colonnes
donnees.columns = [
    'Débit_Acide_m3h',
    'Débit_Vapeur_kgh',
    'Température_Évaporateur_C',
    'Vide_Bouilleur_torr',
    'Densité_Sortie',
    'Horodatage_Unifié'
]

# Étape 9 : Réorganiser les colonnes
ordre_souhaité = [
    'Horodatage_Unifié',
    'Débit_Acide_m3h',
    'Débit_Vapeur_kgh',
    'Température_Évaporateur_C',
    'Vide_Bouilleur_torr',
    'Densité_Sortie'
]
donnees = donnees[ordre_souhaité]

# Étape 10 : Enregistrer les données nettoyées
donnees.to_excel('donnees_nettoyees.xlsx', index=False)
print("\nDonnées nettoyées enregistrées dans 'donnees_nettoyees.xlsx'.")
print("Colonnes finales :", donnees.columns.tolist())
print("Nombre de lignes finales :", len(donnees))

# Étape 11 : Charger les données nettoyées
donnees = pd.read_excel('donnees_nettoyees.xlsx')

# Étape 12 : Convertir Horodatage_Unifié en datetime et trier
donnees['Horodatage_Unifié'] = pd.to_datetime(donnees['Horodatage_Unifié'], format='%m/%d/%Y %H:%M')
donnees = donnees.sort_values('Horodatage_Unifié')

# Étape 13 : Créer des caractéristiques supplémentaires
donnees['Heure'] = donnees['Horodatage_Unifié'].dt.hour
donnees['Jour_Semaine'] = donnees['Horodatage_Unifié'].dt.dayofweek
donnees['Diff_Débit_Acide'] = donnees['Débit_Acide_m3h'].diff()
donnees['Ratio_Débit_Acide_Vapeur'] = donnees['Débit_Acide_m3h'] / (donnees['Débit_Vapeur_kgh'] + 1e-6)
donnees['Moyenne_Température_4h'] = donnees['Température_Évaporateur_C'].rolling(window=16).mean()
for lag in [1, 2, 3]:
    donnees[f'Débit_Acide_Lag_{lag}'] = donnees['Débit_Acide_m3h'].shift(lag)
    donnees[f'Débit_Vapeur_Lag_{lag}'] = donnees['Débit_Vapeur_kgh'].shift(lag)
    donnees[f'Température_Lag_{lag}'] = donnees['Température_Évaporateur_C'].shift(lag)
    donnees[f'Vide_Lag_{lag}'] = donnees['Vide_Bouilleur_torr'].shift(lag)

# Étape 14 : Imputer les NaN des nouvelles caractéristiques
donnees.fillna(donnees.median(numeric_only=True), inplace=True)
print("Valeurs manquantes après imputation :")
print(donnees.isnull().sum())

# Étape 15 : Définir les caractéristiques et la cible
colonnes_caracteristiques = [
    'Débit_Acide_m3h', 'Débit_Vapeur_kgh', 'Température_Évaporateur_C', 'Vide_Bouilleur_torr',
    'Heure', 'Jour_Semaine', 'Diff_Débit_Acide', 'Ratio_Débit_Acide_Vapeur', 'Moyenne_Température_4h',
    'Débit_Acide_Lag_1', 'Débit_Vapeur_Lag_1', 'Température_Lag_1', 'Vide_Lag_1',
    'Débit_Acide_Lag_2', 'Débit_Vapeur_Lag_2', 'Température_Lag_2', 'Vide_Lag_2',
    'Débit_Acide_Lag_3', 'Débit_Vapeur_Lag_3', 'Température_Lag_3', 'Vide_Lag_3'
]
cible = 'Densité_Sortie'

# Vérifier les colonnes
missing_cols = [col for col in colonnes_caracteristiques if col not in donnees.columns]
if missing_cols:
    raise ValueError(f"Colonnes manquantes : {missing_cols}")

# Étape 16 : Diviser les données (70% entraînement, 15% validation, 15% test)
train_size = int(0.7 * len(donnees))
val_size = int(0.15 * len(donnees))
train_data = donnees.iloc[:train_size]
val_data = donnees.iloc[train_size:train_size + val_size]
test_data = donnees.iloc[train_size + val_size:]
X_train = train_data[colonnes_caracteristiques].values
y_train = train_data[cible].values
X_val = val_data[colonnes_caracteristiques].values
y_val = val_data[cible].values
X_test = test_data[colonnes_caracteristiques].values
y_test = test_data[cible].values
print("\nTaille des ensembles :")
print("Entraînement :", len(train_data), "lignes")
print("Validation :", len(val_data), "lignes")
print("Test :", len(test_data), "lignes")

# Étape 17 : Standardiser les caractéristiques
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_val = scaler.transform(X_val)
X_test = scaler.transform(X_test)
joblib.dump(scaler, 'scaler.pkl')

# Étape 18 : Sauvegarder les ensembles
train_data.to_excel('train_data.xlsx', index=False)
val_data.to_excel('val_data.xlsx', index=False)
test_data.to_excel('test_data.xlsx', index=False)
print("Ensembles sauvegardés : train_data.xlsx, val_data.xlsx, test_data.xlsx")

# Étape 19 : Préparer et sauvegarder les séquences pour LSTM
def creer_sequences(X, y, seq_length=10):
    Xs, ys = [], []
    for i in range(len(X) - seq_length):
        Xs.append(X[i:i+seq_length])
        ys.append(y[i+seq_length])
    return np.array(Xs), np.array(ys)

seq_length = 10  # 150 minutes (10 x 15 min)
X_train_seq, y_train_seq = creer_sequences(X_train, y_train, seq_length)
X_val_seq, y_val_seq = creer_sequences(X_val, y_val, seq_length)
X_test_seq, y_test_seq = creer_sequences(X_test, y_test, seq_length)

# Afficher les formes des séquences
print("\nFormes des séquences pour LSTM :")
print("X_train_seq :", X_train_seq.shape)
print("y_train_seq :", y_train_seq.shape)
print("X_val_seq :", X_val_seq.shape)
print("y_val_seq :", y_val_seq.shape)
print("X_test_seq :", X_test_seq.shape)
print("y_test_seq :", y_test_seq.shape)

# Sauvegarder les séquences
np.save('X_train_seq.npy', X_train_seq)
np.save('y_train_seq.npy', y_train_seq)
np.save('X_val_seq.npy', X_val_seq)
np.save('y_val_seq.npy', y_val_seq)
np.save('X_test_seq.npy', X_test_seq)
np.save('y_test_seq.npy', y_test_seq)
print("Séquences sauvegardées pour LSTM : X_train_seq.npy, y_train_seq.npy, etc.")


Nombre de lignes initiales : 2790
Colonnes d'horodatage détectées : ['Unnamed: 0', 'Unnamed: 2', 'Unnamed: 5', 'Unnamed: 8', 'Unnamed: 10']
Suppression des colonnes supplémentaires : ['Unnamed: 4', 'Unnamed: 7']
Valeurs manquantes avant interpolation :
Débit d'entrée d'acide m3/h                8
Débit de vapeur Kg/h                       0
Température de sortie évaporateur en C°    0
Vide bouilleur en torr                     0
Densité de sortie                          0
Horodatage_Unifié                          8
dtype: int64
Valeurs manquantes après interpolation :
Débit d'entrée d'acide m3/h                0
Débit de vapeur Kg/h                       0
Température de sortie évaporateur en C°    0
Vide bouilleur en torr                     0
Densité de sortie                          0
Horodatage_Unifié                          0
dtype: int64
Nombre de lignes après filtrage des débits : 2676

Données nettoyées enregistrées dans 'donnees_nettoyees.xlsx'.
Colonnes finales : ['Horoda

In [8]:
X_train_seq = np.load('X_train_seq.npy')
y_train_seq = np.load('y_train_seq.npy')
X_val_seq = np.load('X_val_seq.npy')
y_val_seq = np.load('y_val_seq.npy')

In [11]:
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
import joblib
import matplotlib.pyplot as plt

# Étape 20 : Entraîner et évaluer le modèle LSTM
print("\nEntraînement du modèle LSTM...")
lstm_model = Sequential([
    LSTM(50, input_shape=(seq_length, X_train_seq.shape[2]), return_sequences=False),
    Dropout(0.2),  # Régularisation pour éviter le surapprentissage
    Dense(1)
])
lstm_model.compile(optimizer='adam', loss='mse')
history = lstm_model.fit(X_train_seq, y_train_seq, validation_data=(X_val_seq, y_val_seq), epochs=50, batch_size=32, verbose=1)

# Évaluer LSTM sur validation et test
y_pred_val_lstm = lstm_model.predict(X_val_seq)
y_pred_test_lstm = lstm_model.predict(X_test_seq)
print("\nPerformances LSTM :")
print("RMSE Validation :", np.sqrt(mean_squared_error(y_val_seq, y_pred_val_lstm)))
print("R² Validation :", r2_score(y_val_seq, y_pred_val_lstm))
print("RMSE Test :", np.sqrt(mean_squared_error(y_test_seq, y_pred_test_lstm)))
print("R² Test :", r2_score(y_test_seq, y_pred_test_lstm))


Entraînement du modèle LSTM...
Epoch 1/50
[1m59/59[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 22ms/step - loss: 2867762.7500 - val_loss: 2290858.0000
Epoch 2/50
[1m59/59[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 12ms/step - loss: 2846744.5000 - val_loss: 2265253.7500
Epoch 3/50
[1m59/59[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 12ms/step - loss: 2834638.5000 - val_loss: 2255599.2500
Epoch 4/50
[1m59/59[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 12ms/step - loss: 2793864.7500 - val_loss: 2246002.0000
Epoch 5/50
[1m59/59[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 13ms/step - loss: 2786169.7500 - val_loss: 2234210.0000
Epoch 6/50
[1m59/59[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 11ms/step - loss: 2786316.2500 - val_loss: 2221776.5000
Epoch 7/50
[1m59/59[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 12ms/step - loss: 2784416.0000 - val_loss: 2209242.7500
Epoch 8/50
[1m59/59[0m [32m━━━━━━━━━━━━━━━━━━━━

In [12]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.callbacks import EarlyStopping
import joblib
import matplotlib.pyplot as plt

# Étape 1 : Charger les données brutes
donnees = pd.read_excel('DATA-CONC1-140525-050625.xlsx')
print("Nombre de lignes initiales :", len(donnees))

# Étape 2 : Convertir les horodatages Excel en datetime
def excel_vers_datetime(date_excel):
    if pd.isna(date_excel):
        return pd.NaT
    try:
        return pd.to_datetime('1900-01-01') + pd.to_timedelta(date_excel - 2, unit='D')
    except:
        return pd.NaT

colonnes_horodatage = [col for col in donnees.columns if donnees[col].dtype == 'float64' and str(donnees[col].iloc[0]).startswith('45791')]
if not colonnes_horodatage:
    raise ValueError("Aucune colonne d'horodatage détectée.")
print("Colonnes d'horodatage détectées :", colonnes_horodatage)

for col in colonnes_horodatage:
    donnees[col] = donnees[col].apply(excel_vers_datetime)

# Étape 3 : Unifier les horodatages
donnees['Horodatage_Unifié'] = donnees[colonnes_horodatage[0]]
donnees = donnees.drop(columns=colonnes_horodatage)

# Étape 4 : Définir les colonnes attendues
colonnes_attendues = [
    'Débit d\'entrée d\'acide m3/h',
    'Débit de vapeur Kg/h',
    'Température de sortie évaporateur en C°',
    'Vide bouilleur en torr',
    'Densité de sortie',
    'Horodatage_Unifié'
]

colonnes_supplementaires = [col for col in donnees.columns if col not in colonnes_attendues]
if colonnes_supplementaires:
    print(f"Suppression des colonnes supplémentaires : {colonnes_supplementaires}")
    donnees = donnees.drop(columns=colonnes_supplementaires)

# Étape 5 : Interpoler les valeurs manquantes
print("Valeurs manquantes avant interpolation :")
print(donnees.isnull().sum())
donnees = donnees.interpolate(method='linear', limit_direction='both')
print("Valeurs manquantes après interpolation :")
print(donnees.isnull().sum())

# Étape 6 : Supprimer les périodes d'arrêt
donnees = donnees[(donnees["Débit d'entrée d'acide m3/h"] > 0) & (donnees["Débit de vapeur Kg/h"] > 0)]
print("Nombre de lignes après filtrage des débits :", len(donnees))

# Étape 7 : Formater Horodatage_Unifié
donnees['Horodatage_Unifié'] = donnees['Horodatage_Unifié'].dt.strftime('%m/%d/%Y %H:%M')

# Étape 8 : Renommer les colonnes
donnees.columns = [
    'Débit_Acide_m3h',
    'Débit_Vapeur_kgh',
    'Température_Évaporateur_C',
    'Vide_Bouilleur_torr',
    'Densité_Sortie',
    'Horodatage_Unifié'
]

# Étape 9 : Réorganiser les colonnes
ordre_souhaité = [
    'Horodatage_Unifié',
    'Débit_Acide_m3h',
    'Débit_Vapeur_kgh',
    'Température_Évaporateur_C',
    'Vide_Bouilleur_torr',
    'Densité_Sortie'
]
donnees = donnees[ordre_souhaité]

# Étape 10 : Enregistrer les données nettoyées
donnees.to_excel('donnees_nettoyees.xlsx', index=False)
print("Données nettoyées enregistrées dans 'donnees_nettoyees.xlsx'.")

# Étape 11 : Charger les données nettoyées
donnees = pd.read_excel('donnees_nettoyees.xlsx')

# Étape 12 : Convertir Horodatage_Unifié en datetime et trier
donnees['Horodatage_Unifié'] = pd.to_datetime(donnees['Horodatage_Unifié'], format='%m/%d/%Y %H:%M')
donnees = donnees.sort_values('Horodatage_Unifié')

# Étape 13 : Créer des caractéristiques supplémentaires
donnees['Heure'] = donnees['Horodatage_Unifié'].dt.hour
donnees['Jour_Semaine'] = donnees['Horodatage_Unifié'].dt.dayofweek
donnees['Diff_Débit_Acide'] = donnees['Débit_Acide_m3h'].diff()
donnees['Ratio_Débit_Acide_Vapeur'] = donnees['Débit_Acide_m3h'] / (donnees['Débit_Vapeur_kgh'] + 1e-6)
donnees['Moyenne_Température_4h'] = donnees['Température_Évaporateur_C'].rolling(window=16).mean()
for lag in [1, 2, 3]:
    donnees[f'Débit_Acide_Lag_{lag}'] = donnees['Débit_Acide_m3h'].shift(lag)
    donnees[f'Débit_Vapeur_Lag_{lag}'] = donnees['Débit_Vapeur_kgh'].shift(lag)
    donnees[f'Température_Lag_{lag}'] = donnees['Température_Évaporateur_C'].shift(lag)
    donnees[f'Vide_Lag_{lag}'] = donnees['Vide_Bouilleur_torr'].shift(lag)

# Étape 14 : Imputer les NaN
donnees.fillna(donnees.median(numeric_only=True), inplace=True)
print("Valeurs manquantes après imputation :")
print(donnees.isnull().sum())

# Étape 15 : Définir les caractéristiques et la cible
colonnes_caracteristiques = [
    'Débit_Acide_m3h', 'Débit_Vapeur_kgh', 'Température_Évaporateur_C', 'Vide_Bouilleur_torr',
    'Heure', 'Jour_Semaine', 'Diff_Débit_Acide', 'Ratio_Débit_Acide_Vapeur', 'Moyenne_Température_4h',
    'Débit_Acide_Lag_1', 'Débit_Vapeur_Lag_1', 'Température_Lag_1', 'Vide_Lag_1',
    'Débit_Acide_Lag_2', 'Débit_Vapeur_Lag_2', 'Température_Lag_2', 'Vide_Lag_2',
    'Débit_Acide_Lag_3', 'Débit_Vapeur_Lag_3', 'Température_Lag_3', 'Vide_Lag_3'
]
cible = 'Densité_Sortie'

missing_cols = [col for col in colonnes_caracteristiques if col not in donnees.columns]
if missing_cols:
    raise ValueError(f"Colonnes manquantes : {missing_cols}")

# Étape 16 : Diviser les données
train_size = int(0.7 * len(donnees))
val_size = int(0.15 * len(donnees))
train_data = donnees.iloc[:train_size]
val_data = donnees.iloc[train_size:train_size + val_size]
test_data = donnees.iloc[train_size + val_size:]
X_train = train_data[colonnes_caracteristiques].values
y_train = train_data[cible].values
X_val = val_data[colonnes_caracteristiques].values
y_val = val_data[cible].values
X_test = test_data[colonnes_caracteristiques].values
y_test = test_data[cible].values
print("\nTaille des ensembles :")
print("Entraînement :", len(train_data), "lignes")
print("Validation :", len(val_data), "lignes")
print("Test :", len(test_data), "lignes")

# Étape 17 : Standardiser les caractéristiques et la cible
scaler_X = StandardScaler()
X_train = scaler_X.fit_transform(X_train)
X_val = scaler_X.transform(X_val)
X_test = scaler_X.transform(X_test)
joblib.dump(scaler_X, 'scaler_X.pkl')

scaler_y = StandardScaler()
y_train = scaler_y.fit_transform(y_train.reshape(-1, 1)).flatten()
y_val = scaler_y.transform(y_val.reshape(-1, 1)).flatten()
y_test = scaler_y.transform(y_test.reshape(-1, 1)).flatten()
joblib.dump(scaler_y, 'scaler_y.pkl')

# Étape 18 : Sauvegarder les ensembles
train_data.to_excel('train_data.xlsx', index=False)
val_data.to_excel('val_data.xlsx', index=False)
test_data.to_excel('test_data.xlsx', index=False)
print("Ensembles sauvegardés : train_data.xlsx, val_data.xlsx, test_data.xlsx")

# Étape 19 : Préparer et sauvegarder les séquences pour LSTM
def creer_sequences(X, y, seq_length=10):
    Xs, ys = [], []
    for i in range(len(X) - seq_length):
        Xs.append(X[i:i+seq_length])
        ys.append(y[i+seq_length])
    return np.array(Xs), np.array(ys)

seq_length = 10  # 150 minutes
X_train_seq, y_train_seq = creer_sequences(X_train, y_train, seq_length)
X_val_seq, y_val_seq = creer_sequences(X_val, y_val, seq_length)
X_test_seq, y_test_seq = creer_sequences(X_test, y_test, seq_length)

print("\nFormes des séquences pour LSTM :")
print("X_train_seq :", X_train_seq.shape)
print("y_train_seq :", y_train_seq.shape)
print("X_val_seq :", X_val_seq.shape)
print("y_val_seq :", y_val_seq.shape)
print("X_test_seq :", X_test_seq.shape)
print("y_test_seq :", y_test_seq.shape)

np.save('X_train_seq.npy', X_train_seq)
np.save('y_train_seq.npy', y_train_seq)
np.save('X_val_seq.npy', X_val_seq)
np.save('y_val_seq.npy', y_val_seq)
np.save('X_test_seq.npy', X_test_seq)
np.save('y_test_seq.npy', y_test_seq)
print("Séquences sauvegardées pour LSTM.")

# Étape 20 : Entraîner et évaluer le modèle LSTM
print("\nEntraînement du modèle LSTM...")
lstm_model = Sequential([
    LSTM(50, input_shape=(seq_length, X_train_seq.shape[2]), return_sequences=True),
    Dropout(0.3),
    LSTM(50, return_sequences=False),
    Dropout(0.3),
    Dense(1)
])
lstm_model.compile(optimizer='adam', loss='mse')
early_stopping = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)
history = lstm_model.fit(X_train_seq, y_train_seq, validation_data=(X_val_seq, y_val_seq), 
                         epochs=100, batch_size=32, callbacks=[early_stopping], verbose=1)

# Inverser la standardisation pour les prédictions
y_pred_val_lstm = lstm_model.predict(X_val_seq)
y_pred_val_lstm = scaler_y.inverse_transform(y_pred_val_lstm).flatten()
y_val_orig = scaler_y.inverse_transform(y_val_seq.reshape(-1, 1)).flatten()

y_pred_test_lstm = lstm_model.predict(X_test_seq)
y_pred_test_lstm = scaler_y.inverse_transform(y_pred_test_lstm).flatten()
y_test_orig = scaler_y.inverse_transform(y_test_seq.reshape(-1, 1)).flatten()

print("\nPerformances LSTM :")
print("RMSE Validation :", np.sqrt(mean_squared_error(y_val_orig, y_pred_val_lstm)))
print("R² Validation :", r2_score(y_val_orig, y_pred_val_lstm))
print("RMSE Test :", np.sqrt(mean_squared_error(y_test_orig, y_pred_test_lstm)))
print("R² Test :", r2_score(y_test_orig, y_pred_test_lstm))

# Étape 21 : Visualiser les résultats LSTM
plt.figure(figsize=(10, 6))
plt.plot(y_test_orig, label='Valeurs réelles', color='blue')
plt.plot(y_pred_test_lstm, label='Prédictions LSTM', color='red', linestyle='--')
plt.title('Prédictions LSTM vs Valeurs Réelles (Test)')
plt.xlabel('Échantillon')
plt.ylabel('Densité_Sortie')
plt.legend()
plt.savefig('predictions_lstm.png')
plt.close()
print("Graphique des prédictions sauvegardé : predictions_lstm.png")

plt.figure(figsize=(10, 6))
plt.plot(history.history['loss'], label='Perte Entraînement', color='blue')
plt.plot(history.history['val_loss'], label='Perte Validation', color='red')
plt.title('Perte Entraînement et Validation (LSTM)')
plt.xlabel('Époque')
plt.ylabel('Perte (MSE)')
plt.legend()
plt.savefig('loss_lstm.png')
plt.close()
print("Graphique de la perte sauvegardé : loss_lstm.png")

# Étape 22 : Entraîner et évaluer un modèle Random Forest
print("\nEntraînement du modèle Random Forest...")
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

y_pred_val_rf = rf_model.predict(X_val)
y_pred_val_rf = scaler_y.inverse_transform(y_pred_val_rf.reshape(-1, 1)).flatten()
y_pred_test_rf = rf_model.predict(X_test)
y_pred_test_rf = scaler_y.inverse_transform(y_pred_test_rf.reshape(-1, 1)).flatten()

print("\nPerformances Random Forest :")
print("RMSE Validation :", np.sqrt(mean_squared_error(y_val_orig, y_pred_val_rf)))
print("R² Validation :", r2_score(y_val_orig, y_pred_val_rf))
print("RMSE Test :", np.sqrt(mean_squared_error(y_test_orig, y_pred_test_rf)))
print("R² Test :", r2_score(y_test_orig, y_pred_test_rf))

importances = pd.DataFrame({
    'Caractéristique': colonnes_caracteristiques,
    'Importance': rf_model.feature_importances_
}).sort_values('Importance', ascending=False)
print("\nImportance des caractéristiques (Random Forest) :")
print(importances)

# Étape 23 : Sauvegarder les modèles
joblib.dump(rf_model, 'random_forest_model.pkl')
lstm_model.save('lstm_model.h5')
print("Modèles sauvegardés : random_forest_model.pkl, lstm_model.h5")

# Étape 24 : Vérifier les statistiques de Densité_Sortie
print("\nStatistiques de Densité_Sortie :")
print(train_data[cible].describe())
print(val_data[cible].describe())
print(test_data[cible].describe())

# Étape 25 : Fonction pour prédire sur de nouvelles données
def predire_nouvelles_donnees(nouvelles_donnees, scaler_X, scaler_y, lstm_model, colonnes_caracteristiques, seq_length=10):
    df = nouvelles_donnees.copy()
    df['Horodatage_Unifié'] = pd.to_datetime(df['Horodatage_Unifié'], format='%m/%d/%Y %H:%M')
    df = df.sort_values('Horodatage_Unifié')
    
    df['Heure'] = df['Horodatage_Unifié'].dt.hour
    df['Jour_Semaine'] = df['Horodatage_Unifié'].dt.dayofweek
    df['Diff_Débit_Acide'] = df['Débit_Acide_m3h'].diff()
    df['Ratio_Débit_Acide_Vapeur'] = df['Débit_Acide_m3h'] / (df['Débit_Vapeur_kgh'] + 1e-6)
    df['Moyenne_Température_4h'] = df['Température_Évaporateur_C'].rolling(window=16).mean()
    for lag in [1, 2, 3]:
        df[f'Débit_Acide_Lag_{lag}'] = df['Débit_Acide_m3h'].shift(lag)
        df[f'Débit_Vapeur_Lag_{lag}'] = df['Débit_Vapeur_kgh'].shift(lag)
        df[f'Température_Lag_{lag}'] = df['Température_Évaporateur_C'].shift(lag)
        df[f'Vide_Lag_{lag}'] = df['Vide_Bouilleur_torr'].shift(lag)
    
    df.fillna(df.median(numeric_only=True), inplace=True)
    X_new = df[colonnes_caracteristiques].values
    X_new = scaler_X.transform(X_new)
    X_new_seq, _ = creer_sequences(X_new, np.zeros(len(X_new)), seq_length)
    predictions = lstm_model.predict(X_new_seq)
    predictions = scaler_y.inverse_transform(predictions).flatten()
    return predictions

# Exemple d'utilisation (décommenter pour tester)
# nouvelles_donnees = pd.read_excel('nouvelles_donnees.xlsx')
# predictions = predire_nouvelles_donnees(nouvelles_donnees, scaler_X, scaler_y, lstm_model, colonnes_caracteristiques)
# print("Prédictions sur nouvelles données :", predictions)

Nombre de lignes initiales : 2790
Colonnes d'horodatage détectées : ['Unnamed: 0', 'Unnamed: 2', 'Unnamed: 5', 'Unnamed: 8', 'Unnamed: 10']
Suppression des colonnes supplémentaires : ['Unnamed: 4', 'Unnamed: 7']
Valeurs manquantes avant interpolation :
Débit d'entrée d'acide m3/h                8
Débit de vapeur Kg/h                       0
Température de sortie évaporateur en C°    0
Vide bouilleur en torr                     0
Densité de sortie                          0
Horodatage_Unifié                          8
dtype: int64
Valeurs manquantes après interpolation :
Débit d'entrée d'acide m3/h                0
Débit de vapeur Kg/h                       0
Température de sortie évaporateur en C°    0
Vide bouilleur en torr                     0
Densité de sortie                          0
Horodatage_Unifié                          0
dtype: int64
Nombre de lignes après filtrage des débits : 2676
Données nettoyées enregistrées dans 'donnees_nettoyees.xlsx'.
Valeurs manquantes après imp

  super().__init__(**kwargs)


Epoch 1/100
[1m59/59[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 34ms/step - loss: 0.8123 - val_loss: 1.3008
Epoch 2/100
[1m59/59[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 21ms/step - loss: 0.1984 - val_loss: 3.1770
Epoch 3/100
[1m59/59[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 21ms/step - loss: 0.1548 - val_loss: 3.9058
Epoch 4/100
[1m59/59[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 20ms/step - loss: 0.0808 - val_loss: 2.3363
Epoch 5/100
[1m59/59[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 18ms/step - loss: 0.0669 - val_loss: 2.8066
Epoch 6/100
[1m59/59[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 20ms/step - loss: 0.0705 - val_loss: 3.8747
Epoch 7/100
[1m59/59[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 22ms/step - loss: 0.0489 - val_loss: 2.7820
Epoch 8/100
[1m59/59[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 20ms/step - loss: 0.0589 - val_loss: 3.7996
Epoch 9/100
[1m59/59[0m [32m━━━━━━━━━

ValueError: Found input variables with inconsistent numbers of samples: [391, 401]

In [20]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
import joblib
import matplotlib.pyplot as plt

# Charger les données nettoyées
donnees = pd.read_excel('donnees_nettoyees.xlsx')
donnees['Horodatage_Unifié'] = pd.to_datetime(donnees['Horodatage_Unifié'], format='%m/%d/%Y %H:%M')
donnees = donnees.sort_values('Horodatage_Unifié')

# Création de nouvelles caractéristiques
donnees['Heure'] = donnees['Horodatage_Unifié'].dt.hour
donnees['Jour_Semaine'] = donnees['Horodatage_Unifié'].dt.dayofweek
donnees['Diff_Débit_Acide'] = donnees['Débit_Acide_m3h'].diff()
donnees['Ratio_Débit_Acide_Vapeur'] = donnees['Débit_Acide_m3h'] / (donnees['Débit_Vapeur_kgh'] + 1e-6)
donnees['Moyenne_Température_4h'] = donnees['Température_Évaporateur_C'].rolling(window=16).mean()
for lag in [1, 2, 3]:
    donnees[f'Débit_Acide_Lag_{lag}'] = donnees['Débit_Acide_m3h'].shift(lag)
    donnees[f'Débit_Vapeur_Lag_{lag}'] = donnees['Débit_Vapeur_kgh'].shift(lag)
    donnees[f'Température_Lag_{lag}'] = donnees['Température_Évaporateur_C'].shift(lag)
    donnees[f'Vide_Lag_{lag}'] = donnees['Vide_Bouilleur_torr'].shift(lag)

# Imputation des valeurs manquantes
donnees.fillna(donnees.median(numeric_only=True), inplace=True)

# Définir les caractéristiques et la cible
colonnes_caracteristiques = [
    'Débit_Acide_m3h', 'Débit_Vapeur_kgh', 'Température_Évaporateur_C', 'Vide_Bouilleur_torr',
    'Heure', 'Jour_Semaine', 'Diff_Débit_Acide', 'Ratio_Débit_Acide_Vapeur', 'Moyenne_Température_4h',
    'Débit_Acide_Lag_1', 'Débit_Vapeur_Lag_1', 'Température_Lag_1', 'Vide_Lag_1',
    'Débit_Acide_Lag_2', 'Débit_Vapeur_Lag_2', 'Température_Lag_2', 'Vide_Lag_2',
    'Débit_Acide_Lag_3', 'Débit_Vapeur_Lag_3', 'Température_Lag_3', 'Vide_Lag_3'
]
cible = 'Densité_Sortie'

X = donnees[colonnes_caracteristiques].values
y = donnees[cible].values

# Séparer les données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=False)

# Standardisation
scaler_X = StandardScaler()
X_train_scaled = scaler_X.fit_transform(X_train)
X_test_scaled = scaler_X.transform(X_test)
joblib.dump(scaler_X, 'scaler_X_linear.pkl')

# Régression linéaire
lr_model = LinearRegression()
lr_model.fit(X_train_scaled, y_train)

# Prédiction
y_pred = lr_model.predict(X_test_scaled)

# Évaluation
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

# Affichage
plt.figure(figsize=(10, 6))
plt.plot(y_test, label="Valeurs réelles", color='blue')
plt.plot(y_pred, label="Prédictions (Régression linéaire)", color='orange')
plt.title("Prédiction de la Densité de sortie")
plt.xlabel("Échantillons")
plt.ylabel("Densité")
plt.legend()
plt.tight_layout()
plt.savefig("predictions_regression_lineaire.png")
plt.close()

(rmse, r2)


(np.float64(143.96119085444062), -20.792544329393678)

In [None]:
import pandas as pd
import numpy as np
from datetime import datetime
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.preprocessing import StandardScaler, PolynomialFeatures, FunctionTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import Ridge
from sklearn.ensemble import RandomForestRegressor
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_squared_error, r2_score
import joblib

# Fonction : Conversion Excel -> datetime
def excel_vers_datetime(date_excel):
    if pd.isna(date_excel):
        return pd.NaT
    try:
        return pd.to_datetime('1900-01-01') + pd.to_timedelta(date_excel - 2, unit='D')
    except:
        return pd.NaT

# Fonction : Nettoyage et préparation des données
def charger_et_nettoyer_donnees(fichier):
    donnees = pd.read_excel(fichier)

    # Détection des colonnes d'horodatage
    colonnes_horodatage = [
        col for col in donnees.columns 
        if donnees[col].dtype == 'float64' and str(donnees[col].iloc[0]).startswith('45791')
    ]
    if not colonnes_horodatage:
        raise ValueError("Aucune colonne d'horodatage détectée.")

    # Conversion des dates
    for col in colonnes_horodatage:
        donnees[col] = donnees[col].apply(excel_vers_datetime)
    donnees['Horodatage_Unifié'] = donnees[colonnes_horodatage[0]]
    donnees.drop(columns=colonnes_horodatage, inplace=True)

    # Colonnes utiles
    colonnes_utiles = [
        "Débit d'entrée d'acide m3/h",
        'Débit de vapeur Kg/h',
        'Température de sortie évaporateur en C°',
        'Vide bouilleur en torr',
        'Densité de sortie',
        'Horodatage_Unifié'
    ]
    donnees = donnees[[col for col in donnees.columns if col in colonnes_utiles]]

    # Interpolation des valeurs manquantes
    donnees = donnees.interpolate(method='linear', limit_direction='both')

    # Suppression des débits nuls/négatifs
    donnees = donnees[
        (donnees["Débit d'entrée d'acide m3/h"] > 0) &
        (donnees["Débit de vapeur Kg/h"] > 0)
    ]

    # Détection des outliers (basé sur l'IQR pour Densité_Sortie)
    Q1 = donnees['Densité de sortie'].quantile(0.25)
    Q3 = donnees['Densité de sortie'].quantile(0.75)
    IQR = Q3 - Q1
    donnees = donnees[
        (donnees['Densité de sortie'] >= Q1 - 1.5 * IQR) &
        (donnees['Densité de sortie'] <= Q3 + 1.5 * IQR)
    ]

    # Format datetime
    donnees['Horodatage_Unifié'] = donnees['Horodatage_Unifié'].dt.strftime('%m/%d/%Y %H:%M')

    # Renommage
    donnees.columns = [
        'Débit_Acide_m3h',
        'Débit_Vapeur_kgh',
        'Température_Évaporateur_C',
        'Vide_Bouilleur_torr',
        'Densité_Sortie',
        'Horodatage_Unifié'
    ]
    donnees = donnees[
        ['Horodatage_Unifié', 'Débit_Acide_m3h', 'Débit_Vapeur_kgh',
         'Température_Évaporateur_C', 'Vide_Bouilleur_torr', 'Densité_Sortie']
    ]

    # Sauvegarde
    donnees.to_excel("donnees_nettoyees.xlsx", index=False)
    
    # Afficher les corrélations
    print("📊 Corrélations avec Densité_Sortie :")
    print(donnees.corr(numeric_only=True)['Densité_Sortie'])
    
    return donnees

# Fonction : Entraînement du meilleur modèle
def entrainer_meilleur_modele(donnees):
    donnees['Horodatage_Unifié'] = pd.to_datetime(donnees['Horodatage_Unifié'], format='%m/%d/%Y %H:%M')
    X = donnees[['Débit_Acide_m3h', 'Débit_Vapeur_kgh', 'Température_Évaporateur_C', 'Vide_Bouilleur_torr']]
    y = donnees['Densité_Sortie']
    
    # Centrer la cible
    y_mean = y.mean()
    y_centered = y - y_mean
    
    X_train, X_test, y_train, y_test = train_test_split(X, y_centered, test_size=0.2, random_state=42)

    # Transformation logarithmique pour Vide_Bouilleur_torr
    def log_transform(X):
        X_transformed = X.copy()
        X_transformed['Vide_Bouilleur_torr'] = np.log1p(X_transformed['Vide_Bouilleur_torr'])
        return X_transformed

    # Pipeline Ridge Polynomial
    pipeline_ridge = Pipeline([
        ('log', FunctionTransformer(log_transform, validate=False)),
        ('poly', PolynomialFeatures()),
        ('scaler', StandardScaler()),
        ('ridge', Ridge())
    ])

    # Grille pour Ridge
    param_grid_ridge = {
        'poly__degree': [1, 2],
        'ridge__alpha': [0.01, 0.1, 1, 10, 100, 1000]
    }
    grid_search_ridge = GridSearchCV(pipeline_ridge, param_grid_ridge, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)

    # Pipeline Random Forest
    pipeline_rf = Pipeline([
        ('scaler', StandardScaler()),
        ('rf', RandomForestRegressor(random_state=42))
    ])
    param_grid_rf = {
        'rf__n_estimators': [50, 100],
        'rf__max_depth': [None, 10]
    }
    grid_search_rf = GridSearchCV(pipeline_rf, param_grid_rf, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)

    # Pipeline Réseau de Neurones
    pipeline_mlp = Pipeline([
        ('scaler', StandardScaler()),
        ('mlp', MLPRegressor(random_state=42, max_iter=1000))
    ])
    param_grid_mlp = {
    'mlp__hidden_layer_sizes': [(50,), (100,), (50, 50), (100, 50), (100, 100), (50, 50, 50)],
    'mlp__alpha': [0.0001, 0.001, 0.01, 0.1, 1, 10],
    'mlp__learning_rate': ['constant', 'adaptive', 'invscaling'],
    'mlp__activation': ['relu', 'tanh'],
    'mlp__max_iter': [2000, 5000]
}
    grid_search_mlp = GridSearchCV(pipeline_mlp, param_grid_mlp, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)

    # Entraînement des trois modèles
    grid_search_ridge.fit(X_train, y_train)
    grid_search_rf.fit(X_train, y_train)
    grid_search_mlp.fit(X_train, y_train)

    # Sélection du meilleur modèle
    scores = [
        (-grid_search_ridge.best_score_, grid_search_ridge, "Ridge Polynomial"),
        (-grid_search_rf.best_score_, grid_search_rf, "Random Forest"),
        (-grid_search_mlp.best_score_, grid_search_mlp, "Réseau de Neurones")
    ]
    best_score, best_grid, best_name = min(scores, key=lambda x: x[0])
    best_model = best_grid.best_estimator_

    print(f"🔎 Meilleur modèle : {best_name}")
    print(f"🔎 Meilleurs paramètres : {best_grid.best_params_}")
    print(f"📈 MSE moyenne (CV) : {best_score}")

    # Validation croisée imbriquée
    cv_scores = cross_val_score(best_model, X, y_centered, cv=5, scoring='neg_mean_squared_error')
    mean_cv_mse = -cv_scores.mean()
    print("📈 MSE moyenne (CV imbriquée) :", mean_cv_mse)

    # Évaluation sur le test
    y_pred = best_model.predict(X_test)
    y_pred_uncentered = y_pred + y_mean
    y_test_uncentered = y_test + y_mean
    mse_test = mean_squared_error(y_test_uncentered, y_pred_uncentered)
    r2_test = r2_score(y_test_uncentered, y_pred_uncentered)
    print("📊 Test R2 :", r2_test)
    print("📉 Test MSE :", mse_test)

    # Sauvegarde
    joblib.dump(best_model, 'modele_final_best.pkl')
    print("✅ Modèle sauvegardé sous 'modele_final_best.pkl'")
    return best_model, y_mean

# Fonction : Prédiction sur nouvelles données
def predire_nouvelles_donnees(model, y_mean):
    exemples = pd.DataFrame({
        'Débit_Acide_m3h': [30.0011291503906, 29.9, 29.8],
        'Débit_Vapeur_kgh': [3525.17700195312, 3550, 3580],
        'Température_Évaporateur_C': [92.3660583496093, 92.35, 92.34],
        'Vide_Bouilleur_torr': [59.1079483032227, 59.0, 58.9]
    })
    predictions = model.predict(exemples) + y_mean
    print("🔮 Prédictions sur nouveaux exemples :")
    print(predictions)
    return predictions

# Exécution principale
if __name__ == "__main__":
    fichier = 'DATA-CONC1-140525-050625.xlsx'
    donnees = charger_et_nettoyer_donnees(fichier)
    modele, y_mean = entrainer_meilleur_modele(donnees)
    predire_nouvelles_donnees(modele, y_mean)

📊 Corrélations avec Densité_Sortie :
Débit_Acide_m3h             -0.219043
Débit_Vapeur_kgh            -0.160979
Température_Évaporateur_C   -0.053643
Vide_Bouilleur_torr          0.050154
Densité_Sortie               1.000000
Name: Densité_Sortie, dtype: float64
