## TP 1 ANANI CHARLY   //          AGOSSOU MENDEL     //         HOUNTON SYLVESTRE

Application des algorithmes :
o Implémenter des méthodes de machine learning (arbre de décision, régression
par vecteurs de support, régression polynomiale, régression linéaire, CNN)
pour combler les valeurs manquantes.
o Comparer les performances des algorithmes à l’aide de métriques telles que le
R² , l’erreur quadratique moyenne (RMSE) ou le coefficient de correlation de
Pearson r
o Justifier le choix de l’algorithme le plus pertinent pour les données étudiées.
4. Visualisation des résultats :
o Produire des graphiques de distribution des données pour certains paramètres
clés.
o Présenter les résultats des corrélations et des prédictions sous forme de
tableaux ou de diagrammes clairs et professionnels.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

In [None]:
data_one = pd.read_csv('data.csv')
data_one.info()
data_one.describe()


In [None]:
data_one = data_one.drop(data_one.index[-2:])

In [None]:
original_data = data_one.copy(deep=True)


In [None]:
original_data.info()

In [None]:
# colonnes dans la copie
original_data.rename(columns={
'A' : 'date',
'B' : 'heure',
'C' : 'echelle_alimentation',
'D' : 'calcium_libre',
'E' : 'test_eligibilite',
'F' : 'vitesse_four',
'G' : 'echelle_tete_four',
'H' : 'echelle_queue_four',
'I' : 'temperature_corps',
'J' : 'temperature_haut_prechauffeur_1',
'K' : 'pression_haut_prechauffeur_1',
'L' : 'temperature_bas_prechauffeur_1',
'M' : 'pression_bas_prechauffeur_1',
'N' : 'temperature_haut_prechauffeur_2',
'O' : 'pression_haut_prechauffeur_2',
'P' : 'temperature_bas_prechauffeur_2',
'Q' : 'pression_bas_prechauffeur_2',
'R' : 'temperature_haut_prechauffeur_3',
'S' : 'pression_haut_prechauffeur_3',
'T' : 'temperature_bas_prechauffeur_3',
'U' : 'pression_bas_prechauffeur_3',
'V' : 'temperature_haut_prechauffeur_4',
'W' : 'pression_haut_prechauffeur_4',
'X' : 'temperature_bas_prechauffeur_4',
'Y' : 'pression_bas_prechauffeur_4',
'Z' : 'temperature_haut_prechauffeur_5',
'AA' : 'pression_haut_prechauffeur_5',
'AB' : 'temperature_bas_prechauffeur_5',
'AC' : 'pression_bas_prechauffeur_5',
'AD' : 'temperature_queue_four',
'AE' : 'temperature_precalcinateur',
'AF' : 'pression_precalcinateur',
'AG' : 'ventilateur_principal',
'AH' : 'pression_tete_four',
'AI' : 'pression_refroidisseur_principal',
'AJ' : 'S1_refroidisseur_principal',
'AK' : 'I1_refroidisseur_principal',
'AL' : 'S1_refroidisseur_secondaire',
'AM' : 'I1_refroidisseur_secondaire',
'AN' : 'S1_refroidisseur_tertiaire',
'AO' : 'I1_refroidisseur_tertiaire',
'AP' : 'pression_ventilateur_tertiaire',
'AQ' : 'vitesse_ventilateur_hautetemp',
'AR' : 'courant_ventilateur_hautetemp'
}, inplace=True)

print(original_data.columns)

In [None]:
original_data.info()

In [None]:
# Encodage direct sur la colonne en utilisant la techniques de map
original_data['test_eligibilite'] = original_data['test_eligibilite'].map({'Y': 1, 'N': 0})

In [None]:
# Identifier les colonnes avec des valeurs manquantes
valeurs_manquantes_column = original_data.isnull().sum()

# Filtrer uniquement les colonnes ayant des valeurs manquantes
colonnes_avec_manquants = valeurs_manquantes_column[valeurs_manquantes_column > 0]

# Afficher le nombre de valeurs manquantes et leur type
print("Colonnes avec des valeurs manquantes et leur type :\n")
for col in colonnes_avec_manquants.index:
    print(f"- {col}: {colonnes_avec_manquants[col]} valeurs manquantes (Type: {original_data[col].dtype})")

# Nombre total de valeurs manquantes
valeurs_manquantes = original_data.isnull().values.sum()
print(f"\nNombre total de valeurs manquantes dans le DataFrame : {valeurs_manquantes}")


In [None]:

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from scipy.stats import pearsonr

# Fonction pour préparer les données
def prepare_data(original_data, target_column):
    # Calcul de la corrélation uniquement sur les colonnes de données originales
    correlation_matrix = original_data.corr()
    target_corr = correlation_matrix[target_column]

    # Sélectionner les colonnes avec une corrélation d'au moins 0.5
    correlated_features = target_corr[abs(target_corr) >= 0.5].index.tolist()
    correlated_features.remove(target_column)  # Retirer la colonne cible

    # Exclure les colonnes constantes ou avec uniquement des nan
    filtered_features = original_data[correlated_features].loc[:, 
        (original_data[correlated_features].nunique() > 1) & 
        (original_data[correlated_features].notnull().sum() > 0)
    ]

    print(f"On travaille avec la colonne : {target_column}")
    print(f"Les colonnes corrélées (coef. de corrélation >= 0.5) sont : {correlated_features}")
    print(f"Colonnes après filtrage : {filtered_features.columns.tolist()}")

    # Inclure uniquement les lignes où la colonne cible et les caractéristiques filtrées ne contiennent pas de valeurs nulles
    df_non_missing = original_data[
        original_data[target_column].notnull() & 
        filtered_features.notnull().all(axis=1)
    ][filtered_features.columns.tolist() + [target_column]]

    # Inclure uniquement les caractéristiques filtrées
    features = df_non_missing[filtered_features.columns.tolist()]
    targets = df_non_missing[target_column]
    
    return train_test_split(features, targets, test_size=0.2, random_state=42)




In [None]:
original_data.head(2)

In [None]:
original_data = original_data.drop(columns=['date', 'heure'], errors='ignore')


In [None]:
original_data.head(2)

In [None]:
original_data = original_data.drop(columns=['temperature_haut_prechauffeur_3', 'temperature_haut_prechauffeur_4','temperature_bas_prechauffeur_4'], errors='ignore')


In [None]:
original_data.info()

In [None]:
from sklearn.preprocessing import StandardScaler

# Détection des valeurs aberrantes (exemple avec IQR)
def detect_outliers_iqr(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    return df[(df[column] < lower_bound) | (df[column] > upper_bound)]

# Traitement des valeurs aberrantes dans le DataFrame ''
for column in original_data.select_dtypes(include=[np.number]).columns:  # Filtrer uniquement les colonnes numériques
    outliers = detect_outliers_iqr(original_data, column)
    if not outliers.empty:
        median_value = original_data[column].median()
        # Remplacer les valeurs aberrantes par la médiane
        original_data[column] = np.where((original_data[column] < outliers[column].min()) | (original_data[column] > outliers[column].max()), median_value, original_data[column])

# Standardisation
scaler = StandardScaler()
standardized_data = scaler.fit_transform(original_data.select_dtypes(include=[np.number]))  # Standardiser uniquement les colonnes numériques

# Convertir en DataFrame
standardized_df = pd.DataFrame(standardized_data, columns=original_data.select_dtypes(include=[np.number]).columns)

original_data = standardized_df


In [None]:
original_data.head()

In [None]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVR
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline
from sklearn.metrics import r2_score, mean_squared_error
from scipy.stats import pearsonr
import numpy as np
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

# Variable cible
target_column = 'calcium_libre'  

# Prépar les données
X_train, X_temp, y_train, y_temp = prepare_data(original_data, target_column)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

# Modèle 1 : Arbre de Décision
model_dt = DecisionTreeRegressor()
model_dt.fit(X_train, y_train)
y_pred_dt_val = model_dt.predict(X_val)
y_pred_dt_test = model_dt.predict(X_test)

# Modèle 2 : Régression par Vecteurs de Support
model_svr = SVR()
model_svr.fit(X_train, y_train)
y_pred_svr_val = model_svr.predict(X_val)
y_pred_svr_test = model_svr.predict(X_test)

# Modèle 3 : Régression Polynomiale
degree = 2
model_poly = make_pipeline(PolynomialFeatures(degree), LinearRegression())
model_poly.fit(X_train, y_train)
y_pred_poly_val = model_poly.predict(X_val)
y_pred_poly_test = model_poly.predict(X_test)

# Modèle 4 : Régression Linéaire
model_lr = LinearRegression()
model_lr.fit(X_train, y_train)
y_pred_lr_val = model_lr.predict(X_val)
y_pred_lr_test = model_lr.predict(X_test)

# Modèle 5 : Régression CNN
model_cnn = keras.Sequential([
    layers.Dense(64, activation='relu', input_shape=(X_train.shape[1],)),
    layers.Dense(32, activation='relu'),
    layers.Dense(1)
])
model_cnn.compile(optimizer='adam', loss='mean_squared_error')
model_cnn.fit(X_train, y_train, epochs=100, verbose=0)
y_pred_cnn_val = model_cnn.predict(X_val)
y_pred_cnn_test = model_cnn.predict(X_test)

# Évaluation sur l'ensemble de validation
print("Évaluation sur l'ensemble de validation :")
for name, y_pred_val in zip(['Arbre de Décision', 'SVR', 'Régression Polynomiale', 'Régression Linéaire', 'CNN'],
                             [y_pred_dt_val, y_pred_svr_val, y_pred_poly_val, y_pred_lr_val, y_pred_cnn_val.flatten()]):
    r2 = r2_score(y_val, y_pred_val)
    rmse = np.sqrt(mean_squared_error(y_val, y_pred_val))
    pearson, _ = pearsonr(y_val, y_pred_val)
    print(f'{name} - R²: {r2}, RMSE: {rmse}, Pearson r: {pearson}')

# Évaluation sur l'ensemble de test
print("\nÉvaluation sur l'ensemble de test :")
for name, y_pred_test in zip(['Arbre de Décision', 'SVR', 'Régression Polynomiale', 'Régression Linéaire', 'CNN'],
                              [y_pred_dt_test, y_pred_svr_test, y_pred_poly_test, y_pred_lr_test, y_pred_cnn_test.flatten()]):
    r2 = r2_score(y_test, y_pred_test)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred_test))
    pearson, _ = pearsonr(y_test, y_pred_test)
    print(f'{name} - R²: {r2}, RMSE: {rmse}, Pearson r: {pearson}')

# Validation Croisée
print("\nValidation croisée :")
for name, model in zip(['Arbre de Décision', 'SVR', 'Régression Polynomiale', 'Régression Linéaire'],
                       [model_dt, model_svr, model_poly, model_lr]):
    cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='r2')
    print(f'{name} - R² moyen (validation croisée) : {cv_scores.mean()}')


Dans notre étude, nous avons analysé la colonne calcium_libre et identifié une corrélation significative avec la colonne test_eligibilite, ayant un coefficient de corrélation supérieur ou égal à 0.5. Après avoir préparé les données en séparant 70% pour l'entraînement et 30% pour la validation et le test, nous avons évalué plusieurs algorithmes de régression : Arbre de Décision, SVR, Régression Polynomiale, Régression Linéaire et Réseaux de Neurones Convolutifs (CNN).

Résultats d'Évaluation sur l'Ensemble de Validation
Arbre de Décision :

Coefficient de détermination = 0.8370
RMSE = 0.3937
Pearson r = 1.0
SVR :

Coefficient de détermination = 0.9444
RMSE = 0.2301
Pearson r = 1.0
Régression Polynomiale :

Coefficient de détermination = 0.8370
RMSE = 0.3937
Pearson r = 1.0
Régression Linéaire :

Coefficient de détermination = 0.8370
RMSE = 0.3937
Pearson r = 1.0
CNN :

Coefficient de détermination = 0.8200
RMSE = 0.4138
Pearson r = 1.0
Résultats d'Évaluation sur l'Ensemble de Test
Arbre de Décision :

Coefficient de détermination = 0.8105
RMSE = 0.5142
Pearson r = 1.0
SVR :

Coefficient de détermination = 0.9406
RMSE = 0.2878
Pearson r = 1.0
Régression Polynomiale :

Coefficient de détermination = 0.8105
RMSE = 0.5142
Pearson r = 1.0
Régression Linéaire :

Coefficient de détermination = 0.8105
RMSE = 0.5142
Pearson r = 1.0
CNN :

Coefficient de détermination = 0.7906
RMSE = 0.5405
Pearson r = 1.0
Validation Croisée
Arbre de Décision : Coefficient de détermination moyen = 0.4271
SVR : Coefficient de détermination moyen = 0.2133
Régression Polynomiale : Coefficient de détermination moyen = 0.4271
Régression Linéaire : Coefficient de détermination moyen = 0.6271

Justification du Choix de l'Algorithme
En analysant les résultats, il est évident que le SVR a les meilleures performances, avec un coefficient de détermination dépassant 0.94 sur les ensembles de validation et de test, ainsi qu'un RMSE très faible, indiquant une excellente précision. Les autres algorithmes, bien que performants, n'atteignent pas les mêmes niveaux de précision. De plus, le SVR se distingue par sa capacité à capturer les relations non linéaires entre les variables, ce qui est particulièrement pertinent dans notre cas où la relation entre calcium_libre et test_eligibilite peut être complexe. Par conséquent, le SVR est justifié comme l'algorithme le plus pertinent pour notre analyse, offrant un excellent compromis entre précision et flexibilité pour modéliser les données.

In [None]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVR
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline
from sklearn.metrics import r2_score, mean_squared_error
from scipy.stats import pearsonr
import numpy as np
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

# Variable cible
target_column = 'test_eligibilite'  # Remplacez par la bonne colonne

# Préparer les données
X_train, X_temp, y_train, y_temp = prepare_data(original_data, target_column)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

# Modèle 1 : Arbre de Décision
model_dt = DecisionTreeRegressor()
model_dt.fit(X_train, y_train)
y_pred_dt_val = model_dt.predict(X_val)
y_pred_dt_test = model_dt.predict(X_test)

# Modèle 2 : Régression par Vecteurs de Support
model_svr = SVR()
model_svr.fit(X_train, y_train)
y_pred_svr_val = model_svr.predict(X_val)
y_pred_svr_test = model_svr.predict(X_test)

# Modèle 3 : Régression Polynomiale
degree = 2
model_poly = make_pipeline(PolynomialFeatures(degree), LinearRegression())
model_poly.fit(X_train, y_train)
y_pred_poly_val = model_poly.predict(X_val)
y_pred_poly_test = model_poly.predict(X_test)

# Modèle 4 : Régression Linéaire
model_lr = LinearRegression()
model_lr.fit(X_train, y_train)
y_pred_lr_val = model_lr.predict(X_val)
y_pred_lr_test = model_lr.predict(X_test)

# Modèle 5 : Régression CNN
model_cnn = keras.Sequential([
    layers.Dense(64, activation='relu', input_shape=(X_train.shape[1],)),
    layers.Dense(32, activation='relu'),
    layers.Dense(1)
])
model_cnn.compile(optimizer='adam', loss='mean_squared_error')
model_cnn.fit(X_train, y_train, epochs=100, verbose=0)
y_pred_cnn_val = model_cnn.predict(X_val)
y_pred_cnn_test = model_cnn.predict(X_test)

# Évaluation sur l'ensemble de validation
print("Évaluation sur l'ensemble de validation :")
for name, y_pred_val in zip(['Arbre de Décision', 'SVR', 'Régression Polynomiale', 'Régression Linéaire', 'CNN'],
                             [y_pred_dt_val, y_pred_svr_val, y_pred_poly_val, y_pred_lr_val, y_pred_cnn_val.flatten()]):
    r2 = r2_score(y_val, y_pred_val)
    rmse = np.sqrt(mean_squared_error(y_val, y_pred_val))
    pearson, _ = pearsonr(y_val, y_pred_val)
    print(f'{name} - R²: {r2}, RMSE: {rmse}, Pearson r: {pearson}')

# Évaluation sur l'ensemble de test
print("\nÉvaluation sur l'ensemble de test :")
for name, y_pred_test in zip(['Arbre de Décision', 'SVR', 'Régression Polynomiale', 'Régression Linéaire', 'CNN'],
                              [y_pred_dt_test, y_pred_svr_test, y_pred_poly_test, y_pred_lr_test, y_pred_cnn_test.flatten()]):
    r2 = r2_score(y_test, y_pred_test)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred_test))
    pearson, _ = pearsonr(y_test, y_pred_test)
    print(f'{name} - R²: {r2}, RMSE: {rmse}, Pearson r: {pearson}')

# Validation Croisée
print("\nValidation croisée :")
for name, model in zip(['Arbre de Décision', 'SVR', 'Régression Polynomiale', 'Régression Linéaire'],
                       [model_dt, model_svr, model_poly, model_lr]):
    cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='r2')
    print(f'{name} - R² moyen (validation croisée) : {cv_scores.mean()}')


Dans notre étude, nous avons analysé la colonne test_eligibilite et identifié une corrélation significative avec la colonne calcium_libre, ayant un coefficient de corrélation supérieur ou égal à 0.5. Après avoir préparé les données en séparant 70% pour l'entraînement et 30% pour la validation et le test, nous avons évalué plusieurs algorithmes de régression : Arbre de Décision, SVR, Régression Polynomiale, Régression Linéaire et Réseaux de Neurones Convolutifs (CNN).

Résultats d'Évaluation sur l'Ensemble de Validation
Arbre de Décision :

Coefficient de détermination = 0.9969
RMSE = 0.0615
Pearson r = 1.0
SVR :

Coefficient de détermination = 0.9918
RMSE = 0.0999
Pearson r = 1.0
Régression Polynomiale :

Coefficient de détermination = 0.9966
RMSE = 0.0647
Pearson r = 1.0
Régression Linéaire :

Coefficient de détermination = 0.9887
RMSE = 0.1174
Pearson r = 1.0
CNN :

Coefficient de détermination = 0.9967
RMSE = 0.0638
Pearson r = 1.0
Résultats d'Évaluation sur l'Ensemble de Test
Arbre de Décision :

Coefficient de détermination = 0.9982
RMSE = 0.0569
Pearson r = 1.0
SVR :

Coefficient de détermination = 0.9944
RMSE = 0.0998
Pearson r = 1.0
Régression Polynomiale :

Coefficient de détermination = 0.9980
RMSE = 0.0601
Pearson r = 1.0
Régression Linéaire :

Coefficient de détermination = 0.9919
RMSE = 0.1203
Pearson r = 1.0
CNN :

Coefficient de détermination = 0.9974
RMSE = 0.0679
Pearson r = 1.0
Validation Croisée
Arbre de Décision : Coefficient de détermination moyen = 0.4528
SVR : Coefficient de détermination moyen = 0.5087
Régression Polynomiale : Coefficient de détermination moyen = -8.377370463172624e+21
Régression Linéaire : Coefficient de détermination moyen = 0.4899

Justification du Choix de l'Algorithme
Après avoir analysé les résultats, il apparaît que l'Arbre de Décision est le meilleur modèle pour prédire la variable test_eligibilite à partir de la variable calcium_libre. En effet, l'Arbre de Décision affiche les meilleures performances sur les ensembles de validation et de test, avec des coefficients de détermination supérieurs à 0.99 et des RMSE très faibles, indiquant une prédiction très précise.

De plus, l'Arbre de Décision présente l'avantage d'être un modèle interprétable, permettant de comprendre facilement les relations entre les variables. Bien que la validation croisée montre un coefficient de détermination moyen plus faible, les résultats sur les ensembles de validation et de test sont nettement supérieurs aux autres algorithmes évalués.

In [None]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVR
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline
from sklearn.metrics import r2_score, mean_squared_error
from scipy.stats import pearsonr
import numpy as np
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

# Variable cible
target_column = 'temperature_haut_prechauffeur_1'  # Remplacez par la bonne colonne

# Préparer les données
X_train, X_temp, y_train, y_temp = prepare_data(original_data, target_column)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

# Modèle 1 : Arbre de Décision
model_dt = DecisionTreeRegressor()
model_dt.fit(X_train, y_train)
y_pred_dt_val = model_dt.predict(X_val)
y_pred_dt_test = model_dt.predict(X_test)

# Modèle 2 : Régression par Vecteurs de Support
model_svr = SVR()
model_svr.fit(X_train, y_train)
y_pred_svr_val = model_svr.predict(X_val)
y_pred_svr_test = model_svr.predict(X_test)

# Modèle 3 : Régression Polynomiale
degree = 2
model_poly = make_pipeline(PolynomialFeatures(degree), LinearRegression())
model_poly.fit(X_train, y_train)
y_pred_poly_val = model_poly.predict(X_val)
y_pred_poly_test = model_poly.predict(X_test)

# Modèle 4 : Régression Linéaire
model_lr = LinearRegression()
model_lr.fit(X_train, y_train)
y_pred_lr_val = model_lr.predict(X_val)
y_pred_lr_test = model_lr.predict(X_test)

# Modèle 5 : Régression CNN
model_cnn = keras.Sequential([
    layers.Dense(64, activation='relu', input_shape=(X_train.shape[1],)),
    layers.Dense(32, activation='relu'),
    layers.Dense(1)
])
model_cnn.compile(optimizer='adam', loss='mean_squared_error')
model_cnn.fit(X_train, y_train, epochs=100, verbose=0)
y_pred_cnn_val = model_cnn.predict(X_val)
y_pred_cnn_test = model_cnn.predict(X_test)

# Évaluation sur l'ensemble de validation
print("Évaluation sur l'ensemble de validation :")
for name, y_pred_val in zip(['Arbre de Décision', 'SVR', 'Régression Polynomiale', 'Régression Linéaire', 'CNN'],
                             [y_pred_dt_val, y_pred_svr_val, y_pred_poly_val, y_pred_lr_val, y_pred_cnn_val.flatten()]):
    r2 = r2_score(y_val, y_pred_val)
    rmse = np.sqrt(mean_squared_error(y_val, y_pred_val))
    pearson, _ = pearsonr(y_val, y_pred_val)
    print(f'{name} - R²: {r2}, RMSE: {rmse}, Pearson r: {pearson}')

# Évaluation sur l'ensemble de test
print("\nÉvaluation sur l'ensemble de test :")
for name, y_pred_test in zip(['Arbre de Décision', 'SVR', 'Régression Polynomiale', 'Régression Linéaire', 'CNN'],
                              [y_pred_dt_test, y_pred_svr_test, y_pred_poly_test, y_pred_lr_test, y_pred_cnn_test.flatten()]):
    r2 = r2_score(y_test, y_pred_test)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred_test))
    pearson, _ = pearsonr(y_test, y_pred_test)
    print(f'{name} - R²: {r2}, RMSE: {rmse}, Pearson r: {pearson}')

# Validation Croisée
print("\nValidation croisée :")
for name, model in zip(['Arbre de Décision', 'SVR', 'Régression Polynomiale', 'Régression Linéaire'],
                       [model_dt, model_svr, model_poly, model_lr]):
    cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='r2')
    print(f'{name} - R² moyen (validation croisée) : {cv_scores.mean()}')


Dans notre étude, nous avons analysé la colonne temperature_haut_prechauffeur_1 et identifié les colonnes corrélées (coefficient de corrélation >= 0.5) : pression_haut_prechauffeur_1, temperature_haut_prechauffeur_2, S1_refroidisseur_principal, I1_refroidisseur_principal et I1_refroidisseur_secondaire. Après avoir préparé les données en séparant 70% pour l'entraînement et 30% pour la validation et le test, nous avons évalué plusieurs algorithmes de régression : Arbre de Décision, SVR, Régression Polynomiale, Régression Linéaire et Réseaux de Neurones Convolutifs (CNN).

Résultats d'Évaluation sur l'Ensemble de Validation
Arbre de Décision :

Coefficient de détermination = 0.7781
RMSE = 0.6122
Pearson r = 0.9577
SVR :

Coefficient de détermination = 0.4972
RMSE = 0.9215
Pearson r = 0.9621
Régression Polynomiale :

Coefficient de détermination = 0.2885
RMSE = 1.0962
Pearson r = 0.5704
Régression Linéaire :

Coefficient de détermination = 0.5186
RMSE = 0.9017
Pearson r = 0.9731
CNN :

Coefficient de détermination = 0.6962
RMSE = 0.7163
Pearson r = 0.9913
Résultats d'Évaluation sur l'Ensemble de Test
Arbre de Décision :

Coefficient de détermination = 0.9780
RMSE = 0.1149
Pearson r = 0.9959
SVR :

Coefficient de détermination = 0.7551
RMSE = 0.3837
Pearson r = 0.8913
Régression Polynomiale :

Coefficient de détermination = 0.1740
RMSE = 0.7047
Pearson r = 0.5519
Régression Linéaire :

Coefficient de détermination = 0.6999
RMSE = 0.4248
Pearson r = 0.9046
CNN :

Coefficient de détermination = 0.8126
RMSE = 0.3357
Pearson r = 0.9033
Validation Croisée
Arbre de Décision : Coefficient de détermination moyen = 0.4081
SVR : Coefficient de détermination moyen = 0.5916
Régression Polynomiale : Coefficient de détermination moyen = -2.0258
Régression Linéaire : Coefficient de détermination moyen = 0.5269

Justification du Choix de l'Algorithme
Après avoir analysé les résultats, il apparaît que l'Arbre de Décision est le meilleur modèle pour prédire la variable temperature_haut_prechauffeur_1 à partir des variables corrélées. En effet, l'Arbre de Décision affiche les meilleures performances sur les ensembles de validation et de test, avec des coefficients de détermination élevés (0.7781 et 0.9780 respectivement) et des RMSE relativement faibles.

De plus, l'Arbre de Décision présente l'avantage d'être un modèle interprétable, permettant de comprendre facilement les relations entre les variables. Bien que la validation croisée montre un coefficient de détermination moyen plus faible, les résultats sur les ensembles de validation et de test sont nettement supérieurs aux autres algorithmes évalués.

Par conséquent, l'Arbre de Décision est le modèle le plus pertinent pour prédire la variable temperature_haut_prechauffeur_1 à partir des variables corrélées, offrant un excellent compromis entre précision, interprétabilité et robustesse.

###Synthese pour els trois varaibels Au cours de cette étude, nous avons analysé trois variables cibles différentes : test_eligibilite, calcium_libre et temperature_haut_prechauffeur_1. Pour chacune de ces variables, nous avons identifié les colonnes corrélées (coefficient de corrélation >= 0.5) et procédé à l'évaluation de plusieurs algorithmes de régression : Arbre de Décision, SVR, Régression Polynomiale, Régression Linéaire et Réseaux de Neurones Convolutifs (CNN).

Les résultats obtenus montrent que l'Arbre de Décision est le modèle le plus performant pour prédire les variables test_eligibilite et temperature_haut_prechauffeur_1. En effet, l'Arbre de Décision a affiché les meilleurs coefficients de détermination, les plus faibles RMSE et les plus hauts coefficients de corrélation de Pearson, tant sur les ensembles de validation que de test.

Cependant, pour la variable calcium_libre, le modèle SVR s'est révélé le plus performant, avec de meilleurs résultats que l'Arbre de Décision sur les ensembles de validation et de test.

De plus, l'Arbre de Décision présente l'avantage d'être un modèle facilement interprétable, permettant de comprendre les relations entre les variables. Bien que les résultats de validation croisée soient plus mitigés, les performances sur les ensembles de validation et de test sont nettement supérieures aux autres algorithmes évalués, à l'exception du modèle SVR pour la prédiction du calcium_libre.

En conclusion, l'Arbre de Décision semble être le modèle le plus adapté pour prédire les variables test_eligibilite et temperature_haut_prechauffeur_1, tandis que le modèle SVR est le plus performant pour prédire la variable calcium_libre. Ces modèles offrent un excellent compromis entre précision, interprétabilité et robustesse, les rendant ainsi les plus pertinents pour ces problématiques de régression.

##visualisation des resultats

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Définir le style de seaborn
sns.set(style="whitegrid")

# Création des graphiques de distribution
plt.figure(figsize=(15, 10))

# Graphique pour echelle_alimentation
plt.subplot(2, 3, 1)
sns.histplot(original_data['echelle_alimentation'].dropna(), kde=True, color='blue')
plt.title('Distribution de l\'Échelle d\'Alimentation')
plt.xlabel('Échelle d\'Alimentation')
plt.ylabel('Fréquence')

# Graphique pour calcium_libre
plt.subplot(2, 3, 2)
sns.histplot(original_data['calcium_libre'].dropna(), kde=True, color='orange')
plt.title('Distribution de Calcium Libre')
plt.xlabel('Calcium Libre')
plt.ylabel('Fréquence')

# Graphique pour test_eligibilite
plt.subplot(2, 3, 3)
sns.histplot(original_data['test_eligibilite'].dropna(), kde=True, color='green')
plt.title('Distribution de Test Éligibilité')
plt.xlabel('Test Éligibilité')
plt.ylabel('Fréquence')

# Graphique pour vitesse_four
plt.subplot(2, 3, 4)
sns.histplot(original_data['vitesse_four'].dropna(), kde=True, color='purple')
plt.title('Distribution de Vitesse du Four')
plt.xlabel('Vitesse du Four')
plt.ylabel('Fréquence')

# Graphique pour temperature_corps
plt.subplot(2, 3, 5)
sns.histplot(original_data['temperature_corps'].dropna(), kde=True, color='red')
plt.title('Distribution de Température du Corps')
plt.xlabel('Température du Corps')
plt.ylabel('Fréquence')

# Graphique pour pression_precalcinateur
plt.subplot(2, 3, 6)
sns.histplot(original_data['pression_precalcinateur'].dropna(), kde=True, color='cyan')
plt.title('Distribution de Pression du Pré-calcinateur')
plt.xlabel('Pression du Pré-calcinateur')
plt.ylabel('Fréquence')

# Ajuster l'affichage
plt.tight_layout()
plt.show()


In [None]:

# Définir le style de seaborn
sns.set(style="whitegrid")

# Création des graphiques de distribution
plt.figure(figsize=(15, 10))
# Graphique pour temperature_haut_prechauffeur_1
plt.subplot(2, 3, 1)
sns.histplot(original_data['temperature_haut_prechauffeur_1'].dropna(), kde=True, color='brown')
plt.title('Distribution de Température Haut Préchauffeur 1')
plt.xlabel('Température Haut Préchauffeur 1')
plt.ylabel('Fréquence')

# Graphique pour temperature_haut_prechauffeur_2
plt.subplot(2, 3, 2)
sns.histplot(original_data['temperature_haut_prechauffeur_2'].dropna(), kde=True, color='pink')
plt.title('Distribution de Température Haut Préchauffeur 2')
plt.xlabel('Température Haut Préchauffeur 2')
plt.ylabel('Fréquence')

# Graphique pour pression_bas_prechauffeur_4
plt.subplot(2, 3, 3)
sns.histplot(original_data['pression_bas_prechauffeur_4'].dropna(), kde=True, color='gray')
plt.title('Distribution de Pression Bas Préchauffeur 4')
plt.xlabel('Pression Bas Préchauffeur 4')
plt.ylabel('Fréquence')

# Graphique pour I1_refroidisseur_principal
plt.subplot(2, 3, 4)
sns.histplot(original_data['I1_refroidisseur_principal'].dropna(), kde=True, color='olive')
plt.title('Distribution de I1 Refroidisseur Principal')
plt.xlabel('I1 Refroidisseur Principal')
plt.ylabel('Fréquence')

# Graphique pour I1_refroidisseur_secondaire
plt.subplot(2, 3, 5)
sns.histplot(original_data['I1_refroidisseur_secondaire'].dropna(), kde=True, color='navy')
plt.title('Distribution de I1 Refroidisseur Secondaire')
plt.xlabel('I1 Refroidisseur Secondaire')
plt.ylabel('Fréquence')

# Graphique pour pression_ventilateur_tertiaire
plt.subplot(2, 3, 6)
sns.histplot(original_data['pression_ventilateur_tertiaire'].dropna(), kde=True, color='magenta')
plt.title('Distribution de Pression Ventilateur Tertiaire')
plt.xlabel('Pression Ventilateur Tertiaire')
plt.ylabel('Fréquence')

# Ajuster l'affichage
plt.tight_layout()
plt.show()


Legendes

Échelle d'Alimentation (echelle_alimentation) :

Signification : Proportion des ingrédients utilisés dans le processus.
Importance : Assure la bonne proportion des ingrédients pour garantir la qualité du produit final.
Calcium Libre (calcium_libre) :

Signification : Mesure du calcium disponible dans les matières premières.
Importance : Indicateur de la qualité des matières premières, essentiel pour certaines réactions chimiques.
Test d'Éligibilité (test_eligibilite) :

Signification : Vérification de la conformité des matériaux aux spécifications requises.
Importance : Assure que les matériaux utilisés répondent aux normes nécessaires pour le processus de production.
Vitesse du Four (vitesse_four) :

Signification : Vitesse à laquelle les matériaux passent à travers le four.
Importance : Influence les conditions de traitement thermique et la qualité du produit final.
Température du Corps (temperature_corps) :

Signification : Température à l'intérieur du four ou d'un autre équipement.
Importance : Crucial pour les réactions chimiques et le maintien des conditions optimales de production.

Pression du Pré-calcinateur (pression_precalcinateur) :

Signification : Pression dans le pré-calcinateur, qui prépare les matériaux avant leur passage dans le four.
Importance : Influence les réactions chimiques et la qualité du produit final.

Pression Bas Préchauffeur 4 (pression_bas_prechauffeur_4)
Signification : Pression mesurée au bas du quatrième préchauffeur.
Importance : Affecte la circulation des gaz et l'efficacité du processus de préchauffage.

Température Haut Préchauffeur 1 (temperature_haut_prechauffeur_1)
Signification : Température maximale dans le premier préchauffeur.
Importance : Impacte l'efficacité énergétique et le préchauffage des matériaux avant leur passage dans le four.


Température Haut Préchauffeur 2 (temperature_haut_prechauffeur_2)
Signification : Température maximale dans le deuxième préchauffeur.
Importance : Essentielle pour assurer un chauffage progressif et homogène des matières premières.


I1 Refroidisseur Principal (I1_refroidisseur_principal)
Signification : Indicateur de performance du refroidisseur principal de clinker.
Importance : Influence la rapidité et l'efficacité du refroidissement du clinker, un facteur clé pour la qualité du ciment.


I1 Refroidisseur Secondaire (I1_refroidisseur_secondaire)
Signification : Indicateur de performance du refroidisseur secondaire de clinker.
Importance : Complète le refroidissement du clinker, impactant sa stabilité avant le stockage.


Pression Ventilateur Tertiaire (pression_ventilateur_tertiaire)
Signification : Pression générée par le ventilateur tertiaire.
Importance : Affecte la circulation des gaz et l’apport d’oxygène dans le four, influençant l’efficacité thermique.


Distribution de l'Échelle d'Alimentation interpretation selon els valeurs reeles et non ceux standardiser 


les valeurs utiliser ici sont les valeurd reeeles et nnon ceux standardiser l'allure des courbes etant la meme dans les deux cas 

L'échelle d'alimentation est centrée autour de 410, avec une forte concentration des valeurs à cet endroit.
Il y a peu de valeurs en dehors de cette plage, ce qui indique une distribution asymétrique avec une légère dispersion vers la droite.
La densité montre un pic marqué autour de 410, ce qui signifie que la plupart des observations se trouvent ici.


Distribution de Calcium Libre 

Les valeurs sont très concentrées à gauche (autour de 0 et 2) avec une longue traîne vers la droite.
Cela indique une distribution asymétrique où la majorité des observations ont une faible teneur en calcium libre.
Quelques valeurs extrêmes existent vers 10, suggérant des cas inhabituels.



Distribution de Test Éligibilité 

La majorité des valeurs se trouvent autour de 1, avec une très faible présence en dessous de 0.8.
Cela suggère que la plupart des échantillons sont considérés comme éligibles, avec très peu de rejets.
La densité suit la même tendance, montrant une nette concentration des valeurs à l’extrémité droite.


Distribution de Vitesse du Four 

La vitesse est fortement concentrée autour de 3.88, avec très peu de dispersion.
La densité suit une asymétrie similaire à celle observée dans le test d’éligibilité, ce qui montre que les variations sont faibles et les valeurs hors de cette plage sont rares.


Distribution de Température du Corps 

La température du corps suit une distribution relativement normale avec un pic autour de 370.
Il y a une certaine dispersion avec des valeurs allant de 350 à 390, mais la majorité des valeurs sont centrées vers la moyenne.
La courbe de densité montre que les valeurs autour de 370 sont les plus fréquentes.



Distribution de Pression du Pré-calcinateur 

La distribution est multimodale avec plusieurs pics, ce qui suggère plusieurs groupes de pression distincts.
Les valeurs sont concentrées entre 0.6 et 0.9, avec un creux autour de 0.75.
Cela pourrait indiquer différentes conditions de fonctionnement du pré-calcinateur.

On applique une analyse simialires aux autre variables 


Certaines distributions sont asymétriques (comme le calcium libre et le test d’éligibilité), ce qui peut indiquer des seuils critiques ou des tendances spécifiques.
D'autres distributions sont fortement concentrées autour d'une valeur spécifique (échelle d'alimentation et vitesse du four), ce qui montre une faible variabilité.
La température du corps suit une distribution presque normale, ce qui peut être utile pour l'analyse prédictive.
La pression du pré-calcinateur présente plusieurs modes, indiquant peut-être plusieurs états de fonctionnement.