In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
from ydata_profiling import ProfileReport
from sklearn.ensemble import GradientBoostingRegressor

In [2]:
# chargement des données depuis la destination dans le PC
donnees = pd.read_excel("energy_efficiency.xlsx")

In [3]:
X = donnees.iloc[:, :8]
y = donnees.iloc[:,8:]

In [4]:
# Partition des données en données de test et données d'entraînement
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=50)

In [5]:
# Standardisation des données
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [6]:
# Normalisation des données d'entraînement
normalizer = MinMaxScaler()
X_train_normalized = normalizer.fit_transform(X_train_scaled)

# Normalisation des données de test
X_test_normalized = normalizer.transform(X_test_scaled)

#### Cas de la première cible

In [7]:
# Cas de la première cible
y_train_1d = y_train.iloc[:, 0]  # pour la première cible des données d'entrainnement
y_test_1d = y_test.iloc[:, 0]    # pour la première cible des données de test

In [8]:
# Choix et entraînement du modèle
model1 = GradientBoostingRegressor(n_estimators=20000, random_state=50)
model1.fit(X_train_normalized, y_train_1d)

In [9]:
# Prédiction des targets avec le modèle choisi
y_pred = model1.predict(X_test_normalized)

In [10]:
mse1 = mean_squared_error(y_test_1d, y_pred)
print(f'Erreur quadratique moyenne: {mse1}')

# Coefficient de détermination
r2_1 = r2_score(y_test_1d, y_pred)
print(f'Coefficient de détermination: {r2_1}')

Erreur quadratique moyenne: 0.10884208458340759
Coefficient de détermination: 0.9989162729362436


#### Cas de la deuxième cible

In [11]:
# Cas de la cible 2
y_train_1d2 = y_train.iloc[:, 1]  # pour la deuxième cible des données d'entrainnement
y_test_1d2 = y_test.iloc[:, 1]    # pour la deuxième cible des données de test

In [12]:
# Choix et entraînement du modèle
model2 = GradientBoostingRegressor(n_estimators = 20000, random_state=50)
model2.fit(X_train_normalized, y_train_1d2)

In [14]:
# Prédiction des targets avec le modèle choisi
y_pred2 = model2.predict(X_test_normalized)

In [15]:
# Erreur quadratique moyenne
mse2 = mean_squared_error(y_test_1d2, y_pred2)
print(f'Erreur quadratique moyenne: {mse2}')

# Coefficient de détermination
r2_2 = r2_score(y_test_1d2, y_pred2)
print(f'Coefficient de détermination: {r2_2}')

Erreur quadratique moyenne: 0.34570982728186284
Coefficient de détermination: 0.9960683213843121


#### Enregistrement du modèle

In [19]:
# Cas de la première sortie

# Enregistrement du modèle avec pickle

import pickle # on importe la librerie pickle pour l'enregistrement du modèle

saved_model_c1=pickle.dumps(model1) # "model1" est le nom du model GBM pour la première sortie

model_de_pick_c1=pickle.loads(saved_model_c1)

In [20]:
# Enregistrement du modèle (comme fichier partageable) avec joblib

import joblib

from joblib import Parallel, delayed

joblib.dump(model1,"FinProjAIBac3GBM1.pkl")

['FinProjAIBac3GBM1.pkl']

In [21]:
# Cas de la deuxième sortie

saved_model_c2=pickle.dumps(model2) # "model2" est le nom du model GBM pour la deuxièmesortie

model_de_pick_c2=pickle.loads(saved_model_c2)

In [22]:
joblib.dump(model2,"FinProjAIBac3GBM2.pkl")

['FinProjAIBac3GBM2.pkl']