In [1]:
import os
os.chdir('/workspaces/projet-iadata')  # Change le répertoire vers la racine
print(os.getcwd())  # Vérif

/workspaces/projet-iadata


In [2]:
# Import des bibliothèques
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import numpy as np
import matplotlib.pyplot as plt

#### charger les données préparées

In [3]:
file_path= './data/prepared/model_data.csv'
data_model= pd.read_csv(file_path)

#verif de scol disponibles 
print(data_model.columns)


Index(['ConsommationGazGRTgaz', 'ConsommationElectricite', 'temperature',
       'humidity', 'pressure_sea_level', 'wind_speed', 'min_soil_temp',
       'month_of_year_2', 'month_of_year_3', 'month_of_year_4',
       'month_of_year_5', 'month_of_year_6', 'month_of_year_7',
       'month_of_year_8', 'month_of_year_9', 'month_of_year_10',
       'month_of_year_11', 'month_of_year_12'],
      dtype='object')


#### DEFINIR LA VARIABLE CIBLE & LES FEATURES
##### cible = output Y  (col à predire)
##### Features = inputs X  (cols à utisées pour la prédictions

In [4]:
# cette col devient la cible
y= data_model['ConsommationElectricite'] 

#features
X= data_model.drop(columns=['ConsommationElectricite'])  # Supprime la cible des features

In [5]:
# Afficher les dimensions pour vérifier
print("Features (X):", X.shape)
print("Cible (y):", y.shape)

Features (X): (36070, 17)
Cible (y): (36070,)


##### VERIFICATION DES VALEURS MANQUANTES

In [6]:
print("Valeurs manquantes dans X :", X.isnull().sum().sum())
print("Valeurs manquantes dans y :", y.isnull().sum())


Valeurs manquantes dans X : 0
Valeurs manquantes dans y : 0


## DIVISION DES DONNEES EN 80% 20%
##### pour l'eval des performances une partie sera prise pour l'entrainement 80% (TRAIN SET ) & l'autre pour le test après l'entrainement 20% (TEST SET)

In [7]:
from sklearn.model_selection import train_test_split
#division 

X_train,X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,random_state=42)


#### AFFICHER LES DIMENSIONS

In [8]:
##### DIMENESION DE L ENSEMBLE DE L ENTRAINEMENT
print( "TRAIN SET : ", X_train , y_train)

##### DIMENESION DE L ENSEMBLE DE TEST
print( " TEST SET : ", X_test , y_test)

TRAIN SET :         ConsommationGazGRTgaz  temperature  humidity  pressure_sea_level  \
3643                2.021203    -1.570193 -0.358957            1.731910   
30378               1.502643    -0.834556  0.626670            1.146863   
20854               0.697656    -0.085782 -0.413714            1.693755   
26185              -0.424399    -0.716328  0.845698            1.057834   
28264              -0.986106    -0.033236  0.133856           -0.506531   
...                      ...          ...       ...                 ...   
16850              -1.086267     0.846902  0.079099           -0.557404   
6265                1.076384    -1.149829  0.845698           -0.455657   
11284              -0.874913     1.306675 -1.289827            0.371040   
860                 1.125048    -0.795147  1.174241           -0.595560   
15795               0.302266    -0.335373  0.736184            1.439387   

       wind_speed  min_soil_temp  month_of_year_2  month_of_year_3  \
3643    -0.18845

### Instancier & Entrainer le Modele

In [9]:
model = LinearRegression()

#entrainer le model sur l'ensemble de l'entrainement
model.fit(X_train, y_train)

#COEF et interception du modele
print("COEFFICIENTS : ", model.coef_)
print("INTERCEPT : " , model.intercept_)

COEFFICIENTS :  [ 0.94837489  0.22060142 -0.05620156 -0.00333503  0.01863333 -0.04185469
 -0.12477381 -0.2812991  -0.31528765 -0.38758997 -0.33325397 -0.31555949
 -0.50834673 -0.38757029 -0.43473256 -0.37531959 -0.15195153]
INTERCEPT :  0.2990154441955566


#### PREDICTIONS

In [10]:
# Prédire sur l'ensemble de l'entrainement
y_pred_train = model.predict(X_train)


# Prédire sur l'ensemble de test
y_pred_test = model.predict(X_test)


# Afficher quelques prédictions pour vérifier
print("Prédictions test :", y_pred_test[:5])
print("Vérités terrain :", y_test[:5].values)


Prédictions test : [-0.83895795  0.39182694  0.41202716 -0.07865675  0.86543087]
Vérités terrain : [-0.40608935 -0.25457296  0.24174143  0.37805494  1.20780788]


#### COEFFICIENT DE DETERMINATION

In [11]:
#eval de R 2  sur le TRAIN SET
r2_train= model.score(X_train, y_train)

# eval de R 2 sur le TEST SET
r2_test = model.score(X_test, y_test)

# Afficher les résultats
print(f"R² sur l'ensemble d'entraînement : {r2_train}")
print(f"R² sur l'ensemble de test : {r2_test}")

R² sur l'ensemble d'entraînement : 0.8176042327721097
R² sur l'ensemble de test : 0.8271186753832005


In [12]:
from sklearn.metrics import mean_squared_error as root_mean_squared_error 
# ROOT MEAN SQUARE ERROR 
#moyenne des erreurs au 2 entre les vraies valeurs et les valeurs predites
#plus bas c'est , mieux c'est.
rmse_train = root_mean_squared_error(y_train, y_pred_train)
rmse_test = root_mean_squared_error(y_test, y_pred_test)

In [13]:
print(f"R² sur l'ensemble d'entraînement lineaire : {r2_train}")
print(f"R² sur l'ensemble de test : {r2_test}")
print(f"RMSE sur l'ensemble d'entraînement : {rmse_train}")
print(f"RMSE sur l'ensemble de test : {rmse_test}")

R² sur l'ensemble d'entraînement lineaire : 0.8176042327721097
R² sur l'ensemble de test : 0.8271186753832005
RMSE sur l'ensemble d'entraînement : 0.18256868386183456
RMSE sur l'ensemble de test : 0.17222321136426835
