In [1]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf

# Import des données

In [2]:
data_quanti = pd.read_csv('files_cleaned/data_quanti.csv')
data_quali = pd.read_csv('files_cleaned/data_quali.csv')
data_quanti = data_quanti.drop(columns=['Unnamed: 0'])

In [3]:
data_quanti = data_quanti.dropna(subset=['SiteEnergyUse(kBtu)'])

In [4]:
x = data_quanti.drop(columns=["SiteEnergyUseWN(kBtu)", "TotalGHGEmissions",
                              "SiteEnergyUse(kBtu)",
                              'ENERGYSTARScore', 'GHGEmissionsIntensity', 
                              'Electricity(kWh)', 'Electricity(kBtu)',
                              'NaturalGas(kBtu)', 'NaturalGas(therms)',
                              'SiteEnergyUseWN(kBtu)', 'SiteEUIWN(kBtu/sf)',
                              'SourceEUI(kBtu/sf)', 'SourceEUIWN(kBtu/sf)',
                              'SteamUse(kBtu)', 'OSEBuildingID', 'DataYear'])
y = data_quanti[["SiteEnergyUse(kBtu)"]]
energy = data_quanti[['ENERGYSTARScore', 'GHGEmissionsIntensity', 
                      'Electricity(kWh)', 'Electricity(kBtu)',
                      'NaturalGas(kBtu)', 'NaturalGas(therms)',
                      'SiteEnergyUseWN(kBtu)', 'SiteEUIWN(kBtu/sf)',
                      'SourceEUI(kBtu/sf)', 'SourceEUIWN(kBtu/sf)',
                      'SteamUse(kBtu)', "SiteEUI(kBtu/sf)"]]

In [5]:
x = x.fillna(x.mean())
y = y.astype(int)

# Division des datasets en deux 

In [6]:
from sklearn.model_selection import train_test_split

In [7]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

On standardise les données 

In [8]:
from sklearn import preprocessing
std_scale = preprocessing.StandardScaler().fit(x_train)
x_train = std_scale.transform(x_train)
x_test = std_scale.transform(x_test)  

In [9]:
x_train.shape

(5275, 12)

# Mise en place d'une baseline

In [10]:
reg_simple = sm.OLS(y_train, x_train).fit()

In [11]:
from sklearn.metrics import mean_squared_error

In [12]:
y_predict = reg_simple.predict(x_test)

In [13]:
baseline_error = np.sqrt(mean_squared_error(y_test, y_predict))
baseline_error

10765497.43448215

# Modèles linéaires 

## Regression Ridge

In [14]:
n_alphas = 200
alphas = np.logspace(-5, 5, n_alphas)

In [15]:
from sklearn import linear_model
from sklearn.linear_model import Ridge
ridge = linear_model.Ridge()

coefs = []
errors = []
for a in alphas:
    ridge.set_params(alpha=a)
    ridge.fit(x_train, y_train)
    coefs.append(ridge.coef_)
    y_predict = ridge.predict(x_test)
    errors.append([baseline_error, 
                   np.sqrt(mean_squared_error(y_test, y_predict))])

In [16]:
min(errors)

[10765497.43448215, 9221574.817457043]

La regression Ridge est meilleure que la regression normale, cependant la mean squared error reste extrêmement élevée

## Regression Lasso

In [17]:
n_alphas = 600
alphas = np.logspace(-5, 5, n_alphas)
lasso = linear_model.Lasso(fit_intercept=False)

coefs = []
errors = []
for a in alphas:
    lasso.set_params(alpha=a)
    lasso.fit(x_train, y_train)
    coefs.append(lasso.coef_)
    y_predict = lasso.predict(x_test)
    errors.append([baseline_error, 
                   np.sqrt(mean_squared_error(y_test, y_predict))])

































In [18]:
min(errors)

[10765497.43448215, 10765515.497738862]

La régression Lasso est meilleure que la régression simple, cependant elle est moins bonne que la régression Ridge

## Regression ElasticNet

# Modèles non linéaires 

## KRR

Initialisation du modèle

In [19]:
from sklearn import kernel_ridge
predicteur = kernel_ridge.KernelRidge(
    alpha=1.0, # valeur par défaut 
    kernel='rbf', # noyau Gaussien
    gamma=0.01)   # valeur de 1/(2 * sigma**2)
                                     
# entraîner le classifieur sur le jeu d'entrainement
predicteur.fit(x_train, y_train)

# prédire sur le jeu de test
y_test_pred = predicteur.predict(x_test)

# calculer la RMSE sur le jeu de test
from sklearn import metrics
rmse = np.sqrt(metrics.mean_squared_error(y_test, y_test_pred))
print("RMSE: {:.2f}".format(rmse))

RMSE: 5409615.06


La MSE est ici inférieur à notre baseline et à la regression Ridge, le modèle est donc amélioré. Cependant cette dernière reste très élevée

Testons avec une boucle sur alpha :

In [20]:
n_alphas = 200
alphas = np.logspace(-5, 5, n_alphas)


errors = []

for a in alphas : 
    predicteur = kernel_ridge.KernelRidge(
        alpha=a, # valeur par défaut 
        kernel='rbf', # noyau Gaussien
        gamma=0.01)   # valeur de 1/(2 * sigma**2)
    
    # entraîner le classifieur sur le jeu d'entrainement
    predicteur.fit(x_train, y_train)

    # prédire sur le jeu de test
    y_predict = predicteur.predict(x_test)

    # calculer la MSE sur le jeu de test
    errors.append([baseline_error, 
                   np.sqrt(mean_squared_error(y_test, y_predict))])

In [21]:
min(errors)

[10765497.43448215, 3212397.077364399]

La MSE est ici bien plus basse, le modèle est donc bien plus performant ! 