# Compréhension du problème :
On travaille sur un problème de régression a priori, car on essaye de prédire une valeur numérique continue 'SiteEnergyUse(kBtu)', 'TotalGHGEmissions' à partir de caractéristiques de bâtiments.

# Les modèles testés seront les suivants : 


## Linear Regression (Régression linéaire):
La régression linéaire est un modèle de régression simple qui tente de modéliser la relation linéaire entre les caractéristiques (variables prédictives) et la variable cible.
L'objectif est de trouver une ligne droite (ou un hyperplan en plusieurs dimensions) qui minimise l'erreur quadratique moyenne entre les prédictions du modèle et les valeurs réelles de la variable cible.
C'est un modèle simple et facile à interpréter, mais il suppose que la relation entre les caractéristiques et la cible est linéaire, ce qui peut ne pas être vrai dans tous les cas.

## ElasticNet:
ElasticNet est une extension de la régression linéaire qui combine à la fois la régression L1 (Lasso) et la régression L2 (Ridge).
Il est utilisé pour gérer le problème de la multicollinéarité (lorsque les caractéristiques sont fortement corrélées) et pour effectuer la sélection automatique des caractéristiques en réduisant les coefficients de certaines caractéristiques à zéro.
Les paramètres alpha et l1_ratio permettent de contrôler le mélange entre L1 et L2.


## Random Forest Regressor (Régresseur à forêts aléatoires):
Les forêts aléatoires sont des modèles d'ensemble basés sur des arbres de décision.
Dans le cas du régresseur à forêts aléatoires, de nombreux arbres de décision sont construits lors de l'apprentissage et les prédictions finales sont la moyenne des prédictions de chaque arbre.
Ils sont très flexibles et peuvent modéliser des relations complexes entre les caractéristiques et la variable cible. Ils sont également robustes face aux données bruyantes et aux valeurs aberrantes.

## Gradient Boosting Regressor (Régresseur par Gradient Boosting):
Le régresseur par gradient boosting est un autre modèle d'ensemble qui construit un modèle prédictif en ajoutant séquentiellement des arbres de décision faibles.
À chaque étape, le modèle tente de corriger les erreurs du modèle précédent en ajustant les poids des observations mal prédites.
Cela conduit généralement à un modèle très puissant, capable de modéliser des relations complexes. Cependant, il est plus susceptible de sur-ajuster si les hyperparamètres ne sont pas correctement réglés.

## Support Vector Regressor (Régresseur à vecteurs de support):
Le régresseur à vecteurs de support est utilisé pour la régression. Il est basé sur le même principe que la classification SVM, mais il vise à minimiser les erreurs de prédiction pour les données de régression.
Il tente de trouver un hyperplan (ou une surface hyperplane en plusieurs dimensions) qui maximise la marge entre les points de données et la prédiction du modèle.
Il est efficace pour les données de faible dimension, mais peut être moins approprié pour les ensembles de données de grande dimension.

# GridSearchCV

Le modèle d'apprentissage automatique (comme une régression linéaire) a quelques paramètres ajustables pour qu'il fonctionne mieux. 
Par exemple, pour la régression linéaire, on peut ajuster la valeur de régularisation.

On ne connait pas la meileur valeure régularisation mais on pourrait tester différentes valeurs (comme 0.1, 0.01, 0.001, etc.) et voir laquelle donne les meilleurs résultats. Cela peut prendre beaucoup de temps et d'efforts.

GridSearchCV permet de donner liste de valeurs possibles pour chaque paramètre et va tester toutes les combinaisons possibles de ces valeurs pour les paramètres, en ajustant le modèle et évaluant ses performances sur vos données d'entraînement. Il enregistre les performances pour chaque combinaison.

GridSearchCV nous donne la meilleure combinaison de paramètres qui donne les meilleures performances sur nos données d'entraînement. C'est comme demander à un ordinateur de trouver la meilleure configuration pour notre modèle, au lieu de le faire manuellement.

Cela permet d'optimiser le modèle et d'obtenir de meilleurs résultats sans avoir à essayer chaque combinaison possible nous-même.


# Hyperparamètres 

Aucun hyperparamètre à régler : LinearRegression est un modèle de régression linéaire simple qui ne possède pas d'hyperparamètres spécifiques à régler lors de la recherche par grille. Il s'agit d'un modèle linéaire de base qui ajuste une ligne droite aux données.

### ElasticNet :
* model__alpha : Le paramètre d'ajustement alpha contrôle la régularisation du modèle. Il s'agit d'un coefficient qui pondère la pénalité L1 (lasso) et la pénalité L2 (ridge). Les valeurs plus élevées d'alpha augmentent la régularisation. Nous essayons trois valeurs différentes : 0.01, 0.1 et 1.0.
* model__l1_ratio : Le rapport l1_ratio contrôle le mélange entre la régularisation L1 et L2. Une valeur de 1 signifie une régularisation L1 pure (lasso), 0 signifie une régularisation L2 pure (ridge), et une valeur entre les deux effectue un mélange des deux. Nous essayons trois valeurs différentes : 0.1, 0.5 et 0.9.
* model__max_iter : Le nombre maximum d'itérations pour la convergence de l'algorithme d'optimisation. Nous essayons deux valeurs : 1000 et 2000.

### RandomForestRegressor :
* model__n_estimators : Le nombre d'arbres de décision dans la forêt aléatoire. Plus il y a d'arbres, mieux c'est, mais cela peut augmenter le temps de calcul. Nous essayons trois valeurs différentes : 50, 100 et 200.
* model__max_depth : La profondeur maximale de chaque arbre de décision. Une profondeur plus grande peut conduire à un surajustement. Nous essayons quatre valeurs différentes : None (pas de limite de profondeur), 10, 20 et 30.

### GradientBoostingRegressor :
* model__n_estimators : Le nombre d'itérations pour ajuster les arbres de décision. Plus il y en a, plus le modèle est complexe. Nous essayons trois valeurs différentes : 50, 100 et 200.
* model__max_depth : La profondeur maximale de chaque arbre de décision dans le gradient boosting. Une profondeur plus grande peut conduire à un surajustement. Nous essayons trois valeurs différentes : 3, 4 et 5.

### SVR (Support Vector Regressor) :
* model__C : Le paramètre de régularisation qui contrôle la tolérance aux erreurs d'entraînement. Des valeurs plus élevées de C permettent une meilleure adéquation aux données d'entraînement, mais peuvent entraîner un surajustement. Nous essayons trois valeurs différentes : 0.1, 1 et 10.
* model__kernel : Le noyau utilisé dans le modèle SVR. Nous essayons deux noyaux différents : "linear" (linéaire) et "rbf" (radial basis function).

# Import

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.pipeline import Pipeline
import time
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import ElasticNet
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import cross_val_score, KFold
from  sklearn.model_selection import learning_curve 
from sklearn.metrics import mean_absolute_error
import seaborn as sns

# Data

In [2]:
data = pd.read_csv('data_saved.csv')
data_energyscore = pd.read_csv('data_energyscore.csv')

In [3]:
data.shape

(1662, 43)

# Chargement de la liste des targets et features

In [4]:
features = np.load('features.npy')
targets = np.load('targets.npy')

### Création d'une liste de caractéristiques continues et catégorielles pour différencier quelles caractéristiques nécessitent un traitement.

In [5]:
# Initialisation des listes vides pour les caractéristiques continues et catégorielles
features_continuous = []
features_categorical = []

# Boucle à travers les caractéristiques et identification de leur type de données
for feature in features:
    dtype = data[feature].dtype
    if np.issubdtype(dtype, np.number):  # Vérifiez si c'est un type de données numérique
        features_continuous.append(feature)
    else:
        features_categorical.append(feature)

# Affichez les caractéristiques continues et catégorielles
print("Caractéristiques continues :", features_continuous)
print("Caractéristiques catégorielles :", features_categorical)

Caractéristiques continues : ['ConsommeGaz', 'NumberofBuildings', 'PropertyGFATotal', 'PropertyGFABuilding(s)', 'BuildingAge', 'LargestPropertyUseTypeGFA', 'Electricity(kWh)', 'Electricity(kBtu)']
Caractéristiques catégorielles : ['Neighborhood', 'LargestPropertyUseType', 'PrimaryPropertyType']


In [6]:
print(targets)

['SiteEnergyUse(kBtu)' 'TotalGHGEmissions']


In [7]:
print("Caractéristiques continues :", features_continuous)
print("Caractéristiques catégorielles :", features_categorical)

Caractéristiques continues : ['ConsommeGaz', 'NumberofBuildings', 'PropertyGFATotal', 'PropertyGFABuilding(s)', 'BuildingAge', 'LargestPropertyUseTypeGFA', 'Electricity(kWh)', 'Electricity(kBtu)']
Caractéristiques catégorielles : ['Neighborhood', 'LargestPropertyUseType', 'PrimaryPropertyType']


# Pipeline complet avec le préprocesseur et le modèles d'apprentissages supervisés pour target 'SiteEnergyUse(kBtu)'

In [30]:
def plot_feature_coefficients(model_name, coefficients, feature_names):
    if coefficients is None:
        print("Aucun coefficient à afficher.")
        return
    
    # Créez une copie modifiable de vos coefficients
    coefficients_copy = coefficients.copy()
    # Créez un DataFrame avec les noms des caractéristiques et les coefficients
    coefficients_df = pd.DataFrame({'Feature': feature_names, 'Coefficient': coefficients_copy})
    
    # Trier le DataFrame par valeur absolue des coefficients pour une meilleure visualisation
    coefficients_df['Abs_Coefficient'] = abs(coefficients_copy)
    coefficients_df = coefficients_df.sort_values(by='Abs_Coefficient', ascending=False)

    # Créez un graphique pour afficher les coefficients
    plt.figure(figsize=(12, 6))
    plt.barh(coefficients_df['Feature'], coefficients_df['Coefficient'])
    plt.xlabel('Coefficient Value')
    plt.ylabel('Feature Name')
    plt.title(f'{model_name} - Feature Coefficients')
    plt.show()


# Caractéristiques X et variable cible y
X = data[features]
y = data['SiteEnergyUse(kBtu)']


# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=data['PrimaryPropertyType'])

# Liste des colonnes numériques 
numerical_cols = ['NumberofBuildings', 'PropertyGFATotal', 'BuildingAge', 'Electricity(kWh)', 'ConsommeGaz']

# Liste des colonnes catégorielles (à encoder en one-hot)
categorical_cols = ['PrimaryPropertyType']

# Préprocesseur pour les caractéristiques numériques
numeric_transformer = StandardScaler()

# Préprocesseur pour les colonnes catégorielles (encodage en one-hot)
categorical_transformer = OneHotEncoder(drop='first', handle_unknown='ignore')

# Créer une fonction pour entraîner et évaluer un modèle avec GridSearchCV
def train_evaluate_model_with_grid_search(model, param_grid, X_train, y_train, X_test, y_test):
    # Créez un pipeline avec le préprocesseur et le modèle
    preprocessor = ColumnTransformer(
        transformers=[
            ('num', numeric_transformer, numerical_cols),
            ('cat', categorical_transformer, categorical_cols)
        ])
    
    pipeline = Pipeline([
        ('preprocessor', preprocessor),
        ('model', model)
    ])

    print('Model:', model)
    
    # Définir les métriques de scoring à utiliser
    scoring = {'r2': 'r2', 'mae': 'neg_mean_absolute_error'}

    # Créer l'objet GridSearchCV
    grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring=scoring, n_jobs=-1, refit='r2', return_train_score=True)
    
    # Mesure le temps de calcul
    start_time = time.time()
    
    # Entraîne le modèle avec GridSearchCV
    grid_search.fit(X_train, y_train)
    
    end_time = time.time()
    training_time = end_time - start_time

    # Après l'entraînement de votre modèle avec GridSearchCV, récupérez le meilleur estimateur
    fitted_model = grid_search.best_estimator_

    # Accédez à l'objet OneHotEncoder
    one_hot_encoder = fitted_model.named_steps['preprocessor'].named_transformers_['cat']

    # Obtenez les noms des caractéristiques après transformation
    categorical_feature_names_after_encoding = one_hot_encoder.get_feature_names_out(input_features=categorical_cols)
     # une liste contenant à la fois les noms des caractéristiques catégoriques et numériques
    all_feature_names = numerical_cols + list(categorical_feature_names_after_encoding) 
    print(all_feature_names)

    cv_results = grid_search.cv_results_
    #print('-----CV Results start---')
    #print(cv_results)
    #print('-----CV Results end---')
    
    # Récupérer le MAE et le R2 de l'échantillon test
    mae = cv_results['mean_test_mae'][grid_search.best_index_]
    r2 = cv_results['mean_test_r2'][grid_search.best_index_]
    print('mean_test_mae - MAE : ', mae)
    print('mean_test_r2 - R² :', r2)
    

    # Donne R² entrainement / test
    train_r2 = grid_search.score(X_train, y_train)
    test_r2 = grid_search.score(X_test, y_test)
    print(" R² data entrainement :", train_r2)
    print(" R² data test :", test_r2)
    
    # Fait des prédictions sur les données de test
    y_pred = grid_search.predict(X_test)
    
    # Évalue la performance du modèle
    mse = mean_squared_error(y_test, y_pred)
    r_squared = r2_score(y_test, y_pred)

    model_name = model.__class__.__name__

    if 'LinearRegression' in model_name:
        if hasattr(grid_search.best_estimator_.named_steps['model'], 'coef_'):
            print("Coefficients :")
            for i, feature_name in enumerate(all_feature_names):    
                    coefficient = grid_search.best_estimator_.named_steps['model'].coef_[i]
                    print(feature_name, ":" ,coefficient)

    if 'RandomForestRegressor' or 'GradientBoostingRegressor' in model_name:
        if hasattr(grid_search.best_estimator_.named_steps['model'], 'feature_importances_'):
            print("Feature importances :")
            for i, feature_name in enumerate(all_feature_names):    
                    feature_importance = grid_search.best_estimator_.named_steps['model'].feature_importances_[i]
                    print(feature_name, ":" ,feature_importance) 

    return mse, r_squared, grid_search.best_params_, training_time

# Créer une liste d'algorithmes à tester
models_to_test = [
    LinearRegression(),
    ElasticNet(alpha=0.5, l1_ratio=0.5),
    RandomForestRegressor(),
    GradientBoostingRegressor(),
    SVR()
]

# Définis les grilles de recherche pour chaque modèle
param_grids = [
    # Grille de recherche pour LinearRegression (aucun hyperparamètre à régler)
    {},
    
    # Grille de recherche pour ElasticNet
    {
        'model__alpha': [0.001, 0.01, 0.1], 
        'model__l1_ratio': [0.1, 0.5, 0.9],
        'model__max_iter': [1000, 2000]
    },
    
    # Grille de recherche pour RandomForestRegressor
    {
        'model__n_estimators': [50, 100],
        'model__max_depth': [None, 10, 20, 30]
    },
    
    # Grille de recherche pour GradientBoostingRegressor
    {
        'model__n_estimators': [50, 100],
        'model__max_depth': [3, 4, 5]
    },
    
    # Grille de recherche pour SVR
    {
        'model__C': [0.1, 1],
        'model__kernel': ['linear', 'rbf']
    }
    ,
    {
    'fit_intercept': [True, False]
    }
]

# Boucle à travers les modèles, effectue la recherche par grille et mesurez le temps de calcul
for model, param_grid in zip(models_to_test, param_grids):
    mse, r_squared, best_params, training_time = train_evaluate_model_with_grid_search(model, param_grid, X_train, y_train, X_test, y_test)

    print(f"Model: {model.__class__.__name__}")
    print("Best Hyperparameters:", best_params)
    print("Mean Squared Error:", mse)
    print("R²:", r_squared)
    print("Training Time", training_time)
    print("************************************************")
    print("************************************************")


    

Model: LinearRegression()


['NumberofBuildings', 'PropertyGFATotal', 'BuildingAge', 'Electricity(kWh)', 'ConsommeGaz', 'PrimaryPropertyType_Hospital', 'PrimaryPropertyType_Hotel', 'PrimaryPropertyType_K-12 School', 'PrimaryPropertyType_Laboratory', 'PrimaryPropertyType_Large Office', 'PrimaryPropertyType_Low-Rise Multifamily', 'PrimaryPropertyType_Medical Office', 'PrimaryPropertyType_Mixed Use Property', 'PrimaryPropertyType_Office', 'PrimaryPropertyType_Other', 'PrimaryPropertyType_Refrigerated Warehouse', 'PrimaryPropertyType_Residence Hall', 'PrimaryPropertyType_Restaurant', 'PrimaryPropertyType_Retail Store', 'PrimaryPropertyType_Self-Storage Facility', 'PrimaryPropertyType_Senior Care Community', 'PrimaryPropertyType_Small- and Mid-Sized Office', 'PrimaryPropertyType_Supermarket / Grocery Store', 'PrimaryPropertyType_University', 'PrimaryPropertyType_Warehouse', 'PrimaryPropertyType_Worship Facility']
mean_test_mae - MAE :  -1993729.0326481704
mean_test_r2 - R² : 0.916626960295759
 R² data entrainement : 0

## MAE : 
Mean Absolute Error. En statistique, l'erreur absolue moyenne est une mesure des erreurs entre des observations appariées exprimant le même phénomène.

## R² : 
Coeficient de détermination, carré du coefiscient de corrélation linéaire. Le coefficient de détermination linéaire de Pearson, noté R² ou r², est une mesure de la qualité de la prédiction d'une régression linéaire.

## Cible TotalGHGEmissions

In [31]:
# Caractéristiques X et variable cible y
X = data[features]
y = data['TotalGHGEmissions']


# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=data['PrimaryPropertyType'])

for model, param_grid in zip(models_to_test, param_grids):
    mse, r_squared, best_params, training_time = train_evaluate_model_with_grid_search(model, param_grid, X_train, y_train, X_test, y_test)

    print(f"Model: {model.__class__.__name__}")
    print("Best Hyperparameters:", best_params)
    print("Mean Squared Error:", mse)
    print("R²:", r_squared)
    print("Training Time", training_time)
    print("************************************************")
    print("************************************************")

Model: LinearRegression()
['NumberofBuildings', 'PropertyGFATotal', 'BuildingAge', 'Electricity(kWh)', 'ConsommeGaz', 'PrimaryPropertyType_Hospital', 'PrimaryPropertyType_Hotel', 'PrimaryPropertyType_K-12 School', 'PrimaryPropertyType_Laboratory', 'PrimaryPropertyType_Large Office', 'PrimaryPropertyType_Low-Rise Multifamily', 'PrimaryPropertyType_Medical Office', 'PrimaryPropertyType_Mixed Use Property', 'PrimaryPropertyType_Office', 'PrimaryPropertyType_Other', 'PrimaryPropertyType_Refrigerated Warehouse', 'PrimaryPropertyType_Residence Hall', 'PrimaryPropertyType_Restaurant', 'PrimaryPropertyType_Retail Store', 'PrimaryPropertyType_Self-Storage Facility', 'PrimaryPropertyType_Senior Care Community', 'PrimaryPropertyType_Small- and Mid-Sized Office', 'PrimaryPropertyType_Supermarket / Grocery Store', 'PrimaryPropertyType_University', 'PrimaryPropertyType_Warehouse', 'PrimaryPropertyType_Worship Facility']
mean_test_mae - MAE :  -122.59427955452688
mean_test_r2 - R² : 0.032808612086282

# EnergyStarScore

In [18]:
# Caractéristiques X et variable cible y
X = data_energyscore[features]
y = data_energyscore['SiteEnergyUse(kBtu)']


# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=data_energyscore['PrimaryPropertyType'])

ValueError: The least populated class in y has only 1 member, which is too few. The minimum number of groups for any class cannot be less than 2.

In [16]:
for model, param_grid in zip(models_to_test, param_grids):
    mse, r_squared, best_params, training_time = train_evaluate_model_with_grid_search(model, param_grid, X_train, y_train, X_test, y_test)

    print(f"Model: {model.__class__.__name__}")
    print("Best Hyperparameters:", best_params)
    print("Mean Squared Error:", mse)
    print("R²:", r_squared)
    print("Training Time", training_time)
    print("************************************************")
    print("************************************************")

Model: LinearRegression()
['NumberofBuildings', 'PropertyGFATotal', 'BuildingAge', 'Electricity(kWh)', 'ConsommeGaz', 'PrimaryPropertyType_Hospital', 'PrimaryPropertyType_Hotel', 'PrimaryPropertyType_K-12 School', 'PrimaryPropertyType_Large Office', 'PrimaryPropertyType_Low-Rise Multifamily', 'PrimaryPropertyType_Medical Office', 'PrimaryPropertyType_Mixed Use Property', 'PrimaryPropertyType_Office', 'PrimaryPropertyType_Other', 'PrimaryPropertyType_Refrigerated Warehouse', 'PrimaryPropertyType_Residence Hall', 'PrimaryPropertyType_Retail Store', 'PrimaryPropertyType_Senior Care Community', 'PrimaryPropertyType_Small- and Mid-Sized Office', 'PrimaryPropertyType_Supermarket / Grocery Store', 'PrimaryPropertyType_Warehouse', 'PrimaryPropertyType_Worship Facility']
mean_test_mae - MAE :  -2885765.840555668
mean_test_r2 - R² : 0.6746328000628984
 R² data entrainement : 0.8370773514236001
 R² data test : 0.939424199002632
Coefficients:
[ 8.89378760e+05 -1.62344028e+06  2.73849311e+05  2.199



['NumberofBuildings', 'PropertyGFATotal', 'BuildingAge', 'Electricity(kWh)', 'ConsommeGaz', 'PrimaryPropertyType_Hospital', 'PrimaryPropertyType_Hotel', 'PrimaryPropertyType_K-12 School', 'PrimaryPropertyType_Large Office', 'PrimaryPropertyType_Low-Rise Multifamily', 'PrimaryPropertyType_Medical Office', 'PrimaryPropertyType_Mixed Use Property', 'PrimaryPropertyType_Office', 'PrimaryPropertyType_Other', 'PrimaryPropertyType_Refrigerated Warehouse', 'PrimaryPropertyType_Residence Hall', 'PrimaryPropertyType_Retail Store', 'PrimaryPropertyType_Senior Care Community', 'PrimaryPropertyType_Small- and Mid-Sized Office', 'PrimaryPropertyType_Supermarket / Grocery Store', 'PrimaryPropertyType_Warehouse', 'PrimaryPropertyType_Worship Facility']
mean_test_mae - MAE :  -2683546.6537136254
mean_test_r2 - R² : 0.765870488588632
 R² data entrainement : 0.813512282434289
 R² data test : 0.9527433250464101
Coefficients:
[ 3415575.15445522   198998.68403938   253111.98151159 19549450.86703292
   64455



['NumberofBuildings', 'PropertyGFATotal', 'BuildingAge', 'Electricity(kWh)', 'ConsommeGaz', 'PrimaryPropertyType_Hospital', 'PrimaryPropertyType_Hotel', 'PrimaryPropertyType_K-12 School', 'PrimaryPropertyType_Large Office', 'PrimaryPropertyType_Low-Rise Multifamily', 'PrimaryPropertyType_Medical Office', 'PrimaryPropertyType_Mixed Use Property', 'PrimaryPropertyType_Office', 'PrimaryPropertyType_Other', 'PrimaryPropertyType_Refrigerated Warehouse', 'PrimaryPropertyType_Residence Hall', 'PrimaryPropertyType_Retail Store', 'PrimaryPropertyType_Senior Care Community', 'PrimaryPropertyType_Small- and Mid-Sized Office', 'PrimaryPropertyType_Supermarket / Grocery Store', 'PrimaryPropertyType_Warehouse', 'PrimaryPropertyType_Worship Facility']
mean_test_mae - MAE :  -2021577.405546289
mean_test_r2 - R² : 0.871009838059079
 R² data entrainement : 0.9775116922404543
 R² data test : 0.9665873540955453
Feature Importance:
[4.92649264e-03 1.12177652e-02 2.00598414e-02 8.89630777e-01
 3.75487967e-0



['NumberofBuildings', 'PropertyGFATotal', 'BuildingAge', 'Electricity(kWh)', 'ConsommeGaz', 'PrimaryPropertyType_Hospital', 'PrimaryPropertyType_Hotel', 'PrimaryPropertyType_K-12 School', 'PrimaryPropertyType_Large Office', 'PrimaryPropertyType_Low-Rise Multifamily', 'PrimaryPropertyType_Medical Office', 'PrimaryPropertyType_Mixed Use Property', 'PrimaryPropertyType_Office', 'PrimaryPropertyType_Other', 'PrimaryPropertyType_Refrigerated Warehouse', 'PrimaryPropertyType_Residence Hall', 'PrimaryPropertyType_Retail Store', 'PrimaryPropertyType_Senior Care Community', 'PrimaryPropertyType_Small- and Mid-Sized Office', 'PrimaryPropertyType_Supermarket / Grocery Store', 'PrimaryPropertyType_Warehouse', 'PrimaryPropertyType_Worship Facility']
mean_test_mae - MAE :  -2220724.212677751
mean_test_r2 - R² : 0.82847203131369
 R² data entrainement : 0.9954869950128682
 R² data test : 0.9122914837391438
Feature Importance:
[2.77665978e-03 3.52078924e-03 4.68692644e-02 8.89035910e-01
 7.16272614e-04

