# Compréhension du problème :
On travaille sur un problème de régression a priori, car on essaye de prédire une valeur numérique continue 'SiteEnergyUse(kBtu)', 'TotalGHGEmissions' à partir de caractéristiques de bâtiments.

# Les modèles testés seront les suivants : 


## Linear Regression (Régression linéaire):
La régression linéaire est un modèle de régression simple qui tente de modéliser la relation linéaire entre les caractéristiques (variables prédictives) et la variable cible.
L'objectif est de trouver une ligne droite (ou un hyperplan en plusieurs dimensions) qui minimise l'erreur quadratique moyenne entre les prédictions du modèle et les valeurs réelles de la variable cible.
C'est un modèle simple et facile à interpréter, mais il suppose que la relation entre les caractéristiques et la cible est linéaire, ce qui peut ne pas être vrai dans tous les cas.

## ElasticNet:
ElasticNet est une extension de la régression linéaire qui combine à la fois la régression L1 (Lasso) et la régression L2 (Ridge).
Il est utilisé pour gérer le problème de la multicollinéarité (lorsque les caractéristiques sont fortement corrélées) et pour effectuer la sélection automatique des caractéristiques en réduisant les coefficients de certaines caractéristiques à zéro.
Les paramètres alpha et l1_ratio permettent de contrôler le mélange entre L1 et L2.


## Random Forest Regressor (Régresseur à forêts aléatoires):
Les forêts aléatoires sont des modèles d'ensemble basés sur des arbres de décision.
Dans le cas du régresseur à forêts aléatoires, de nombreux arbres de décision sont construits lors de l'apprentissage et les prédictions finales sont la moyenne des prédictions de chaque arbre.
Ils sont très flexibles et peuvent modéliser des relations complexes entre les caractéristiques et la variable cible. Ils sont également robustes face aux données bruyantes et aux valeurs aberrantes.

## Gradient Boosting Regressor (Régresseur par Gradient Boosting):
Le régresseur par gradient boosting est un autre modèle d'ensemble qui construit un modèle prédictif en ajoutant séquentiellement des arbres de décision faibles.
À chaque étape, le modèle tente de corriger les erreurs du modèle précédent en ajustant les poids des observations mal prédites.
Cela conduit généralement à un modèle très puissant, capable de modéliser des relations complexes. Cependant, il est plus susceptible de sur-ajuster si les hyperparamètres ne sont pas correctement réglés.

## Support Vector Regressor (Régresseur à vecteurs de support):
Le régresseur à vecteurs de support est utilisé pour la régression. Il est basé sur le même principe que la classification SVM, mais il vise à minimiser les erreurs de prédiction pour les données de régression.
Il tente de trouver un hyperplan (ou une surface hyperplane en plusieurs dimensions) qui maximise la marge entre les points de données et la prédiction du modèle.
Il est efficace pour les données de faible dimension, mais peut être moins approprié pour les ensembles de données de grande dimension.

# GridSearchCV

Le modèle d'apprentissage automatique (comme une régression linéaire) a quelques paramètres ajustables pour qu'il fonctionne mieux. 
Par exemple, pour la régression linéaire, on peut ajuster la valeur de régularisation.

On ne connait pas la meileur valeure régularisation mais on pourrait tester différentes valeurs (comme 0.1, 0.01, 0.001, etc.) et voir laquelle donne les meilleurs résultats. Cela peut prendre beaucoup de temps et d'efforts.

GridSearchCV permet de donner liste de valeurs possibles pour chaque paramètre et va tester toutes les combinaisons possibles de ces valeurs pour les paramètres, en ajustant le modèle et évaluant ses performances sur vos données d'entraînement. Il enregistre les performances pour chaque combinaison.

GridSearchCV nous donne la meilleure combinaison de paramètres qui donne les meilleures performances sur nos données d'entraînement. C'est comme demander à un ordinateur de trouver la meilleure configuration pour notre modèle, au lieu de le faire manuellement.

Cela permet d'optimiser le modèle et d'obtenir de meilleurs résultats sans avoir à essayer chaque combinaison possible nous-même.


# Hyperparamètres 

Aucun hyperparamètre à régler : LinearRegression est un modèle de régression linéaire simple qui ne possède pas d'hyperparamètres spécifiques à régler lors de la recherche par grille. Il s'agit d'un modèle linéaire de base qui ajuste une ligne droite aux données.

### ElasticNet :
* model__alpha : Le paramètre d'ajustement alpha contrôle la régularisation du modèle. Il s'agit d'un coefficient qui pondère la pénalité L1 (lasso) et la pénalité L2 (ridge). Les valeurs plus élevées d'alpha augmentent la régularisation. Nous essayons trois valeurs différentes : 0.01, 0.1 et 1.0.
* model__l1_ratio : Le rapport l1_ratio contrôle le mélange entre la régularisation L1 et L2. Une valeur de 1 signifie une régularisation L1 pure (lasso), 0 signifie une régularisation L2 pure (ridge), et une valeur entre les deux effectue un mélange des deux. Nous essayons trois valeurs différentes : 0.1, 0.5 et 0.9.
* model__max_iter : Le nombre maximum d'itérations pour la convergence de l'algorithme d'optimisation. Nous essayons deux valeurs : 1000 et 2000.

### RandomForestRegressor :
* model__n_estimators : Le nombre d'arbres de décision dans la forêt aléatoire. Plus il y a d'arbres, mieux c'est, mais cela peut augmenter le temps de calcul. Nous essayons trois valeurs différentes : 50, 100 et 200.
* model__max_depth : La profondeur maximale de chaque arbre de décision. Une profondeur plus grande peut conduire à un surajustement. Nous essayons quatre valeurs différentes : None (pas de limite de profondeur), 10, 20 et 30.

### GradientBoostingRegressor :
* model__n_estimators : Le nombre d'itérations pour ajuster les arbres de décision. Plus il y en a, plus le modèle est complexe. Nous essayons trois valeurs différentes : 50, 100 et 200.
* model__max_depth : La profondeur maximale de chaque arbre de décision dans le gradient boosting. Une profondeur plus grande peut conduire à un surajustement. Nous essayons trois valeurs différentes : 3, 4 et 5.

### SVR (Support Vector Regressor) :
* model__C : Le paramètre de régularisation qui contrôle la tolérance aux erreurs d'entraînement. Des valeurs plus élevées de C permettent une meilleure adéquation aux données d'entraînement, mais peuvent entraîner un surajustement. Nous essayons trois valeurs différentes : 0.1, 1 et 10.
* model__kernel : Le noyau utilisé dans le modèle SVR. Nous essayons deux noyaux différents : "linear" (linéaire) et "rbf" (radial basis function).

# Import

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.pipeline import Pipeline
import time
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import ElasticNet
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import cross_val_score, KFold
from  sklearn.model_selection import learning_curve 
from sklearn.metrics import mean_absolute_error
import seaborn as sns

# Data

In [2]:
data = pd.read_csv('data_saved.csv')
data_energyscore = pd.read_csv('data_energyscore.csv')

In [3]:
data.shape

(1662, 43)

# Chargement de la liste des targets et features

In [4]:
features = np.load('features.npy')
targets = np.load('targets.npy')

### Création d'une liste de caractéristiques continues et catégorielles pour différencier quelles caractéristiques nécessitent un traitement.

In [5]:
# Initialisation des listes vides pour les caractéristiques continues et catégorielles
features_continuous = []
features_categorical = []

# Boucle à travers les caractéristiques et identification de leur type de données
for feature in features:
    dtype = data[feature].dtype
    if np.issubdtype(dtype, np.number):  # Vérifiez si c'est un type de données numérique
        features_continuous.append(feature)
    else:
        features_categorical.append(feature)

# Affichez les caractéristiques continues et catégorielles
print("Caractéristiques continues :", features_continuous)
print("Caractéristiques catégorielles :", features_categorical)

Caractéristiques continues : ['ConsommeGaz', 'NumberofBuildings', 'PropertyGFATotal', 'PropertyGFABuilding(s)', 'BuildingAge', 'LargestPropertyUseTypeGFA', 'Electricity(kWh)', 'Electricity(kBtu)']
Caractéristiques catégorielles : ['Neighborhood', 'LargestPropertyUseType', 'PrimaryPropertyType']


In [6]:
print(targets)

['SiteEnergyUse(kBtu)' 'TotalGHGEmissions']


In [7]:
print("Caractéristiques continues :", features_continuous)
print("Caractéristiques catégorielles :", features_categorical)

Caractéristiques continues : ['ConsommeGaz', 'NumberofBuildings', 'PropertyGFATotal', 'PropertyGFABuilding(s)', 'BuildingAge', 'LargestPropertyUseTypeGFA', 'Electricity(kWh)', 'Electricity(kBtu)']
Caractéristiques catégorielles : ['Neighborhood', 'LargestPropertyUseType', 'PrimaryPropertyType']


# Pipeline complet avec le préprocesseur et le modèles d'apprentissages supervisés pour target 'SiteEnergyUse(kBtu)'

In [8]:
# Caractéristiques X et  variable cible y
X = data[features]
y = data['SiteEnergyUse(kBtu)']


# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=data['PrimaryPropertyType'])

# Liste des colonnes numériques 
numerical_cols = ['NumberofBuildings', 'PropertyGFATotal', 'BuildingAge', 'Electricity(kWh)', 'ConsommeGaz']

# Liste des colonnes catégorielles (à encoder en one-hot)
categorical_cols = ['PrimaryPropertyType']

# Préprocesseur pour les caractéristiques numériques
numeric_transformer = StandardScaler()

# Préprocesseur pour les colonnes catégorielles (encodage en one-hot)
categorical_transformer = OneHotEncoder(drop='first', handle_unknown='ignore')

# Créer une fonction pour entraîner et évaluer un modèle avec GridSearchCV
def train_evaluate_model_with_grid_search(model, param_grid, X_train, y_train, X_test, y_test):
    # Créez un pipeline avec le préprocesseur et le modèle
    preprocessor = ColumnTransformer(
        transformers=[
            ('num', numeric_transformer, numerical_cols),
            ('cat', categorical_transformer, categorical_cols)
        ])
    
    pipeline = Pipeline([
        ('preprocessor', preprocessor),
        ('model', model)
    ])

    print('Model:', model)
    
    # Créer l'objet GridSearchCV
    grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
    
    # Mesure le temps de calcul
    start_time = time.time()
    
    # Entraîne le modèle avec GridSearchCV
    grid_search.fit(X_train, y_train)
    
    end_time = time.time()
    training_time = end_time - start_time

    # Donne le R2 de chaque fold 
    r2_scores = grid_search.cv_results_['mean_test_score']
    print(" R² de chaque fold:", r2_scores)

    # Donne R² entrainement / test
    train_r2 = grid_search.score(X_train, y_train)
    test_r2 = grid_search.score(X_test, y_test)
    print(" R² data entrainement :", train_r2)
    print(" R² data test:", test_r2)
    
    # Fait des prédictions sur les données de test
    y_pred = grid_search.predict(X_test)
    
    # Évalue la performance du modèle
    mse = mean_squared_error(y_test, y_pred)
    r_squared = r2_score(y_test, y_pred)

    # Calcule la Mean Absolute Error (MAE)
    mae = mean_absolute_error(y_test, y_pred)
    print("Mean Absolute Error:", mae)

    model_name = model.__class__.__name__

    if 'LinearRegression' in model_name:
        if hasattr(grid_search.best_estimator_.named_steps['model'], 'coef_'):
            print("Coefficients:")
            print(grid_search.best_estimator_.named_steps['model'].coef_)

    if 'ElasticNet' in model_name:
        if hasattr(grid_search.best_estimator_.named_steps['model'], 'coef_'):
            print("Coefficients:")
            print(grid_search.best_estimator_.named_steps['model'].coef_)

    if 'RandomForestRegressor' in model_name:
        if hasattr(grid_search.best_estimator_.named_steps['model'], 'feature_importances_'):
            print("Feature Importance:")
            print(grid_search.best_estimator_.named_steps['model'].feature_importances_)

    return mse, r_squared, grid_search.best_params_, training_time

# Créer une liste d'algorithmes à tester
models_to_test = [
    LinearRegression(),
    ElasticNet(alpha=0.5, l1_ratio=0.5),
    RandomForestRegressor(),
    GradientBoostingRegressor(),
    SVR()
]

# Définis les grilles de recherche pour chaque modèle
param_grids = [
    # Grille de recherche pour LinearRegression (aucun hyperparamètre à régler)
    {},
    
    # Grille de recherche pour ElasticNet
    {
        'model__alpha': [0.001, 0.01, 0.1], 
        'model__l1_ratio': [0.1, 0.5, 0.9],
        'model__max_iter': [1000, 2000]
    },
    
    # Grille de recherche pour RandomForestRegressor
    {
        'model__n_estimators': [50, 100],
        'model__max_depth': [None, 10, 20, 30]
    },
    
    # Grille de recherche pour GradientBoostingRegressor
    {
        'model__n_estimators': [50, 100],
        'model__max_depth': [3, 4, 5]
    },
    
    # Grille de recherche pour SVR
    {
        'model__C': [0.1, 1],
        'model__kernel': ['linear', 'rbf']
    }
]

# Boucle à travers les modèles, effectue la recherche par grille et mesurez le temps de calcul
for model, param_grid in zip(models_to_test, param_grids):
    mse, r_squared, best_params, training_time = train_evaluate_model_with_grid_search(model, param_grid, X_train, y_train, X_test, y_test)
    print(f"Model: {model.__class__.__name__}")
    print("Best Hyperparameters:", best_params)
    print("Mean Squared Error:", mse)
    print("R²:", r_squared)
    print("Training Time", training_time)
    

    print()
    print("************************************************")
    print("************************************************")


    

Model: LinearRegression()


 R² de chaque fold: [-2.74067732e+13]
 R² data entrainement : -19885692862916.62
 R² data test: -276713908358978.97
Mean Absolute Error: 3110736.294440306
Coefficients:
[ 1.07453551e+06  1.75533389e+06  3.13624491e+05  1.47144615e+07
  6.24295216e+05  5.28476285e+07  3.84249559e+06  4.84123201e+05
  8.15670694e+06 -2.78757938e+06 -1.92473625e+05  6.45366934e+05
  5.34610791e+05  7.83909370e+03  9.85486646e+05 -5.31445643e+04
  8.90396969e+05  2.94358060e+06  2.31702402e+05 -1.53934083e+05
  4.54971911e+06  2.62335578e+05  2.51043772e+06  2.92289344e+06
  1.25744078e+05  2.86349453e+05]
Model: LinearRegression
Best Hyperparameters: {}
Mean Squared Error: 276713908358978.97
R²: 0.9130994105159829
Training Time 3.375018835067749

************************************************
************************************************
Model: ElasticNet(alpha=0.5)
 R² de chaque fold: [-2.86332462e+13 -2.86332462e+13 -2.80423628e+13 -2.80423628e+13
 -2.75163199e+13 -2.75163199e+13 -3.66602780e+13 -3

`grid_search.cv_results_` sont les détails de la validation croisée effectuée par GridSearchCV pour évaluer la performance des modèles avec différentes combinaisons d'hyperparamètres. Voici comment interpréter les principales parties de ces résultats :

1. **`mean_fit_time` et `std_fit_time`** : Ces deux attributs indiquent le temps moyen (en secondes) que chaque ajustement de modèle a pris pour chaque combinaison d'hyperparamètres, ainsi que l'écart type de ces temps. Cela donne une idée de la durée d'entraînement de chaque modèle.

2. **`mean_score_time` et `std_score_time`** : Ils sont similaires à `mean_fit_time` et `std_fit_time`, mais ils mesurent le temps moyen (en secondes) nécessaire pour calculer le score sur les données de validation lors de la validation croisée.

3. **`param_...`** : Ces attributs montrent les valeurs des hyperparamètres pour chaque combinaison de paramètres testée. Par exemple, `param_model__alpha` montre les valeurs testées pour l'hyperparamètre `alpha` du modèle ElasticNet.

4. **`params`** : Cet attribut est une liste de dictionnaires, chaque dictionnaire contenant les valeurs des hyperparamètres pour une combinaison spécifique.

5. **`split0_test_score`, `split1_test_score`, etc.** : Ce sont les scores de validation croisée pour chaque échantillon d'entraînement. Par exemple, `split0_test_score` représente le score pour le premier pli de la validation croisée, `split1_test_score` pour le deuxième pli, etc.

6. **`mean_test_score` et `std_test_score`** : Ces attributs fournissent la moyenne et l'écart type des scores de validation croisée sur tous les plis. `mean_test_score` est généralement utilisé pour comparer les performances des modèles avec différentes combinaisons d'hyperparamètres. Une valeur plus élevée est meilleure, car elle indique une meilleure performance.

7. **`rank_test_score`** : Cet attribut classe les différentes combinaisons d'hyperparamètres en fonction de leurs performances moyennes (`mean_test_score`). Le modèle avec le meilleur score aura un classement de 1, le deuxième meilleur aura un classement de 2, et ainsi de suite.

En général, lorsque vous utilisez `GridSearchCV`, vous recherchez les combinaisons d'hyperparamètres avec les scores `mean_test_score` les plus élevés, car cela indique les meilleures performances de modèle sur les données de validation croisée.



from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_absolute_error
import numpy as np
# Créer un modèle de régression linéaire
model = LinearRegression()
# Définir les paramètres à tester
params = {'normalize': [True, False], 'fit_intercept': [True, False]}
# Définir les métriques de scoring à utiliser
scoring = {'r2': 'r2', 'mae': 'neg_mean_absolute_error'}
# Créer un objet GridSearchCV
grid_search = GridSearchCV(model, params, cv=5, scoring=scoring, refit='r2', return_train_score=True)
# Exécuter la recherche de grille
grid_search.fit(X_train, y_train)
# Récupérer les résultats de la validation croisée
cv_results = grid_search.cv_results_
# Récupérer le meilleur modèle
best_model = grid_search.best_estimator_
# Faire des prédictions sur l'échantillon test
y_pred = best_model.predict(X_test)
# Récupérer le MAE et le R2 de l'échantillon test
mae = -cv_results['mean_test_mae'][grid_search.best_index_]
r2 = cv_results['mean_test_r2'][grid_search.best_index_]
# Afficher les résultats
print("MAE : ", mae)
print("R2 : ", r2)

## Version avec inclusion Energy Score