# TP : Prédiction de la consommation énergétique de bâtiments
Dans ce TP, vous allez développer un modèle de prédiction de la consommation énergétique des bâtiments en utilisant un dataset avec différentes caractéristiques. L'objectif est de préparer les données, d'entraîner un modèle de régression et d'évaluer sa performance. Ce modèle sera utilisé pour estimer la consommation de futurs bâtiments, pour lesquels on ne dispose pas encore de relevé fiable.

## Chargement des données et exploration initiale
La première étape consiste à charger les données et à effectuer une première exploration pour comprendre leur structure. Chargez le fichier building_energy_benchmarking.csv et affichez les premières lignes du dataset.

In [None]:
# Votre code ici

## Filtrage des données invalides
Proposer un moyen de filtrer les données en fonction de la valeur dans la colonne `DefaultData`, qui indique si ce sont des données synthétiques, qu'on va considérer comme non représentatives pour notre futur model.

In [None]:
# Votre code ici

## Préparation des données
Il est maintenant temps de préparer les caractéristiques et la cible pour l'entraînement du modèle. Sélectionnez les colonnes pertinentes pour l'entraînement et préparez la variable cible `SiteEnergyUse(kBtu)`.

In [None]:
# Votre code ici

### Gestion des valeurs manquantes

Avant d'entraîner notre modèle, il est crucial de gérer les valeurs manquantes dans le jeu de données. Les valeurs manquantes peuvent provenir de données non collectées ou d'informations non applicables à certaines propriétés. 

1. Identifiez les colonnes qui contiennent des valeurs manquantes.
2. Décidez d'une stratégie de gestion, comme le remplissage avec une valeur par défaut, la moyenne/médiane ou la suppression des lignes/colonnes concernées.
3. Implémentez cette stratégie pour vous assurer que le jeu de données est prêt pour l'analyse et la modélisation.


In [None]:
# Votre code ici

### Ratios des sources d'énergie

En particulier, même si on ne dispose pas de relevés des valeurs absolues, on va supposer qu'on connaîtra la répartition relative des sources d'énergie du futur bâtiment, et que cela peut avoir un impact sur la modélisation de sa consommation future. Ajoutez une étape pour calculer la proportion de l'énergie totale consommée par chaque source disponible dans le jeu de données.


In [None]:
# Votre code ici

### Encodage personnalisé des types d’usage avec les surfaces

!! Attention question plus difficile !!

Dans cette étape, nous allons encoder les colonnes représentant les types d’usage des bâtiments (type primaire, secondaire, et tertiaire) en créant une nouvelle colonne pour chaque type d’usage unique présent dans le dataset.

Cible -> chaque colonne représentera un type d’usage, et sa valeur contiendra :
- La superficie de l’usage primaire si ce type est l’usage primaire du bâtiment.
- La superficie de l’usage secondaire si ce type est l’usage secondaire.
- La superficie de l’usage tertiaire si ce type est l’usage tertiaire.
- 0 si ce type d’usage n’est pas associé au bâtiment.

Étapes à suivre :
- Identifier toutes les modalités uniques des types d’usage présentes dans les colonnes LargestPropertyUseType, SecondLargestPropertyUseType, et ThirdLargestPropertyUseType.
- Créer une colonne pour chaque type d’usage.
- Renseigner la superficie correspondante pour chaque bâtiment dans la colonne associée au type d’usage, en fonction de son rôle (primaire, secondaire, ou tertiaire).
- Remplir les valeurs par 0 pour les colonnes des types d’usage qui ne s’appliquent pas au bâtiment.

In [None]:
# Votre code ici

Créer un X (contenant toutes et uniquement les colonnes explicatives du dataframe) et un y (contenant la cible).

In [None]:
# Votre code ici

## Prétraitement des données : Mise à l'échelle et encodage
Nous devons maintenant normaliser les données numériques et encoder les variables catégorielles. Utilisez `StandardScaler` pour la normalisation et `pd.get_dummies` pour encoder la variable catégorielle `Neighborhood`.

In [None]:
# Votre code ici

## Entraînement du modèle de régression linéaire
Cette cellule utilise un modèle de régression linéaire pour prédire la consommation d'énergie (`SiteEnergyUse(kBtu)`) en fonction des caractéristiques préparées. Elle réalise l'entraînement du modèle sur les données d'entraînement. En adaptant les noms de variables si besoin, l'exécuter et observer son résultat.


In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Entraîner le modèle de régression linéaire
model = LinearRegression()
model.fit(X_train, y_train)

# Afficher les coefficients du modèle
model.coef_

## Évaluation du modèle
Cette cellule sert à évaluer la performance du modèle en calculant l'erreur quadratique moyenne (MSE) et le coefficient de détermination R² sur les données de test. En adaptant les noms de variables si besoin, l'exécuter et observer son résultat.

In [None]:
from sklearn.metrics import mean_squared_error, r2_score

# Faire des prédictions sur les données de test
y_pred = model.predict(X_test)

# Calculer les métriques d'évaluation
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R-squared: {r2}")

## Visualisations des résultats
Enfin, visualisez les résultats en traçant un graphique des prédictions vs valeurs réelles et un histogramme des erreurs.

In [None]:
# Votre code ici