# Performance énergétique des logements et niveau de vie des ménages en Ile-de-France¶

#### **Projet Python 2A ENSAE (année 2022-2023)**

#### Franki Nguimatsia Tiofak, Marc jodel Simo Noubissi, Gabriel Sklénard

## **Introduction**

### **Problématique:** 
 
Dans le contexte de la crise énergétique affectant un grand nombre de pays en 2022, il nous est apparu particulièrement intéressant d'étudier le lien entre performance énergétique des logements et niveau de vie des ménages. En effet, dans une période où la facture énergétique s'alourdit et atteint même des plus haut (en particulier pour le gaz), les ménages les plus défavorisés apparaissent plus vulnérables, et ce d'autant plus si leurs logements sont en moyenne plus énergivores que les ménages plus aisés. Notre projet Python cherche précisément à documenter cette vulnérabilité, avec notamment l'idée que la performance énergétique des logements ont un coût et bute nécessairement contre la contrainte budgétaire des ménages, mesurée ici par le niveau de vie médian au niveau de la commune. Qui plus est, un cercle vicieux pourrait s'instaurer: les ménages les moins aisés ont des difficultés à accéder à un logement économe en énergie, ce qui accroît la charge financière du logement et les appauvrit encore davantage. 

Pour avoir une volumétrie de données raisonnable, nous avons opté pour une approche géographique centrée sur l'Ile-de-France: il s'agit donc ici d'analyser la performance énergétique des logements franciliens en lien avec le niveau de vie mesuré dans chaque commune. La visualisation géographique pourrait contribuer à aider les décideurs publics à mieux cibler les éventuelles mesures de soutien à mettre en place pour atténuer le choc de la crise énergétique en Ile-de-France.

### **Principales étapes du projet:**
1. Récupération des données relatives aux diagnostics de performance énergétique (DPE) des logements franciliens (à partir de l'API de l'open data de l'ADEME.
2. Récupération des données de niveau de vie par commune à partir des fichiers de Filosofi 2016 disponibles sur Insee.fr
3. Retraitement des données.
4. Premières statistiques descriptives
5. Visualisations géographiques
6. Modélisation: quantification du rôle explicatif du niveau de vie médian de la commune sur: 
    a. la structure des logements par classe de consommation d'énergie; 
    b. le niveau moyen de consommation d'énergie par logement;
7. Principales limites et perspectives d'approfondissment

### **Principaux résultats et principales limites:**

#### Résulats de l'étude

1. Résultat 1: 
2. Résultat 2:
3. Résultat 3:

#### Limites de l'étude

1. Limite 1:
2. Limite 2:
3. Limite 3:

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly
import re
import matplotlib
import plotly.express as px
import seaborn as sns

import sklearn
from sklearn.datasets import make_classification
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn import metrics
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
import statsmodels.api as sm
import scipy
from scipy.stats import chi2_contingency as chi2_contingency

## **Importation des données retraitées**

In [None]:
pd.options.display.max_colwidth = 50

In [2]:
# On importe les dataframes créés dans le notebook "récup&retraitement_données.ipynb":

# 1) Dataframe rassemblant les XX dpe réalisés dans les communes d'Ile-de-France et leurs principales caractéristiques
#df_dpe = pd.read_csv("~/work/data_science_project/dpe_f2.csv")

# 2) Dataframe rassemblant les XX communes d'IDF:
#df_dpe_com = pd.read_csv("~/work/data_science_project/dpe_com.csv")

# 3) Dataframe Filosofi mergé avec le dataframe précédent:
#df_dpe_filo_com = pd.read_csv("~/work/data_science_project/filo_dpe_com.csv")

### ** Dictionnaire de variables pour le dataframe df_dpe:**

- code_commune_actualise:
- 

## **I) Analyse exploratoire des données et datavisualisation**

In [None]:
# Analyse aux différents niveaux d'observation: logement/commune/département

## **II) Modélisation: prédiction de la structure des logements d'une commune en classes de consommation énergétique**

In [None]:
# Modèle logistique multinomial?
# Variable à expliquer: la structure des logements de la commune en termes de consommation énergétique
# Variables explicatives: le type de logement, la surface moyenne, l'ancienneté du logement, 
# le niveau de vie médian de la commune, milieur rural/milieu urbain, etc.

