# 1. Définition du Problème et Objectifs

## Contexte et Pertinence 

Dans un contexte mondial où la gestion efficace de l'énergie est devenue une priorité cruciale, notre projet vise à analyser la consommation d'énergie par département dans différents secteurs en France. L'objectif est de fournir une compréhension approfondie des modèles de consommation énergétique, qui est essentielle pour orienter les politiques énergétiques, promouvoir la durabilité et optimiser les ressources. Ce projet est particulièrement pertinent étant donné les défis actuels liés au changement climatique et à la transition énergétique. En examinant les données de consommation énergétique à l'échelle des communes, nous pouvons identifier des tendances spécifiques, des anomalies et des opportunités d'amélioration. Cela permettra aux décideurs, aux entreprises et aux consommateurs de prendre des mesures éclairées pour réduire la consommation d'énergie, améliorer l'efficacité énergétique et favoriser l'adoption d'énergies renouvelables. En outre, ce projet contribue à une meilleure compréhension des disparités régionales en matière de consommation d'énergie, offrant ainsi une perspective précieuse pour des interventions ciblées et personnalisées.  

## Objectifs du Projet

Notre projet, au cœur de l'intersection entre technologie, environnement et société, se fixe des objectifs ambitieux et significatifs :

**Cartographie de la Consommation Énergétique :** Notre premier objectif est de dresser une carte précise de la consommation d'énergie dans les différents départements français. En mettant en lumière ces données, nous souhaitons offrir une vision claire et détaillée de la répartition énergétique sur le territoire.

**Identification des Tendances et Anomalies :** Nous visons à décrypter les tendances sous-jacentes et à détecter d'éventuelles anomalies dans les habitudes de consommation énergétique. Cela permettra de comprendre les pratiques énergétiques actuelles et d'identifier les zones à haut potentiel d'amélioration.

**Analyse Comparative par Secteur :** Un autre objectif crucial est de comparer la consommation énergétique entre différents secteurs (résidentiel, industriel, commercial, etc.). Cela aidera à cerner les secteurs les plus énergivores et à envisager des stratégies d'optimisation.

**Prédiction des Tendances Futures :** Nous ambitionnons de développer des modèles prédictifs pour anticiper les évolutions futures de la consommation d'énergie. Ces prévisions seront essentielles pour planifier des stratégies énergétiques à long terme.

**Contribution à la Durabilité :** En offrant une compréhension approfondie de la consommation d'énergie, le projet aspire à contribuer activement à des initiatives de développement durable. Les insights générés pourraient inspirer des actions concrètes pour réduire l'empreinte énergétique.

**Support aux Décisions Politiques et Commerciales :** Fournir des données et des analyses fiables pour éclairer les décisions politiques et commerciales en matière de gestion de l'énergie. Cela inclut la recommandation de politiques efficaces et la sensibilisation aux meilleures pratiques en matière de consommation énergétique.

**Sensibilisation et Éducation :** Enfin, nous souhaitons utiliser nos résultats pour sensibiliser le public et les décideurs aux enjeux de la consommation d'énergie. L'objectif est de promouvoir une culture de consommation énergétique responsable et informée.

## Aspects techniques

### Packages

In [None]:
# Installation des packages

%pip install -q lxml
%pip install webdriver-manager
%pip install BeautifulSoup4
%pip install pandas fiona shapely pyproj rtree # à faire obligatoirement en premier pour utiliser rtree ou pygeos pour les jointures spatiales
%pip install contextily
%pip install geopandas
%pip install pygeos
%pip install topojson
%pip install seaborn
%pip install statsmodels
%pip install scikit-learn
%pip install numpy


import statsmodels.api as sm
import requests
import re
import bs4
import lxml
import pandas as pd
import urllib
import seaborn as sns
from matplotlib import pyplot as plt
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score
from urllib import request

### URL

In [None]:
url_1 = "https://odre.opendatasoft.com/explore/embed/dataset/conso-departement-annuelle/table/?disjunctive.libelle_departement&disjunctive.libelle_region&disjunctive.e_operateurs&disjunctive.g_operateurs&refine.annee=2021&dataChart=eyJxdWVyaWVzIjpbeyJjaGFydHMiOlt7InR5cGUiOiJjb2x1bW4iLCJmdW5jIjoiQVZHIiwieUF4aXMiOiJjb25zb3RvdGFsZSIsInNjaWVudGlmaWNEaXNwbGF5Ijp0cnVlLCJjb2xvciI6IiM2NmMyYTUifV0sInhBeGlzIjoibGliZWxsZV9kZXBhcnRlbWVudCIsIm1heHBvaW50cyI6NTAsInNvcnQiOiIiLCJjb25maWciOnsiZGF0YXNldCI6ImNvbnNvLWRlcGFydGVtZW50LWFubnVlbGxlIiwib3B0aW9ucyI6eyJkaXNqdW5jdGl2ZS5saWJlbGxlX2RlcGFydGVtZW50Ijp0cnVlLCJkaXNqdW5jdGl2ZS5saWJlbGxlX3JlZ2lvbiI6dHJ1ZSwiZGlzanVuY3RpdmUuZV9vcGVyYXRldXJzIjp0cnVlLCJkaXNqdW5jdGl2ZS5nX29wZXJhdGV1cnMiOnRydWUsInJlZmluZS5hbm5lZSI6IjIwMjEifX19XSwidGltZXNjYWxlIjoiIiwiZGlzcGxheUxlZ2VuZCI6dHJ1ZSwiYWxpZ25Nb250aCI6dHJ1ZX0%3D&location=3,17.56025,53.4375&basemap=jawg.light"
url_2 = "https://www.insee.fr/fr/statistiques/6436484?sommaire=6036904#tableau-figure1_radio1"
url_3 = "https://odre.opendatasoft.com/explore/dataset/temperature-quotidienne-departementale/information/?disjunctive.departement"
url_4 = "https://www.insee.fr/fr/statistiques/6436484?sommaire=6036904#tableau-figure1_radio1"
url_5 = "https://www.observatoire-des-territoires.gouv.fr/outils/cartographie-interactive/#bbox=-1052198,6661338,2597056,1619174&c=indicator&i=insee_rp_hist_1968.part_logt_vacant&s=2020&view=map9"
url_6 = "https://ufe-electricite.fr/watt-the-carte/deploiement-bornes-de-recharge-en-france/dans-les-territoires/"
url_7 = "https://www.carburants.org/borne-electrique/departements/"
url_8 : "https://www.observatoire-des-territoires.gouv.fr/nombre-dentreprises-par-secteurs-dactivite"

# 2. Collecte, nettoyage et préparation des données (Communes)

## Récupération

### Bases de données pre-existantes

##### Consommation totale d'énergie par commune

In [None]:
# url = https://www.data.gouv.fr/fr/datasets/consommation-annuelle-delectricite-et-gaz-par-commune-et-par-secteur-dactivite/
table_conso_com = pd.read_csv('conso_energie.csv',sep=';')
table_conso_com.head()

##### Logements vacants par commune

In [None]:
# url = https://www.data.gouv.fr/fr/datasets/niveau-de-vie-des-francais-par-commune/
table_logements_vacants_com = pd.read_csv('logement_vacants_com.csv', sep=';', encoding='ISO-8859-1')
table_logements_vacants_com.head()

##### Nombre d'entreprises par commune

In [None]:
# url = https://www.observatoire-des-territoires.gouv.fr/outils/cartographie-interactive/#c=indicator&f=TOT&i=demo_ent_sect.ent_tot&s=2021&view=map59
table_nb_entr_com = pd.read_csv('table_nb_entr_com.csv',sep=';')
table_nb_entr_com.head()

##### Niveau de vie par commune

In [None]:
# url = https://www.observatoire-des-territoires.gouv.fr/outils/cartographie-interactive/#c=indicator&i=filosofi.med_disp&s=2020&view=map59
table_niveau_vie_com = pd.read_csv('niveau_vie_com.csv',sep=';')
table_niveau_vie_com.head()

##### Taux de déplacement domicile-travail en transport en commun

In [None]:
# url = https://www.observatoire-des-territoires.gouv.fr/outils/cartographie-interactive/#bbox=-645836,6062176,1794690,1016154&c=indicator&i=insee_rp_hist_xxxx.part_domtrav_voit&s=2020&view=map59

table_dep_domtrav_tc = pd.read_csv('dep_domtrav_tc.csv', sep=';', encoding='ISO-8859-1')
table_dep_domtrav_tc.head()

### Bases de données webscrappées

##### Population par commune

In [None]:
import pandas as pd
from urllib import request
from bs4 import BeautifulSoup
import re  # Importer le module pour les expressions régulières

url_communes = "https://fr.wikipedia.org/wiki/Listes_des_communes_de_France"
text_communes = request.urlopen(url_communes).read().decode('utf-8')
page_communes = BeautifulSoup(text_communes, 'html.parser')
tableau_communes = page_communes.find('table', {'class': 'wikitable'})
tableau_communes = tableau_communes.find('tbody')
lignes_communes = tableau_communes.find_all('tr')
lignes_communes = lignes_communes[:-13]

# Liste pour stocker les contenus après "a href"
liste_url_communes = []

# Parcourir chaque ligne dans lignes_communes
for ligne in lignes_communes:
    # Trouver toutes les balises <td> dans la ligne
    td_tags = ligne.find_all('td')

    if len(td_tags) >= 3:
        if td_tags[-3].text.strip() != '75':
            derniere_td = td_tags[-1]
            a_tag = derniere_td.find('a')
            if a_tag:
                contenu_apres_href = a_tag.get('href')
                liste_url_communes.append(contenu_apres_href)

dico_communes = {}
liste_code_communes = []

for url in liste_url_communes:
    text = request.urlopen("https://fr.wikipedia.org" + url).read().decode('utf-8')
    page = BeautifulSoup(text, 'html.parser')  # Utilisez html.parser au lieu de lxml
    tableau = page.find('table', {'class': 'wikitable sortable titre-en-couleur'})
    tableau = tableau.find('tbody')
    lignes = tableau.find_all('tr')
    lignes.pop(0)
    lignes.pop(-1)

    for ligne in lignes:
        donnees = ligne.find_all('td')
        code_insee = donnees[1].text.strip()
        liste_code_communes.append(code_insee)
        pop_commune = donnees[-3].text.strip()
        dico_communes[code_insee] = pop_commune

# Créer le DataFrame à partir du dictionnaire
table_pop_com = pd.DataFrame.from_dict(dico_communes, orient='index').reset_index()
table_pop_com = table_pop_com.rename(columns={'index': 'Code commune'})
table_pop_com.head()


### Récupération de données via API

##### Température par commune

In [None]:
import pandas as pd
import requests

# Dictionnaire pour stocker les moyennes de température par commune
dico_temp_communes = {}

root_api = "https://public.opendatasoft.com"

# Initialiser un compteur pour les valeurs manquantes
missing_values_count = 0

# Supposons que liste_code_communes soit définie ailleurs dans votre code
# liste_code_communes = [...]

for codegeo in liste_code_communes:
    # Arrêter le programme si on a trop de valeurs manquantes
    if missing_values_count >= 100:
        print("On arrête le programme en raison d'un nombre de valeurs manquantes trop important")
        break

    url = f"{root_api}/api/explore/v2.1/catalog/datasets/donnees-synop-essentielles-omm/records?select=codegeo%2C%20tc%2C%20latitude%2C%20longitude&where=codegeo%3D%22{codegeo}%22&limit=99"
    req = requests.get(url)
    temp = req.json()
    results = temp.get('results', [])
    df = pd.DataFrame(results)
    
    if 'tc' in df.columns:
        # Compter le nombre de valeurs manquantes dans la colonne 'tc'
        missing_values_count += df['tc'].isna().sum()

        # Calculer la moyenne des températures, en ignorant les valeurs manquantes
        moyenne = round(df['tc'].mean(), 2)
        dico_temp_communes[codegeo] = moyenne
    else:
        missing_values_count += 1  # Compter l'absence complète de la colonne comme une valeur manquante
        print(f"La colonne 'tc' est absente pour le codegeo {codegeo}")

# Si le programme s'achève sans interruption, afficher les résultats
if missing_values_count < 100:
    print(dico_temp_communes)


On se rend compte qu'on a plein de données manquantes. Pour lutter contre ce problème on associe à chaque commune la température du département, en faisant l'hypothèse que la température est assez homogène dans un département.

In [None]:
# URL de base et structure de l'URL de l'API
root_api = "https://odre.opendatasoft.com"
base_url = "/api/explore/v2.1/catalog/datasets/temperature-quotidienne-departementale/records"
base_query = "?select=date_obs%2Ccode_insee_departement%2Cdepartement%2Ctmoy&order_by=code_insee_departement&limit=99&refine=date_obs%3A%222021%22"

# Collecte des données pour chaque mois
df_list = []
for i in range(1, 13):
    date_str = f"2021-{i:02d}-01"
    url_api = f"{root_api}{base_url}{base_query}&where=date_obs%3Ddate'{date_str}'"
    req = requests.get(url_api)
    temp = req.json()
    results = temp.get('results', [])
    df = pd.DataFrame(results)
    if not df.empty:
        df = df[['date_obs', 'code_insee_departement', 'departement','tmoy']]
        df_list.append(df)

# Fusionner tous les DataFrames en un seul
df_final = pd.concat(df_list)

# Calcul de la moyenne des températures par code et nom de département
table_temperatures = df_final.groupby(['code_insee_departement', 'departement'])['tmoy'].mean().reset_index()

# Affichage du DataFrame final
table_temperatures.head()

# Création d'un DataFrame à partir de la liste des codes INSEE
data_communes = {'code_commune': liste_code_communes}
df_communes = pd.DataFrame(data_communes)

# Exécution d'une jointure entre les deux DataFrames
table_temperatures_com = pd.merge(df_communes, table_temperatures, left_on=df_communes['code_commune'].str[:2], right_on=table_temperatures['code_insee_departement'])

# Afficher le résultat
table_temperatures_com[['code_commune', 'tmoy']].head()


## Nettoyage

##### Visualisation des dataframe a fusionner

In [None]:
# Sélection des colonnes nécessaires
df_filtered = table_conso_com[['annee', 'filiere', 'code_commune', 'libelle_commune', 'consototale']]

# Filtrer les données pour ne garder que celles de l'année 2021, et l'electricité
df_filtered = df_filtered[df_filtered['annee'] == 2021]
df_filtered = df_filtered[df_filtered['filiere'] == 'Electricité']

# Convertir la colonne 'code_commune' en chaîne de caractères
df_filtered['code_commune'] = df_filtered['code_commune'].astype(str)

# Trier les données par commune en ordre croissant
df_filtered = df_filtered.sort_values(by=['code_commune'])

# Garder la première occurrence pour chaque commune
df_filtered = df_filtered.drop_duplicates(subset='code_commune')

# Réinitialiser l'index
df_filtered = df_filtered.reset_index(drop=True)

# Affecter le DataFrame final à la variable 'table_conso_com'
table_conso_com = df_filtered
table_conso_com.head()

In [None]:
table_temperatures_com.head()

In [None]:
table_logements_vacants_com=table_logements_vacants_com.rename(columns={
    'codgeo': 'code_commune',
    'libgeo': 'libelle_commune',
    'an': 'an',
    'part_logt_vacant': 'logements_vacants_%'
})
table_logements_vacants_com = table_logements_vacants_com[table_logements_vacants_com['an'] == 2020]
table_logements_vacants_com.head()

In [None]:
table_pop_com=table_pop_com.rename(columns={
    'Code commune': 'code_commune',
    0: 'population',
})
table_pop_com['population'] = table_pop_com['population'].str.replace(r'\s*\([^)]*\)\s*', '', regex=True)
table_pop_com.head()

In [None]:
table_niveau_vie_com=table_niveau_vie_com.rename(columns={
    'Code': 'code_commune',
    'Libellé': 'libelle_commune',
    'Médiane du revenu disponible par UC 2020': 'niveau_de_vie'
})
table_niveau_vie_com['niveau_de_vie'] = table_niveau_vie_com['niveau_de_vie'].replace('N/A - résultat non disponible', pd.NA)
table_niveau_vie_com.head()

In [None]:
table_nb_entr_com = table_nb_entr_com.rename(columns={
    'Code': 'code_commune',
    'Libellé': 'libelle_commune',
    'Nombre d\'entreprises par secteurs d\'activité 2021': 'nombre_entreprises',
    'Nombre d\'entreprises par secteurs d\'activité 2021.1': 'pas_compris_cette_colonne'
})
table_nb_entr_com.head()

In [None]:
table_dep_domtrav_tc = table_dep_domtrav_tc.rename(columns={
    'codgeo':'code_commune',
    'libgeo':'libelle_commune',
    'an':'an',
    'part_domtrav_tc':'taux_deplacement_domicile_travail'
})
table_dep_domtrav_tc = table_dep_domtrav_tc[table_dep_domtrav_tc['an'] == 2020]
table_dep_domtrav_tc.head()

##### Traitement des tableaux

In [None]:
table_conso_communes=table_conso_com[['code_commune','libelle_commune','consototale']]
table_logements_vacants_communes = table_logements_vacants_com.loc[table_logements_vacants_com.groupby('code_commune')['an'].idxmax()]
table_nb_entr_communes=table_nb_entr_com[['code_commune','libelle_commune','nombre_entreprises']]
table_niveau_vie_communes=table_niveau_vie_com[['code_commune','libelle_commune','niveau_de_vie']]
table_pop_communes=table_pop_com[['code_commune','population']]
table_temperatures_communes=table_temperatures_com[['code_commune','tmoy']]
table_dep_domtrav_tc=table_dep_domtrav_tc[['code_commune','taux_deplacement_domicile_travail']]

##### Harmonisation du format

In [None]:
# Liste des DataFrames
dataframes = [table_conso_communes, table_logements_vacants_communes, table_nb_entr_communes, table_niveau_vie_communes, table_pop_communes, table_temperatures_communes, table_dep_domtrav_tc]

# Boucle à travers les DataFrames
for df in dataframes:
    # Convertir la colonne 'code_commune' en chaîne de caractères
    df['code_commune'] = df['code_commune'].astype(str)
    
    # Ajouter des zéros à gauche pour avoir 5 chiffres
    df['code_commune'] = df['code_commune'].str.zfill(5)


##### Fusion deux par deux

In [None]:
# Fusion des DataFrames
df_merged = table_conso_communes.merge(table_logements_vacants_communes, on='code_commune', how='outer')
df_merged = df_merged.merge(table_nb_entr_communes, on='code_commune', how='outer', suffixes=('', '_entr'))
df_merged = df_merged.merge(table_niveau_vie_communes, on='code_commune', how='outer', suffixes=('', '_nv'))
df_merged = df_merged.merge(table_pop_communes, on='code_commune', how='outer')
df_merged = df_merged.merge(table_temperatures_communes, on='code_commune', how='outer')
df_merged = df_merged.merge(table_dep_domtrav_tc, on='code_commune', how='outer')

# Nettoyage des colonnes
table_donnees = df_merged[['code_commune', 'libelle_commune', 'consototale', 'logements_vacants_%', 'nombre_entreprises', 'niveau_de_vie', 'population', 'tmoy','taux_deplacement_domicile_travail']]
table_donnees.head()

In [None]:
import pandas as pd
import numpy as np

# Liste des variables explicatives
variables_modele = ['consototale', 'logements_vacants_%', 'nombre_entreprises', 'niveau_de_vie', 'population', 'tmoy', 'taux_deplacement_domicile_travail']

# Convertir les colonnes en type chaîne
table_donnees_test = table_donnees[variables_modele].astype(str)

# Nettoyer les colonnes avec des virgules et convertir en float
for variable in variables_modele:
    table_donnees_test[variable] = table_donnees_test[variable].str.replace(',', '.')
    table_donnees_test[variable] = table_donnees_test[variable].str.replace('\xa0', ' ')
    table_donnees_test[variable] = table_donnees_test[variable].str.replace(' ', '')
    table_donnees_test[variable] = pd.to_numeric(table_donnees_test[variable], errors='coerce')  # Convertir en float avec gestion des erreurs

# Remplacez les colonnes d'origine par les colonnes nettoyées et converties
table_donnees[variables_modele] = table_donnees_test

# Afficher le DataFrame mis à jour
table_donnees.head()


In [None]:

# Conversion des colonnes en chaînes de caractères et remplacement des virgules et espaces insécables
table_donnees['logements_vacants_%'] = table_donnees['logements_vacants_%'].astype(str).str.replace(',', '.').astype(float)
table_donnees['nombre_entreprises'] = table_donnees['nombre_entreprises'].astype(str).str.replace(',', '.').astype(float)
table_donnees['niveau_de_vie'] = table_donnees['niveau_de_vie'].replace('N/A - résultat non disponible', pd.NA)
#table_donnees['population'] = table_donnees['population'].astype(str).str.replace('\xa0', '').replace(' ', '').astype(int)

# Vérification des conversions
print(table_donnees.dtypes)

# 3. Analyse et Visualisation

## Statistiques descriptives

### Stats générales

In [None]:
# Statistiques descriptives pour les colonnes numériques
stats_descriptives = table_donnees.describe()

# Mode pour les colonnes catégorielles et numériques
mode = table_donnees.mode().iloc[0]

# Affichage des résultats
print("\nStatistiques descriptives :\n", stats_descriptives)
print("\nMode :\n", mode)

In [None]:
# Heatmap améliorée pour la matrice de corrélation
data_numerique = table_donnees.select_dtypes(include=[np.number])
# Calcul de la matrice de corrélation sur les données numériques
corr = data_numerique.corr()
# Création de la heatmap
mask = np.triu(np.ones_like(corr, dtype=bool))
plt.figure(figsize=(10, 8))
sns.heatmap(corr, annot=True, fmt='.2f', cmap='coolwarm', mask=mask)
plt.title('Matrice de corrélation')
plt.show()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Configuration du style des graphiques
sns.set(style="whitegrid")

# Histogrammes améliorés pour les variables numériques
for col in ['consototale', 'logements_vacants_%', 'nombre_entreprises', 'niveau_de_vie', 'population', 'tmoy']:
    plt.figure(figsize=(10, 6))
    sns.histplot(table_donnees[col], kde=True, color="skyblue", edgecolor='black', bins=30)
    plt.title(f'Distribution de {col}')
    plt.xlabel(col)
    plt.ylabel('Fréquence')
    plt.show()

# Boxplots améliorés pour les variables numériques
for col in ['consototale', 'logements_vacants_%', 'nombre_entreprises', 'niveau_de_vie', 'population', 'tmoy']:
    plt.figure(figsize=(10, 6))
    sns.boxplot(x=table_donnees[col], palette="Set2")
    plt.title(f'Boxplot de {col}')
    plt.show()

# Scatter plots améliorés pour les relations entre deux variables numériques
# Exemple : 'population' vs 'consototale'
plt.figure(figsize=(10, 6))
#sns.regplot(x='population', y='consototale', data=table_donnees, scatter_kws={'alpha':0.5}, line_kws={'color':'red'})
plt.title('Relation entre Population et Consommation Totale')
plt.xlabel('Population')
plt.ylabel('Consommation Totale')
plt.show()


### Focus sur la température

In [None]:
#Max min
Mt=table_donnees['tmoy'].max()
mt=table_donnees['tmoy'].min()
#on distingue trois groupe de dépapartement selon la température pour observer les causalités et les correlations.
table_donnees['grp_tmp']=[ "Chaud" if t > 2*(Mt-mt)/3 +mt  else ("Froid" if t < (Mt-mt)/3 +mt else "Doux") for t in table_donnees['tmoy']]


In [None]:
sns.relplot(data=table_donnees, y="consototale", x="tmoy", hue="grp_tmp", height=6, aspect=2)

In [None]:
sns.pairplot(data=table_donnees, hue="grp_tmp")

## Analyse géographique : cartes

In [None]:
%pip install requests py7zr geopandas openpyxl tqdm s3fs PyYAML xlrd
%pip install git+https://github.com/inseefrlab/cartiflette@80b8a5a28371feb6df31d55bcc2617948a5f9b1a
import geopandas as gpd
from shapely.geometry import shape
import matplotlib.pyplot as plt

In [None]:
# fond de carte metropole commune
import cartiflette.s3 as s3
metropole_communes = s3.download_vectorfile_url_all(
      values = "metropole",
      crs = 4326,
      borders = "COMMUNE",
      vectorfile_format="topojson",
      filter_by="FRANCE_ENTIERE",
      source="EXPRESS-COG-CARTO-TERRITOIRE",
      year=2022)
metropole_communes.rename(columns={'INSEE_COM': 'code_commune'}, inplace=True)
metropole_communes = metropole_communes.drop('territoire', axis=1)

In [None]:
# fond de carte Dom TOM
import cartiflette.s3 as s3
dom_tom_communes = s3.download_vectorfile_url_all(
      values = ["971","972","973","974"],
      crs = 4326,
      borders = "COMMUNE",
      vectorfile_format="topojson",
      filter_by="DEPARTEMENT",
      source="EXPRESS-COG-CARTO-TERRITOIRE",
      year=2022)
dom_tom_communes.rename(columns={'INSEE_COM': 'code_commune'}, inplace=True)

In [None]:
#france_communes=pd.concat([metropole_communes, dom_tom_communes], ignore_index=True)

In [None]:
#carte_temp=pd.merge(table_temperatures_com[['code_commune', 'tmoy']],metropole_communes[["code_commune","geometry"]], on="code_commune", how= 'inner')

In [None]:
#Visualisation de la temperature par département
#import matplotlib.pyplot as plt
#from mpl_toolkits.axes_grid1 import make_axes_locatable


#gdf = gpd.GeoDataFrame(carte_temp, geometry='geometry')
#Créez une figure et des axes
#fig, ax = plt.subplots(figsize=(30,30))
# Tracé de la carte avec la couleur basée sur les températures 
#gdf.plot(column='tmoy', cmap='coolwarm', linewidth=0.05, ax=ax, edgecolor='0.8')
# Ajout d'une barre de couleur :
#divider = make_axes_locatable(ax)
#cax = divider.append_axes("right", size="2%", pad=0.1)
#sm = plt.cm.ScalarMappable(cmap='coolwarm', norm=plt.Normalize(vmin=gdf['tmoy'].min(), vmax=gdf['tmoy'].max()))
#sm._A = []
#cbar = plt.colorbar(sm, cax=cax)

# Suppression des axes
#ax.set_axis_off()

# Ajouter un titre à la carte
#plt.suptitle("Carte de France - Températures des départements", fontsize=15, x=0.5, y=0.80)

# Afficher la carte
#plt.show()

In [None]:
#Visualisation de la temperature par département DOM TOM ET METROPLE SUR LA MEME CARTE
#import matplotlib.pyplot as plt
#from mpl_toolkits.axes_grid1 import make_axes_locatable
#pip install --upgrade geopandas matplotlib

#temp_france=pd.merge(table_temperatures_com[['code_commune', 'tmoy']],metropole_communes[["code_commune","geometry"]], on="code_commune", how= 'inner')
#temp_dom_tom =pd.merge(table_temperatures_com[['code_commune', 'tmoy']],dom_tom_communes[["code_commune","geometry"]], on="code_commune", how= 'inner')
#fr = gpd.GeoDataFrame(temp_france, geometry='geometry')
#dt = gpd.GeoDataFrame(temp_dom_tom, geometry='geometry')
#dt = dt.to_crs(fr.crs)
#Créez une figure et des axes
#fig, ax = plt.subplots(figsize=(10,10))
# Tracé de la carte avec la couleur basée sur les températures 
#fr.plot(column='tmoy', cmap='coolwarm', linewidth=0.05, ax=ax, edgecolor='0.8')
#dt.plot(column='tmoy', cmap='coolwarm', linewidth=0.05, ax=ax, edgecolor='0.8')

# Ajout d'une barre de couleur :
#divider = make_axes_locatable(ax)
#cax = divider.append_axes("right", size="2%", pad=0.1)
#sm = plt.cm.ScalarMappable(cmap='coolwarm', norm=plt.Normalize(vmin=gdf['tmoy'].min(), vmax=gdf['tmoy'].max()))
#sm._A = []
#cbar = plt.colorbar(sm, cax=cax)

# Suppression des axes
#ax.set_axis_off()

# Ajouter un titre à la carte
#plt.suptitle("Carte de France - Températures des départements", fontsize=15, x=0.5, y=0.80)

# Afficher la carte
#plt.show()

In [None]:
#enlever les communes avec une consommaition totale de 0 
print(len(table_donnees))
df= table_donnees.copy()
df = df[df['consototale'] != 0]
print(len(df["consototale"]))

In [None]:
carte_temp=pd.merge(df,metropole_communes[["code_commune","geometry"]], on="code_commune", how= 'inner')

In [None]:
#Visualisation de la temperature par département/commune
import matplotlib.pyplot as plt
from mpl_toolkits.axes_grid1 import make_axes_locatable


gdf = gpd.GeoDataFrame(carte_temp, geometry='geometry')
#Créez une figure et des axes
fig, ax = plt.subplots(figsize=(30,30))
# Tracé de la carte avec la couleur basée sur les températures 
gdf.plot(column='tmoy', cmap='coolwarm', linewidth=0.05, ax=ax, edgecolor='0.8')
# Ajout d'une barre de couleur :
divider = make_axes_locatable(ax)
cax = divider.append_axes("right", size="2%", pad=0.1)
sm = plt.cm.ScalarMappable(cmap='coolwarm', norm=plt.Normalize(vmin=gdf['tmoy'].min(), vmax=gdf['tmoy'].max()))
sm._A = []
cbar = plt.colorbar(sm, cax=cax)

# Suppression des axes
ax.set_axis_off()

# Ajouter un titre à la carte
plt.suptitle("Carte de France - Températures des communes", fontsize=15, x=0.5, y=0.80)

# Afficher la carte
plt.show()

In [None]:
carte_conso=pd.merge(df,metropole_communes[["code_commune","geometry"]], on="code_commune", how= 'inner')

In [None]:
# Consomation par commune
import matplotlib.pyplot as plt
from mpl_toolkits.axes_grid1 import make_axes_locatable
import geopandas as gpd
from matplotlib.colors import TwoSlopeNorm
from matplotlib.ticker import MultipleLocator


gdf2 = gpd.GeoDataFrame(carte_conso, geometry='geometry')
fig, ax = plt.subplots(figsize=(30, 30))

norm = TwoSlopeNorm(vmin=gdf2['consototale'].min(), vcenter=gdf2['consototale'].mean(), vmax=200000)

# Tracé de la carte avec la couleur basée sur les températures
gdf2.plot(column='consototale', cmap='RdYlGn_r', linewidth=0.5, ax=ax, edgecolor='0.8', norm=norm)

# Ajout d'une barre de couleur :
divider = make_axes_locatable(ax)
cax = divider.append_axes("right", size="2%", pad=0.5)

# Utilisez la colonne normalisée pour la barre de couleur
sm = plt.cm.ScalarMappable(cmap='RdYlGn_r', norm=norm)
sm._A = []
cbar = plt.colorbar(sm, cax=cax)

# Suppression des axes
ax.set_axis_off()

# Ajouter un titre à la carte
plt.suptitle("Carte de France - Consommation des communes", fontsize=15, x=0.5, y=0.80)

# Afficher la carte
plt.show()

In [None]:
#Mais un probleme est l'effet taille, la consommation est forcément croissante du nombre d'habitant donc il conviendrait de calculer la consommation par tête

In [None]:
df["consommation_par_tête"] = df["consototale"]/df["population"]

In [None]:
# Consomation par tête, communes
import matplotlib.pyplot as plt
from mpl_toolkits.axes_grid1 import make_axes_locatable
import geopandas as gpd
from matplotlib.colors import TwoSlopeNorm
from matplotlib.ticker import MultipleLocator

carte_conso_tete=pd.merge(df,metropole_communes[["code_commune","geometry"]], on="code_commune", how= 'inner')

gdf3 = gpd.GeoDataFrame(carte_conso_tete, geometry='geometry')
fig, ax = plt.subplots(figsize=(30, 30))

norm = TwoSlopeNorm(vmin=gdf3['consommation_par_tête'].min(), vcenter=gdf3['consommation_par_tête'].mean(), vmax=40)

# Tracé de la carte avec la couleur basée sur les températures
gdf3.plot(column='consommation_par_tête', cmap='RdYlGn_r', linewidth=0.5, ax=ax, edgecolor='0.8', norm=norm)

# Ajout d'une barre de couleur :
divider = make_axes_locatable(ax)
cax = divider.append_axes("right", size="2%", pad=0.5)

# Utilisez la colonne normalisée pour la barre de couleur
sm = plt.cm.ScalarMappable(cmap='RdYlGn_r', norm=norm)
sm._A = []
cbar = plt.colorbar(sm, cax=cax)

# Suppression des axes
ax.set_axis_off()

# Ajouter un titre à la carte
plt.suptitle("Carte de France - Consommation par tête des communes", fontsize=15, x=0.5, y=0.80)

# Afficher la carte
plt.show()

In [None]:
# Nouvelles conclusions, consommation dans les alpes plus forte 

# 4. Modélisation et Prédictions

## 1ère idée : régression linéaire sur toutes les variables

### Standardisation des données

##### Dans un premier temps, on standardise les données, cette méthode présente de nombreux avantages tels que :

##### Stabilité numérique : Certains algorithmes, en particulier ceux qui utilisent des calculs matriciels, peuvent être sensibles à l'échelle des variables. La standardisation aide à éviter des problèmes numériques tels que la divergence ou la convergence lente des algorithmes.

##### Comparaison directe des coefficients : Dans les modèles qui impliquent des coefficients (comme les modèles linéaires), la standardisation permet de comparer directement l'importance relative des variables en fonction de la taille de leurs coefficients. Cela peut rendre l'interprétation du modèle plus facile.

##### Amélioration de la convergence : Certains algorithmes d'optimisation utilisés dans les modèles de machine learning convergent plus rapidement sur des données standardisées, ce qui peut accélérer le processus d'entraînement.

##### Gestion des différences d'échelle : Lorsque les variables ont des échelles différentes, certaines d'entre elles peuvent dominer l'influence du modèle. La standardisation équilibre ces différences d'échelle et donne une importance similaire à toutes les variables lors de l'apprentissage du modèle.

##### Prévention du surajustement : Certains algorithmes, tels que les SVM (Support Vector Machines) et les k-NN (k-Nearest Neighbors), sont sensibles à l'échelle des variables. La standardisation peut aider à prévenir le surajustement en équilibrant l'influence des différentes caractéristiques.

##### Interprétabilité améliorée : La standardisation facilite l'interprétation des coefficients dans les modèles linéaires. Les coefficients standardisés indiquent combien d'écart-type change la variable explicative pour un changement d'une unité

In [None]:
table_donnees

In [None]:
# On supprime les données manquantes

In [None]:
table_donnees=table_donnees.dropna()
table_donnees

In [None]:
# Création matrice de correlation :

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Calcul de la matrice de corrélation
matrice_correlation = table_donnees[variables_modele].corr()

# Configuration de la palette de couleurs
palette = sns.diverging_palette(220, 20, as_cmap=True)

# Création de la heatmap avec Seaborn et attribution à une variable
heatmap = sns.heatmap(matrice_correlation, annot=True, cmap=palette, vmin=-1, vmax=1)

# Affichage des noms de variables en haut de la matrice
heatmap.set_xticklabels(heatmap.get_xticklabels(), rotation=45, ha='right')

# Affichage de la matrice de corrélation
plt.show()


In [None]:
# Analyse de la table de corrélation : 

# On remarque sur la première ligne de la matrice, la corrélation entre la variable explicative, et chacune des variables expliquées.
# On observe une correlation presque nulle entre la population et respectivement le taux de logements vacants, le niveau de vie et la température moyenne.
# En revanche, on observe une forte corrélation empirique entre la consommation totale et respectivement le nombre d'entreprises, la taille de la population, et le taux de déplacement domocile travail en transports en commun. Ces variables sont potentiellement importantes pour le modèle de régression.

# On peut s'attendre à ce que les variables faiblements correlées à la variable explicative ne soient pas significatives dans le modèle ?

# Enfin, on observe une très forte corrélation, presque parfaite, entre le nombre d'entreprises et la population.

In [None]:
# Standardisation des données

In [None]:
from sklearn.preprocessing import StandardScaler
import pandas as pd

# Supposons que "table_donnees" est votre DataFrame initial et "variables_modele" sont les colonnes à standardiser
scaler = StandardScaler()

# Créez une copie du DataFrame initial
df_standardise = table_donnees.copy()

# Standardisez les colonnes spécifiées
df_standardise[variables_modele] = scaler.fit_transform(df_standardise[variables_modele])

# Sélectionnez les colonnes non standardisées
colonnes_non_standardisees = [col for col in df_standardise.columns if col not in variables_modele]

# Réorganisez les colonnes pour avoir les non standardisées au début suivies des standardisées
df_standardise = df_standardise[colonnes_non_standardisees + variables_modele]

df_standardise


In [None]:
import numpy as np
import matplotlib.pyplot as plt


# Création de l'histogramme avant la standardisation
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.hist(table_donnees['logements_vacants_%'], bins=40, color='blue', edgecolor='black')
plt.title('Histogramme avant standardisation')
plt.xlabel('Valeurs')
plt.ylabel('Fréquence')
plt.xlim([0, table_donnees['logements_vacants_%'].max()])

# Création de l'histogramme après la standardisation
plt.subplot(1, 2, 2)
plt.hist(df_standardise['logements_vacants_%'], bins=40, color='green', edgecolor='black')
plt.title('Histogramme après standardisation')
plt.xlabel('Valeurs standardisées')
plt.ylabel('Fréquence')

plt.xlim([-df_standardise['logements_vacants_%'].max(), df_standardise['logements_vacants_%'].max()])# Affichage des deux histogrammes# Affichage des deux histogrammes
plt.tight_layout()
plt.show()


In [None]:
import numpy as np
import matplotlib.pyplot as plt


# Création de l'histogramme avant la standardisation
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.hist(table_donnees['logements_vacants_%'], bins=40, color='blue', edgecolor='black')
plt.title('Histogramme avant standardisation')
plt.xlabel('Valeurs')
plt.ylabel('Fréquence')
plt.xlim([-table_donnees['logements_vacants_%'].max(), table_donnees['logements_vacants_%'].max()])

# Création de l'histogramme après la standardisation
plt.subplot(1, 2, 2)
plt.hist(df_standardise['logements_vacants_%'], bins=40, color='green', edgecolor='black')
plt.title('Histogramme après standardisation')
plt.xlabel('Valeurs standardisées')
plt.ylabel('Fréquence')

plt.xlim([-table_donnees['logements_vacants_%'].max(), table_donnees['logements_vacants_%'].max()])

# Affichage des deux histogrammes
plt.tight_layout()
plt.show()

### Modèle et interpretations

In [None]:
# Création d'une base test et d'une base d'entraînement

In [None]:
from sklearn.model_selection import train_test_split

# Séparation en variables indépendantes (X) et variable dépendante (y)
X = df_standardise.drop(['code_commune','libelle_commune','consototale','grp_tmp'], axis=1)
y = df_standardise['consototale']

# Division des données en ensemble d'entraînement (train set) et ensemble de test (test set)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# "test_size" détermine la proportion d'observations à inclure dans l'ensemble de test (ici, 20%)
# "random_state" est utilisé pour garantir la reproductibilité des résultats, on peut choisir n'importe quel nombre

# Affichage des dimensions des ensembles d'entraînement et de test
print("Dimensions de l'ensemble d'entraînement (X_train, y_train):", X_train.shape, y_train.shape)
print("Dimensions de l'ensemble de test (X_test, y_test):", X_test.shape, y_test.shape)


In [None]:
# Régression Linéaire :

In [None]:
import statsmodels.api as sm

# Ajouter une constante à la matrice des caractéristiques (X) pour le terme d'interception
X_train = sm.add_constant(X_train)
X_test = sm.add_constant(X_test)

# Création d'un modèle de régression linéaire avec statsmodels
modele_regression = sm.OLS(y_train, X_train).fit()

In [None]:
# Interprétation / significativité des coefficients

In [None]:
modele_regression.summary()

In [None]:
# Interprétation des coefficients : 

## Logements_vacants_% :
# Le coefficient de cette variable est : -0.0084. Ce coefficient est faible, en valeur absolue, et relativement aux autres coefficients : il semblerait donc que cette variable explique peu la consommation d'énergie
# Son signe est négatif , il semblerait donc qu'augmenter le taux de logements vacants dans une commune fasse diminuer la consommation totale d'énergie.
# Sa p-value étant de 0.133 , il semblerait que cette variable ne soit pas significative, même au seuil de 10%.

## nombre_entreprises :
# Le coefficient de cette variable est : 0.0199 Ce coefficient est faible, en valeur absolue, et relativement aux autres coefficients : il semblerait donc que cette variable explique peu la consommation d'énergie
# Son signe est positif , il semblerait donc qu'augmenter le nombre d'entreprises dans une commune fasse augmenter la consommation totale d'énergie.
# Sa p-value étant de 0.237 , il semblerait que cette variable ne soit pas significative, même au seuil de 10%

## niveau_de_vie :
# Le coefficient de cette variable est : -0.0090. Ce coefficient est faible, en valeur absolue, et relativement aux autres coefficients : il semblerait donc que cette variable explique peu la consommation d'énergie
# Son signe est negatif , il semblerait donc qu'augmenter le niveau de vie dans une commune fasse diminuer la consommation totale d'énergie.
# Sa p-value étant de 0.121 , il semblerait que cette variable ne soit pas significative, même au seuil de 10%

## population :
# Le coefficient de cette variable est : 0.5185. Ce coefficient est élevé, en valeur absolue, et relativement aux autres coefficients : il semblerait donc que cette variable explique beaucoup la consommation d'énergie
# Son signe est positif , il semblerait donc qu'augmenter la population dans une commune fasse augmenter la consommation totale d'énergie.
# Sa p-value étant de 0.000 , il semblerait que cette variable soit significative, même au seuil de 1%

## tmoy :
# Le coefficient de cette variable est : 0.0148. Ce coefficient est faible, en valeur absolue, et relativement aux autres coefficients : il semblerait donc que cette variable explique peu la consommation d'énergie
# Son signe est positif , il semblerait donc qu'augmenter la température moyenne dans un département fasse augmenter la consommation totale d'énergie des communes.
# Sa p-value étant de 0.005 , il semblerait que cette variable soit significative, même au seuil de 1%

## taux_deplacement_domicile_travail :
# Le coefficient de cette variable est : 0.0800. Ce coefficient est faible, en valeur absolue, et relativement aux autres coefficients : il semblerait donc que cette variable explique peu la consommation d'énergie
# Son signe est poisitif , il semblerait donc qu'augmenter le taux de déplacements domicile-travail en transports en commun dans une commune fasse augmenter la consommation totale d'énergie
# Sa p-value étant de 0.000 , il semblerait que cette variable soit significative, même au seuil de 1%


# Pour conclure sur l'analyse des coefficients de ce modèle, on observe des signes de coefficients qui vont à l'encontre de nos hypothèses : 
# Nous avions supposé que les relations entre le taux de logements vacants, ainsi que le niveau de vie, avec la consommation d'energie était positives. La régression semble nous indiquer le contraire.
# Parallèlement, Nous avions supposé une relation négative entre la température moyenne et la consommation d'energie. Encore une fois, la régression semble nous indiquer le contraire.

### Évaluation de la qualité de prédiction du modèle

In [None]:
# Maintenant qu'on a interprété les coefficients, on revient à des données non standardisées :

In [None]:
from sklearn.model_selection import train_test_split

# Séparation en variables indépendantes (X) et variable dépendante (y)
X = table_donnees.drop(['code_commune','libelle_commune','consototale','grp_tmp'], axis=1)
y = table_donnees['consototale']

# Division des données en ensemble d'entraînement (train set) et ensemble de test (test set)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# "test_size" détermine la proportion d'observations à inclure dans l'ensemble de test (ici, 20%)
# "random_state" est utilisé pour garantir la reproductibilité des résultats, on peut choisir n'importe quel nombre

# Affichage des dimensions des ensembles d'entraînement et de test
print("Dimensions de l'ensemble d'entraînement (X_train, y_train):", X_train.shape, y_train.shape)
print("Dimensions de l'ensemble de test (X_test, y_test):", X_test.shape, y_test.shape)

# Ajouter une constante à la matrice des caractéristiques (X) pour le terme d'interception
X_train = sm.add_constant(X_train)
X_test = sm.add_constant(X_test)

# Création d'un modèle de régression linéaire avec statsmodels
modele_regression = sm.OLS(y_train, X_train).fit()

modele_regression.summary()


In [None]:
# Evaluation du modèle

In [None]:
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker 

# Prédictions sur l'ensemble de test
predictions = modele_regression.predict(X_test)

# Évaluation du modèle
mse = mean_squared_error(y_test, predictions)
r2 = r2_score(y_test, predictions)

print("Mean Squared Error (MSE):", mse)
print("R-squared (R2):", r2)

In [None]:
# On observe un R2 relativement faible => qualité prédictive de notre modèle est mauvaise mais on peut chercher à l'améliorer

### Visualisation

In [None]:
# Création d'une disposition de sous-tracés 1x3
plt.figure(figsize=(15, 5))

plt.subplot(131)
plt.scatter(y_test, predictions, label='Prédictions')
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], '--k', label='y=x', linewidth=2)
plt.xlabel("Vraies valeurs")
plt.ylabel("Prédictions")
plt.legend()

plt.subplot(132)
plt.scatter(y_test, predictions, label='Prédictions')
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], '--k', label='y=x', linewidth=2)
plt.xlabel("Vraies valeurs")
plt.ylabel("Prédictions")
plt.xlim(-30000, 500000)
plt.ylim(-30000, 500000)
plt.legend()

plt.subplot(133)
plt.scatter(y_test, predictions, label='Prédictions')
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], '--k', label='y=x', linewidth=2)
plt.xlabel("Vraies valeurs")
plt.ylabel("Prédictions")
plt.xlim(-10000, 200000)
plt.ylim(-10000, 200000)
plt.legend()

plt.gca().xaxis.set_major_locator(ticker.MaxNLocator(nbins=6))
plt.gca().yaxis.set_major_locator(ticker.MaxNLocator(nbins=6))


# Affichage des sous-tracés
plt.tight_layout()
plt.show()

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Prédictions sur la base de test standardisée
predictions_test = modele_regression.predict(X_test)

# Calcul des résidus
residus = y_test - predictions_test

# Création d'une figure avec deux sous-graphiques
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(8, 8))

# Histogramme des résidus
axes[0].hist(residus, bins=100, edgecolor='black')
axes[0].set_title('Histogramme des Résidus')
axes[0].set_xlabel('Résidus')
axes[0].set_ylabel('Fréquence')

# Courbe de densité des résidus
sns.kdeplot(residus, fill=True, ax=axes[1])
axes[1].set_title('Courbe de Densité des Résidus')
axes[1].set_xlabel('Résidus')
axes[1].set_ylabel('Densité')

# Ajustement de l'espace entre les sous-graphiques
plt.tight_layout()

# Affichage du graphique
plt.show()


### Évaluation des hypothèses du modèle

In [None]:
import numpy as np

# Calcul des résidus
residus = y_test - predictions

# Statistiques descriptives sur les résidus
mean_residus = np.mean(residus)
median_residus = np.median(residus)
std_dev_residus = np.std(residus)
min_residus = np.min(residus)
max_residus = np.max(residus)

# Affichage des statistiques descriptives
print(f"Moyenne des résidus : {mean_residus}")
print(f"Médiane des résidus : {median_residus}")
print(f"Écart-type des résidus : {std_dev_residus}")
print(f"Minimum des résidus : {min_residus}")
print(f"Maximum des résidus : {max_residus}")

In [None]:
# Interpréter les statistiques descriptives des résidus peut fournir des informations importantes sur la qualité de votre modèle de régression. Voici comment interpréter certaines de ces informations :

    #Moyenne des résidus :
        #Si la moyenne des résidus est proche de zéro, cela suggère que le modèle ne présente pas de biais systématique. Cependant, il est toujours important d'examiner d'autres aspects.

    #Médiane des résidus :
        #La médiane peut être moins sensible aux valeurs aberrantes que la moyenne. Une médiane proche de zéro indique également une absence de biais systématique.

    #Écart-type des résidus :
        #L'écart-type des résidus mesure la dispersion des résidus autour de la moyenne. Une valeur faible suggère que les résidus sont généralement proches de la moyenne, ce qui est souhaitable. Une valeur élevée peut indiquer une grande variabilité des erreurs de prédiction.

    #Minimum et maximum des résidus :
        #Examiner le minimum et le maximum des résidus peut vous aider à identifier les valeurs aberrantes ou les observations qui ont une influence disproportionnée sur votre modèle. Si vous avez des valeurs extrêmement élevées ou basses, cela pourrait indiquer des problèmes.

#En résumé, des résidus centrés autour de zéro avec une dispersion modérée, et sans valeurs aberrantes évidentes, indiquent généralement un bon ajustement du modèle. Cependant, n'oubliez pas que l'interprétation dépend du contexte spécifique de votre analyse et des exigences de votre problème.

In [None]:
# La visualisation de la prédiction nous laisse de fortes raisons de croire que certaines hypothèse de régression linéaire ne sont pas validé. On le vérifie par des tests 

In [None]:
import numpy as np
import statsmodels.api as sm
from scipy.stats import shapiro, bartlett, anderson
from statsmodels.stats.stattools import durbin_watson

# Supposons que vous ayez déjà ajusté votre modèle de régression et obtenu les résidus (residus)
# modele_regression = sm.OLS(y, X).fit()
# residus = modele_regression.resid

# Test de normalité (Shapiro-Wilk)
stat_shapiro, p_shapiro = shapiro(residus)
print(f"Test de normalité (Shapiro-Wilk): Statistique={stat_shapiro}, p-value={p_shapiro}")

# Test d'indépendance (Durbin-Watson)
stat_dw = durbin_watson(residus)
print(f"Test d'indépendance (Durbin-Watson): Statistique={stat_dw}")

# Test d'homoscédasticité (Bartlett)
# Note : Le test de Bartlett teste l'homoscédasticité en supposant que les échantillons suivent une distribution normale.
# Si vos résidus ne suivent pas une distribution normale, utilisez le test de Levene.
stat_bartlett, p_bartlett = bartlett(residus, np.arange(len(residus)))
print(f"Test d'homoscédasticité (Bartlett): Statistique={stat_bartlett}, p-value={p_bartlett}")

In [None]:
#Test de normalité (Shapiro-Wilk) : la p-value étant de 0.0, on rejette l'hypothèse nulle. Ainsi, les résidus ne suivent pas une distribution normale.

#Test d'indépendance (Durbin-Watson) : La statistique de Durbin - Watson est très proche de 2, on suppose une très faible autocorrélation des résidus

#Test d'homoscédasticité (Bartlett ou Levene) : la p-value étant de 0.0, on rejette l'hypothèse nulle. Ainsi, les résidus sont hétéroscédastiques.

## 2ème idée : comparer une batterie de modèles

In [None]:
%pip install statsmodels
%pip install ipywidgets

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error
from sklearn.tree import DecisionTreeRegressor
from sklearn.neural_network import MLPRegressor
from itertools import combinations
import pandas as pd
import numpy as np
import statsmodels.api as sm
import seaborn as sns
import matplotlib.pyplot as plt
from IPython.display import display

In [None]:
table_donnees_pred=table_donnees.drop(['code_commune', 'libelle_commune', 'grp_tmp'],axis=1)

# Séparation des variables indépendantes et dépendantes
y = table_donnees_pred['consototale']
X = table_donnees_pred.drop(['consototale'], axis=1)

# Séparation en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Dictionnaire pour stocker les erreurs des modèles
model_errors = {}

# Modèles à tester
models = {
    "Linear Regression": LinearRegression(),
    "Ridge Regression": Ridge(),
    "Lasso Regression": Lasso(),
    "Decision Tree": DecisionTreeRegressor(),
    "Random Forest": RandomForestRegressor(),
    "Gradient Boosting": GradientBoostingRegressor(),
    "Support Vector Regression": SVR(),
    "Neural Network": MLPRegressor(max_iter=1000)  # Augmentation du nombre d'itérations pour une meilleure convergence
}

# Entraînement et évaluation de chaque modèle
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)
    model_errors[name] = mse
    print(f"{name}: MSE = {mse}")

# Trouver le modèle avec l'erreur la plus faible
best_model = min(model_errors, key=model_errors.get)
print(f"\nMeilleur modèle: {best_model} avec une MSE de {model_errors[best_model]}")



## 3ème idée : retour sur les régressions linéaires pour l'interprétabilité

### Méthode exhaustive de sélection de variables

In [None]:
# Transformation des données pour différentes combinaisons
def transform_data(df, transformation):
    transformed_df = df.copy()
    for col in df.columns:
        # Vérifier si la colonne est numérique avant d'appliquer une transformation
        if pd.api.types.is_numeric_dtype(df[col]):
            if transformation == "log" and df[col].min() > 0:
                transformed_df[col] = np.log(df[col])
            elif transformation == "squared":
                transformed_df[col] = np.square(df[col])
    return transformed_df

# Sélection exhaustive des variables pour la régression linéaire avec enregistrement de tous les modèles
def best_feature_combination(table_donnees, target_column):
    best_aic = float('inf')
    best_bic = float('inf')
    best_combination = None
    best_transformation = None
    features = [col for col in table_donnees.columns if col != target_column]
    all_models = []  # Liste pour stocker les informations de tous les modèles

    for transformation in ["log", "squared", "none"]:
        transformed_table = transform_data(table_donnees, transformation) if transformation != "none" else table_donnees

        for L in range(1, len(features) + 1):
            for subset in combinations(features, L):
                X = transformed_table[list(subset)]
                y = transformed_table[target_column]
                X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

                model = sm.OLS(y_train, sm.add_constant(X_train)).fit()
                aic = model.aic
                bic = model.bic

                # Ajouter les informations du modèle actuel à all_models
                all_models.append({
                    "features": subset,
                    "transformation": transformation,
                    "aic": aic,
                    "bic": bic
                })

                if aic < best_aic and bic < best_bic:
                    best_aic = aic
                    best_bic = bic
                    best_combination = subset
                    best_transformation = transformation

    return best_combination, best_transformation, best_aic, best_bic, all_models

best_features, best_transformation, best_aic, best_bic, all_models = best_feature_combination(table_donnees_pred, 'consototale')

# Affichage des meilleurs résultats
print(f"Meilleures caractéristiques: {best_features}")
print(f"Meilleure transformation: {best_transformation}")
print(f"Meilleur AIC: {best_aic}")
print(f"Meilleur BIC: {best_bic}")

# Affichage de tous les modèles testés
for model in all_models:
    print(f"Caractéristiques: {model['features']}, Transformation: {model['transformation']}, AIC: {model['aic']}, BIC: {model['bic']}")



### Stats descriptives des variables identifiées

In [None]:
# Configuration des graphiques
sns.set(style="whitegrid")

# Histogrammes
plt.figure(figsize=(15, 6))
for i, col in enumerate(['nombre_entreprises', 'niveau_de_vie', 'population', '']):
    plt.subplot(1, 3, i+1)
    sns.histplot(table_donnees_pred[col], kde=True)
    plt.title(f'Histogramme de {col}')
plt.tight_layout()
plt.show()

# Diagrammes de dispersion
plt.figure(figsize=(15, 6))
for i, col in enumerate(['nombre_entreprises', 'niveau_de_vie', 'population']):
    plt.subplot(1, 3, i+1)
    sns.scatterplot(data=table_donnees_pred, x=col, y='consototale')
    plt.title(f'{col} vs consototale')
plt.tight_layout()
plt.show()

# Heatmap de corrélation
plt.figure(figsize=(10, 6))
sns.heatmap(table_donnees_pred.corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Matrice de corrélation')
plt.show()



### Entrainement du modèle sélectionné

In [None]:
import warnings
import pandas as pd
import numpy as np
import statsmodels.api as sm
from sklearn.model_selection import train_test_split
from IPython.display import display, Latex, HTML


# Ignorer les avertissements pour une sortie propre
warnings.filterwarnings('ignore')

# Fonction pour transformer les données
def transform_data(df, transformation):
    transformed_df = df.copy()
    for col in df.columns:
        if pd.api.types.is_numeric_dtype(df[col]):
            if transformation == "log" and df[col].min() > 0:
                transformed_df[col] = np.log(df[col])
            elif transformation == "squared":
                transformed_df[col] = np.square(df[col])
    return transformed_df

# Transformation des données
transformed_data = transform_data(table_donnees_pred, 'log')

# Sélectionner les meilleures caractéristiques pour le modèle
X = transformed_data[['nombre_entreprises', 'niveau_de_vie', 'population']]
y = transformed_data['consototale']

# Entraînement du modèle de régression linéaire
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = sm.OLS(y_train, sm.add_constant(X_train)).fit()

# Récupération des coefficients
coefficients = model.params
intercept = coefficients[0]
coef = coefficients[1:]

# Formatage de l'équation de régression pour l'affichage en LaTeX
model_eq = r"$$\text{consototale} = "
model_eq += f"{intercept:.2f} "
for var, beta in zip(['nombre_entreprises', 'niveau_de_vie', 'population'], coef):
    sign = '+' if beta >= 0 else ''
    model_eq += f" {sign} {beta:.2f} \log({var}) "
model_eq += r"$$"

print("Modèle de régression linéaire :")
display(Latex(model_eq))



### Visualisation

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Préparation des données avec la meilleure combinaison et transformation
transformed_table = transform_data(table_donnees, best_transformation)
X = transformed_table[list(best_features)]
y = transformed_table['consototale']

# Séparation en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entraînement du modèle
model = sm.OLS(y_train, sm.add_constant(X_train)).fit()

# Affichage des résultats du modèle
print(model.summary())

# Prédiction sur l'ensemble de test
y_pred = model.predict(sm.add_constant(X_test))

# Visualisation des résidus
residuals = y_test - y_pred
plt.figure(figsize=(10, 6))
sns.residplot(x=y_pred, y=residuals, lowess=True, line_kws={'color': 'red', 'lw': 1})
plt.title('Résidus vs Valeurs Prédites')
plt.xlabel('Valeurs Prédites')
plt.ylabel('Résidus')
plt.show()

# Diagramme de dispersion pour montrer les prédictions par rapport aux valeurs réelles
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=2)  # ligne de référence
plt.title('Valeurs Réelles vs Prédites')
plt.xlabel('Valeurs Réelles')
plt.ylabel('Valeurs Prédites')
plt.show()


### Une petite application de prédiction

#### Application textuelle

In [None]:
def predict_consototale(population, niveau_de_vie, nombre_entreprises, model):
    # Transformation des entrées
    log_population = np.log(population)
    log_niveau_de_vie = np.log(niveau_de_vie)
    log_nombre_entreprises = np.log(nombre_entreprises)
    
    # Préparation des données pour la prédiction
    X_pred = np.array([[1, log_nombre_entreprises, log_niveau_de_vie, log_population]])  # Ajoutez '1' pour la constante
    
    # Prédiction en utilisant le modèle
    prediction = model.predict(X_pred)[0]
    return prediction

# Assurez-vous que 'model' est votre modèle entraîné
# model = ...

# Demande de saisie des valeurs à l'utilisateur
population = float(input("Entrez la population: "))
niveau_de_vie = float(input("Entrez le niveau de vie: "))
nombre_entreprises = float(input("Entrez le nombre d'entreprises: "))

# Prédiction de la consototale
consototale_estimee = predict_consototale(population, niveau_de_vie, nombre_entreprises, model)

print(f"La consototale estimée est : {consototale_estimee:.1f}")



#### Widget

In [None]:
import ipywidgets as widgets

def predict_consototale(population, niveau_de_vie, nombre_entreprises, model):
    log_population = np.log(population)
    log_niveau_de_vie = np.log(niveau_de_vie)
    log_nombre_entreprises = np.log(nombre_entreprises)
    X_pred = np.array([[1, log_nombre_entreprises, log_niveau_de_vie, log_population]])
    prediction = model.predict(X_pred)[0]
    return prediction

def on_predict(b):
    try:
        population = float(population_input.value)
        niveau_de_vie = float(niveau_de_vie_input.value)
        nombre_entreprises = float(nombre_entreprises_input.value)
        consototale_estimee = predict_consototale(population, niveau_de_vie, nombre_entreprises, model)
        output.clear_output()
        with output:
            print(f"La consototale estimée est : {consototale_estimee}")
    except ValueError as e:
        output.clear_output()
        with output:
            print("Erreur : Veuillez entrer des valeurs numériques valides.")

population_input = widgets.FloatText(value=0, description='Population:')
niveau_de_vie_input = widgets.FloatText(value=0, description='Niv de vie:')
nombre_entreprises_input = widgets.FloatText(value=0, description='Nb Etp:')

predict_button = widgets.Button(description="Prédire")
predict_button.on_click(on_predict)

output = widgets.Output()

display(population_input, niveau_de_vie_input, nombre_entreprises_input, predict_button, output)


# 5. Synthèse et Recommandations

## Conclusions Clés 

## Recommandations