# 1. Définition du Problème et Objectifs

## Contexte et Pertinence 

Dans un contexte mondial où la gestion efficace de l'énergie est devenue une priorité cruciale, notre projet vise à analyser la consommation d'énergie par département dans différents secteurs en France. L'objectif est de fournir une compréhension approfondie des modèles de consommation énergétique, qui est essentielle pour orienter les politiques énergétiques, promouvoir la durabilité et optimiser les ressources. Ce projet est particulièrement pertinent étant donné les défis actuels liés au changement climatique et à la transition énergétique. En examinant les données de consommation énergétique à l'échelle des communes, nous pouvons identifier des tendances spécifiques, des anomalies et des opportunités d'amélioration. Cela permettra aux décideurs, aux entreprises et aux consommateurs de prendre des mesures éclairées pour réduire la consommation d'énergie, améliorer l'efficacité énergétique et favoriser l'adoption d'énergies renouvelables. En outre, ce projet contribue à une meilleure compréhension des disparités régionales en matière de consommation d'énergie, offrant ainsi une perspective précieuse pour des interventions ciblées et personnalisées.  

## Objectifs du Projet

Notre projet, au cœur de l'intersection entre technologie, environnement et société, se fixe des objectifs ambitieux et significatifs :

**Cartographie de la Consommation Énergétique :** Notre premier objectif est de dresser une carte précise de la consommation d'énergie dans les différents départements français. En mettant en lumière ces données, nous souhaitons offrir une vision claire et détaillée de la répartition énergétique sur le territoire.

**Identification des Tendances et Anomalies :** Nous visons à décrypter les tendances sous-jacentes et à détecter d'éventuelles anomalies dans les habitudes de consommation énergétique. Cela permettra de comprendre les pratiques énergétiques actuelles et d'identifier les zones à haut potentiel d'amélioration.

**Analyse Comparative par Secteur :** Un autre objectif crucial est de comparer la consommation énergétique entre différents secteurs (résidentiel, industriel, commercial, etc.). Cela aidera à cerner les secteurs les plus énergivores et à envisager des stratégies d'optimisation.

**Prédiction des Tendances Futures :** Nous ambitionnons de développer des modèles prédictifs pour anticiper les évolutions futures de la consommation d'énergie. Ces prévisions seront essentielles pour planifier des stratégies énergétiques à long terme.

**Contribution à la Durabilité :** En offrant une compréhension approfondie de la consommation d'énergie, le projet aspire à contribuer activement à des initiatives de développement durable. Les insights générés pourraient inspirer des actions concrètes pour réduire l'empreinte énergétique.

**Support aux Décisions Politiques et Commerciales :** Fournir des données et des analyses fiables pour éclairer les décisions politiques et commerciales en matière de gestion de l'énergie. Cela inclut la recommandation de politiques efficaces et la sensibilisation aux meilleures pratiques en matière de consommation énergétique.

**Sensibilisation et Éducation :** Enfin, nous souhaitons utiliser nos résultats pour sensibiliser le public et les décideurs aux enjeux de la consommation d'énergie. L'objectif est de promouvoir une culture de consommation énergétique responsable et informée.

## Aspects techniques

### Packages

In [1]:
# Installation des packages

!pip install -q lxml
!pip install webdriver-manager
!pip install BeautifulSoup4
!pip install pandas fiona shapely pyproj rtree # à faire obligatoirement en premier pour utiliser rtree ou pygeos pour les jointures spatiales
!pip install contextily
!pip install geopandas
!pip install pygeos
!pip install topojson
!pip install seaborn

import requests
import re
import bs4
import lxml
import pandas as pd
import urllib
import seaborn

from urllib import request



### URL

In [2]:
url_1 = "https://odre.opendatasoft.com/explore/embed/dataset/conso-departement-annuelle/table/?disjunctive.libelle_departement&disjunctive.libelle_region&disjunctive.e_operateurs&disjunctive.g_operateurs&refine.annee=2021&dataChart=eyJxdWVyaWVzIjpbeyJjaGFydHMiOlt7InR5cGUiOiJjb2x1bW4iLCJmdW5jIjoiQVZHIiwieUF4aXMiOiJjb25zb3RvdGFsZSIsInNjaWVudGlmaWNEaXNwbGF5Ijp0cnVlLCJjb2xvciI6IiM2NmMyYTUifV0sInhBeGlzIjoibGliZWxsZV9kZXBhcnRlbWVudCIsIm1heHBvaW50cyI6NTAsInNvcnQiOiIiLCJjb25maWciOnsiZGF0YXNldCI6ImNvbnNvLWRlcGFydGVtZW50LWFubnVlbGxlIiwib3B0aW9ucyI6eyJkaXNqdW5jdGl2ZS5saWJlbGxlX2RlcGFydGVtZW50Ijp0cnVlLCJkaXNqdW5jdGl2ZS5saWJlbGxlX3JlZ2lvbiI6dHJ1ZSwiZGlzanVuY3RpdmUuZV9vcGVyYXRldXJzIjp0cnVlLCJkaXNqdW5jdGl2ZS5nX29wZXJhdGV1cnMiOnRydWUsInJlZmluZS5hbm5lZSI6IjIwMjEifX19XSwidGltZXNjYWxlIjoiIiwiZGlzcGxheUxlZ2VuZCI6dHJ1ZSwiYWxpZ25Nb250aCI6dHJ1ZX0%3D&location=3,17.56025,53.4375&basemap=jawg.light"
url_2 = "https://www.insee.fr/fr/statistiques/6436484?sommaire=6036904#tableau-figure1_radio1"
url_3 = "https://odre.opendatasoft.com/explore/dataset/temperature-quotidienne-departementale/information/?disjunctive.departement"
url_4 = "https://www.insee.fr/fr/statistiques/6436484?sommaire=6036904#tableau-figure1_radio1"
url_5 = "https://www.observatoire-des-territoires.gouv.fr/outils/cartographie-interactive/#bbox=-1052198,6661338,2597056,1619174&c=indicator&i=insee_rp_hist_1968.part_logt_vacant&s=2020&view=map9"
url_6 = "https://ufe-electricite.fr/watt-the-carte/deploiement-bornes-de-recharge-en-france/dans-les-territoires/"
url_7 = "https://www.carburants.org/borne-electrique/departements/"
url_8 : "https://www.observatoire-des-territoires.gouv.fr/nombre-dentreprises-par-secteurs-dactivite"

# 2. Collecte et Exploration des Données (Communes)

## Sources de Données

### Bases de données pre-existantes

##### Consommation totale d'énergie par commune

In [2]:
table_conso_com = pd.read_csv('conso_energie.csv',sep=';')
table_conso_com.head()

# Affichage de la table
table_conso_com.head()

  table_conso_com = pd.read_csv('conso_energie.csv',sep=';')


Unnamed: 0,operateur,annee,filiere,consoa,pdla,nombre_maille_secretisees_a,indquala,consoi,pdli,nombre_maille_secretisees_i,...,libelle_commune,code_epci,libelle_epci,code_departement,libelle_departement,code_region,libelle_region,id_filiere,consototale,code_postal
0,GRDF,2021,Gaz,0.0,0,0,0.0,0.0,0,1,...,Armeau,248900334,CA du Grand Sénonais,89,Yonne,27.0,Bourgogne-Franche-Comté,200.0,2317.51553,89500
1,GRDF,2021,Gaz,0.0,0,0,0.0,0.0,0,1,...,Branches,200067114,CA de l'Auxerrois,89,Yonne,27.0,Bourgogne-Franche-Comté,200.0,1905.29787,89113
2,GRDF,2021,Gaz,0.0,0,0,0.0,1895.35634,9,0,...,Brienon-sur-Armançon,200067304,CC Serein et Armance,89,Yonne,27.0,Bourgogne-Franche-Comté,200.0,16756.07274,89210/89210
3,GRDF,2021,Gaz,0.0,0,0,0.0,0.0,0,0,...,Brion,248900938,CC du Jovinien,89,Yonne,27.0,Bourgogne-Franche-Comté,200.0,1696.1567,89400
4,GRDF,2021,Gaz,0.0,0,1,0.0,0.0,0,0,...,La Celle-Saint-Cyr,248900938,CC du Jovinien,89,Yonne,27.0,Bourgogne-Franche-Comté,200.0,4395.90677,89116


##### Logements vacants par commune

In [3]:
# url = https://www.data.gouv.fr/fr/datasets/niveau-de-vie-des-francais-par-commune/
table_logements_vacants_com = pd.read_csv('logement_vacants_com.csv', sep=';', encoding='ISO-8859-1')
table_logements_vacants_com

  table_logements_vacants_com = pd.read_csv('logement_vacants_com.csv', sep=';', encoding='ISO-8859-1')


Unnamed: 0,codgeo,libgeo,an,part_logt_vacant
0,1001,L'Abergement-Clémenciat,1968,155
1,1001,L'Abergement-Clémenciat,1975,126
2,1001,L'Abergement-Clémenciat,1982,91
3,1001,L'Abergement-Clémenciat,1990,46
4,1001,L'Abergement-Clémenciat,1999,31
...,...,...,...,...
279555,97617,Tsingoni,1990,
279556,97617,Tsingoni,1999,
279557,97617,Tsingoni,2009,
279558,97617,Tsingoni,2014,


##### Nombre d'entreprises par commune

In [4]:
# url = https://www.observatoire-des-territoires.gouv.fr/outils/cartographie-interactive/#c=indicator&f=TOT&i=demo_ent_sect.ent_tot&s=2021&view=map59
table_nb_entr_com = pd.read_csv('table_nb_entr_com.csv',sep=';')
table_nb_entr_com.head()

Unnamed: 0,Code,Libellé,Nombre d'entreprises par secteurs d'activité 2021,Nombre d'entreprises par secteurs d'activité 2021.1
0,1001,L'Abergement-Clémenciat,41,2
1,1002,L'Abergement-de-Varey,18,3
2,1004,Ambérieu-en-Bugey,1097,54
3,1005,Ambérieux-en-Dombes,133,12
4,1006,Ambléon,7,0


##### Niveau de vie par commune

In [5]:
# url = https://www.observatoire-des-territoires.gouv.fr/outils/cartographie-interactive/#c=indicator&i=filosofi.med_disp&s=2020&view=map59
table_niveau_vie_com = pd.read_csv('niveau_vie_com.csv',sep=';')
table_niveau_vie_com.head()

Unnamed: 0,Code,Libellé,Médiane du revenu disponible par UC 2020
0,1001,L'Abergement-Clémenciat,24820
1,1002,L'Abergement-de-Varey,23220
2,1004,Ambérieu-en-Bugey,21070
3,1005,Ambérieux-en-Dombes,24380
4,1006,Ambléon,N/A - résultat non disponible


##### Taux de déplacement domicile-travail en transport en commun

In [6]:
# url = https://www.observatoire-des-territoires.gouv.fr/outils/cartographie-interactive/#bbox=-645836,6062176,1794690,1016154&c=indicator&i=insee_rp_hist_xxxx.part_domtrav_voit&s=2020&view=map59

table_dep_domtrav_tc = pd.read_csv('dep_domtrav_tc.csv', sep=';', encoding='ISO-8859-1')
table_dep_domtrav_tc

Unnamed: 0,codgeo,libgeo,an,part_domtrav_tc
0,1001,L'Abergement-Clémenciat,2009,12
1,1001,L'Abergement-Clémenciat,2014,41
2,1001,L'Abergement-Clémenciat,2020,11
3,1002,L'Abergement-de-Varey,2009,77
4,1002,L'Abergement-de-Varey,2014,48
...,...,...,...,...
104830,97616,Sada,2014,
104831,97616,Sada,2020,
104832,97617,Tsingoni,2009,
104833,97617,Tsingoni,2014,


### Bases de données webscrappées

##### Population par commune

In [7]:
from urllib import request
from bs4 import BeautifulSoup

url_communes = "https://fr.wikipedia.org/wiki/Listes_des_communes_de_France"
text_communes = request.urlopen(url_communes).read().decode('utf-8')
page_communes = BeautifulSoup(text_communes, 'html.parser')
tableau_communes = page_communes.find('table', {'class': 'wikitable'})
tableau_communes = tableau_communes.find('tbody')
lignes_communes = tableau_communes.find_all('tr')
lignes_communes = lignes_communes[:-13]

# Liste pour stocker les contenus après "a href"
liste_url_communes = []

# Parcourir chaque ligne dans lignes_communes
for ligne in lignes_communes:
    # Trouver toutes les balises <td> dans la ligne
    td_tags = ligne.find_all('td')

    if len(td_tags) >= 3:
        if td_tags[-3].text.strip() != '75':
            derniere_td = td_tags[-1]
            a_tag = derniere_td.find('a')
            if a_tag:
                contenu_apres_href = a_tag.get('href')
                liste_url_communes.append(contenu_apres_href)

dico_communes = {}
liste_code_communes = []

for url in liste_url_communes:
    text = request.urlopen("https://fr.wikipedia.org" + url).read().decode('utf-8')
    page = BeautifulSoup(text, 'html.parser')  # Utilisez html.parser au lieu de lxml
    tableau = page.find('table', {'class': 'wikitable sortable titre-en-couleur'})
    tableau = tableau.find('tbody')
    lignes = tableau.find_all('tr')
    lignes.pop(0)
    lignes.pop(-1)

    for ligne in lignes:
        donnees = ligne.find_all('td')
        code_insee = donnees[1].text.strip()
        liste_code_communes.append(code_insee)
        pop_commune = donnees[-3].text.strip()
        dico_communes[code_insee] = pop_commune

table_pop_com = pd.DataFrame.from_dict(dico_communes,orient='index').reset_index()
table_pop_com = table_pop_com.rename(columns={'index':'Code commune'}) 
table_pop_com

Unnamed: 0,Code commune,0
0,01053,41 681 (2020)
1,01001,806 (2020)
2,01002,262 (2020)
3,01004,14 288 (2020)
4,01005,1 782 (2020)
...,...,...
34807,84147,3 295 (2020)
34808,84148,1 273 (2020)
34809,84149,1 727 (2020)
34810,84150,1 929 (2020)


### Récupération de données via API

##### Température par commune

In [8]:
# Dictionnaire pour stocker les moyennes de température par commune
#dico_temp_communes = {}

#root_api = "https://public.opendatasoft.com"

# Boucle sur chaque codegeo
#for codegeo in liste_code_communes:
    # Construire l'URL avec le codegeo actuel
    #url = f"{root_api}/api/explore/v2.1/catalog/datasets/donnees-synop-essentielles-omm/records?select=codegeo%2C%20tc%2C%20latitude%2C%20longitude&where=codegeo%3D%22{codegeo}%22&limit=99"

    # Récupérer les données depuis l'API
    #req = requests.get(url)
    #temp = req.json()
    #results = temp.get('results', [])
    
    # Créer un DataFrame avec les résultats
    #df = pd.DataFrame(results)
    
    # Vérifier si la colonne 'tc' existe dans le DataFrame
    #if 'tc' in df.columns:
        # Calculer la moyenne de la colonne 'tc'
        #moyenne = round(df['tc'].mean(), 2)
        
        # Ajouter la moyenne au dictionnaire avec le codegeo comme clé
        #dico_temp_communes[codegeo] = moyenne
    # else:
        # print(f"La colonne 'tc' est absente pour le codegeo {codegeo}")

# Afficher le dictionnaire final
# print(dico_temp_communes)

In [9]:
#import requests
#import pandas as pd
#from concurrent.futures import ThreadPoolExecutor

# Initialisation d'une session de requêtes
#session = requests.Session()

#def fetch_data(codegeo):
    #url = f"{root_api}/api/explore/v2.1/catalog/datasets/donnees-synop-essentielles-omm/records?select=codegeo%2C%20tc%2C%20latitude%2C%20longitude&where=codegeo%3D%22{codegeo}%22&limit=99"
    #try:
        #response = session.get(url)
        #response.raise_for_status()
        #data = response.json()
        #return data.get('results', [])
    #except requests.RequestException as e:
        #print(f"Erreur lors de la récupération des données pour {codegeo}: {e}")
        #return []

# Traitement des données en parallèle
#with ThreadPoolExecutor(max_workers=10) as executor:
    #results = executor.map(fetch_data, liste_code_communes)

# Traitement des résultats
#all_data = []
#for result in results:
    #all_data.extend(result)

# Création d'un DataFrame unique
#df = pd.DataFrame(all_data)

# Calcul des moyennes
#if 'tc' in df.columns:
    #dico_temp_communes = df.groupby('codegeo')['tc'].mean().round(2).to_dict()

# Afficher le dictionnaire final
# print(dico_temp_communes)


On se rend compte qu'on a plein de données manquantes. Pour lutter contre ce problème on associe à chaque commune la température du département, en faisant l'hypothèse que la température est assez homogène dans un département.

In [8]:
# URL de base et structure de l'URL de l'API
root_api = "https://odre.opendatasoft.com"
base_url = "/api/explore/v2.1/catalog/datasets/temperature-quotidienne-departementale/records"
base_query = "?select=date_obs%2Ccode_insee_departement%2Cdepartement%2Ctmoy&order_by=code_insee_departement&limit=99&refine=date_obs%3A%222021%22"

# Collecte des données pour chaque mois
df_list = []
for i in range(1, 13):
    date_str = f"2021-{i:02d}-01"
    url_api = f"{root_api}{base_url}{base_query}&where=date_obs%3Ddate'{date_str}'"
    req = requests.get(url_api)
    temp = req.json()
    results = temp.get('results', [])
    df = pd.DataFrame(results)
    if not df.empty:
        df = df[['date_obs', 'code_insee_departement', 'departement','tmoy']]
        df_list.append(df)

# Fusionner tous les DataFrames en un seul
df_final = pd.concat(df_list)

# Calcul de la moyenne des températures par code et nom de département
table_temperatures = df_final.groupby(['code_insee_departement', 'departement'])['tmoy'].mean().reset_index()

# Affichage du DataFrame final
table_temperatures.head()

# Création d'un DataFrame à partir de la liste des codes INSEE
data_communes = {'code_commune': liste_code_communes}
df_communes = pd.DataFrame(data_communes)

# Exécution d'une jointure entre les deux DataFrames
table_temperatures_com = pd.merge(df_communes, table_temperatures, left_on=df_communes['code_commune'].str[:2], right_on=table_temperatures['code_insee_departement'])

# Afficher le résultat
table_temperatures_com[['code_commune', 'tmoy']]


Unnamed: 0,code_commune,tmoy
0,01053,11.875000
1,01001,11.875000
2,01002,11.875000
3,01004,11.875000
4,01005,11.875000
...,...,...
34808,84147,14.166667
34809,84148,14.166667
34810,84149,14.166667
34811,84150,14.166667


### Fusion des bases de données

##### Visualisation des dataframe a fusionner

In [9]:
# Sélection des colonnes nécessaires
df_filtered = table_conso_com[['annee', 'code_commune', 'libelle_commune', 'consototale']]

# Filtrer les données pour ne garder que celles de l'année 2021
df_filtered = df_filtered[df_filtered['annee'] == 2021]

# Convertir la colonne 'code_commune' en chaîne de caractères
df_filtered['code_commune'] = df_filtered['code_commune'].astype(str)

# Trier les données par commune en ordre croissant
df_filtered = df_filtered.sort_values(by=['code_commune'])

# Garder la première occurrence pour chaque commune
df_filtered = df_filtered.drop_duplicates(subset='code_commune')

# Réinitialiser l'index
df_filtered = df_filtered.reset_index(drop=True)

# Affecter le DataFrame final à la variable 'table_conso_com'
table_conso_com = df_filtered
table_conso_com

Unnamed: 0,annee,code_commune,libelle_commune,consototale
0,2021,10003,Aix-Villemaur-Pâlis,16950.214634
1,2021,10005,Amance,1006.336966
2,2021,10006,Arcis-sur-Aube,20598.604548
3,2021,10007,Arconville,921.336855
4,2021,1001,L'Abergement-Clémenciat,3597.380676
...,...,...,...,...
25536,2021,97605,Chiconi,8064.035000
25537,2021,97606,Chirongui,11049.202000
25538,2021,97608,Dzaoudzi,24874.856000
25539,2021,97611,Mamoudzou,111802.071000


In [10]:
table_temperatures_com.head()

Unnamed: 0,key_0,code_commune,code_insee_departement,departement,tmoy
0,1,1053,1,Ain,11.875
1,1,1001,1,Ain,11.875
2,1,1002,1,Ain,11.875
3,1,1004,1,Ain,11.875
4,1,1005,1,Ain,11.875


In [11]:
table_logements_vacants_com=table_logements_vacants_com.rename(columns={
    'codgeo': 'code_commune',
    'libgeo': 'libelle_commune',
    'an': 'an',
    'part_logt_vacant': 'logements_vacants_%'
})
table_logements_vacants_com = table_logements_vacants_com[table_logements_vacants_com['an'] == 2020]
table_logements_vacants_com.head()

Unnamed: 0,code_commune,libelle_commune,an,logements_vacants_%
7,1001,L'Abergement-Clémenciat,2020,57
15,1002,L'Abergement-de-Varey,2020,88
23,1004,Ambérieu-en-Bugey,2020,99
31,1005,Ambérieux-en-Dombes,2020,107
39,1006,Ambléon,2020,108


In [12]:
table_pop_com=table_pop_com.rename(columns={
    'Code commune': 'code_commune',
    0: 'population',
})
table_pop_com['population'] = table_pop_com['population'].str.replace(r'\s*\(2020\)', '', regex=True)
table_pop_com.head()

Unnamed: 0,code_commune,population
0,1053,41 681
1,1001,806
2,1002,262
3,1004,14 288
4,1005,1 782


In [13]:
table_niveau_vie_com=table_niveau_vie_com.rename(columns={
    'Code': 'code_commune',
    'Libellé': 'libelle_commune',
    'Médiane du revenu disponible par UC 2020': 'niveau_de_vie'
})
table_niveau_vie_com['niveau_de_vie'] = table_niveau_vie_com['niveau_de_vie'].replace('N/A - résultat non disponible', pd.NA)
table_niveau_vie_com.head()

Unnamed: 0,code_commune,libelle_commune,niveau_de_vie
0,1001,L'Abergement-Clémenciat,24820.0
1,1002,L'Abergement-de-Varey,23220.0
2,1004,Ambérieu-en-Bugey,21070.0
3,1005,Ambérieux-en-Dombes,24380.0
4,1006,Ambléon,


In [14]:
table_nb_entr_com = table_nb_entr_com.rename(columns={
    'Code': 'code_commune',
    'Libellé': 'libelle_commune',
    'Nombre d\'entreprises par secteurs d\'activité 2021': 'nombre_entreprises',
    'Nombre d\'entreprises par secteurs d\'activité 2021.1': 'pas_compris_cette_colonne'
})
table_nb_entr_com.head()

Unnamed: 0,code_commune,libelle_commune,nombre_entreprises,pas_compris_cette_colonne
0,1001,L'Abergement-Clémenciat,41,2
1,1002,L'Abergement-de-Varey,18,3
2,1004,Ambérieu-en-Bugey,1097,54
3,1005,Ambérieux-en-Dombes,133,12
4,1006,Ambléon,7,0


In [15]:
table_dep_domtrav_tc = table_dep_domtrav_tc.rename(columns={
    'codgeo':'code_commune',
    'libgeo':'libelle_commune',
    'an':'an',
    'part_domtrav_tc':'taux_deplacement_domicile_travail'
})
table_dep_domtrav_tc = table_dep_domtrav_tc[table_dep_domtrav_tc['an'] == 2020]
table_dep_domtrav_tc.head()

Unnamed: 0,code_commune,libelle_commune,an,taux_deplacement_domicile_travail
2,1001,L'Abergement-Clémenciat,2020,11
5,1002,L'Abergement-de-Varey,2020,38
8,1004,Ambérieu-en-Bugey,2020,14
11,1005,Ambérieux-en-Dombes,2020,23
14,1006,Ambléon,2020,0


##### Traitement des tableaux

In [16]:
table_conso_communes=table_conso_com[['code_commune','libelle_commune','consototale']]
table_logements_vacants_communes = table_logements_vacants_com.loc[table_logements_vacants_com.groupby('code_commune')['an'].idxmax()]
table_nb_entr_communes=table_nb_entr_com[['code_commune','libelle_commune','nombre_entreprises']]
table_niveau_vie_communes=table_niveau_vie_com[['code_commune','libelle_commune','niveau_de_vie']]
table_pop_communes=table_pop_com[['code_commune','population']]
table_temperatures_communes=table_temperatures_com[['code_commune','tmoy']]
table_dep_domtrav_tc=table_dep_domtrav_tc[['code_commune','taux_deplacement_domicile_travail']]

##### Harmonisation du format de la variable code_commune

In [17]:
# Liste des DataFrames
dataframes = [table_conso_communes, table_logements_vacants_communes, table_nb_entr_communes, table_niveau_vie_communes, table_pop_communes, table_temperatures_communes, table_dep_domtrav_tc]

# Boucle à travers les DataFrames
for df in dataframes:
    # Convertir la colonne 'code_commune' en chaîne de caractères
    df['code_commune'] = df['code_commune'].astype(str)
    
    # Ajouter des zéros à gauche pour avoir 5 chiffres
    df['code_commune'] = df['code_commune'].str.zfill(5)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['code_commune'] = df['code_commune'].astype(str)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['code_commune'] = df['code_commune'].str.zfill(5)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['code_commune'] = df['code_commune'].astype(str)
A value is trying to be set on a copy of a slice

##### Fusion deux par deux

In [18]:
# Fusion des DataFrames
df_merged = table_conso_communes.merge(table_logements_vacants_communes, on='code_commune', how='outer')
df_merged = df_merged.merge(table_nb_entr_communes, on='code_commune', how='outer', suffixes=('', '_entr'))
df_merged = df_merged.merge(table_niveau_vie_communes, on='code_commune', how='outer', suffixes=('', '_nv'))
df_merged = df_merged.merge(table_pop_communes, on='code_commune', how='outer')
df_merged = df_merged.merge(table_temperatures_communes, on='code_commune', how='outer')
df_merged = df_merged.merge(table_dep_domtrav_tc, on='code_commune', how='outer')

# Nettoyage des colonnes
table_donnees = df_merged[['code_commune', 'libelle_commune', 'consototale', 'logements_vacants_%', 'nombre_entreprises', 'niveau_de_vie', 'population', 'tmoy','taux_deplacement_domicile_travail']]
table_donnees

Unnamed: 0,code_commune,libelle_commune,consototale,logements_vacants_%,nombre_entreprises,niveau_de_vie,population,tmoy,taux_deplacement_domicile_travail
0,10003,Aix-Villemaur-Pâlis,16950.214634,106,200,20390,3 537,11.754167,18
1,10005,Amance,1006.336966,108,16,20070,250,11.754167,0
2,10006,Arcis-sur-Aube,20598.604548,151,200,19790,2 767,11.754167,0
3,10007,Arconville,921.336855,15,1,23740,104,11.754167,0
4,01001,L'Abergement-Clémenciat,3597.380676,57,41,24820,806,11.875000,11
...,...,...,...,...,...,...,...,...,...
34992,09324,Varilhes,,88,236,21950,3 495,12.662500,49
34993,09327,Ventenac,,36,13,18460,235,12.662500,0
34994,09328,Verdun,,41,8,25500,213,12.662500,0
34995,09330,Vernaux,,48,1,,29,12.662500,0


In [19]:
table_donnees = table_donnees.dropna()
table_donnees

Unnamed: 0,code_commune,libelle_commune,consototale,logements_vacants_%,nombre_entreprises,niveau_de_vie,population,tmoy,taux_deplacement_domicile_travail
0,10003,Aix-Villemaur-Pâlis,16950.214634,106,200,20390,3 537,11.754167,18
1,10005,Amance,1006.336966,108,16,20070,250,11.754167,0
2,10006,Arcis-sur-Aube,20598.604548,151,200,19790,2 767,11.754167,0
3,10007,Arconville,921.336855,15,1,23740,104,11.754167,0
4,01001,L'Abergement-Clémenciat,3597.380676,57,41,24820,806,11.875000,11
...,...,...,...,...,...,...,...,...,...
25453,95675,Villeron,6186.346250,66,98,24770,1 534,12.043333,15
25454,95676,Villers-en-Arthies,3171.198931,79,32,28010,490,12.043333,48
25455,95678,Villiers-Adam,4587.661670,47,75,30770,857,12.043333,86
25456,95680,Villiers-le-Bel,95828.967120,57,2086,15950,28 636,12.043333,475


## Exploration Initiale

### Apercu des donnees

In [20]:
# Affichage des premières lignes
table_donnees.head()

Unnamed: 0,code_commune,libelle_commune,consototale,logements_vacants_%,nombre_entreprises,niveau_de_vie,population,tmoy,taux_deplacement_domicile_travail
0,10003,Aix-Villemaur-Pâlis,16950.214634,106,200,20390,3 537,11.754167,18
1,10005,Amance,1006.336966,108,16,20070,250,11.754167,0
2,10006,Arcis-sur-Aube,20598.604548,151,200,19790,2 767,11.754167,0
3,10007,Arconville,921.336855,15,1,23740,104,11.754167,0
4,1001,L'Abergement-Clémenciat,3597.380676,57,41,24820,806,11.875,11


In [21]:
# Affichage des informations sur les types de données et les valeurs manquantes
table_donnees.info()

<class 'pandas.core.frame.DataFrame'>
Index: 22956 entries, 0 to 25457
Data columns (total 9 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   code_commune                       22956 non-null  object 
 1   libelle_commune                    22956 non-null  object 
 2   consototale                        22956 non-null  float64
 3   logements_vacants_%                22956 non-null  object 
 4   nombre_entreprises                 22956 non-null  object 
 5   niveau_de_vie                      22956 non-null  object 
 6   population                         22956 non-null  object 
 7   tmoy                               22956 non-null  float64
 8   taux_deplacement_domicile_travail  22956 non-null  object 
dtypes: float64(2), object(7)
memory usage: 1.8+ MB


# 3. Nettoyage et Préparation des Données

## Nettoyage des Données

## Formatage et Normalisation

# 4. Analyse Exploratoire des Données (EDA)

## Statistiques Descriptives

## Visualisations

# 5. Analyse et Visualisation par Secteur et par Département

In [None]:
#graphique de statitistiques descriptives

# Import seaborn
import seaborn as sns
import numpy as np
# Apply the default theme
graph= sns.relplot(data= table_donnees, x="niveau_de_vie", y="consommation",height=6,aspect=3)

# Définissez les marques de l'axe des abscisses à intervalles de 1000
xticks_interval = np.arange(13000, 31000, 1000)
ax.set_xticks(xticks_interval)

# Affichez le graphique
plt.show()

# Affichez le graphique
plt.show()

In [None]:
#Max min
Mt=table_donnees['temperature'].max()
mt=table_donnees['temperature'].min()
#on distingue trois groupe de dépapartement selon la température pour observer les causalités et les correlations.
table_donnees['grp_tmp']=[ "Chaud" if t > 2*(Mt-mt)/3 +mt  else ("Froid" if t < (Mt-mt)/3 +mt else "Doux") for t in table_donnees['temperature']]


In [None]:
sns.relplot(data=table_donnees, y="consommation", x="temperature", hue="grp_tmp", height=6, aspect=2)

In [None]:
sns.pairplot(data=table_donnees, hue="grp_tmp")

In [None]:
# Carte de france avec les départements: conversion des donées pour une analyse en Geopadans

import geopandas as gpd
from shapely.geometry import shape
import matplotlib.pyplot as plt

# Conversion des données "geom" qui sont en GEOJSON en données "géometry" que Geopanda peut traiter
table_donnees['geometry'] = table_donnees['geom'].apply(lambda x: shape(x['geometry']))
gdf = gpd.GeoDataFrame(table_donnees, geometry='geometry')

# Créez une figure et des axes
fig, ax = plt.subplots(figsize=(12, 12))

# Affichez la carte à partir du GeoDataFrame
gdf.plot(ax=ax, color='green', edgecolor='black')

# Supprimez les axes
ax.set_axis_off()

# Supprimez les valeurs des axes x et y
ax.set_xticks([])
ax.set_yticks([])

# Ajoutez un titre à la carte
plt.title("Départements")

# Affichez la carte
plt.show()

#Il manque une dizaines de départements

In [None]:
#Visualisation de la temperature par département

from mpl_toolkits.axes_grid1 import make_axes_locatable

# Créez une figure et des axes
fig, ax = plt.subplots(figsize=(12, 12))
# Tracé de la carte avec la couleur basée sur les températures 
gdf.plot(column='temperature', cmap='coolwarm', linewidth=0.8, ax=ax, edgecolor='0.8')
# Ajout d'une barre de couleur :
divider = make_axes_locatable(ax)
cax = divider.append_axes("right", size="2%", pad=0.1)
sm = plt.cm.ScalarMappable(cmap='coolwarm', norm=plt.Normalize(vmin=gdf['temperature'].min(), vmax=gdf['temperature'].max()))
sm._A = []
cbar = plt.colorbar(sm, cax=cax)

# Suppression des axes
ax.set_axis_off()

# Ajouter un titre à la carte
plt.suptitle("Carte de France - Températures des départements", fontsize=15, x=0.5, y=0.80)

# Afficher la carte
plt.show()

In [None]:
#Visualisation de la consommation d'électricté par département

from mpl_toolkits.axes_grid1 import make_axes_locatable
import matplotlib.pyplot as plt
from matplotlib.colors import Normalize
from matplotlib.cm import ScalarMappable
# Créez une figure et des axes
fig, ax = plt.subplots(figsize=(12, 12))
# Ecart par rapport à la moyenne de consomation
gdf['diff_moyenne'] = (gdf['consommation'] - gdf['consommation'].mean())
# Tracé de la carte avec la couleur basée sur les températures 
gdf.plot(column='diff_moyenne', cmap='RdYlGn_r', linewidth=0.8, ax=ax, edgecolor='0.8')
# Ajout d'une barre de couleur :
divider = make_axes_locatable(ax)
cax = divider.append_axes("right", size="2%", pad=0.1)
sm = plt.cm.ScalarMappable(cmap='RdYlGn_r', norm=plt.Normalize(vmax=gdf['diff_moyenne'].max(), vmin=gdf['diff_moyenne'].min()))
sm._A = []
cbar = plt.colorbar(sm, cax=cax)

# Suppression des axes
ax.set_axis_off()

# Ajouter un titre à la carte
plt.suptitle("Carte de France - Consommation électricité des départements", fontsize=15, x=0.5, y=0.80)

# Afficher la carte
plt.show()

In [None]:
import folium
import pandas as pd
m = folium.Map(location=[46.6031, 1.8883], zoom_start=6)
for index, row in table_donnees.iterrows():
    folium.GeoJson(row['geom'], name=row['nom_departement']).add_to(m)
m.save('carte.html')

## Comparaison par Secteur

## Analyse Géographique

# 6. Modélisation et Prédictions

## Choix des Modèles

## Entraînement et Test

# 7. Évaluation des Résultats

## Interprétation des Modèles

## Mesures de Performance 

# 8. Synthèse et Recommandations

## Conclusions Clés 

## Recommandations