## Datasets included
- "data_for_viz/consolidation-etalab-irve.csv": comporte les données des IRVE (https://www.data.gouv.fr/fr/datasets/fichier-consolide-des-bornes-de-recharge-pour-vehicules-electriques/)

Dans le but de constituer un répertoire national des Infrastructures de recharge pour véhicules électriques (IRVE), ouvert et accessible à tous, les collectivités locales porteuses d’un projet d’installation d’IRVE doivent, au fur et à mesure de la mise en service des stations, publier sur la plateforme data.gouv.fr les données statiques relatives à la localisation et aux caractéristiques techniques de ces installations selon les modalités définies dans l’arrêté du 4 mai 2021.
Etalab consolide l'ensemble des jeux de données produits par les différents acteurs territoriaux sur un jeu de donnée consolidé. Celui-ci a pour objectif d'être le plus exhaustif possible et ambitionne de regrouper l'ensemble des bornes IRVE françaises. Un document décrivant l'ensemble des datasources utilisées pour cette consolidation peut être consulté sur la page data.gouv de la datasource.

[Datasource data.gouv](https://www.data.gouv.fr/fr/datasets/fichier-consolide-des-bornes-de-recharge-pour-vehicules-electriques/)

- "data_for_viz/voitures-rechargeables-par-commune-enrichies.csv": comporte le nombre de voitures immatriculées par commune et par type de charge (https://www.data.gouv.fr/fr/datasets/voitures-particulieres-immatriculees-par-commune-et-par-type-de-recharge/), données enrichies avec le département (https://geo.api.gouv.fr/decoupage-administratif/communes).

- "data_for_viz/communes-departement-region.csv": dataset comportant les communes de France, avec pour chacune leur département et région

- "data_for_viz/departements.geojson": comporte la géométrie des départements (https://france-geojson.gregoiredavid.fr/)

In [163]:
# Set up environment

import geopandas as gpd
import pandas as pd
import numpy as np
from shapely.geometry import Point
from matplotlib import pyplot as plt
#import plotly.figure_factory as ff
import seaborn as sns

pd.set_option('display.max_rows', 200)
pd.set_option('display.max_columns', 200)

## 1. Clean IRVE data
### 1.A Clean variables

In [164]:
irve = pd.read_csv(r"path\consolidation-etalab-irve-20230526.csv", sep=',', on_bad_lines='skip', dtype=str)

# Clean boolean variables
map_to_bool = {
    'false': False,
    '0': False,
    'FALSE': False,
    'False': False,
    'true': True,
    'TRUE': True,
    '1': True,
    'True': True
}

bool_columns = ['prise_type_ef', 'prise_type_2', 'prise_type_combo_ccs', 'prise_type_chademo', 'prise_type_autre',
               'gratuit', 'paiement_acte', 'paiement_cb', 'paiement_autre', 'reservation', 'station_deux_roues',
                'consolidated_is_lon_lat_correct', 'consolidated_is_code_insee_verified']

for col in bool_columns:
    irve[col] = irve[col].map(map_to_bool)

# Check
for col in bool_columns:
    print(col, irve[col].unique())


# Assign other datatypes
types_dict = {
    'nbre_pdc': int, 
    'puissance_nominale': float, 
    'consolidated_longitude': float,
    'consolidated_latitude': float,
              }

for col, col_type in types_dict.items():
    irve[col] = irve[col].astype(col_type)


# Create categorical variables for power
bins = [0, 7.4, 22, 150, float('inf')]
labels = ['Deux-roues', 'Petite recharge', 'Recharge rapide', 'Tres haute puissance']
irve['puissance_categorie'] = pd.cut(irve['puissance_nominale'], bins=bins, labels=labels)
irve['puissance_categorie'].value_counts(normalize=True)



prise_type_ef [False  True]
prise_type_2 [ True False]
prise_type_combo_ccs [False  True]
prise_type_chademo [False  True]
prise_type_autre [False  True]
gratuit [False True nan]
paiement_acte [ True False]
paiement_cb [False True nan]
paiement_autre [True False nan]
reservation [False  True]
station_deux_roues [False  True]
consolidated_is_lon_lat_correct [ True False]
consolidated_is_code_insee_verified [ True False]


puissance_categorie
Petite recharge         0.446929
Recharge rapide         0.236515
Deux-roues              0.162984
Tres haute puissance    0.153572
Name: proportion, dtype: float64

### 1.B Treat Duplicates
- Based on what follow, we retain "point de charge" as the way to identify a unique charging station.

**From Nalron:**
Notons que le contexte métier nécessite de la rigueur dans l'interprétation de certaines variables, l'amalgame entre station, borne et point de charge est régulièrement rencontré. Donc, "id_station" n'est pas le sous-ensemble le plus approprié à l'identification de doublons, une station de recharge peut avoir plusieurs points de charge, et l'identifiant ne tient pas compte du point de charge. Notons que "id_pdc_itinerance" permet d'obtenir des identifiants uniques pouvant cette fois-ci être pris comme sous-ensemble. 

**Combien de points de charge en France?**
Selon la définition de l'AFIREV, le point de charge représente le nombre d'emplacements individuels permettant le stationnement du véhicule pendant le temps de charge, donc le nombre de prises de la borne. Le jeu de données `irve` ne permet pas de le quantifier directement, malgré la présence d'une variable 'nbre_pdc' qui ne représente que la borne et non le nombre de prises.

Les articles suivants permettent de se faire une idée de l'évolution du nombre de points de charge en France en 2022 et 2023 : 

**Article de Février 2023:** [Source](https://www.tressol-chabrier.com/actualites/Le+futur+de+l%E2%80%99automobile/Voiture%2B%25C3%25A9lectrique%2B%253A%2B85%2B284%2Bpoints%2Bde%2Brecharge%2Bdisponibles%2Ben%2BFrance-107) 

"85 284, c’est le nombre de points de recharge ouverts au public au 31 janvier 2023. Il est donc aujourd’hui de plus en plus facile de recharger sa voiture électrique. Il s’agit d’une évolution de + 57 % en un an. Si ces efforts se poursuivent, l’objectif pour la France d’atteindre les 100 000 points de recharge est ainsi facilement atteignable."


**Article de Avril 2022:** [Source](https://www.lesnumeriques.com/voiture/le-chiffre-du-jour-57-732-bornes-de-recharge-pour-voitures-electriques-en-france-n180505.html) 

"Il indique que la France peut désormais compter sur 57 732 points de recharge ouverts au public au 31 mars 2022. L'Avere France se satisfait d'un taux d'évolution de 54 % sur 12 mois"

In [165]:
# Drop pdc with missing 'date_mise_en_service' --> Needed for time series
irve = irve[irve['date_mise_en_service'].isna()==False]
print(irve['date_mise_en_service'].isna().sum())

# Count duplicates for different possible identifiers
identifiers = ['id_station_itinerance', 'id_station_local', 'id_pdc_itinerance', 'id_pdc_local']
for col in identifiers:
    duplicate_sum=irve[col].duplicated(keep=False).sum()
    n_unique=irve[col].nunique()
    print(col, duplicate_sum, n_unique)

#How many stations in March 2023
irve.id_station_itinerance.nunique()

#How many charging stations in March 2023.
irve.id_pdc_itinerance.nunique()

# 47268 charging stations but still 28909 duplicated rows in terms of pdc_itinerance. What to do with them?
irve_duplicates = irve[irve['id_pdc_itinerance'].duplicated(keep=False) == True]
print(irve_duplicates.groupby('id_pdc_itinerance'))
print(irve_duplicates.duplicated().sum())


# Trying to understand where duplicates come from:
# 1. Is there a variable with specifically many missing values compared to main dataset?
for col in irve_duplicates.columns:
   print(col, irve_duplicates[col].isna().sum()) 

# 2. Can we significantly reduce the number of duplicates when filtering duplicates based on another variable in addition to id_pdc_itinerance?
for col in irve_duplicates.columns: 
    n_duplicates = irve_duplicates.duplicated(subset=['id_pdc_itinerance', col], keep=False).sum()
    print(col, n_duplicates) 
    # Yes, based on 'last_modified'

irve_duplicates = irve_duplicates.sort_values(['id_pdc_itinerance', 'last_modified'])
first_col = 'id_pdc_itinerance'
second_col = 'last_modified'
rest_cols = irve_duplicates.columns[(irve_duplicates.columns != first_col) & (irve_duplicates.columns != second_col)]
reordered_cols = [first_col] + [second_col] + list(rest_cols)
irve_duplicates = irve_duplicates.reindex(columns=reordered_cols)

# Seems like many duplicates are pdc with same id_pdc_itinerance and different 'last_modified' value --> keep only the last modified in final dataset
# 1. Sort rows and columns
irve = irve.sort_values(['id_pdc_itinerance', 'last_modified'])
first_col = 'id_pdc_itinerance'
second_col = 'last_modified'
rest_cols = irve.columns[(irve.columns != first_col) & (irve.columns != second_col)]
reordered_cols = [first_col] + [second_col] + list(rest_cols)
irve = irve.reindex(columns=reordered_cols)

# 2. Drop duplicates
irve = irve.drop_duplicates('id_pdc_itinerance', keep='last') # rows are ordered by id_pdc_itinerance and last_modified in an increasing order



0
id_station_itinerance 68360 19415
id_station_local 73157 11377
id_pdc_itinerance 37469 46594
id_pdc_local 46589 29859
<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001923EFD2D90>
0
nom_amenageur 7
siren_amenageur 972
contact_amenageur 1044
nom_operateur 77
contact_operateur 0
telephone_operateur 17093
nom_enseigne 0
id_station_itinerance 0
id_station_local 33548
nom_station 0
implantation_station 0
adresse_station 0
code_insee_commune 988
coordonneesXY 0
nbre_pdc 0
id_pdc_itinerance 0
id_pdc_local 33918
puissance_nominale 0
prise_type_ef 0
prise_type_2 0
prise_type_combo_ccs 0
prise_type_chademo 0
prise_type_autre 0
gratuit 10
paiement_acte 0
paiement_cb 11
paiement_autre 7436
tarification 31597
condition_acces 0
reservation 0
horaires 0
accessibilite_pmr 0
restriction_gabarit 6
station_deux_roues 0
raccordement 2288
num_pdl 20822
date_mise_en_service 0
observations 17430
date_maj 0
cable_t2_attache 36016
last_modified 0
datagouv_dataset_id 0
datagouv_resource_id 0
dat

### 1.C Deal with missing department/ municipalities data
- First we clean the department and municipalities data and merge them with irve
- For the 30% irve observations with missing department/ municipalities we input them based on XY coordinates


In [166]:
# Read department data
geojson_dep = gpd.read_file(r"path\departements.geojson")

In [167]:
# Read municipalities data
df_communes=pd.read_csv(r"path\communes-departement-region.csv", dtype=str)

# Clean municipalities data

# Clean INSEE municipalities codes (add first missing '0')
df_communes.loc[df_communes['code_commune_INSEE'].str.len() == 4, "code_commune_INSEE"] = '0' + df_communes['code_commune_INSEE']
df_communes.loc[df_communes['code_postal'].str.len() == 4, 'code_postal'] = '0' + df_communes['code_postal']
df_communes.loc[df_communes['code_departement'].str.len() == 1, 'code_departement'] = '0' + df_communes['code_departement']
df_communes = df_communes[['code_commune_INSEE', 'code_departement', 'nom_departement']]

# Drop duplicated INSEE codes
df_communes = df_communes.drop_duplicates(subset='code_commune_INSEE')

In [168]:
# Merge IRVE with municipalities data
irve = irve.merge(df_communes, left_on='code_insee_commune', right_on='code_commune_INSEE', how='left')

# Count department code NaN  
irve['code_departement'].value_counts(ascending=True, dropna=False, normalize=True) #32% observations are NaN

# Transform lat/long couple into geometric point
irve['point'] = gpd.GeoSeries.from_xy(irve['consolidated_longitude'], 
                                             irve['consolidated_latitude'])
irve = gpd.GeoDataFrame(irve, geometry='point')

# Put department code as index in geojson database
geojson_dep = geojson_dep.set_index('code')

# select stations with missing department 
missing_dep = irve[irve['code_departement'].isna()]

# Convert 'point' columns into "Point" Shapely object
missing_dep['geometry'] = missing_dep['point'].apply(Point)

# Look for department based on whether the department polygon includes the point
# For each station with missing department: 
for i, point in missing_dep.iterrows():
    # trouver l'index (code du département) des polygones du DataFrame geopandas des departments qui comportent le point
    polygons_containing_point = geojson_dep[geojson_dep['geometry'].contains(point['geometry'])].index.tolist()
    # Ajouter le code du département trouvé (si un département a été trouvé)
    for polygon_index in polygons_containing_point:
        irve.loc[i, 'code_departement'] = polygon_index
        break

# convert from gpd DataFrame format to Dataframe
irve=pd.DataFrame(irve)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  super().__setitem__(key, value)


### 1.D Additional stuff

In [169]:
# For now we leave out the cleaning of NaN for n_amenageur, n_operateur, and n_enseigne done by Nalron

# Add info (population, population density and region) at the department level based on 'departements-francais.csv'
#Source : https://www.regions-et-departements.fr/departements-francais

dpt_fr = pd.read_excel(r"path\departements-francais.xls")

# Clean department data
dpt_fr.rename(columns={'NUMÉRO': 'code_dpt', 'NOM': 'dpt', 'REGION': 'region',
                       'SUPERFICIE (km²)': 'superficie_km2', 'POPULATION': 'nbre_habitants',
                       'DENSITE (habitants/km2)': 'hab/km2'}, inplace=True)

dpt_fr['code_dpt'] = dpt_fr['code_dpt'].astype('str')
dpt_fr.loc[dpt_fr['code_dpt'].str.len() == 1, 'code_dpt'] = '0' + dpt_fr['code_dpt']

# Merge irve and additional info on departments
irve = irve.merge(dpt_fr[['code_dpt', 'region', 'superficie_km2', 'nbre_habitants', 'hab/km2']], 
                    how='left', left_on="code_departement", right_on = "code_dpt")

#### Export cleaned irve dataset

In [170]:
# Export clean data
irve.to_csv(r"path\consolidation-etalab-irve-clean.csv")

## 2. Create Irve-based datasets for data viz
### 2.A Location-level data for maps

In [171]:
## Viz: map irve/ department

# Group by location
pdc_par_loc = irve.groupby(['consolidated_longitude', 'consolidated_latitude']).agg({
    'nbre_pdc': 'count',
    'code_departement': lambda x: pd.Series.mode(x)
}).reset_index()

# Re-create point
pdc_par_loc['point']= gpd.GeoSeries.from_xy(pdc_par_loc['consolidated_longitude'], 
                                             pdc_par_loc['consolidated_latitude'])

# Replace [] with NaN
def find_dep(dep):
    if isinstance(dep, str):
        return dep
    return np.nan

pdc_par_loc['code_departement'] = pdc_par_loc['code_departement'].apply(find_dep)

# Keep only metropolitan France for viz
pdc_par_loc = pdc_par_loc[pdc_par_loc['code_departement'].astype(str).apply(len)<3]

# Export file for data viz
pdc_par_loc.to_csv(r'path\irve_par_loc.csv', index=False)

### 2.B Time series data for evolutions

In [172]:
# Créer un timeseries du nombre de stations de recharge au cours du temps

# remplacer les dates aberrantes par des valeurs nulles
irve.loc[(irve['date_mise_en_service']>'2024') | (irve['date_mise_en_service']<'2001'), 
         'date_mise_en_service'] = np.nan

# convertir la colonne en datetime
irve['date_mise_en_service'] = pd.to_datetime(irve['date_mise_en_service'], format="%Y-%m-%d")

# grouper par mois, appliquer une somme cumulative sur le nombre de stations et de points de charge
irve.set_index('date_mise_en_service', inplace=True)
irve_ts = (irve.groupby(pd.Grouper(freq="M")).nbre_pdc
               .agg(['count', 'sum'])
               .add_prefix('nbre_pdc_')
               .cumsum()
               .reset_index())

irve_ts = (irve.groupby(pd.Grouper(freq="M")).agg({
    'id_station_itinerance': 'nunique',
    'id_pdc_itinerance': 'nunique'
}).cumsum().reset_index()).rename(columns={'id_station_itinerance': 'nb_stations',
                                           'id_pdc_itinerance': 'nb_pdc'})

# exporter le fichier
irve_ts.to_csv(r'path\irve_time_series.csv')