**Notebook 01 - Exploration des données**
Ce notebook a pour objectif de charger et explorer les jeux de données nécessaires à l'analyse comparative entre véhicules thermiques et électriques.



# Imports

In [116]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Chargement des fichiers

In [117]:
# Dossier de données
data_path = "../data"
data_path

'../data'

In [118]:
# Dossier de données
data_path = "../data"

# Chargement des fichiers
fichiers = {
    "Emissions véhicules (ADEME)": "emissions_vehicules_ademe.csv",
    "Intensité carbone électricité (OWID)": "intensite_carbone.csv",
    "Part de marché VE": "part_marche_ve.csv",
    "Nombre de points de charge": "points_de_charge.csv"
}

# Chargement et affichage des premières lignes de chaque fichier
for nom, fichier in fichiers.items():
    print(f"\n=== {nom.upper()} ===")
    try:
        df = pd.read_csv(os.path.join(data_path, fichier))
        print(df.head(3))
    except Exception as e:
        print(f"Erreur lors du chargement de {fichier} : {e}")




=== EMISSIONS VÉHICULES (ADEME) ===
Erreur lors du chargement de emissions_vehicules_ademe.csv : 'utf-8' codec can't decode byte 0xe9 in position 142630: invalid continuation byte

=== INTENSITÉ CARBONE ÉLECTRICITÉ (OWID) ===
          Entity Code  Year  co2_intensity__gco2_kwh
0  ASEAN (Ember)  NaN  2000                572.85864
1  ASEAN (Ember)  NaN  2001                570.60640
2  ASEAN (Ember)  NaN  2002                573.02800

=== PART DE MARCHÉ VE ===
          date_mesure.year  geocode_region      libelle_region geocode_departement libelle_departement geocode_commune   libelle_commune categorie_vehicule classe_vehicule  part_de_marche_des_vehicules_electriques_dans_les_immatriculations_annuelles_immatriculations_vehicules
0  2019-01-01T00:00:00.000              11       Île-de-France                  92      Hauts-de-Seine           92044  LEVALLOIS PERRET                 VP              vp                                                                                      

In [119]:
# Chargement dans des DataFrames séparés pour une analyse ciblée
df_emissions = pd.read_csv(os.path.join(data_path, "emissions_vehicules_ademe.csv"),sep=";", encoding="ISO-8859-1")
df_intensite = pd.read_csv(os.path.join(data_path, "intensite_carbone.csv"))
df_part_marche = pd.read_csv(os.path.join(data_path, "part_marche_ve.csv"))
df_points_charge = pd.read_csv(os.path.join(data_path, "points_de_charge.csv"), sep =";")


## Inspections des données

Avant toute analyse, nous réalisons une vérification systématique de la qualité des jeux de données chargés

In [150]:
with open("rapport_qualite.txt", "w", encoding="utf-8") as f:
    for nom, df in datasets.items():
        f.write(f"\n === {nom.upper()} ===\n")
        f.write(f"→ Dimensions : {df.shape[0]} lignes, {df.shape[1]} colonnes\n")
        f.write("→ Aperçu des colonnes et types :\n")
        f.write(str(df.dtypes) + "\n\n")

        nulls = df.isnull().sum()
        if nulls.sum() == 0:
            f.write("✅ Aucune valeur manquante détectée.\n")
        else:
            f.write("⚠️ Valeurs manquantes détectées :\n")
            f.write(str(nulls[nulls > 0]) + "\n")

        dups = df.duplicated().sum()
        if dups > 0:
            f.write(f"⚠️ {dups} doublon(s) détecté(s).\n")
        else:
            f.write("✅ Aucun doublon détecté.\n")
        f.write("\n" + "="*80 + "\n")

# Lecture immédiate du fichier
print("Le résultat est visible dans le fichier `rapport_qualite.txt`")


Le résultat est visible dans le fichier `rapport_qualite.txt`


In [121]:
# Pourcentage de valeurs manquantes par colonne
def afficher_pourcentage_valeurs_manquantes(df, nom_df):
    print(f"\n Pourcentage de valeurs manquantes pour {nom_df} :")
    pourcent = (df.isnull().sum() / len(df) * 100).sort_values(ascending=False)
    pourcent = pourcent[pourcent > 0].round(2)
    if pourcent.empty:
        print(" Aucune valeur manquante.")
    else:
        print(pourcent)

# Application à chaque jeu de données
afficher_pourcentage_valeurs_manquantes(df_emissions, "EMISSIONS VÉHICULES")
afficher_pourcentage_valeurs_manquantes(df_intensite, "INTENSITÉ CARBONE ÉLECTRICITÉ")
afficher_pourcentage_valeurs_manquantes(df_part_marche, "PART DE MARCHÉ VE")
afficher_pourcentage_valeurs_manquantes(df_points_charge, "POINTS DE CHARGE")



 Pourcentage de valeurs manquantes pour EMISSIONS VÉHICULES :
Unnamed: 29    100.00
Unnamed: 28    100.00
Unnamed: 27    100.00
Unnamed: 26    100.00
date_maj        94.10
hc              82.25
hcnox           17.96
ptcl             4.87
nox              0.29
co_typ_1         0.29
champ_v9         0.11
conso_exurb      0.08
conso_urb        0.08
conso_mixte      0.06
co2              0.06
dtype: float64

 Pourcentage de valeurs manquantes pour INTENSITÉ CARBONE ÉLECTRICITÉ :
Code    9.83
dtype: float64

 Pourcentage de valeurs manquantes pour PART DE MARCHÉ VE :
 Aucune valeur manquante.

 Pourcentage de valeurs manquantes pour POINTS DE CHARGE :
 Aucune valeur manquante.


In [122]:
# Aperçu statistique des variables numériques
def afficher_statistiques_numeriques(df, nom_df):
    print(f"\n Statistiques descriptives des variables numériques pour {nom_df} :")
    display(df.describe().T)

# Application à chaque jeu de données
afficher_statistiques_numeriques(df_emissions, "EMISSIONS VÉHICULES")
afficher_statistiques_numeriques(df_intensite, "INTENSITÉ CARBONE ÉLECTRICITÉ")
afficher_statistiques_numeriques(df_part_marche, "PART DE MARCHÉ VE")
afficher_statistiques_numeriques(df_points_charge, "POINTS DE CHARGE")



 Statistiques descriptives des variables numériques pour EMISSIONS VÉHICULES :


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
puiss_admin_98,55044.0,10.551504,5.126021,1.0,9.0,10.0,10.0,81.0
co2,55010.0,201.707035,33.976278,13.0,193.0,205.0,216.0,572.0
masse_ordma_min,55044.0,2102.104553,294.731715,825.0,1982.0,2076.0,2246.0,2760.0
masse_ordma_max,55044.0,2341.021801,424.067895,825.0,2075.0,2355.0,2709.0,3094.0
Unnamed: 26,0.0,,,,,,,
Unnamed: 27,0.0,,,,,,,
Unnamed: 28,0.0,,,,,,,
Unnamed: 29,0.0,,,,,,,



 Statistiques descriptives des variables numériques pour INTENSITÉ CARBONE ÉLECTRICITÉ :


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Year,5738.0,2011.651795,7.010491,2000.0,2006.0,2012.0,2018.0,2024.0
co2_intensity__gco2_kwh,5738.0,478.891991,240.83463,0.0,298.870457,527.63885,650.15922,1306.7228



 Statistiques descriptives des variables numériques pour PART DE MARCHÉ VE :


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
geocode_region,879106.0,52.900048,25.655714,1.0,28.0,52.0,76.0,94.0
part_de_marche_des_vehicules_electriques_dans_les_immatriculations_annuelles_immatriculations_vehicules,879106.0,0.0597,0.172183,0.0,0.0,0.0,0.0,1.0



 Statistiques descriptives des variables numériques pour POINTS DE CHARGE :


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
accessible_au_public,41.0,52168.121951,45641.297595,8478.0,19750.0,31081.0,71630.0,163656.0
particulier,41.0,390275.317073,415512.038076,25868.0,74030.0,173740.0,625430.0,1365096.0
societe,41.0,294409.512195,278197.067464,34739.0,74060.0,167737.0,446333.0,937964.0


In [123]:
# Suppression des colonnes vides inutiles
df_emissions.drop(columns=[col for col in df_emissions.columns if "Unnamed" in col], inplace=True)


## 1. Analyse du fichier `emissions_vehicules_ademe.csv`

Ce fichier contient les émissions de CO₂ et polluants pour différents types de véhicules commercialisés en France.
Il nous permet de comparer les impacts environnementaux des véhicules thermiques et électriques.


In [124]:
df_emissions.columns

Index(['lib_mrq', 'lib_mod_doss', 'lib_mod', 'dscom', 'cnit', 'tvv', 'cod_cbr', 'hybride', 'puiss_admin_98', 'puiss_max', 'typ_boite_nb_rapp', 'conso_urb', 'conso_exurb', 'conso_mixte', 'co2', 'co_typ_1', 'hc', 'nox', 'hcnox', 'ptcl', 'masse_ordma_min', 'masse_ordma_max', 'champ_v9', 'date_maj', 'Carrosserie', 'gamme'], dtype='object')

### 1. Préparation du jeu de données : sélection et nettoyage

Nous allons sélectionner les colonnes utiles à notre comparaison et retirer les lignes vides ou incohérentes.


In [125]:
# Sélection des colonnes pertinentes
colonnes_utiles = [
    'lib_mrq', 'lib_mod', 'cod_cbr', 'hybride',
    'puiss_max', 'conso_mixte', 'co2',
    'champ_v9', 'masse_ordma_min', 'masse_ordma_max'
]

df_clean = df_emissions[colonnes_utiles].copy()

# Renommage pour plus de lisibilité
df_clean.rename(columns={
    'lib_mrq': 'marque',
    'lib_mod': 'modele',
    'cod_cbr': 'carburant',
    'hybride': 'hybride',
    'puiss_max': 'puissance_kw',
    'conso_mixte': 'conso_mixte_l100km',
    'co2': 'emissions_co2_gkm',
    'champ_v9': 'norme_euro',
    'masse_ordma_min': 'masse_min_kg',
    'masse_ordma_max': 'masse_max_kg'
}, inplace=True)

# Conversion des valeurs numériques
cols_num = ['puissance_kw', 'conso_mixte_l100km', 'emissions_co2_gkm', 'masse_min_kg', 'masse_max_kg']
for col in cols_num:
    df_clean[col] = pd.to_numeric(df_clean[col], errors='coerce')

# Aperçu final
df_clean.head()


Unnamed: 0,marque,modele,carburant,hybride,puissance_kw,conso_mixte_l100km,emissions_co2_gkm,norme_euro,masse_min_kg,masse_max_kg
0,ALFA-ROMEO,159,ES,non,147.0,,182.0,715/2007*692/2008EURO5,1505,1505
1,ALFA-ROMEO,159,ES,non,147.0,8.0,186.0,715/2007*692/2008EURO5,1555,1555
2,ALFA-ROMEO,159,GO,non,100.0,,134.0,715/2007*692/2008EURO5,1565,1565
3,ALFA-ROMEO,159,GO,non,100.0,,134.0,715/2007*692/2008EURO5,1565,1565
4,ALFA-ROMEO,159,GO,non,125.0,,139.0,715/2007*692/2008EURO5,1565,1565


### 2. Création de la colonne "motorisation"

Nous combinons les colonnes `carburant` et `hybride` pour créer une catégorie claire de motorisation.


In [126]:
# Nettoyage des valeurs (certaines valeurs peuvent être en majuscules ou mal formatées)
df_clean['carburant'] = df_clean['carburant'].str.lower()
df_clean['hybride'] = df_clean['hybride'].str.upper()

def classer_motorisation(carb, hybride):
    carb = str(carb).upper()
    hybride = str(hybride).upper()

    if "EL" in carb or carb in ["EE"]:
        return "électrique"
    
    elif hybride == "O":
        if "ES" in carb:
            return "hybride essence"
        elif "GO" in carb:
            return "hybride diesel"
        else:
            return "hybride autre"
    
    elif "ES" in carb:
        return "essence"
    elif "GO" in carb:
        return "diesel"
    elif carb in ["GP", "GN", "GL", "GH", "FE"]:
        return "autre"
    
    else:
        return "inconnu"

# Application
df_clean["motorisation"] = df_clean.apply(
    lambda row: classer_motorisation(row["carburant"], row["hybride"]), axis=1
)

# Aperçu des résultats
df_clean["motorisation"].value_counts()


motorisation
diesel        49311
essence        5279
inconnu         298
autre           113
électrique       43
Name: count, dtype: int64

### 3. Analyse des émissions de CO₂ par type de motorisation

Nous analysons ici les émissions moyennes de dioxyde de carbone (g/km) en fonction du type de motorisation.


In [127]:
import plotly.express as px

# Préparation des données
df_co2 = df_clean[df_clean["emissions_co2_gkm"] > 0]
df_avg = df_co2.groupby("motorisation")["emissions_co2_gkm"].mean().reset_index()

# Graphique interactif
fig = px.bar(
    df_avg.sort_values("emissions_co2_gkm"),
    x="motorisation",
    y="emissions_co2_gkm",
    title="Émissions moyennes de CO₂ par motorisation (g/km)",
    color="emissions_co2_gkm",
    color_continuous_scale="viridis"
)

fig.update_layout(xaxis_title="Motorisation", yaxis_title="g CO₂ / km")
fig.show()


In [128]:
import plotly.graph_objects as go

km_range = list(range(0, 200001, 1000))  # de 0 à 200 000 km par pas de 1000

# Paramètres d'émissions
co2_fabrication_ve = 12500  # en kg CO2, fabrication d’un VE (83.6 g/km * 150 000 km environ)
co2_km_ve = 20 / 1000  # 20 g/km
co2_km_thermique = 120 / 1000  # 120 g/km

# Calcul des émissions cumulées
emissions_ve_cumul = [co2_fabrication_ve + co2_km_ve * km for km in km_range]
emissions_thermique_cumul = [co2_km_thermique * km for km in km_range]

# Calcul du seuil de rentabilité environnementale (où les deux courbes se croisent)
seuil_km = next(km for km in km_range if co2_fabrication_ve + co2_km_ve * km < co2_km_thermique * km)

# Graphique interactif
fig = go.Figure()

fig.add_trace(go.Scatter(x=km_range, y=emissions_ve_cumul, mode='lines', name='Véhicule électrique', line=dict(color='green')))
fig.add_trace(go.Scatter(x=km_range, y=emissions_thermique_cumul, mode='lines', name='Véhicule thermique', line=dict(color='red')))
fig.add_vline(x=seuil_km, line=dict(color="black", dash="dash"),
              annotation_text=f"Seuil : {seuil_km:,} km", annotation_position="top right")

fig.update_layout(
    title="Comparaison des émissions cumulées de CO₂",
    xaxis_title="Kilomètres parcourus",
    yaxis_title="Émissions cumulées (kg CO₂)",
    template="plotly_white"
)

fig.show()


## 2. Analyse du fichier `intensite_carbone.csv`

In [129]:
df_intensite.columns = [col.lower() for col in df_intensite.columns]

# Filtrer les lignes pour la France
df_intensite_fr = df_intensite[df_intensite['entity'] == 'France']

# Garder uniquement les colonnes utiles
df_intensite_fr = df_intensite_fr[['year', 'co2_intensity__gco2_kwh']].dropna()

# Renommer les colonnes pour plus de clarté
df_intensite_fr.columns = ['annee', 'Intensité_carbone']


In [131]:
import plotly.express as px

# Création du graphique interactif
fig = px.line(df_intensite_fr,
              x='annee',
              y='Intensité_carbone',
              title="Évolution de l’intensité carbone de l’électricité en France",
              labels={'Intensité_carbone': 'gCO₂ par kWh'},
              markers=True)

# Mise en forme
fig.update_traces(line=dict(color='darkgreen'))
fig.update_layout(template='plotly_white')

# Affichage
fig.show()


Montrer que plus l’électricité devient « propre » (baisse des gCO₂/kWh), plus les VE deviennent pertinents — car leur usage émet moins de CO₂ indirectement

## 3. Analyse du fichier `part_marche_ve.csv`

In [132]:
df_part_marche.head()

Unnamed: 0,date_mesure.year,geocode_region,libelle_region,geocode_departement,libelle_departement,geocode_commune,libelle_commune,categorie_vehicule,classe_vehicule,part_de_marche_des_vehicules_electriques_dans_les_immatriculations_annuelles_immatriculations_vehicules
0,2019-01-01T00:00:00.000,11,Île-de-France,92,Hauts-de-Seine,92044,LEVALLOIS PERRET,VP,vp,0.018817
1,2016-01-01T00:00:00.000,76,Occitanie,65,Hautes-Pyrénées,65456,UGLAS,VP,vp,0.0
2,2011-01-01T00:00:00.000,75,Nouvelle-Aquitaine,17,Charente-Maritime,17111,CLION,VP,vp,0.0
3,2021-01-01T00:00:00.000,75,Nouvelle-Aquitaine,16,Charente,16067,BUNZAC,VP,vp,0.285714
4,2013-01-01T00:00:00.000,24,Centre-Val de Loire,41,Loir-et-Cher,41226,ST OUEN,VP,vp,0.007092


### Nettoyer et transformer le dataset

In [133]:
# On renomme pour plus de lisibilité
df_part_marche_clean = df_part_marche.copy()
df_part_marche_clean['date_mesure.year'] = pd.to_datetime(df_part_marche_clean['date_mesure.year'])


In [134]:
# Extraire l'année
df_part_marche_clean['annee'] = df_part_marche_clean['date_mesure.year'].dt.year


In [135]:
# Filtrer uniquement les véhicules particuliers
df_vp = df_part_marche_clean[df_part_marche_clean['categorie_vehicule'] == 'VP']


In [136]:
# Calculer la moyenne nationale par année
df_part_annee = df_vp.groupby('annee')[
    'part_de_marche_des_vehicules_electriques_dans_les_immatriculations_annuelles_immatriculations_vehicules'
].mean().reset_index()


In [137]:
# Renommer la colonne pour simplifier
df_part_annee.rename(columns={
    'part_de_marche_des_vehicules_electriques_dans_les_immatriculations_annuelles_immatriculations_vehicules': 'part_ve'
}, inplace=True)

df_part_annee.head()

Unnamed: 0,annee,part_ve
0,2010,5e-06
1,2011,0.000209
2,2012,0.002189
3,2013,0.004325
4,2014,0.004717


on va essayer d'observer une corrélation potentielle entre l’augmentation des VE et la baisse de l’intensité carbone de l’électricité en France

## Fusionner l'intensité carbonne et les part de marché des VE

In [138]:
# Fusion sur l'année
df_fusion = pd.merge(df_part_annee, df_intensite_fr, on='annee', how='inner')

df_fusion.head()


Unnamed: 0,annee,part_ve,Intensité_carbone
0,2010,5e-06,78.561775
1,2011,0.000209,74.62344
2,2012,0.002189,77.59258
3,2013,0.004325,76.27222
4,2014,0.004717,52.19756


In [139]:
df_fusion.corr()


Unnamed: 0,annee,part_ve,Intensité_carbone
annee,1.0,0.823395,-0.452806
part_ve,0.823395,1.0,-0.213992
Intensité_carbone,-0.452806,-0.213992,1.0


`annee vs part_ve` : *+0.82* Corrélation forte et positive → la part de marché des VE augmente avec le temps.

`annee vs intensité_carbone` : *-0.45*	Corrélation modérée et négative → l’intensité carbone diminue en moyenne avec le temps.

`part_ve vs intensité_carbone` : *-0.21* Corrélation faible et négative → plus il y a de VE, plus l’intensité carbone a tendance à baisser, mais le taux de coefficient de cor ne nous permet pas vraiment de dire qu'il y'a un lien.

In [140]:
import plotly.graph_objects as go

fig = go.Figure()

# Tracé de la part de marché des VE
fig.add_trace(go.Scatter(
    x=df_fusion['annee'], y=df_fusion['part_ve'] * 100,
    mode='lines+markers',
    name='Part de marché VE (%)',
    yaxis='y1'
))

# Tracé de l’intensité carbone
fig.add_trace(go.Scatter(
    x=df_fusion['annee'], y=df_fusion['Intensité_carbone'],
    mode='lines+markers',
    name='Intensité carbone (gCO2/kWh)',
    yaxis='y2'
))

fig.update_layout(
    title='Évolution de la part de marché des VE et de l’intensité carbone en France',
    xaxis_title='Année',
    yaxis=dict(title='Part VE (%)', side='left'),
    yaxis2=dict(title='Intensité carbone (gCO2/kWh)', overlaying='y', side='right'),
    legend=dict(x=0.1, y=1.1, orientation='h')
)

fig.show()


## 5. Analyse du fichier `point_de_charges.csv`

In [141]:
df_points_charge.columns


Index(['trimestre', 'accessible_au_public', 'particulier', 'societe'], dtype='object')

### Extraire l'année à partir de la colonne 'trimestre'

In [142]:
df_points_charge['annee'] = df_points_charge['trimestre'].str[:4].astype(int)


### Calcul du total des points de charge pour chaque ligne

In [143]:
df_points_charge['total_points'] = (
    df_points_charge['accessible_au_public'] +
    df_points_charge['particulier'] +
    df_points_charge['societe']
)

# Agrégation annuelle
df_points_yearly = df_points_charge.groupby('annee', as_index=False)['total_points'].sum().sort_values('annee')


In [144]:
import plotly.express as px

fig = px.line(df_points_yearly,
              x='annee', y='total_points',
              title='Évolution annuelle du nombre total de points de charge en France',
              labels={'annee': 'Année', 'total_points': 'Nombre total de points de charge'},
              markers=True)

fig.update_traces(line=dict(width=3))
fig.show()


In [145]:
# Fusion avec les points de charge
df_points_part = pd.merge(df_points_yearly, df_part_annee, on='annee', how='inner')
df_points_part

Unnamed: 0,annee,total_points,part_ve
0,2015,320863,0.013028
1,2016,474252,0.015625
2,2017,650944,0.016462
3,2018,864176,0.016989
4,2019,1130507,0.023492
5,2020,1775527,0.085063
6,2021,3000227,0.137066
7,2022,4437923,0.205907
8,2023,6442133,0.237519


In [146]:
import plotly.graph_objects as go

fig = go.Figure()

# Axe gauche : points de charge
fig.add_trace(go.Scatter(x=df_points_part['annee'],
                         y=df_points_part['total_points'],
                         name='Points de charge',
                         mode='lines+markers',
                         yaxis='y1'))

# Axe droit : part de marché VE
fig.add_trace(go.Scatter(x=df_points_part['annee'],
                         y=df_points_part['part_ve'] * 100,
                         name='Part de marché VE (%)',
                         mode='lines+markers',
                         yaxis='y2'))

fig.update_layout(
    title='Évolution des points de charge vs. Part de marché des véhicules électriques',
    xaxis=dict(title='Année'),
    yaxis=dict(title='Nombre de points de charge', side='left'),
    yaxis2=dict(title='Part de marché VE (%)', overlaying='y', side='right'),
    legend=dict(x=0.01, y=0.99),
    width=900,
    height=500
)

fig.show()


Le graphique montre que :

Le nombre de points de recharge accessibles au public et privés augmente chaque année (avec une accélération notable à partir de 2020).

La part de marché des véhicules électriques (immatriculations annuelles) croît également, de manière presque exponentielle depuis 2019.

**Implication pour la réduction de CO₂**
Une meilleure disponibilité de bornes incite à adopter un VE.

## calcul d’impact environnemental

In [147]:
# Filtrage des véhicules 100% électriques
df_ve_only = df_clean[df_clean["motorisation"] == "électrique"].copy()

# Nettoyage des valeurs CO2
df_ve_only["emissions_co2_gkm"] = pd.to_numeric(df_ve_only["emissions_co2_gkm"], errors="coerce")

# Moyenne des émissions CO₂ des VE
emission_moy_ve = df_ve_only["emissions_co2_gkm"].mean()
print(f" Emission moyenne VE : {emission_moy_ve:.2f} gCO₂/km")


 Emission moyenne VE : 49.33 gCO₂/km


In [148]:
# Supposons que tu as défini ces deux valeurs :
emission_moy_thermique = 230  # ou autre valeur calculée sur les thermiques
empreinte_fabrication_ve = 83.6  # gCO₂/km "intégré"

# Gain total par km
gain_co2_par_km = emission_moy_thermique - (emission_moy_ve + empreinte_fabrication_ve)

# Distance pour rentabiliser écologiquement
km_seuil = empreinte_fabrication_ve / (emission_moy_thermique - emission_moy_ve)

print(f" Gain total estimé : {gain_co2_par_km:.2f} gCO₂/km")
print(f" Il faut parcourir environ {km_seuil:.0f} km pour qu’un VE devienne plus propre qu’un thermique.")


 Gain total estimé : 97.07 gCO₂/km
 Il faut parcourir environ 0 km pour qu’un VE devienne plus propre qu’un thermique.


# Conclusion de l’exploration des données

Cette première phase d’exploration nous a permis de :

Identifier et comprendre la structure des différents jeux de données (émissions, électricité, part de marché, bornes).

Vérifier la qualité des données : valeurs manquantes, doublons, types de variables.

Nettoyer et transformer les colonnes pour faciliter l’analyse (création de la variable motorisation, unification des dates, etc.).

Réaliser des analyses descriptives pertinentes : émissions par motorisation, évolution de l’intensité carbone, croissance de la part de marché des VE, etc.

Poser les bases pour les analyses comparatives et les calculs d’impact environnemental à venir.