# Prédiction des émissions de CO2 d'un véhicule en fonction de ces caractéristiques

- Import des libraries et des données

In [1]:
# libraries used for data exploration
import numpy as np
import pandas as pd
import sqlite3
import matplotlib.pyplot as plt
import seaborn as sns
from skimpy import skim
from scipy.stats import kurtosis, skew
import pingouin as pg

# librairies used for machine learning
from sklearn.ensemble import RandomForestRegressor
from sklearn.feature_extraction import DictVectorizer
from sklearn.dummy import DummyRegressor
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn.metrics import mean_squared_error, mean_absolute_percentage_error
from sklearn.tree import DecisionTreeRegressor, export_text

# utils
import gc
from scipy.stats import randint

import warnings
warnings.filterwarnings('ignore')

In [2]:
def distribution_analysis(dataframe, variable, dataframe_and_variable):
    sns.histplot(
    data = dataframe,
    x = variable,
    kde=True
    )

    plt.title(f"Distribution de la variable {variable}")
    plt.show()

    skewness = skew(dataframe_and_variable)
    kurtosis_var = kurtosis(dataframe_and_variable)
    normality = pg.normality(
        dataframe_and_variable,
        method="normaltest"
        )

    print(f"Skewness : {skewness}  - Kurtosis : {kurtosis_var}\nTest de normalité de la distribution\n{normality}")

def numerical_analysis(dataframe, variable):
    sns.boxplot(
    x=variable,
    data=dataframe
    )
    plt.title(f'Boîte à moustaches de la variable {variable}')
    plt.show()

    print(dataframe[variable].describe())

def categorical_analysis(dataframe, variable):
    sns.countplot(
        x = variable,
        data = dataframe,
        stat="percent"
    )
    plt.title(f"Répartition des véhicules en fontion de la variable : {col}")
    plt.ylabel("Pourcentage (%)")
    plt.xticks(rotation=90)
    plt.show()

def linear_regression_analysis(dataframe, variable, target):
    sns.lmplot(
        data=dataframe,
        x=target,
        y=variable
        )
    plt.title(f"Interaction entre {target} et {variable}")
    plt.show()
    lm = pg.linear_regression(dataframe[target], dataframe[variable])
    print(lm.round(2))

def categorical_relation(dataframe, variable, target):
    sns.boxplot(
        data=dataframe,
        x=variable,
        y=target
        )
    plt.title(f"Interaction entre {target} et {variable}")
    plt.xticks(rotation=90)
    plt.show()

    aov = pg.anova(
        dv=target,
        between=variable,
        data=dataframe,
        detailed=True
        )
    print(aov.round(2))

In [3]:
conn = sqlite3.connect('../datasets/ademe_car_labeling.db')

In [15]:
df = pd.read_sql("SELECT * FROM car_information", con=conn)

In [16]:
df.head()

Unnamed: 0,index,Marque,Modèle,Energie,Carrosserie,Cylindrée,Gamme,Puissance fiscale,Puissance maximale,Puissance nominale électrique,...,Bonus-Malus,Conso basse vitesse,Conso moyenne vitesse,Conso haute vitesse,Conso T-haute vitesse,Conso vitesse mixte,Conso elec,Autonomie elec,Autonomie elec urbain,Emission CO2
0,0,RENAULT,KANGOO,ESSENCE,COMBISPACE,1332,INFERIEURE,7,96.0,,...,Malus,8.7405,6.788,6.188,7.9175,7.2635,,,,167.272
1,1,MAZDA,MX-30,ELECTRIC,TS TERRAINS/CHEMINS,0,INFERIEURE,6,,80.9,...,Bonus 6000,,,,,,,,,
2,2,DS,7 CROSSBACK,ELEC+ESSENC HR,TS TERRAINS/CHEMINS,1598,MOYENNE SUPERIEURE,10,133.0,30.0,...,Neutre 0,,,,,1.534,162.5,58.5,67.5,
3,3,RENAULT,AUSTRAL,ESS+ELEC HNR,TS TERRAINS/CHEMINS,1199,MOYENNE SUPERIEURE,7,96.0,0.0,...,Neutre 0,6.5805,5.02,4.834,5.9555,5.5025,,,,126.073
4,4,B.M.W.,218,ESSENCE,MONOSPACE COMPACT,1499,MOYENNE INFERIEURE,7,100.0,,...,Malus,8.942,6.6295,5.637,6.4505,6.568,,,,155.826


In [17]:
# create list to separe categorical & numerical variables
# remove the target variables
categorical = list(df.dtypes[df.dtypes == 'object'].index)
numerical = [i for i in list(df.columns) if i not in categorical]
numerical.pop(-1)

'Emission CO2'

In [18]:
for col in categorical:
    df[col] = df[col].str.lower().str.replace(" ", "_")

In [19]:
df.head()

Unnamed: 0,index,Marque,Modèle,Energie,Carrosserie,Cylindrée,Gamme,Puissance fiscale,Puissance maximale,Puissance nominale électrique,...,Bonus-Malus,Conso basse vitesse,Conso moyenne vitesse,Conso haute vitesse,Conso T-haute vitesse,Conso vitesse mixte,Conso elec,Autonomie elec,Autonomie elec urbain,Emission CO2
0,0,renault,kangoo,essence,combispace,1332,inferieure,7,96.0,,...,malus,8.7405,6.788,6.188,7.9175,7.2635,,,,167.272
1,1,mazda,mx-30,electric,ts_terrains/chemins,0,inferieure,6,,80.9,...,bonus_6000,,,,,,,,,
2,2,ds,7_crossback,elec+essenc_hr,ts_terrains/chemins,1598,moyenne_superieure,10,133.0,30.0,...,neutre_0,,,,,1.534,162.5,58.5,67.5,
3,3,renault,austral,ess+elec_hnr,ts_terrains/chemins,1199,moyenne_superieure,7,96.0,0.0,...,neutre_0,6.5805,5.02,4.834,5.9555,5.5025,,,,126.073
4,4,b.m.w.,218,essence,monospace_compact,1499,moyenne_inferieure,7,100.0,,...,malus,8.942,6.6295,5.637,6.4505,6.568,,,,155.826


## 1) Préparation des données

In [20]:
df.shape

(7679, 24)

In [21]:
skim(df)

Les véhicules électriques n'émettent pas de CO2, ils sont enlevés du jeu de données pour la suite de l'analyse ainsi que pour la construction du modèle de prédiction. 

In [22]:
# remove electric vehicles
df = df[df["Energie"] != 'electric']

In [23]:
df.describe()

Unnamed: 0,index,Cylindrée,Puissance fiscale,Puissance maximale,Puissance nominale électrique,Poids à vide,Rapport poids-puissance,Nombre rapports,Conso basse vitesse,Conso moyenne vitesse,Conso haute vitesse,Conso T-haute vitesse,Conso vitesse mixte,Conso elec,Autonomie elec,Autonomie elec urbain,Emission CO2
count,7409.0,7409.0,7409.0,7409.0,2484.0,7409.0,7409.0,7409.0,6690.0,6690.0,6690.0,6690.0,7284.0,594.0,594.0,594.0,6690.0
mean,3844.402483,1796.202322,10.229856,130.021055,20.157009,1555.344986,0.082061,6.928195,8.018916,6.075571,5.407636,6.464161,5.897295,199.928636,61.744613,68.05202,154.651505
std,2214.697856,609.90907,7.806961,66.386992,27.228414,333.232021,0.031618,1.553918,2.238887,1.254111,1.027638,1.135738,1.719087,40.243956,18.477725,19.951523,30.739784
min,0.0,875.0,4.0,48.0,0.0,840.0,0.04,0.0,3.219,3.327,3.726,4.2385,0.562,133.5,39.7,41.35,92.947
25%,1926.0,1469.0,6.0,91.9,0.0,1320.0,0.06,6.0,6.663,5.2135,4.709,5.655,5.2435,162.5,48.0,51.75,135.54
50%,3843.0,1950.0,8.0,110.0,8.0,1490.0,0.08,7.0,7.765,5.9125,5.2675,6.296,5.987,192.85,56.0,61.0,147.635
75%,5760.0,1995.0,10.0,140.0,30.0,1755.0,0.09,8.0,8.8625,6.6755,5.8405,7.025,6.7525,241.77,74.0,87.0,164.65925
max,7678.0,6749.0,91.0,607.0,139.0,2735.0,0.37,9.0,29.9145,17.5415,13.632,13.947,16.5215,288.5,112.0,116.5,411.01


In [24]:
df.columns

Index(['index', 'Marque', 'Modèle', 'Energie', 'Carrosserie', 'Cylindrée',
       'Gamme', 'Puissance fiscale', 'Puissance maximale',
       'Puissance nominale électrique', 'Poids à vide',
       'Rapport poids-puissance', 'Type de boite', 'Nombre rapports',
       'Bonus-Malus', 'Conso basse vitesse', 'Conso moyenne vitesse',
       'Conso haute vitesse', 'Conso T-haute vitesse', 'Conso vitesse mixte',
       'Conso elec', 'Autonomie elec', 'Autonomie elec urbain',
       'Emission CO2'],
      dtype='object')

On remarque que les variables en lien avec la consommation électrique des véhicules présentent un grand nombre de variables manquantes. Cela s'explique par le fait que les véhicules thermiques classiques ne vont pas consommer d'électricité. On va donc remplacer ces valeurs par 0.

In [None]:
# fill variables about electric consumption

electrical_variables  = [
    "Autonomie elec",
    "Puissance nominale électrique",
    "Conso elec",
    "Autonomie elec urbain"
    ]

for col in electrical_variables:
    df[col] = df[col].fillna(0)

Concernant les autres variables numériques avec des valeurs manquantes ainsi que la variable cible, on complète les valeurs manquantes par la valeur médiane. 

In [None]:
# fill other numerical variables
for c in numerical:
    df[c] = df[c].fillna(df[c].median())

In [None]:
# fill target variable
df["Emission CO2"] = df["Emission CO2"].fillna(df["Emission CO2"].median())

In [None]:
skim(df)

Les variables manquantes ont été supprimées, on peut donc passer à l'analyse exploratoire des doonées.

## 2) Analyse exploratoire des données

### a) Analyses univariées

#### Analyse de la variable cible

- Distribution de la variable cible : Emission de CO2

In [None]:
distribution_analysis(df, "Emission CO2", df["Emission CO2"])

Le coefficient d'asymétrie (skewness) montre une asymétrie de la distribution et le kurtosis indique la présence d'un pic important dans la distribution des émissions de CO2. Enfin le test de normalité montre que la distribution ne suit pas la loi normale.

Il faudra donc effectuer une transformation logarithmique pour éviter que la forme de la distribution perturbe les modèles linéaires qui pourraient être utilisés dans notre recherche de modèle.

- Indices de tendance centrale et de dispersion : Emission de CO2

In [None]:
numerical_analysis(df, "Emission CO2")

Les émissions de CO2 sont comprises entre 92.947 g et 411.01 g. La moyenne est de 153.97g et la médiane de 147.63g. L'écart-type est de 29.28g et l'intervalle interquartile de 25.652g. 

In [None]:
# log transformation
df["Emission CO2"] = np.log1p(df["Emission CO2"])

#### Analyse des variables catégorielles

In [None]:
for col in ['Energie', 'Carrosserie', 'Gamme', 'Bonus-Malus', "Type de boite"]:
    categorical_analysis(df, col)

In [None]:
plt.figure(figsize=(15,15))

sns.countplot(
    y="Marque",
    data=df,
    stat="percent"
)
plt.ylabel("Pourcentage (%)")
plt.title(f"Répartition des véhicules selon les marques")
plt.show()

In [None]:
for col in numerical:
    distribution_analysis(df, col, df[col])

In [None]:
for col in numerical:
    numerical_analysis(df, col)

### 2) Analyse bivariée

#### Variables quantitatives

In [None]:
numerical.append("Emission CO2")

- Matrice de corrélation

In [None]:
corr_matrix = df[numerical].corr()
mask = np.triu(corr_matrix)

plt.figure(figsize=(15,15))
sns.heatmap(corr_matrix,
            mask=mask,
            linewidths=.5,
            annot=True,
            cbar=True,
            square=True)
plt.title("Matrice de corrélation entre les différentes variables quantitatives.")
plt.show()

In [None]:
# removing variables with poor correlation coefficient
del df["Puissance nominale électrique"]
del df["Conso elec"]
del df["Autonomie elec"]
del df["Autonomie elec urbain"]

In [None]:
variables_to_remove = ["Puissance nominale électrique", "Conso elec", "Autonomie elec", "Autonomie elec urbain", "Emission CO2"]
numerical = [x for x in numerical if x not in variables_to_remove]

- Régression linéaire entre émission de CO2 et les variables quantitatives

In [None]:
for col in numerical:
    linear_regression_analysis(df, col, "Emission CO2")

### Variables catégorielles

In [None]:
for col in ['Energie', 'Carrosserie', 'Gamme', 'Bonus-Malus', "Type de boite"]:
    categorical_relation(df, col, "Emission CO2")

## 3) Préparation des données pour modélisation

In [None]:
df_train, df_test = train_test_split(df, test_size=0.2, random_state=42)

In [None]:
df_train = df_train.reset_index(drop=True)
df_test = df_test.reset_index(drop=True)

In [None]:
y_train = df_train["Emission CO2"].values
y_test = df_test["Emission CO2"].values

In [None]:
del df_train['Emission CO2']
del df_test['Emission CO2']

In [None]:
numerical = [i for i in list(df.columns) if i not in categorical]
numerical.pop(-1)

In [None]:
train_dicts = df_train.to_dict(orient='records')
test_dicts = df_test.to_dict(orient='records')

In [None]:
dv = DictVectorizer(sparse=False)
X_train = dv.fit_transform(train_dicts)
X_test = dv.transform(test_dicts)

### 4) Choix du modèle

#### Baseline

In [None]:
dummy = DummyRegressor(strategy="median")
dummy.fit(X_train, y_train)

In [None]:
y_pred = dummy.predict(X_test)

In [None]:
rmse = round(np.sqrt(mean_squared_error(y_test, y_pred)), 5)
mape = round(mean_absolute_percentage_error(y_test, y_pred), 5)
print(f"rmse : {rmse} & mape : {mape}")

In [None]:
del y_pred
del rmse
del mape
gc.collect()

#### Random Forest Regressor

In [None]:
rf = RandomForestRegressor(random_state=42,
                           n_jobs=-1)
rf.fit(X_train, y_train)

In [None]:
y_pred = rf.predict(X_test)

In [None]:
rmse = round(np.sqrt(mean_squared_error(y_test, y_pred)), 5)
mape = round(mean_absolute_percentage_error(y_test, y_pred), 5)
print(f"rmse : {rmse} & mape : {mape}")

In [None]:
param_distribs = {
    "n_estimators" : [int(x) for x in np.linspace(50, 500, 10)],
    "max_depth" : [int(x) for x in np.linspace(5, 16, 10)],
    "min_samples_leaf" : randint(2, 10),
    "min_samples_split" : randint(2, 10),
    "bootstrap" : [True, False]

}

rf_rnd_search = RandomizedSearchCV(rf,
                                   param_distributions=param_distribs,
                                   n_iter=100,
                                   cv=5,
                                   scoring="neg_mean_squared_error",
                                   random_state=42)
rf_rnd_search.fit(X_train, y_train)

In [None]:
rf_rnd_search.best_params_

In [None]:
params = [{
    "n_estimators" : [120, 130, 140, 150],
    "max_depth" : [11, 12, 13],
    "min_samples_leaf" : [2, 3],
    "min_samples_split" : [2, 3],
    "bootstrap" : [True]
}]

rf_grid_search = GridSearchCV(rf,
                            params,
                            cv=5,
                            scoring="neg_mean_squared_error")
rf_grid_search.fit(X_train,
                   y_train)

In [None]:
rf_grid_search.best_params_

In [None]:
rf = rf_grid_search.best_estimator_

In [None]:
y_pred = rf.predict(X_test)

In [None]:
rmse = round(np.sqrt(mean_squared_error(y_test, y_pred)), 5)
mape = round(mean_absolute_percentage_error(y_test, y_pred), 5)
print(f"rmse : {rmse} & mape : {mape}")

In [None]:
df_importances = pd.DataFrame()
df_importances['feature'] = dv.feature_names_
df_importances['importance'] = rf.feature_importances_
df_importances.sort_values(by="importance", ascending=False).head(10)