## Notebook 2: Apprentissage automatique, Regression: Polution CO2

#### Importation des librairies

In [181]:
import pandas as pd
import numpy as np
#-------------------------------------------------
import sklearn
from sklearn.model_selection import train_test_split
from sklearn.impute import KNNImputer
from sklearn.metrics import *
#-------------------------------------------------
from sklearn.pipeline import Pipeline
from sklearn.pipeline import make_pipeline

from sklearn.preprocessing import OneHotEncoder, StandardScaler, MinMaxScaler, LabelEncoder
from sklearn.compose import ColumnTransformer
from sklearn.compose import TransformedTargetRegressor, make_column_transformer

#--------------------------------------------------------
from sklearn.dummy import DummyRegressor
from sklearn.linear_model import LinearRegression, SGDRegressor

#--------------------------------------------------------
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.inspection import permutation_importance
#------------------------------------------------
from xgboost import XGBRegressor

#-----------------------------------------------------------
from sklearn.model_selection import GridSearchCV

## Checklist

Depuis 2001, **l’ADEME** acquiert tous les ans ces données auprès de **l’Union Technique de l’Automobile du motocycle et du Cycle UTAC** (en charge de l’homologation des véhicules avant leur mise en vente) en accord avec le ministère du développement durable.
Pour chaque véhicule les données d’origine (transmises par l’Utac) sont les suivantes :

* **Les consommations de carburant**

* **Les émissions de dioxyde de carbone (CO2)**

* **Les émissions des polluants de l’air** (réglementés dans le cadre de la norme Euro)

* **L’ensemble des caractéristiques techniques des véhicules** (gammes, marques, modèles, n° de CNIT, type d’énergie ...)



# L'inventaire des varaibles pertinentes:

Les données comprenent des variables pertinentes suivantes:

* **lib_mrq_utac**: La marque, il y'a 12.

* **lib_mod**: Le modèle commerciale, il y'a 20.

* **cod_cbr**: Le type de carburant, il y a 5.

* **hybride**: Information permettant d’identifier les véhicules hybrides (O/N)

* **puiss_max** : Puissance maximale

* **typ_boite_nb_rapp**: Type boite de vitesse et le nombre de rapport.

* **conso_urb**: Consommation urbaine de carburant (en l/100km),

* **conso_exurb**: consommation extra urbaine de carburant (en l/100km),

* **conso_mixte**: Consommation mixte de carburant (en l/100km),

* **co2**: Emission de CO2 (en g/km),

* **masse_ordma_min**: Masse en ordre de marche mini

* **masse_ordma_max**: Masse en ordre de marche max
 
* **Carrosserie**: Carrosserie

* **gamme**: Gamme du véhicule



# Objectif

Notre objectif majeur dans ce notebook 2 est de :

Prédire les emisisions de **CO2** des vehicules en fonction de certaines informations (Variables explicatives)

* En utilisant 4 à 5 modéles différents

* En comparant  les scores
    
* En choissisant le meilleur modèle


# Description des données

Lien vers les données: https://www.data.gouv.fr/fr/datasets/emissions-de-co2-et-de-polluants-des-vehicules-commercialises-en-france/


### Chargement, lecture, apercu et infos des données

In [182]:
data_model = pd.read_csv("data_model.csv")

In [183]:
unique_values = data_model['Carrosserie'].unique()
print(" : ",unique_values)

 :  ['BERLINE' 'BREAK' 'COUPE' 'CABRIOLET' 'TS TERRAINS/CHEMINS' 'COMBISPACE'
 'MINISPACE' 'MONOSPACE COMPACT' 'MONOSPACE' 'MINIBUS' 'COMBISPCACE']


### Selectionner les feautures les plus importans

In [184]:
df = data_model[['Carrosserie', 'masse_ordma_min', 'masse_ordma_max', 'co2']]

In [185]:
from sklearn.preprocessing import LabelEncoder
le= LabelEncoder()
objet_columns = df.select_dtypes(include='object').columns
for element in objet_columns:
    df.loc[:, element]=le.fit_transform(df.loc[:,element])

In [186]:
mapping_carrosserie= dict(zip(df['Carrosserie'], data_model['Carrosserie']))

### Traiter la colonne Carrosserie

In [187]:
df.head(10)

Unnamed: 0,Carrosserie,masse_ordma_min,masse_ordma_max,co2
0,0,1505.0,1505.0,182.0
1,0,1555.0,1555.0,186.0
2,0,1565.0,1565.0,134.0
3,0,1565.0,1565.0,134.0
4,0,1565.0,1565.0,139.0
5,0,1565.0,1565.0,139.0
6,0,1565.0,1565.0,136.0
7,1,1615.0,1615.0,137.0
8,1,1615.0,1615.0,137.0
9,1,1615.0,1615.0,142.0


In [188]:
data_model.head(10)

Unnamed: 0,lib_mrq,cnit,cod_cbr,hybride,puiss_max,Carrosserie,gamme,co2,masse_ordma_min,masse_ordma_max,Type_boite,Nb_rapp
0,ALFA-ROMEO,M10ALFVP000G340,ES,non,147,BERLINE,MOY-SUPER,182.0,1505.0,1505.0,M,6.0
1,ALFA-ROMEO,M10ALFVP000H341,ES,non,147,BERLINE,MOY-SUPER,186.0,1555.0,1555.0,M,6.0
2,ALFA-ROMEO,M10ALFVP000E302,GO,non,100,BERLINE,MOY-SUPER,134.0,1565.0,1565.0,M,6.0
3,ALFA-ROMEO,M10ALFVP000F303,GO,non,100,BERLINE,MOY-SUPER,134.0,1565.0,1565.0,M,6.0
4,ALFA-ROMEO,M10ALFVP000G304,GO,non,125,BERLINE,MOY-SUPER,139.0,1565.0,1565.0,M,6.0
5,ALFA-ROMEO,M10ALFVP000H305,GO,non,125,BERLINE,MOY-SUPER,139.0,1565.0,1565.0,M,6.0
6,ALFA-ROMEO,M10ALFVP000U221,GO,non,125,BERLINE,MOY-SUPER,136.0,1565.0,1565.0,M,6.0
7,ALFA-ROMEO,M10ALFVP000J306,GO,non,100,BREAK,MOY-SUPER,137.0,1615.0,1615.0,M,6.0
8,ALFA-ROMEO,M10ALFVP000J307,GO,non,100,BREAK,MOY-SUPER,137.0,1615.0,1615.0,M,6.0
9,ALFA-ROMEO,M10ALFVP000K308,GO,non,125,BREAK,MOY-SUPER,142.0,1615.0,1615.0,M,6.0


### Prediction de CO2
    
Pour chacun de nos modèles:
   * **DummyRegressor**,
   * **LinearRegression**, 
   * **SGDRegressor**, 
   * **RandomForestRegressor**,
   * **GradientBoostingRegressor**,
   * **XGBRegressor**, 
    
Nous allons predire le niveau d'émission de **Co2** puis établir une comparaison entre les performances de chaque modèle.

    Appliquer un GridSearch pour optimiser les hyperparamètres de chaque modèle
    Paramètrer dans GridSearch les scores qui sont adaptés à la régression (R2, MAE et RMSE)
    Identifier le meilleur modèle

In [189]:
X = df.drop(['co2'] ,axis =1)
y = df['co2']


scaler = StandardScaler()
scaler.fit(X)
X = scaler.transform(X)



In [190]:
# Create the label encoder
le = LabelEncoder()

# Fit the label encoder to the target variable
le.fit(y)

# Transform the target variable
y= le.transform(y)

In [191]:
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import GridSearchCV, KFold

# Create the classifiers and their respective hyperparameter grids
classifiers = [DummyRegressor(),LinearRegression(),SGDRegressor(),RandomForestRegressor(),GradientBoostingRegressor(),XGBRegressor()]
param_grids = [
    {'strategy': ['mean', 'median'], 'constant': [0, 1]},
    {'fit_intercept': [True, False]},
    {'alpha': [0.0001, 0.001], 'penalty': ['l1', 'l2']},
    {'n_estimators': [50, 100, 200], 'max_depth': [None, 2, 4], 'min_samples_split': [3, 5, 7]},
    {'n_estimators': [50, 100], 'learning_rate': [0.1, 0.01], 'max_depth': [3, 5]},
    {'learning_rate': [0.1, 0.01], 'max_depth': [3, 5], 'n_estimators': [50, 80]}]

# Create the KFold object
#kf = KFold(n_splits=5)

# Create a list to store the results
results = []

# Loop through the classifiers and their hyperparameter grids
for i, (clf, param_grid) in enumerate(zip(classifiers, param_grids)):
    # Create the GridSearchCV object
    grid_search = GridSearchCV(clf, param_grid, scoring='r2', cv=5)
    # Fit the GridSearchCV object to the data
    grid_search.fit(X, y)
    # Store the results
    results.append((type(clf).__name__, grid_search.best_params_, grid_search.best_score_))
    # Print the best parameters and scores
    print("=============================================================")
    print(f"regreseur {i+1}: {type(clf).__name__}")
    print(f"best parameters: {grid_search.best_params_}")
    print(f"best score: {grid_search.best_score_}")
    print("=============================================================\n")

# Find the winner
winner = max(results, key=lambda x: x[2])

# Print the winner
print("=============================================================")
print(f"The winner is {winner[0]} with a score of {winner[2]} and parameters:")
print(winner[1])
print("=============================================================")

regreseur 1: DummyRegressor
best parameters: {'constant': 0, 'strategy': 'median'}
best score: -0.23304448159725616

regreseur 2: LinearRegression
best parameters: {'fit_intercept': True}
best score: 0.16237163660500403



regreseur 3: SGDRegressor
best parameters: {'alpha': 0.001, 'penalty': 'l2'}
best score: 0.16741682414171874

regreseur 4: RandomForestRegressor
best parameters: {'max_depth': None, 'min_samples_split': 7, 'n_estimators': 100}
best score: 0.2955185918717587

regreseur 5: GradientBoostingRegressor
best parameters: {'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 50}
best score: 0.3738911964738899

regreseur 6: XGBRegressor
best parameters: {'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 50}
best score: 0.36923339113021464

The winner is GradientBoostingRegressor with a score of 0.3738911964738899 and parameters:
{'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 50}


In [192]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import RandomizedSearchCV

# Create the hyperparameter space
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 2, 4],
    'min_samples_split': [3, 5, 7],
}

# Create the RandomizedSearchCV object
random_search = RandomizedSearchCV(RandomForestRegressor(), param_grid, scoring='r2', cv=5)

# Fit the RandomizedSearchCV object to the data
random_search.fit(X, y)

# Print the best parameters and scores
print("=============================================================")
print(f"The winner is {random_search.best_estimator_} with a score of {random_search.best_score_}")
print("=============================================================")


The winner is RandomForestRegressor(min_samples_split=7) with a score of 0.2947311255767825


### Application Web

Développer une application Streamlit avec les options suivantes :

    1- L'utilisateur doit selectionner le type du carrosserie à partire d'un menu déroulant
    2- L'utilisateur doit saisir 'masse_ordma_min' et 'masse_ordma_max' dans deux champs de saisie différent
    3- Programmer un boutton pour lancer la prédiction de CO2

    masse_ordma_min = 825.0 - 2760.0
    masse_ordma_max = 825.0 - 3094.0
    Carrosserie = 0 - 10


    co2 = 13.0 - 572.0

In [193]:
#'Carrosserie', 'masse_ordma_min', 'masse_ordma_max'
df_data=[[4,1346.0,1840.0]]



model=random_search.best_estimator_
predictions = model.predict(df_data)

#donne toujour le meme resulta quand relancé
print(predictions)

[195.68925414]


In [194]:
from sklearn.linear_model import LinearRegression
df_test=[[]]
# Get the best regressor
regressor = winner[0]
# Get the best parameters
parameters = winner[1]
# Convert the parameters to a dictionary
parameters_dict = dict(parameters)

# Create a new regressor with the best parameters
if regressor == 'GradientBoostingRegressor':
    new_regressor = GradientBoostingRegressor(**parameters_dict)
else:
    # Handle other regressors accordingly
    pass

# Fit the new regressor to the data
new_regressor.fit(X, y)

# Get the predictions for new data
predictions = new_regressor.predict(df_data)

#donne des resulta peu diferant quand relancé
print(predictions)

[221.16292338]


In [195]:
#df.loc[:, 'Carrosserie'] = data_model['Carrosserie'].map(mapping_carrosserie)
df.head(20)

Unnamed: 0,Carrosserie,masse_ordma_min,masse_ordma_max,co2
0,0,1505.0,1505.0,182.0
1,0,1555.0,1555.0,186.0
2,0,1565.0,1565.0,134.0
3,0,1565.0,1565.0,134.0
4,0,1565.0,1565.0,139.0
5,0,1565.0,1565.0,139.0
6,0,1565.0,1565.0,136.0
7,1,1615.0,1615.0,137.0
8,1,1615.0,1615.0,137.0
9,1,1615.0,1615.0,142.0


In [196]:
df_final = df.copy()
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55028 entries, 0 to 55027
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Carrosserie      55028 non-null  object 
 1   masse_ordma_min  55028 non-null  float64
 2   masse_ordma_max  55028 non-null  float64
 3   co2              55028 non-null  float64
dtypes: float64(3), object(1)
memory usage: 1.7+ MB


In [197]:

#model = GradientBoostingRegressor(learning_rate=0.1, max_depth=5, n_estimators=50)
model = RandomForestRegressor(max_depth= None, min_samples_split= 7, n_estimators=100)

model.fit(X, y)
print("R2 score: {:.4f}".format(model.score(X, y)))




R2 score: 0.7576


In [198]:
import joblib
joblib.dump(model,'model.pkl')
joblib.dump(mapping_carrosserie,'maping.pkl')
joblib.dump(scaler,'scaler.pkl')


['scaler.pkl']

In [199]:
print(mapping_carrosserie)

{0: 'BERLINE', 1: 'BREAK', 5: 'COUPE', 2: 'CABRIOLET', 10: 'TS TERRAINS/CHEMINS', 3: 'COMBISPACE', 7: 'MINISPACE', 9: 'MONOSPACE COMPACT', 8: 'MONOSPACE', 6: 'MINIBUS', 4: 'COMBISPCACE'}
