# Machine Learning pour prédire les émissions des véhicules

Dans ce notebook, vous trouvez notre code d'entrainement et validation automatique d'algorithmes de Machine Learning pour prédire les émissions des véhicules à partir du jeu de données de 2013 *Emissions de CO2 et de polluants des véhicules commercialisés en France*.

**dataset:** https://www.data.gouv.fr/fr/datasets/emissions-de-co2-et-de-polluants-des-vehicules-commercialises-en-france/<br>
**tâche:** Régression<br>
**target variable:** *CO2*

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split 
#pour l'entraînement automatique:
from supervised.automl import AutoML
#pour générer un rapport html des résultats:
import IPython
import markdown

## 1. Importation des données

On importe le dataset à partir de son url.

In [None]:
emissions_2013 = "https://www.data.gouv.fr/fr/datasets/r/6ff09b59-84ca-4346-a8d1-3587ed94da15"
data_2013=pd.read_csv(emissions_2013,encoding='latin-1',compression='zip',error_bad_lines=False,sep=";")

## 2. Preprocessing

On élimine les lignes correspondantes à des valeurs manquantes dans la variable réponse et on élimine une colonne inutile (facilement détéctéé grâce au `Pandas Profiling`: https://giuliasantarsieri.github.io/open_ML/profilings/emissions_vehicules_2013.html).

In [None]:
data_2013 = data_2013[data_2013['CO2 (g/km)'].isna()==False] 
data_2013 = data_2013.drop(columns=['Date de mise à jour'])

## 3. Train/test splitting

On définit la variable réponse et les variables explicatives. On partage le dataset en dataset d'entraînement et de test. <br> Attention, AutoML nécessite d'un partage 75%/25%.

In [None]:
y = data_2013['CO2 (g/km)'].values
X = data_2013.drop(columns=['CO2 (g/km)'])

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

## 4. AutoML

On entraîne, test et valide automatiquement plusieurs algorithmes de ML sur le dataset avec AutoML (plus d'infos ici: https://supervised.mljar.com/) et on génère un html des métriques et des paramètres du modèle.

In [None]:
automl = AutoML(total_time_limit=5*60,mode='Explain',random_state=42,ml_task='regression')
#fit models
automl.fit(X_train,y_train)
#predictions
predictions = automl.predict(X_test)
#generate html report
automl.report()