***objectif :***  
L'objectif de ce projet est de prédire les émissions de CO2 à partir des données des véhicules en utilisant des modèles d'apprentissage automatique, notamment un modèle de régression Random Forest. Il offre une interface web permettant aux utilisateurs de saisir les caractéristiques du véhicule et d'obtenir des prédictions d'émissions via une API.

# Importation des données

In [1]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import Lasso
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import VotingRegressor
import xgboost as xgb
import lightgbm as lgb

import mlflow
import mlflow.sklearn
import warnings
warnings.filterwarnings('ignore')

# Préparation des données

In [2]:
df = pd.read_csv("co2.csv")

In [3]:
df.shape

(7385, 12)

In [4]:
df.columns

Index(['Make', 'Model', 'Vehicle_Class', 'Engine_Size', 'Cylinders',
       'Transmission', 'Fuel_Type', 'Fuel_Consumption_City',
       'Fuel_Consumption_Hwy', 'Fuel_Consumption_Comb',
       'Fuel_Consumption_Comb.1', 'CO2_Emissions'],
      dtype='object')

In [5]:
numeric_columns = df.select_dtypes(include=['int64', 'float64']).columns
categorical_columns = df.select_dtypes(include=['object']).columns

Pour optimiser les données et se concentrer sur les variables pertinentes pour la prédiction des émissions de CO2, certaines colonnes non nécessaires, telles que 'Make', 'Model', 'Vehicle_Class', et 'Transmission', ont été supprimées

In [6]:
columns_to_drop = ['Make', 'Model', 'Vehicle_Class', 'Transmission']
df = df.drop(columns=columns_to_drop)
print(df.head(5))


   Engine_Size  Cylinders Fuel_Type  Fuel_Consumption_City  \
0          2.0          4         Z                    9.9   
1          2.4          4         Z                   11.2   
2          1.5          4         Z                    6.0   
3          3.5          6         Z                   12.7   
4          3.5          6         Z                   12.1   

   Fuel_Consumption_Hwy  Fuel_Consumption_Comb  Fuel_Consumption_Comb.1  \
0                   6.7                    8.5                       33   
1                   7.7                    9.6                       29   
2                   5.8                    5.9                       48   
3                   9.1                   11.1                       25   
4                   8.7                   10.6                       27   

   CO2_Emissions  
0            196  
1            221  
2            136  
3            255  
4            244  


On réalise un encodage one-hot sur la colonne "Fuel_Type" pour créer des colonnes binaires correspondantes.

In [7]:
df = pd.get_dummies(df, columns=["Fuel_Type"], prefix="Fuel_Type")


Les données sont divisées en ensembles d'entraînement et de test, avec 30 % des échantillons réservés pour le test.

In [8]:
X = df.drop(columns=['CO2_Emissions'])
y = df['CO2_Emissions']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print(f"Ensemble d'entraînement : {len(X_train)} échantillons")
print(f"Ensemble de test : {len(X_test)} échantillons")


Ensemble d'entraînement : 5169 échantillons
Ensemble de test : 2216 échantillons


# MLflow

MLflow permet de suivre et de gérer les expérimentations de modèles en enregistrant les résultats, paramètres et métriques pour chaque essai. Cela simplifie le choix du modèle optimal et centralise la gestion des expérimentations.

On définit plusieurs modèles de régression pour prédire les émissions de CO2.

In [9]:
models = {
    "GradientBoosting": GradientBoostingRegressor(random_state=42),
    "Lasso": Lasso(),
    "RandomForest": RandomForestRegressor(n_estimators=100, random_state=42),
    "XGBoost": xgb.XGBRegressor(objective='reg:squarederror', eval_metric='rmse'),
    "LightGBM": lgb.LGBMRegressor(objective='regression', metric='rmse'),
    "VotingRegressor": VotingRegressor(estimators=[
        ('xgb', xgb.XGBRegressor(objective='reg:squarederror', eval_metric='rmse')),
        ('rf', RandomForestRegressor(n_estimators=100, random_state=42))
    ])
}

Dans cette étape, chaque modèle de régression est entraîné et évalué, tandis que les paramètres, les métriques et le modèle lui-même sont enregistrés dans MLflow. Les résultats, tels que le RMSE et l'ID du run, sont collectés pour permettre une comparaison systématique des performances des différents modèles.

In [10]:

mlflow.set_experiment("co2_experiment")

model_results = []

for model_name, model in models.items():
    with mlflow.start_run(run_name=model_name) as run:
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
        rmse = mean_squared_error(y_test, y_pred, squared=False)
        print(f"{model_name} RMSE: {rmse:.3f}")
        if hasattr(model, "get_params"):
            mlflow.log_params(model.get_params())
        mlflow.log_metric("rmse", rmse)
        mlflow.sklearn.log_model(model, model_name)
        model_results.append({
            "Model": model_name,
            "RMSE": rmse,
            "Run ID": run.info.run_id
        })
        print(f"Model {model_name} enregistré dans MLflow.")



GradientBoosting RMSE: 3.601




Model GradientBoosting enregistré dans MLflow.
Lasso RMSE: 9.518




Model Lasso enregistré dans MLflow.
RandomForest RMSE: 3.137




Model RandomForest enregistré dans MLflow.
XGBoost RMSE: 3.279




Model XGBoost enregistré dans MLflow.


  File "c:\Users\HP\AppData\Local\Programs\Python\Python310\lib\site-packages\joblib\externals\loky\backend\context.py", line 199, in _count_physical_cores
    cpu_info = subprocess.run(
  File "c:\Users\HP\AppData\Local\Programs\Python\Python310\lib\subprocess.py", line 501, in run
    with Popen(*popenargs, **kwargs) as process:
  File "c:\Users\HP\AppData\Local\Programs\Python\Python310\lib\subprocess.py", line 969, in __init__
    self._execute_child(args, executable, preexec_fn, close_fds,
  File "c:\Users\HP\AppData\Local\Programs\Python\Python310\lib\subprocess.py", line 1438, in _execute_child
    hp, ht, pid, tid = _winapi.CreateProcess(executable, args,


[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000579 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 581
[LightGBM] [Info] Number of data points in the train set: 5169, number of used features: 10
[LightGBM] [Info] Start training from score 251.155349
LightGBM RMSE: 3.758




Model LightGBM enregistré dans MLflow.
VotingRegressor RMSE: 3.095




Model VotingRegressor enregistré dans MLflow.


Les détails de cette expérience peuvent être visualisés dans l'interface graphique de MLflow, permettant ainsi de suivre les métriques, les paramètres et les modèles associés à chaque essai.

![image1.png](attachment:image.png)

In [11]:
df_results = pd.DataFrame(model_results)
styled_df = df_results.style.format({'RMSE': '{:.4f}'})
styled_df = styled_df.set_table_styles(
[{'selector': 'thead th', 'props': [('background-color', '#4CAF50'),('color', 'white'), ('text-align', 'center')]},
{'selector': 'tbody td', 'props': [('text-align', 'center'), ('font-size','12pt')]}]
)
styled_df

Unnamed: 0,Model,RMSE,Run ID
0,GradientBoosting,3.6007,704329c6cb614923a78d04455f3ed318
1,Lasso,9.5183,fd9dfa74dd294707825e9d34451fa2de
2,RandomForest,3.1366,66c8e3217cdd4b7f99bb3214f2fc6e8d
3,XGBoost,3.2785,e8bb73f829c94eac9330b086364d5856
4,LightGBM,3.7582,53e46f9f37554a4e855828562ae4d823
5,VotingRegressor,3.0948,e6d837ed89404e8f9279800f82ad60e2


Les résultats de l'évaluation des modèles montrent les RMSE obtenus pour chaque modèle de régression, avec leurs identifiants de run associés. Par exemple, le modèle RandomForest a obtenu un RMSE de 3.1366, tandis que le modèle Lasso a montré une performance moins précise avec un RMSE de 9.5183.

# Production d'api avec Fast API

## Choix du modèle 

Dans cette étape, nous choisissons le modèle RandomForest généré précédemment à l'aide de MLflow pour effectuer les prédictions d'émissions de CO2. Ce modèle est chargé à partir du fichier pickle sauvegardé lors de l'entraînement.

![image2.png](attachment:image.png)

## Définition des variables d'entrée 

La classe CO2Variables est définie à l'aide de Pydantic, permettant de valider et de structurer les entrées de l'utilisateur. Elle inclut des variables comme la taille du moteur, le nombre de cylindres, et les consommations de carburant en ville et sur autoroute, ainsi que le type de carburant utilisé.

![image2.png](attachment:image.png)

## Création de l'application FastAPI

FastAPI est utilisé pour créer l'API qui gère la prédiction des émissions de CO2. Un middleware CORS est ajouté pour permettre la communication entre le backend et le frontend, en autorisant les origines spécifiées (par exemple, l'application React exécutée sur le port 3000).

![image-2.png](attachment:image-2.png)

## Interactions avec le modèle via Swagger

Grâce à l'intégration de FastAPI, une interface Swagger est automatiquement générée pour l'API. Cette interface permet à l'utilisateur d'interagir facilement avec le modèle, de soumettre des données et de recevoir des prédictions sans avoir besoin d'une interface utilisateur dédiée.

![imag3.png](attachment:image.png)

![imag4.png](attachment:image.png)

# Interface graphique

Dans cette étape, une interface graphique a été créée avec React JS pour permettre aux utilisateurs de saisir les variables nécessaires à la prédiction des émissions de CO2. L'application interagit avec l'API FastAPI via des requêtes HTTP et affiche les résultats de manière claire. Cela permet une expérience utilisateur fluide, où les utilisateurs peuvent facilement obtenir des prédictions après avoir entré les données.

![image5.png](attachment:image.png)

## Déploiement de l'Application avec Docker et Docker Compose

## Front-end

![image-222.png](attachment:image-2.png)

Le Dockerfile pour React commence par utiliser l'image node:21.1.0-alpine. Ensuite, le projet est copié dans le conteneur, les dépendances sont installées via npm install, et le projet est construit avec npm run build. Finalement, la commande npm start est utilisée pour démarrer l'application React.

## Back-end

![image11.png](attachment:image.png)

## Docker-compose

![image20.png](attachment:image.png)

Le fichier docker-compose.yml définit les services fastapi et react, chacun dans son propre conteneur, avec les ports respectifs 8000 pour l'API et 3000 pour l'interface utilisateur React. Les services sont connectés à un réseau commun appelé app-network, ce qui permet une communication fluide entre eux.

![image16.png](attachment:image.png)