
**<h1 align=center>DEPLOIEMENT DE MODELES DE MACHINE LEARNING AVEC PYTHON</h1>**

# <font color=red> Scénario

Vous avez une entreprise de développement d'applications mobiles et votre nouveau projet concerne la création d'une application qui met en relation des vendeurs de voiture d'occasion et des potentiels clients. Vous aimeriez ajouter une nouvelle fonctionnalité à cette application, celle de de donner la possibilité aux utilisateurs de l'application de connaître le prix correcte auquel ils peuvent acheter ou vendre une voiture d'occasion d'après les caractéristiques qu'ils souhaitent afin de ne pas se faire arnaquer par des vendeurs.

Ensuite l'application devra avertir un potentiel acheteur si la voiture qui l'intéresse est au prix "juste" et aussi avertir un vendeur si le prix auquel il veut vendre sa voiture est correcte.

Après avoir collecté des données des caractéristiques de plusieurs centaines de voitures d'occasion ainsi que leurs prix de vente sur des plateformes dédiées, vous décidez donc de construire un modèle de Machine Learning capable de prédire le prix d'une voiture en fonction de ses caractéristiques.

# <font color=red> Importation des données

In [1]:
# Librairies 
import pandas as pd

import numpy as np

In [3]:
# Données de l'office australien des impôts 

url_data = r'C:\Users\TCHANGANG\Desktop\Prediction_prix_voiture\imports-85.data'

df = pd.read_csv(url_data)

df.head()

Unnamed: 0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.60,...,130,mpfi,3.47,2.68,9.00,111,5000,21,27,13495
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
1,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
2,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
3,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
4,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250


Les noms des colonnes ne sont pas définis dans ce jeu de données. Retrouvez les noms des colonnes au niveau de la source des données sur [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/datasets/automobile).


In [4]:
headers = ["symboling","normalized-losses","make","fueltype","aspiration", "num-of-doors","body-style", "drive-wheels",
           "engine-location","wheelbase", "length","width","height","curb-weight","engine-type","num-of-cylinders", 
           "engine-size","fuelsystem","bore","stroke","compression-ratio","horsepower", "peak-rpm","city-mpg",
           "highway-mpg","price"]

In [5]:
# Relecture des données

df = pd.read_csv(url_data, header = None, names = headers)

df.head()

Unnamed: 0,symboling,normalized-losses,make,fueltype,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheelbase,...,engine-size,fuelsystem,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  205 non-null    object 
 2   make               205 non-null    object 
 3   fueltype           205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       205 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheelbase          205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

In [7]:
df.replace('?', np.nan, inplace = True)

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  164 non-null    object 
 2   make               205 non-null    object 
 3   fueltype           205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       203 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheelbase          205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

In [8]:
df.isnull().sum()

symboling             0
normalized-losses    41
make                  0
fueltype              0
aspiration            0
num-of-doors          2
body-style            0
drive-wheels          0
engine-location       0
wheelbase             0
length                0
width                 0
height                0
curb-weight           0
engine-type           0
num-of-cylinders      0
engine-size           0
fuelsystem            0
bore                  4
stroke                4
compression-ratio     0
horsepower            2
peak-rpm              2
city-mpg              0
highway-mpg           0
price                 4
dtype: int64

# <font color=red> Nettoyage des données

In [9]:
# Suppression des valeurs manquantes

df.dropna(inplace = True)

df.isna().sum()

symboling            0
normalized-losses    0
make                 0
fueltype             0
aspiration           0
num-of-doors         0
body-style           0
drive-wheels         0
engine-location      0
wheelbase            0
length               0
width                0
height               0
curb-weight          0
engine-type          0
num-of-cylinders     0
engine-size          0
fuelsystem           0
bore                 0
stroke               0
compression-ratio    0
horsepower           0
peak-rpm             0
city-mpg             0
highway-mpg          0
price                0
dtype: int64

La variable *price* est sous un mauvais format de données.

In [10]:
df.price = df.price.astype('float')

df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 159 entries, 3 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          159 non-null    int64  
 1   normalized-losses  159 non-null    object 
 2   make               159 non-null    object 
 3   fueltype           159 non-null    object 
 4   aspiration         159 non-null    object 
 5   num-of-doors       159 non-null    object 
 6   body-style         159 non-null    object 
 7   drive-wheels       159 non-null    object 
 8   engine-location    159 non-null    object 
 9   wheelbase          159 non-null    float64
 10  length             159 non-null    float64
 11  width              159 non-null    float64
 12  height             159 non-null    float64
 13  curb-weight        159 non-null    int64  
 14  engine-type        159 non-null    object 
 15  num-of-cylinders   159 non-null    object 
 16  engine-size        159 non-null

# <font color=red> Construction d'un modèle

In [11]:
# Visualisation de la relation entre la varibale cible 'price' et la caractéristique 'curb-weight'

import plotly.express as px

px.scatter(df, x = 'curb-weight', y = 'price')

In [12]:
# Construction du modèle de régression linéaire

X = df[['curb-weight']]
y = df['price']

from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X, y)

In [13]:
# Paramètres du modèle

print("Pente : ", model.coef_[0])

print("Ordonnée à l'origine : ", model.intercept_)

Pente :  10.899007035334956
Ordonnée à l'origine :  -15378.234792920191


In [14]:
# Performance du modèle

model.score(X, y)

0.7985907567612947

In [15]:
# Visualisation du modèle

px.scatter(df, x = 'curb-weight', y = 'price', trendline = 'ols', 
           title = "Régression linéaire du prix d'une voiture en fonction de son poids à vide")

# <font color=red> Prédictions sur de nouvelles données

In [16]:
# Voitures dont les poids à vide sont égaux à 3500Kg et 6800kg

nouvelles_voitures = pd.DataFrame({'curb-weight':[3500, 6800]})

nouvelles_voitures

Unnamed: 0,curb-weight
0,3500
1,6800


In [17]:
# Estimation des prix

model.predict(nouvelles_voitures)

array([22768.28983075, 58735.01304736])

# <font color=red> Utilisation du modèle

In [18]:
# Sauvegarde du modèle

import joblib

joblib.dump(value = model, filename = 'price_car_model.pkl')

['price_car_model.pkl']

In [19]:
# Chargement du modèle

model_loaded = joblib.load(filename = 'price_car_model.pkl')

# Vérification des paramètres du modèles chargé

print('pente : ', model_loaded.coef_[0])
print('interception : ', model_loaded.intercept_)

pente :  10.899007035334956
interception :  -15378.234792920191


In [20]:
# Utilisation du modèle chargé pour réaliser des prédictions

model_loaded.predict(nouvelles_voitures)

array([22768.28983075, 58735.01304736])

In [21]:
# Construction d'une fonction montrant le fonctionnement de l'application (voir scénario)

utilisateur = input("Vous êtes un acheteur ou un vendeur ? ('acheteur'/'vendeur')\n>>>")

if utilisateur == 'acheteur':
    poids_a_vide = float(input("Rentrez le poids à vide de la voiture qui vous interesse\n>>>"))
    prix_annonce = float(input("Rentrez le prix affiché sur l'annonce de la voiture qui vous interesse\n>>>"))
    prix_predit = model_loaded.predict(pd.DataFrame({'curb-weight':[poids_a_vide]}))
    
    if prix_annonce > prix_predit:
        print("Le prix affiché sur l'annonce est élevé car pour une voiture avec ce poids à vide, notre modèle prédit un prix égal à",
             round(prix_predit[0], 3), "$")
    else:
        print("Vous allez faire une bonne affaire car pour une voiture avec ce poids à vide, notre modèle prédit un prix égal à",
             round(prix_predit[0], 3), "$")
        
if utilisateur == 'vendeur':
    poids_a_vide = float(input("Rentrez le poids à vide de la voiture que vous voulez vendre\n>>>"))
    prix_annonce = float(input("Rentrez le prix auquel vous voulez vendre votre voiture\n>>>"))
    prix_predit = model_loaded.predict(pd.DataFrame({'curb-weight':[poids_a_vide]}))
    
    if prix_annonce > prix_predit:
        print("Le prix auquel vous voulez vendre votre voiture est élevé car pour une voiture avec ce poids à vide, notre modèle prédit un prix égal à",
             round(prix_predit[0], 3), "$")
    else:
        print("Le prix auquel vous voulez vendre votre voiture est faible car pour une voiture avec ce poids à vide, notre modèle prédit un prix égal à",
             round(prix_predit[0], 3), "$")

Le prix affiché sur l'annonce est élevé car pour une voiture avec ce poids à vide, notre modèle prédit un prix égal à -13165.736 $


In [28]:
# Utilisation de la fonction

def utilisation_du_modele():
    utilisateur = input("Vous êtes un acheteur ou un vendeur ? ('acheteur'/'vendeur')\n>>>")

    if utilisateur == 'acheteur':
        poids_a_vide = float(input("Rentrez le poids à vide de la voiture qui vous interesse\n>>>"))
        prix_annonce = float(input("Rentrez le prix affiché sur l'annonce de la voiture qui vous interesse\n>>>"))
        prix_predit = model_loaded.predict(pd.DataFrame({'curb-weight':[poids_a_vide]}))

        if prix_annonce > prix_predit:
            print("Le prix affiché sur l'annonce est élevé car pour une voiture avec ce poids à vide, notre modèle prédit un prix égal à",
                 round(prix_predit[0], 3), "$")
        else:
            print("Vous allez faire une bonne affaire car pour une voiture avec ce poids à vide, notre modèle prédit un prix égal à",
                 round(prix_predit[0], 3), "$")

    if utilisateur == 'vendeur':
        poids_a_vide = float(input("Rentrez le poids à vide de la voiture que vous voulez vendre\n>>>"))
        prix_annonce = float(input("Rentrez le prix auquel vous voulez vendre votre voiture\n>>>"))
        prix_predit = model_loaded.predict(pd.DataFrame({'curb-weight':[poids_a_vide]}))

        if prix_annonce > prix_predit:
            print("Le prix auquel vous voulez vendre votre voiture est élevé car pour une voiture avec ce poids à vide, notre modèle prédit un prix égal à",
                 round(prix_predit[0], 3), "$")
        else:
            print("Le prix auquel vous voulez vendre votre voiture est faible car pour une voiture avec ce poids à vide, notre modèle prédit un prix égal à",
                 round(prix_predit[0], 3), "$")

In [30]:
utilisation_du_modele()

Le prix affiché sur l'annonce est élevé car pour une voiture avec ce poids à vide, notre modèle prédit un prix égal à -12653.483 $
