# Rapport du projet : Pr√©diction du Prix des Voitures


## Objectif du Projet

##### Ce projet vise √† d√©velopper un mod√®le de machine learning capable de pr√©dire le prix d'une voiture en fonction de ses caract√©ristique. L'objectif est d'entra√Æner un mod√®le de r√©gression et de l'int√©grer dans une application Streamlit pour permettre aux utilisateurs d'obtenir une estimation du prix d'un v√©hicule.

## Explication du code

### Importation des Biblioth√®ques

In [18]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import pickle

- **pandas** : Pour la manipulation des donn√©es, la lecture et l'√©criture
- **numpy**  :  Pour les op√©rations num√©riques et la manipulation de tableaux
- **sklearn.model_selection** : Pour diviser les donn√©es en train/test
- **sklearn.metrics** : Pour mesurer la performance du mod√®le
- **sklearn.preprocessing** : Pour normaliser les donn√©es
- **sklearn.ensemble** : Pour cr√©er un mod√®le de for√™t de d√©cision
- **sklearn.ensemble.RandomForestRegressor** : Mod√®le perfomant pour la r√©gression.
- **pickel** : Pour sauvegarder et recharger le mod√®le



### Chargements des Donn√©es

In [19]:
data = pd.read_csv("scrap_price.csv")

##### Nous utilisons pd.read_csv pour charger les donn√©es.

### Nettoyage et Pr√©paration des Donn√©es 

#### a) Suppression des Colonnes Non Pertinentes

In [20]:
colones_a_supprimer = ['ID','aspiration','doornumbers','enginelocation',"name","symboling","boreratio"]
data = data.drop(columns=colones_a_supprimer)


##### Pourquoi ? Ces colonnes n'influencent pas significativement le prix et sont donc supprim√©es.

#### b) Transformation des Variables Cat√©goriques

In [21]:
colonnes_categoriques = [ "fueltypes", "carbody", "drivewheels", "enginetype", "cylindernumber", "fuelsystem"]
data = pd.get_dummies(data, columns=colonnes_categoriques, drop_first=True)

##### Nous convertissons les variables textuelles en valeurs num√©riques via l'encodage One-Hot Encoding.

#### c) Gestion des Valeurs Manquantes

In [22]:
#V√©rifier s‚Äôil y a des valeurs manquantes
data.isnull().sum()
data = data.dropna()

##### Nous utilisons data.dropna() pour supprimer les lignes avec des valeurs manquantes garantir la coh√©rence des donn√©es.

### S√©paration des Donn√©es pour l'Entra√Ænement

In [23]:
X= data.drop(columns=['price']) # Variables ind√©pendantes (features)
y=data['price'] # La variable cible
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


##### Nous divisons les donn√©es en 80% d'entra√Ænement et 20% de test. 

### Entra√Ænement du Mod√®le

In [24]:
model =  RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train,y_train)

##### Nous utilisons RandomForestRegressor car il g√®re bien les relations non lin√©aires et est moins sensibles aux valeurs aberrantes.

### √âvaluation du Mod√®le 

In [25]:
y_pred = model.predict(X_test)

mae = mean_absolute_error(y_test, y_pred)  
mse = mean_squared_error(y_test, y_pred)  
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)  

print(" √âvaluation du mod√®le :")
print(f" Mean Absolute Error (MAE) : {mae:.2f}")
print(f" Mean Squared Error (MSE) : {mse:.2f}")
print(f" Root Mean Squared Error (RMSE) : {rmse:.2f}")
print(f" R¬≤ Score : {r2:.4f}")  

 √âvaluation du mod√®le :
 Mean Absolute Error (MAE) : 1228.42
 Mean Squared Error (MSE) : 3140478.13
 Root Mean Squared Error (RMSE) : 1772.14
 R¬≤ Score : 0.9602


#### Interpr√©tation des m√©triques :

- **MAE (Mean Absolute Error)** : Erreur moyenne absolue.
- **MSE (Mean Squared Error)** : Erreur moyenne quadratique.
- **RMSE (Root Mean Squared Error)** : Erreur quadratique moyenne racine, plus interpr√©table.
- **R¬≤ Score** : Indique la qualit√© du mod√®le (plus proche de 1, mieux c'est).

##### R¬≤ = 0.9602 signifie que notre mod√®le explique 96% des variations du prix des voitures.

### Sauvegarde du Mod√®le

In [26]:
import pickle
with open("modele_voiture.pkl", "wb") as file:
    pickle.dump(model, file)
print(" Mod√®le sauvegard√© avec succ√®s !")


 Mod√®le sauvegard√© avec succ√®s !


## D√©ploiement avec Streamlit

##### Le mod√®le est ensuite utilis√© dans une interface Streamlit permettant aux utilisateurs de saisir les caract√©ristiques du v√©hicule et d'obtenir une estimation du prix

### 1) Importation des Biblioth√®ques

In [27]:
import streamlit as st  # type: ignore # Framework pour cr√©er l'interface utilisateur
import pandas as pd  # Manipulation des donn√©es
import pickle  # Chargement du mod√®le de Machine Learning
import numpy as np  # Calculs math√©matiques

- **streamlit** : Permet de cr√©er une interface web interactive.

- **pandas** : Pour g√©rer et organiser les donn√©es.

- **pickle** : Pour charger le mod√®le pr√©-entra√Æn√©.

- **numpy** : Pour les calculs math√©matiques.



### 2) Chargement du Mod√®le de Machine Learning

In [28]:
@st.cache_resource  # Emp√™che de recharger le mod√®le √† chaque interaction
def load_model():
    with open("modele_voiture.pkl", "rb") as file:
        return pickle.load(file)

model = load_model()# Charge le mod√®le une fois

- **@st.cache_resource** : Stocke le mod√®le en cache pour √©viter de le recharger √† chaque interaction.

- **pickle.load(file)** : Charge le mod√®le sauvegard√© modele_voiture.pkl.

### 3) D√©finition des Colonnes Attendues par le Mod√®le

In [29]:
colonnes_model = [
    "wheelbase", "carlength", "carwidth", "carheight", "curbweight", "enginesize", "stroke",
    "compressionratio", "horsepower", "peakrpm", "citympg", "highwaympg",
    "fueltypes_gas", "carbody_hardtop", "carbody_hatchback", "carbody_sedan",
    "carbody_wagon", "drivewheels_fwd", "drivewheels_rwd", "enginetype_dohcv",
    "enginetype_l", "enginetype_ohc", "enginetype_ohcf", "enginetype_ohcv",
    "enginetype_rotor", "cylindernumber_five", "cylindernumber_four", 
    "cylindernumber_six", "cylindernumber_three", "cylindernumber_twelve",
    "cylindernumber_two", "fuelsystem_2bbl", "fuelsystem_4bbl", "fuelsystem_idi",
    "fuelsystem_mfi", "fuelsystem_mpfi", "fuelsystem_spdi", "fuelsystem_spfi"
]

- **Cette liste contient toutes les colonnes attendues par le mod√®le de Machine Learning.**

- **Les colonnes cat√©goriques (fueltypes, carbody, etc.) ont √©t√© transform√©es en variables binaires (One-Hot Encoding).**

- **Pour obtenir cette liste apr√®s l'entra√Ænement du mod√®le, nous avons utiliser :** print(X_train.columns.tolist())

Cela affiche les colonnes utilis√©es pendant l'entra√Ænement, qui doivent √™tre les m√™mes pour la pr√©diction.

### 4) Cr√©ation de l'Interface Utilisateur

In [None]:
st.title("üöó Pr√©diction du Prix d'une Voiture")
st.write("Entrez les caract√©ristiques du v√©hicule et obtenez une estimation du prix.")

- **st.title()** : D√©finit un titre principal.

- **st.write()** : Ajoute une description textuelle.

### 5) S√©lection des Options par l'Utilisateur

#### a)Type de carburant

In [None]:
fueltypes = st.selectbox("Type de carburant ‚ÑπÔ∏è", ["Essence", "Diesel"],
                         help="Essence : Moins cher mais consomme plus.\nDiesel : Plus √©conomique mais entretien plus co√ªteux.")

- **st.selectbox()** : Cr√©e une liste d√©roulante permettant de choisir un carburant.

- **help** : Ajoute une infobulle explicative.

#### b) Type de carrosserie

In [None]:
carbody = st.selectbox("Type de carrosserie ‚ÑπÔ∏è", ["Coup√©", "Compacte", "Berline", "Break"],
                        help="üîπ **Coup√©** : Toit rigide, 2 portes.\nüîπ **Compacte** : Petite, √©conomique.\nüîπ **Berline** : 4 portes, confortable.\nüîπ **Break** : Plus grand espace de chargement.")

### c) Type de traction

In [None]:
drivewheels = st.selectbox("Type de traction ‚ÑπÔ∏è", ["Traction avant", "Propulsion", "4x4"],
                            help="üîπ **Traction avant (FWD)** : √âconomique, stable.\nüîπ **Propulsion (RWD)** : Sportif, mais moins stable.\nüîπ **4x4 (AWD/4WD)** : Meilleure adh√©rence sur routes difficiles.")

### d) Type de Moteur

In [None]:
enginetype = st.selectbox("Type de moteur ‚ÑπÔ∏è", ["DOHC", "Ligne", "OHC", "OHCF", "OHCV", "Rotatif"],
                           help="üîπ **DOHC** : Double arbre √† cames, plus puissant.\nüîπ **Ligne (L)** : Cylindres align√©s.\nüîπ **OHC / OHCF / OHCV** : Simples arbres √† cames.\nüîπ **Rotatif** : Technologie sp√©ciale (Mazda).")


### e) Nombre de Cylindres

In [None]:
cylindernumber = st.selectbox("Nombre de cylindres ‚ÑπÔ∏è", ["2", "3", "4", "5", "6", "12"],
                               help="Plus de cylindres = Plus de puissance, mais consomme plus.\nüîπ **2 ou 3** : Petites voitures.\nüîπ **4** : Standard.\nüîπ **6** : Sportives & SUV.\nüîπ **12** : Supercars !")

### f) Syst√®me de carburant


In [None]:
fuelsystem = st.selectbox("Syst√®me de carburant ‚ÑπÔ∏è", ["Injection MPFI", "Carburateur 2 corps", "Carburateur 4 corps", "Injection directe (IDI)"],
                           help="üîπ **MPFI** : Injection multi-points (moderne, pr√©cis).\nüîπ **Carburateur 2/4 corps** : Ancien syst√®me.\nüîπ **IDI** : Injection directe pour Diesel.")

### 6) S√©lection des Caract√©ristiques Techniques avec des Sliders

In [None]:
wheelbase = st.slider("Empattement (cm)", 80, 140, 100)
carlength = st.slider("Longueur du v√©hicule (cm)", 140, 220, 180)
carwidth = st.slider("Largeur du v√©hicule (cm)", 60, 90, 70)
carheight = st.slider("Hauteur du v√©hicule (cm)", 40, 80, 50)
curbweight = st.slider("Poids √† vide (kg)", 500, 2500, 1500)
enginesize = st.slider("Taille du moteur (cm¬≥)", 500, 5000, 2000)
stroke = st.slider("Course du piston", 2.0, 5.0, 3.5)
compressionratio = st.slider("Ratio de compression", 5.0, 25.0, 10.0)
horsepower = st.slider("Puissance (ch)", 50, 400, 150)
peakrpm = st.slider("R√©gime max (rpm)", 4000, 8000, 5500)
citympg = st.slider("Consommation en ville (mpg)", 5, 60, 30)
highwaympg = st.slider("Consommation sur autoroute (mpg)", 5, 60, 40)

- **st.slider() permet √† l‚Äôutilisateur de choisir une valeur dans un intervalle d√©fini.**

- **Les valeurs min/max ont √©t√© d√©finies en analysant les donn√©es disponibles.**

- **Exemple :**

    - **wheelbase (empattement)** : 80 - 140 cm (gamme typique de voitures compactes √† berlines).

    - **carlength (longueur)** : 140 - 220 cm (petites citadines √† grandes berlines).

    - **carwidth (largeur)** : 60 - 90 cm (de tr√®s compact √† large SUV).

### 7) Pr√©paration des Donn√©es pour la Pr√©diction

In [35]:
input_data = {
    "wheelbase": wheelbase, "carlength": carlength, "carwidth": carwidth, 
    "carheight": carheight, "curbweight": curbweight, "enginesize": enginesize, 
    "stroke": stroke, "compressionratio": compressionratio, "horsepower": horsepower,
    "peakrpm": peakrpm, "citympg": citympg, "highwaympg": highwaympg
}

- **Stocke les valeurs entr√©es par l'utilisateur dans un dictionnaire.**

### 8) Conversion des Variables Cat√©goriques

In [42]:
input_data["fueltypes_gas"] = 1 if fueltypes == "Essence" else 0
input_data["carbody_" + carbody.lower()] = 1
input_data["drivewheels_" + drivewheels.lower()] = 1
input_data["enginetype_" + enginetype.lower()] = 1
input_data["cylindernumber_" + cylindernumber] = 1
input_data["fuelsystem_" + fuelsystem.lower().replace(" ", "_")] = 1

- **Convertit les valeurs textuelles en variables num√©riques binaires (0 ou 1).**
- **Assure que le mod√®le re√ßoit des donn√©es au bon format.**

### 9) Conversion en DataFrame et R√©organisation des Colonnes

In [None]:
input_df = pd.DataFrame([input_data])

for col in colonnes_model:
    if col not in input_df.columns:
        input_df[col] = 0

input_df = input_df[colonnes_model]  # R√©organisation des colonnes du DataFrame pour qu'elles suivent exactement l'ordre sp√©cifi√© dans colonnes_model.

### 10)  Bouton pour Lancer la Pr√©diction

In [None]:
if st.button(" Pr√©dire le Prix"):
    prix_estime = model.predict(input_df)
    st.success(f" Prix estim√© : {prix_estime[0]:,.2f} $")


- **st.button()** : Affiche un bouton interactif.

- **model.predict(input_df)** : Utilise le mod√®le pour faire une pr√©diction du prix.

- **st.success()** : Affiche le r√©sultat dans un cadre vert.

##### L'utilisateur peut entrer les valeurs, et l'application affiche le prix estim√© en direct.

## Conclusion

##### Nous avons d√©velopp√© un mod√®le de machine learning performant pour pr√©dire le prix des voitures et l'avons int√©gr√© dans une application interactive.