# Analyse et Mod√©lisation des Prix de V√©hicules
Cr√©er un mod√®le pour pr√©dire le prix d‚Äôun v√©hicule √† partir de caract√©ristiques techniques et visuelles, avec un dataset sale, non structur√© et plein de cha√Ænes de caract√®res mal format√©es.

üîó Dataset :
üëâ https://www.kaggle.com/datasets/CooperUnion/cardataset

## 1. Compr√©hension et audit du dataset
- Charger les donn√©es
- Identifier les types de variables (num√©riques, cat√©gorielles, cha√Ænes)
- Lister les incoh√©rences et valeurs manquantes
- Questions : colonnes utiles, corr√©lations potentielles, doublons/r√©dundances



In [None]:
import pandas as pd
import numpy as np
# Charger le dataset
# df = pd.read_csv('path_to_data.csv')

## 2. Nettoyage avanc√©
- Homog√©n√©iser le format des prix
- Normaliser la cylindr√©e et la puissance
- Corriger les formats de date
- Uniformiser marques et mod√®les
- Questions : unit√©s de puissance, traitement des lignes incoh√©rentes


Exemples de nettoyage :
Prix : convertir "20,000 USD", "23k", "‚Ç¨19.5K" ‚Üí nombre homog√®ne

Cylindr√©e : "2.0L", "2000cc", "120 hp" ‚Üí puissance normalis√©e

Dates : corriger les ann√©es absurdes (ex: fabrication apr√®s la vente)

Marques et mod√®les : uniformiser les noms ("VW", "Volkswagen", "volks wagen")

In [None]:
# Exemple de nettoyage des prix
# df['price_clean'] = df['price'].apply(clean_price)

## 3. Feature Engineering (cr√©ation de variables)
- Calcul de l'√¢ge du v√©hicule
- Cat√©gorisation du segment (compact, SUV, etc.)
- Encodage des variables cat√©gorielles
- Questions : relation √¢ge/prix, influence du segment


Exemples :
Age du v√©hicule = ann√©e actuelle - ann√©e de fabrication

Segment du v√©hicule (ex: compact, SUV, utilitaire) √† partir du mod√®le

Encodeur ordinal ou one-hot pour les cat√©gories (carburant, bo√Æte auto/manuelle, etc.)

In [None]:
# Cr√©ation de nouvelles variables
# df['age'] = current_year - df['year']

## 4. Analyse exploratoire (EDA)
- Corr√©lations entre variables num√©riques
- Distribution du prix par segment et type de carburant
- Identification des outliers sur le prix et le kilom√©trage
- Analyse de la distribution des variables (histogrammes, boxplots)
- Analyse des interactions entre variables (scatter matrix)

**Questions √† se poser** :
- Quelles variables num√©riques sont les plus corr√©l√©es avec le prix ?
- Le prix suit-il une relation lin√©aire ou log-lin√©aire avec l'√¢ge, le kilom√©trage et la puissance ?
- Y a-t-il des effets de seuil ou de segments (par exemple SUV vs citadine) sur la distribution des prix ?
- Comment le kilom√©trage impacte-t-il le prix selon l'√¢ge du v√©hicule ?
- Y a-t-il des relations non lin√©aires entre la puissance moteur et le prix ?
- La localisation g√©ographique ou la date d'inscription influence-t-elle significativement le prix ?
- Quels attributs cat√©goriels (carburant, transmission, couleur, nombre de portes) ont un impact sur le prix ?
- Y a-t-il des valeurs aberrantes dans d'autres variables (kilom√©trage, √¢ge) qui pourraient fausser les analyses ?
- Les variables formant des paires montrent-elles des interactions (par exemple √¢ge vs puissance) ?
- Faut-il transformer certaines variables (log, racine carr√©e) pour lin√©ariser leur relation avec le prix ?

In [None]:
# Visualisations
# import matplotlib.pyplot as plt

## 5. Mod√©lisation (sans scikit-learn)
- R√©gression lin√©aire avec NumPy / statsmodels
- √âvaluation performance sur validation
- Questions : variables importantes, sur-/sous-apprentissage

In [None]:
# Mod√®le de r√©gression
# import statsmodels.api as sm

## 6. Analyse des erreurs et des r√©sidus
- Distribution des erreurs par segment
- R√©sidus vs prix r√©el
- D√©tection d'outliers non capt√©s


In [None]:
# Analyse des r√©sidus
# residuals = model.predict(X) - y_true

## 7. Synth√®se des r√©sultats
- Importance des variables
- Exemples de bonnes/mauvaises pr√©dictions
- Limites et pistes d'am√©lioration
