# Présentation des données

:::{image} car-cover.jpg
:::

## Introduction

### 1. Contexte et problématique métier

Dans le secteur de la vente automobile, et particulièrement pour les concessionnaires achetant des véhicules aux enchères, l'estimation du prix de revente est critique. L'objectif est de déterminer un prix d'achat maximal qui garantisse une marge bénéficiaire.

Cependant, se baser sur une simple estimation moyenne (le prix "moyen" du marché) est une stratégie risquée. Si le concessionnaire achète un véhicule à son prix moyen estimé, il court le risque de perdre de l'argent dans 50 % des cas (si la voiture se revend finalement moins cher).

L'objectif de ce projet est de sécuriser les achats en passant d'une prédiction ponctuelle à une **quantification d'incertitude**. Le concessionnaire ne cherche pas le prix "juste", mais un **prix plancher** : "Je veux être sûr à 90 % de pouvoir revendre ce véhicule au moins X €".

### 2. Présentation des données

Pour cette étude, nous utilisons le jeu de données **Car Prices Dataset** (disponible sur [Kaggle](https://www.kaggle.com/datasets/sidharth178/car-prices-dataset)).
Il s'agit d'un registre de voitures d'occasion contenant des caractéristiques techniques et commerciales telles que :
* La marque et le modèle.
* L'année de fabrication et le kilométrage.
* Le type de carburant et l'état général.

La tâche est une **régression** visant à prédire le prix de vente (variable continue). Ce jeu de données est idéal pour la quantification d'incertitude car il présente une forte **hétéroscédasticité** : la variance du prix n'est pas constante.

### 3. Approche méthodologique : Régression quantile et prédiction conforme

Les modèles de régression classiques minimisent l'erreur moyenne. Ils ne répondent pas à notre besoin de garantie.

Pour pallier ce manque, nous intégrons plusieurs méthodes issues de la **prédiction conforme**. Ces méthodes transforment la prédiction simple en intervalles de prédictions avec une garantie statistique de fiabilité.

Cette approche permet au métier de fixer ses prix d'achat sur des garanties statistiques (ex: "Je suis sûr à 80% de revendre au moins 14 000€") plutôt que sur des intuitions.

### 4. Applicabilité de la prédiction conforme

Pour bénéficier des garanties théoriques de la prédiction conforme, il faut que les données respectent l'hypothèse d'**échangeabilité**. Dans le contexte du marché automobile, cette hypothèse est raisonnable car les véhicules sont vendus dans différentes régions et conditions, et les données sont réparties aléatoirement entre les ensembles d'entraînement, de calibration et de test.

De plus, ce registre a été collecté dans un intervalle de temps réduit, ce qui permet en pratique de valider l'hypothèse d'échangeabilité nécessaire aux méthodes de prédiction conforme.

## Analyse exploratoire des données

### Chargement des données

In [86]:
from kagglehub import KaggleDatasetAdapter, dataset_load
import polars as pl

# Polars display options
pl.Config.set_tbl_hide_dataframe_shape(True)
pl.Config.set_float_precision(2)

df: pl.DataFrame = dataset_load(
    adapter=KaggleDatasetAdapter.POLARS,
    handle="sidharth178/car-prices-dataset",
    path="train.csv",
).collect()
df.head()

ID,Price,Levy,Manufacturer,Model,Prod. year,Category,Leather interior,Fuel type,Engine volume,Mileage,Cylinders,Gear box type,Drive wheels,Doors,Wheel,Color,Airbags
i64,i64,str,str,str,i64,str,str,str,str,str,f64,str,str,str,str,str,i64
45654403,13328,"""1399""","""LEXUS""","""RX 450""",2010,"""Jeep""","""Yes""","""Hybrid""","""3.5""","""186005 km""",6.0,"""Automatic""","""4x4""","""04-May""","""Left wheel""","""Silver""",12
44731507,16621,"""1018""","""CHEVROLET""","""Equinox""",2011,"""Jeep""","""No""","""Petrol""","""3""","""192000 km""",6.0,"""Tiptronic""","""4x4""","""04-May""","""Left wheel""","""Black""",8
45774419,8467,"""-""","""HONDA""","""FIT""",2006,"""Hatchback""","""No""","""Petrol""","""1.3""","""200000 km""",4.0,"""Variator""","""Front""","""04-May""","""Right-hand drive""","""Black""",2
45769185,3607,"""862""","""FORD""","""Escape""",2011,"""Jeep""","""Yes""","""Hybrid""","""2.5""","""168966 km""",4.0,"""Automatic""","""4x4""","""04-May""","""Left wheel""","""White""",0
45809263,11726,"""446""","""HONDA""","""FIT""",2014,"""Hatchback""","""Yes""","""Petrol""","""1.3""","""91901 km""",4.0,"""Automatic""","""Front""","""04-May""","""Left wheel""","""Silver""",4


### Nettoyage des données

In [87]:
df = df.drop(["ID"])

# Extract features and cleaning
df = df.with_columns(
    # Create Turbo binary feature
    pl.col("Engine volume").str.contains("Turbo").alias("Turbo"),
    # Parse Engine volume: extract first number (e.g., '2.5 Turbo' -> 2.5)
    pl.col("Engine volume").str.extract(r"(\d+\.?\d*)", 1).cast(pl.Float64),
    # Parse Mileage: remove 'km' and convert to int
    pl.col("Mileage").str.replace(" km", "").cast(pl.Int64),
    # Cast Levy to numeric ('-' becomes null)
    pl.col("Levy").cast(pl.Int64, strict=False),
    # Convert Leather interior to binary
    (pl.col("Leather interior") == "Yes").cast(pl.Boolean),
    # Parse Doors: extract first number
    pl.col("Doors").str.extract(r"(\d+)", 1).cast(pl.Int64),
)

# Rename columns
df = df.rename(
    {
        "Engine volume": "Engine volume (L)",
        "Mileage": "Mileage (km)",
        "Prod. year": "Production year",
        "Levy": "Levy tax",
        "Manufacturer": "Brand",
    }
)
df.head()

Price,Levy tax,Brand,Model,Production year,Category,Leather interior,Fuel type,Engine volume (L),Mileage (km),Cylinders,Gear box type,Drive wheels,Doors,Wheel,Color,Airbags,Turbo
i64,i64,str,str,i64,str,bool,str,f64,i64,f64,str,str,i64,str,str,i64,bool
13328,1399.0,"""LEXUS""","""RX 450""",2010,"""Jeep""",True,"""Hybrid""",3.5,186005,6.0,"""Automatic""","""4x4""",4,"""Left wheel""","""Silver""",12,False
16621,1018.0,"""CHEVROLET""","""Equinox""",2011,"""Jeep""",False,"""Petrol""",3.0,192000,6.0,"""Tiptronic""","""4x4""",4,"""Left wheel""","""Black""",8,False
8467,,"""HONDA""","""FIT""",2006,"""Hatchback""",False,"""Petrol""",1.3,200000,4.0,"""Variator""","""Front""",4,"""Right-hand drive""","""Black""",2,False
3607,862.0,"""FORD""","""Escape""",2011,"""Jeep""",True,"""Hybrid""",2.5,168966,4.0,"""Automatic""","""4x4""",4,"""Left wheel""","""White""",0,False
11726,446.0,"""HONDA""","""FIT""",2014,"""Hatchback""",True,"""Petrol""",1.3,91901,4.0,"""Automatic""","""Front""",4,"""Left wheel""","""Silver""",4,False


### Statistiques descriptives

In [88]:
df.describe()

statistic,Price,Levy tax,Brand,Model,Production year,Category,Leather interior,Fuel type,Engine volume (L),Mileage (km),Cylinders,Gear box type,Drive wheels,Doors,Wheel,Color,Airbags,Turbo
str,f64,f64,str,str,f64,str,f64,str,f64,f64,f64,str,str,f64,str,str,f64,f64
"""count""",19237.0,13418.0,"""19237""","""19237""",19237.0,"""19237""",19237.0,"""19237""",19237.0,19237.0,19237.0,"""19237""","""19237""",19237.0,"""19237""","""19237""",19237.0,19237.0
"""null_count""",0.0,5819.0,"""0""","""0""",0.0,"""0""",0.0,"""0""",0.0,0.0,0.0,"""0""","""0""",0.0,"""0""","""0""",0.0,0.0
"""mean""",18555.93,906.84,,,2010.91,,0.73,,2.31,1532235.69,4.58,,,3.93,,,6.58,0.1
"""std""",190581.27,461.87,,,5.67,,,,0.88,48403869.38,1.2,,,0.4,,,4.32,
"""min""",1.0,87.0,"""ACURA""","""09-Mar""",1939.0,"""Cabriolet""",0.0,"""CNG""",0.0,0.0,1.0,"""Automatic""","""4x4""",2.0,"""Left wheel""","""Beige""",0.0,0.0
"""25%""",5331.0,640.0,,,2009.0,,,,1.8,70139.0,4.0,,,4.0,,,4.0,
"""50%""",13172.0,781.0,,,2012.0,,,,2.0,126000.0,4.0,,,4.0,,,6.0,
"""75%""",22075.0,1058.0,,,2015.0,,,,2.5,188888.0,4.0,,,4.0,,,12.0,
"""max""",26307500.0,11714.0,"""სხვა""","""xD""",2020.0,"""Universal""",1.0,"""Plug-in Hybrid""",20.0,2147483647.0,16.0,"""Variator""","""Rear""",5.0,"""Right-hand drive""","""Yellow""",16.0,1.0


Il y a des valeurs aberrantes dans les données pour le prix et le kilométrage.

### Nettoyage des données aberrantes

In [89]:
df.sort("Price", descending=True).head(3)

Price,Levy tax,Brand,Model,Production year,Category,Leather interior,Fuel type,Engine volume (L),Mileage (km),Cylinders,Gear box type,Drive wheels,Doors,Wheel,Color,Airbags,Turbo
i64,i64,str,str,i64,str,bool,str,f64,i64,f64,str,str,i64,str,str,i64,bool
26307500,,"""OPEL""","""Combo""",1999,"""Goods wagon""",False,"""Diesel""",1.7,99999,4.0,"""Manual""","""Front""",2,"""Left wheel""","""Blue""",0,False
872946,2067.0,"""LAMBORGHINI""","""Urus""",2019,"""Universal""",True,"""Petrol""",4.0,2531,8.0,"""Tiptronic""","""4x4""",4,"""Left wheel""","""Black""",0,False
627220,,"""MERCEDES-BENZ""","""G 65 AMG 63AMG""",2020,"""Jeep""",True,"""Petrol""",6.3,0,8.0,"""Tiptronic""","""4x4""",4,"""Left wheel""","""Black""",12,True


In [90]:
df.sort("Mileage (km)", descending=True).head(8)

Price,Levy tax,Brand,Model,Production year,Category,Leather interior,Fuel type,Engine volume (L),Mileage (km),Cylinders,Gear box type,Drive wheels,Doors,Wheel,Color,Airbags,Turbo
i64,i64,str,str,i64,str,bool,str,f64,i64,f64,str,str,i64,str,str,i64,bool
6899,,"""VOLKSWAGEN""","""Golf""",1999,"""Sedan""",False,"""Petrol""",1.6,2147483647,4.0,"""Manual""","""Front""",4,"""Left wheel""","""Black""",4,False
5959,,"""MERCEDES-BENZ""","""C 180""",1995,"""Sedan""",False,"""CNG""",1.8,2147483647,4.0,"""Manual""","""Rear""",4,"""Left wheel""","""Blue""",5,False
10036,,"""SUBARU""","""Forester""",2005,"""Jeep""",False,"""Petrol""",2.0,2147483647,4.0,"""Tiptronic""","""4x4""",4,"""Right-hand drive""","""White""",12,False
2200,,"""UAZ""","""31514""",1968,"""Jeep""",True,"""CNG""",2.4,2147483647,4.0,"""Manual""","""4x4""",4,"""Left wheel""","""Black""",10,False
3,,"""BMW""","""525""",1995,"""Sedan""",False,"""Petrol""",2.8,2147483647,6.0,"""Manual""","""Rear""",4,"""Left wheel""","""Black""",3,False
15681,,"""TOYOTA""","""Prius""",2008,"""Sedan""",False,"""Petrol""",2.0,2147483647,4.0,"""Automatic""","""Front""",4,"""Left wheel""","""Blue""",0,False
18817,1995.0,"""FORD""","""Transit""",2003,"""Microbus""",False,"""Diesel""",2.4,2147483647,4.0,"""Manual""","""Front""",2,"""Left wheel""","""White""",2,True
4234,,"""MERCEDES-BENZ""","""E 200""",2001,"""Sedan""",True,"""CNG""",2.6,1777777778,6.0,"""Tiptronic""","""Rear""",4,"""Right-hand drive""","""Black""",10,False


In [91]:
# On supprime les valeurs aberrantes

condition = (pl.col("Price") < 1_000_000) & (pl.col("Mileage (km)") < 1_000_000)
df = df.filter(condition)

### Distribution des variables numériques

In [92]:
import altair as alt

alt.data_transformers.enable("vegafusion")

numerical_cols = [
    "Production year",
    "Mileage (km)",
    "Price",
    "Levy tax",
    "Engine volume (L)",
]

for col in numerical_cols:
    alt.Chart(df).mark_boxplot(outliers={"size": 5}).encode(
        alt.X(f"{col}:Q").scale(zero=False),
    ).properties(title=f"Distribution of {col}").show()

### Distribution des variables catégorielles et booléennes

In [93]:
low_card_categorical = df.select([s for s in df if s.n_unique() < 50]).columns

for col in low_card_categorical:
    alt.Chart(df).mark_bar().encode(
        alt.X("count()"),
        alt.Y(f"{col}:N", sort="-x", title=None),
        tooltip=[f"{col}:N", "count()"],
    ).properties(
        title=f"Distribution of {col}",
    ).show()

### Matrice de corrélation

On observe une faible corrélation entre le prix de la voiture et l'année de production, le kilométrage et la présence d'un turbo.

In [94]:
from utils import plot_correlation

plot_correlation(df)

### Évolution des prix par année de production

In [95]:
alt.Chart(df).mark_bar().encode(
    alt.X("Production year:T"),
    alt.Y("mean(Price):Q", title=None),
    tooltip=["Production year:T", "mean(Price):Q"],
).properties(title="Average Price by Production Year")

### Relation entre prix et année de production

In [96]:
alt.Chart(df).mark_rect(clip=True).encode(
    alt.X("Production year:Q").bin(maxbins=50),
    alt.Y("Price:Q").bin(maxbins=200).scale(domain=[0, 200_000]),
    alt.Color("count()").scale(type="log"),
    tooltip=["count()"],
).properties(title="Price vs Production year (Density Plot)")

### Relation entre prix et kilométrage

In [97]:
alt.Chart(df).mark_rect(clip=True).encode(
    alt.X("Mileage (km):Q").bin(maxbins=50).scale(domain=[0, 500_000]),
    alt.Y("Price:Q").bin(maxbins=100).scale(domain=[0, 200_000]),
    alt.Color("count()").scale(type="log"),
    tooltip=["count()"],
).properties(title="Price vs Mileage (Density Plot)")

### Distribution des prix par type de carburant

In [98]:
alt.Chart(df).mark_boxplot(extent="min-max", clip=True).encode(
    alt.X("Price:Q").scale(domain=[0, 50_000]),
    alt.Y("Fuel type:N", title=None),
    alt.Color("Fuel type:N", legend=None),
).properties(title="Price Distribution by Fuel Type")

### Distribution des prix par catégorie de véhicule

In [99]:
alt.Chart(df).mark_boxplot(extent="min-max", clip=True).encode(
    alt.X("Price:Q").scale(domain=[0, 50_000]),
    alt.Y("Category:N", title=None),
    alt.Color("Category:N", legend=None),
).properties(title="Price Distribution by Vehicle Category")

### Distribution des prix par top 10 marque

In [100]:
# Get top 10 brands by count
top_brands = df["Brand"].value_counts(sort=True).head(10)["Brand"].to_list()
df_top_brands = df.filter(pl.col("Brand").is_in(top_brands))

alt.Chart(df_top_brands).mark_boxplot(extent="min-max", clip=True).encode(
    alt.X("Price:Q").scale(domain=[0, 50_000]),
    alt.Y("Brand:N", title=None, sort="-x"),
    alt.Color("Brand:N", legend=None),
).properties(title="Price Distribution by Top 10 Brands")

On constate une hétéroscédasticité des prix en fonction du kilométrage des voitures, des marques, des catégories de véhicules et des types de carburant.

### Conversion en données catégorielles

Utile plus tard pour la gestion automatique des variables catégorielles dans les modèles.

In [101]:
categorical_features = [
    "Brand",
    "Category",
    "Fuel type",
    "Gear box type",
    "Drive wheels",
    "Wheel",
    "Color",
]
# Cast to categorical dtypes
df = df.cast({col: pl.Categorical for col in categorical_features})

## Sauvegarde des données nettoyées

In [None]:
# Save preprocessed data for modeling
df.write_parquet("../../data/car_prices_clean.parquet")