## 2) Prétraitement (Préprocessing)

Le prétraitement consiste à transformer les données brutes en données propres, cohérentes et prêtes à être utilisées par un modèle de machine learning.
C’est une étape essentielle : un bon prétraitement améliore directement la qualité des prédictions.

### Rappel de la problématique 

*Comment modéliser et prédire efficacement les prix des produits Dior de
Chine, et quels sont les facteurs déterminants qui influencent le pricing dans le secteur du luxe ?*

### Objectifs

- **Nettoyer les données** : supprimer ou corriger les valeurs manquantes, les doublons ou les colonnes inutiles.

- **Uniformiser les formats** : convertir les textes, dates, nombres et catégories dans un format exploitable.

- **Créer des variables utiles** : extraction de features, encodage des catégories, normalisation des valeurs numériques.

- **Assurer la cohérence** : éviter que le modèle apprenne sur du bruit ou des valeurs incorrectes.

In [1]:
# Imports
import sys
import os

sys.path.append(os.path.abspath("../src"))
from preprocessing import preprocess_dior
from load_data import load_dior

# chargement du dataset
df = load_dior()

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# Nettoyer et séparer features et targets
X, y = preprocess_dior(df)

# X -> title + categories
# y -> price et price_eur

In [3]:
# Verification
print("Taille de X:", X.shape)
print("Taille de y:", y.shape)

Taille de X: (4476, 3)
Taille de y: (4476, 1)


In [10]:
print(X.dtypes)
print(y.dtypes)

category1_code    object
category2_code    object
category3_code    object
dtype: object
price    float64
dtype: object


In [11]:
print("Colonnes X :", X.columns.tolist())
print("Colonnes y :", y.columns.tolist())

Colonnes X : ['category1_code', 'category2_code', 'category3_code']
Colonnes y : ['price']


In [12]:
print("Valeurs manquantes ?\n", X.isna().sum())

Valeurs manquantes ?
 category1_code    0
category2_code    0
category3_code    0
dtype: int64


In [20]:
print((X['category3_code'].apply(lambda x: str(x).strip() == 'N.A.')).sum())
print((X['category2_code'].apply(lambda x: str(x).strip() == 'N.A.')).sum())
print((X['category1_code'].apply(lambda x: str(x).strip() == 'N.A.')).sum())

0
0
0


In [21]:
print((X['category3_code'].apply(lambda x: str(x).strip() == 'null')).sum())
print((X['category2_code'].apply(lambda x: str(x).strip() == 'null')).sum())
print((X['category1_code'].apply(lambda x: str(x).strip() == 'null')).sum())

0
0
0


In [22]:
X.columns

Index(['category1_code', 'category2_code', 'category3_code'], dtype='object')

In [23]:
y.columns

Index(['price'], dtype='object')

Requete SQL qui justifie : https://huggingface.co/datasets/DBQ/Dior.Product.prices.China/sql-console/x9wcvlF

**Remarques**: Il manque maintenant à transformer les features qui ne sont pas en numérique pour pouvoir travailler avec la regression. On va continuer dans le notebook de `modelisation.ipynb`
