![Logo Chanel](https://puls-img.chanel.com/c_limit,w_960/q_auto:good,dpr_auto,f_auto/1676976259247-8843363975198visuelboutiquedesktopsabhubjpg_900x2880.jpg)

# Projet 1 : Chanel

### Objectif : On veut prédire le prix d'un produit Chanel à Singapour à partir de ses caractéristiques (catégorie, brand, date, etc.)

In [78]:
# INSTALLATION

# !pip install pandas
# !pip install pyarrow
# !pip install fastparquet
# !pip install datasets
# !pip install scikit-learn

## Chargement des données

In [79]:
from datasets import load_dataset
import pandas as pd

# Charger depuis Hugging Face
ds = load_dataset("DBQ/Chanel.Product.prices.Singapore", split="train")

# Convertir en DataFrame pandas
df = ds.to_pandas()


In [80]:
# print(df.shape)      # dimensions (lignes, colonnes)
# print(df.columns)    # liste des colonnes
# print(df.head())     # aperçu
# print(df.info())     # types des colonnes
# print(df.describe()) # stats numériques


In [81]:
from IPython.display import display

# Affichage interactif du tableau
display(df.head(10))


Unnamed: 0,website_name,competence_date,country_code,currency_code,brand,category1_code,category2_code,category3_code,product_code,title,itemurl,imageurl,full_price,price,full_price_eur,price_eur,flg_discount
0,Chanel,2023-11-17,SGP,SGD,CHANEL,FASHION,READY-TO-WEAR,N.A.,PP75211V66913,Silk Crepe Black,https://www.chanel.com/sg/fashion/p/P75211V669...,https://res.cloudinary.com/dwayrkp5z/image/fet...,8110.0,8110.0,5543.4,5543.4,0
1,Chanel,2023-11-17,SGP,SGD,CHANEL,FASHION,READY-TO-WEAR,N.A.,PP75222V67022,Tweed & Imitation Pearls Black,https://www.chanel.com/sg/fashion/p/P75222V670...,https://res.cloudinary.com/dwayrkp5z/image/fet...,14940.0,14940.0,10211.89,10211.89,0
2,Chanel,2023-11-17,SGP,SGD,CHANEL,FASHION,READY-TO-WEAR,N.A.,PP75251V66859,Printed Denim Blue & White,https://www.chanel.com/sg/fashion/p/P75251V668...,https://res.cloudinary.com/dwayrkp5z/image/fet...,3150.0,3150.0,2153.11,2153.11,0
3,Chanel,2023-11-17,SGP,SGD,CHANEL,FASHION,READY-TO-WEAR,N.A.,PP75254C66790,Calfskin & Coated Lace Black,https://www.chanel.com/sg/fashion/p/P75254C667...,https://res.cloudinary.com/dwayrkp5z/image/fet...,18760.0,18760.0,12822.96,12822.96,0
4,Chanel,2023-11-17,SGP,SGD,CHANEL,JEWELRY,SOUS LE SIGNE DU LION HJ,N.A.,PJ60428,18K white gold diamonds,https://www.chanel.com/sg/fine-jewellery/p/J60...,https://res.cloudinary.com/dwayrkp5z/image/fet...,83400.0,83400.0,57006.15,57006.15,0
5,Chanel,2023-11-17,SGP,SGD,CHANEL,JEWELRY,EARRINGS,N.A.,PJ62679,18K white gold diamonds,https://www.chanel.com/sg/fine-jewellery/p/J62...,https://res.cloudinary.com/dwayrkp5z/image/fet...,75400.0,75400.0,51537.93,51537.93,0
6,Chanel,2023-11-17,SGP,SGD,CHANEL,JEWELRY,L'ESPRIT DU LION,N.A.,PJ62826,18K white gold diamonds,https://www.chanel.com/sg/fine-jewellery/p/J62...,https://res.cloudinary.com/dwayrkp5z/image/fet...,99300.0,99300.0,67874.23,67874.23,0
7,Chanel,2023-11-17,SGP,SGD,CHANEL,FRAGRANCE,MEN,N.A.,PP102440,LES EAUX DE CHANEL – EAU DE TOILETTE SPRAY,https://www.chanel.com/sg/fragrance/p/102440/p...,https://res.cloudinary.com/dwayrkp5z/image/fet...,226.0,226.0,154.47,154.47,0
8,Chanel,2023-11-17,SGP,SGD,CHANEL,FRAGRANCE,MEN,N.A.,PP107120,PARFUM TWIST AND SPRAY,https://www.chanel.com/sg/fragrance/p/107120/b...,https://res.cloudinary.com/dwayrkp5z/image/fet...,210.0,210.0,143.54,143.54,0
9,Chanel,2023-11-17,SGP,SGD,CHANEL,FRAGRANCE,MEN,N.A.,PP107580,3-IN-1 MOISTURIZER,https://www.chanel.com/sg/fragrance/p/107580/b...,https://res.cloudinary.com/dwayrkp5z/image/fet...,92.0,92.0,62.88,62.88,0


## Pré-traitement des données

### a) Vérifier les valeurs manquantes
Fonction à utiliser : df.isnull().sum()

Objectif : identifier les colonnes avec des valeurs manquantes et décider quoi faire avec (supprimer ou imputer).

### b) Vérifier les types de données

Fonction : df.dtypes

Objectif : t’assurer que les colonnes numériques sont bien numériques et que les dates sont au format datetime.

### c) Conversion des dates (si nécessaire)

Fonction : pd.to_datetime()

Objectif : convertir la colonne des dates en datetime pour faciliter l’analyse temporelle.

### d) Encodage des variables catégorielles

Fonctions possibles : pd.get_dummies() ou sklearn.preprocessing.LabelEncoder()

Objectif : transformer les colonnes non numériques en format utilisable par les modèles ML.

### e) Normalisation / standardisation (optionnel selon le modèle)

Fonctions : sklearn.preprocessing.StandardScaler ou MinMaxScaler

Objectif : mettre les valeurs sur la même échelle pour certains modèles (régression linéaire, réseaux de neurones…).

In [82]:
# a) vérifier les valeurs manquantes

df.isnull().sum()

website_name       0
competence_date    0
country_code       0
currency_code      0
brand              0
category1_code     0
category2_code     1
category3_code     0
product_code       0
title              0
itemurl            0
imageurl           0
full_price         0
price              0
full_price_eur     0
price_eur          0
flg_discount       0
dtype: int64

résultat ? :

- Il y a une valeur manquante qui se trouve dans category2_code

Que faire ? :

- Enlever la ligne car elle est isolé. Il n'y a pas d'autre problème de ce genre.

In [83]:
# Supprimer la ligne contenant la valeur manquante
df.dropna(subset=["category2_code"], inplace=True)

# on verifie 
df.isnull().sum()


website_name       0
competence_date    0
country_code       0
currency_code      0
brand              0
category1_code     0
category2_code     0
category3_code     0
product_code       0
title              0
itemurl            0
imageurl           0
full_price         0
price              0
full_price_eur     0
price_eur          0
flg_discount       0
dtype: int64

In [84]:
# b) Vérifier les types de données

df.dtypes

website_name        object
competence_date     object
country_code        object
currency_code       object
brand               object
category1_code      object
category2_code      object
category3_code      object
product_code        object
title               object
itemurl             object
imageurl            object
full_price         float64
price              float64
full_price_eur     float64
price_eur          float64
flg_discount         int64
dtype: object

résultat ? :

presque tout nos colonnes sont de type "object" et quelque une sont en float et la dernière en int. Donc le type majoritaire est object mais c'est pas ce qu'on veut car l'objectif est de s'assurer que les colonnes numériques sont bien numériques et que les dates sont au format datetime

In [85]:
# c) Convertir
# On convertie la colonne compétence_date en datetime

df["competence_date"] = pd.to_datetime(df["competence_date"])

# après la conversion on verifie

df.dtypes

website_name               object
competence_date    datetime64[ns]
country_code               object
currency_code              object
brand                      object
category1_code             object
category2_code             object
category3_code             object
product_code               object
title                      object
itemurl                    object
imageurl                   object
full_price                float64
price                     float64
full_price_eur            float64
price_eur                 float64
flg_discount                int64
dtype: object

In [86]:
# Extraire des features de la date
df["year"] = df["competence_date"].dt.year
df["month"] = df["competence_date"].dt.month
df["day"] = df["competence_date"].dt.day

# Tu peux ensuite supprimer la colonne datetime brute
df = df.drop(columns=["competence_date"])


Puisqu'on veut faire une prediction de type regression, il faut encoder et enlever les colonnes non essentielles

In [87]:
# d) Encodage des variables catégorielles

# on va encoder
categorical_cols = ["website_name", "country_code", "currency_code", "brand", "category1_code", "category2_code", "category3_code"]

# One-hot Encoding
df_encoded = pd.get_dummies(df, columns=categorical_cols)

In [94]:
# on separe les features et les targets : price et price_eur
exclude_cols = ["price", "price_eur", "product_code", "title", "imageurl", "itemurl"]

# Features 
X = df_encoded.drop(columns=exclude_cols)

# targets
y_price = df_encoded["price"]
y_price_eur = df_encoded["price_eur"]

X.dtypes


full_price                         float64
full_price_eur                     float64
flg_discount                         int64
year                                 int32
month                                int32
                                    ...   
category2_code_TONERS & LOTIONS       bool
category2_code_TREATMENT              bool
category2_code_WATCHES                bool
category2_code_WOMEN                  bool
category3_code_N.A.                   bool
Length: 69, dtype: object

In [95]:
# On sépare ensuite en train/test pour price
import sklearn
from sklearn.model_selection import train_test_split

X_train, X_test, y_train_price, y_test_price = train_test_split(X, y_price, test_size=0.2, random_state=42)

In [96]:
# On separe ensuite en train/test pour price_eur
_, _, y_train_eur, y_test_eur = train_test_split(X, y_price_eur, test_size=0.2, random_state=42)

In [97]:
print("price")
print("X_train shape:", X_train.shape)
print("X_test shape:", X_test.shape)
print("y_train_price shape:", y_train_price.shape)
print("y_test_price shape:", y_test_price.shape)
print("-----------------")
print("price_eur")
print("y_train_eur shape:", y_train_price.shape)
print("y_test_eur shape:", y_test_price.shape)


price
X_train shape: (776, 69)
X_test shape: (194, 69)
y_train_price shape: (776,)
y_test_price shape: (194,)
-----------------
price_eur
y_train_eur shape: (776,)
y_test_eur shape: (194,)


In [98]:
# Standardization pour la regression lineaire

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

# standardisation uniquement sur X
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

