
# TP d'approfondissement : Pipeline de données et EDA avancée  
## Dataset e-commerce (transactions)

Ce notebook est un **TP d'approfondissement** qui reprend les notions vues sur le dataset Netflix,  
mais les applique à un **dataset transactionnel e-commerce**.

Le but est de vous faire pratiquer sur :

- un pipeline de données plus riche (plus de variables numériques et temporelles),
- la gestion fine des valeurs manquantes,
- la détection d'outliers sur plusieurs variables,
- la normalisation pour des modèles ultérieurs,
- une EDA orientée métier (chiffre d'affaires, clients, produits, temporalité).



## 0. Préparation du TP

Téléchargez un dataset e-commerce comprenant au minimum les informations suivantes (ou colonnes équivalentes) :

- `order_id` : identifiant de commande  
- `customer_id` : identifiant client  
- `order_date` : date de la commande  
- `product_category` : catégorie du produit  
- `price` : prix unitaire  
- `quantity` : quantité commandée  
- `payment_value` : montant payé  
- éventuellement : `delivery_date`, `city`, `state`, etc.

Enregistrez-le sous le nom : `ecommerce_orders.csv` dans le même dossier que ce notebook.  
Adaptez ensuite les noms de colonnes si nécessaire.


## 1. Ingestion et première exploration

In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set()

# Charger le dataset (adapter le nom du fichier si besoin)
df = pd.read_csv("ecommerce_orders.csv")

# Aperçu des premières lignes
df.head()



### Questions

1. Affichez les dimensions du dataset (`shape`).  
2. Affichez la liste complète des colonnes.  
3. Identifiez les colonnes numériques, catégorielles et temporelles.


In [None]:

# 1. Dimensions du dataset



In [None]:

# 2. Liste complète des colonnes



In [None]:

# 3. Identification des types de colonnes (numériques / catégorielles / dates)




## 2. Validation de la qualité des données

Dans cette section, vous allez :

- vérifier les types actuels des colonnes,
- identifier les colonnes à convertir (dates, montants, etc.),
- analyser les valeurs manquantes,
- compter les doublons éventuels.


In [None]:

# Types actuels des colonnes



In [None]:

# Valeurs manquantes par colonne



In [None]:

# Nombre de lignes dupliquées




### Questions

1. Quelles colonnes doivent impérativement être converties en `datetime` ?  
2. Quelles colonnes doivent être de type numérique (float ou int) ?  
3. Où observez-vous des valeurs manquantes ? Sont-elles problématiques pour l'analyse ?


In [None]:
# Répondre ici sous forme de commentaire ou de texte libre dans une cellule markdown.


## 3. Nettoyage : types, valeurs manquantes et incohérences

Objectifs :

- convertir les colonnes de dates en `datetime`,  
- s'assurer que `price`, `quantity`, `payment_value` sont numériques,  
- décider d'une stratégie pour les valeurs manquantes (suppression, imputation, etc.),  
- supprimer les doublons si nécessaire.


In [None]:

# Conversion des colonnes de dates (adapter les noms si besoin)
# Exemple :
# df['order_date'] = pd.to_datetime(df['order_date'], errors='coerce')
# df['delivery_date'] = pd.to_datetime(df['delivery_date'], errors='coerce')



In [None]:

# Conversion des colonnes numériques (price, quantity, payment_value, etc.)



In [None]:

# Traitement des valeurs manquantes : suppression ou imputation



In [None]:

# Suppression des doublons éventuels




### Questions

1. Décrivez et justifiez les choix que vous avez faits pour traiter les valeurs manquantes.  
2. Donnez un exemple d'incohérence potentielle que vous auriez pu rencontrer (même si elle n'est pas présente dans ce dataset).



## 4. Création de variables dérivées (feature engineering)

Créez au minimum les variables suivantes (en adaptant à votre dataset) :

- `order_month` : mois de la commande,  
- `order_dayofweek` : jour de la semaine de la commande,  
- `revenue` : chiffre d'affaires de la ligne (`price * quantity`),  
- éventuellement : `delivery_delay` = nombre de jours entre commande et livraison.


In [None]:

# Création de la colonne revenue = price * quantity



In [None]:

# Création des colonnes temporelles (order_month, order_dayofweek)



In [None]:

# Optionnel : délai de livraison en jours




### Questions

1. Quel est l'intérêt métier de la variable `revenue` ?  
2. Pourquoi est-il utile d'extraire le mois ou le jour de la semaine d'une date ?



## 5. Détection des valeurs aberrantes (outliers) sur les montants

Dans cette section, vous allez approfondir la détection des outliers sur les colonnes :

- `price`  
- `quantity`  
- `revenue`  

En utilisant :

- la méthode IQR,  
- la méthode Z-score,  
- et une analyse visuelle (boxplots, éventuellement log-transform).


In [None]:

# Détection d'outliers par IQR sur la colonne price



In [None]:

# Détection d'outliers par Z-score sur la colonne price



In [None]:

# Visualisation : boxplot de price (et éventuellement de revenue)




### Questions

1. Les deux méthodes (IQR et Z-score) donnent-elles des résultats similaires pour `price` ?  
2. Donnez un exemple de valeur que vous considérez comme outlier et expliquez pourquoi.  
3. Décidez si vous conservez ou supprimez ces outliers pour la suite, et justifiez.



## 6. Normalisation et standardisation (préparation à des modèles)

Sélectionnez un sous-ensemble de variables numériques (par exemple : `price`, `quantity`, `revenue`)  
et appliquez :

- une normalisation Min-Max,  
- une standardisation (Z-score).

Le but est de préparer ces données pour d'éventuels modèles (clustering, classification, etc.).


In [None]:

from sklearn.preprocessing import MinMaxScaler, StandardScaler

# Sélection d'un sous-ensemble de variables numériques



In [None]:

# Normalisation Min-Max



In [None]:

# Standardisation (Z-score)




### Question

Dans quels cas un algorithme aura-t-il besoin de données normalisées ou standardisées ?  
Citez au moins deux exemples de modèles.



## 7. Analyse univariée des variables clés

Réalisez pour au moins 3 variables numériques (par exemple `price`, `quantity`, `revenue`) :

- un histogramme,  
- des statistiques descriptives (`describe()`),  
- un boxplot.


In [None]:

# Histogrammes des variables numériques sélectionnées



In [None]:

# Statistiques descriptives



In [None]:

# Boxplots




### Questions

Pour chaque variable étudiée :

1. La distribution est-elle symétrique ou asymétrique ?  
2. Y a-t-il des valeurs extrêmes visibles sur les boxplots ?  
3. Quelle transformation éventuelle (log, sqrt…) pourrait être utile ?



## 8. Analyse bivariée et multivariée

Réalisez les analyses suivantes :

1. Scatter plot `price` vs `quantity`, avec éventuellement une couleur par `product_category`.  
2. Boxplot de `revenue` par `product_category`.  
3. Heatmap de corrélation des variables numériques (par exemple : `price`, `quantity`, `revenue`, `payment_value`…).


In [None]:

# 1. Scatter plot price vs quantity



In [None]:

# 2. Boxplot revenue par catégorie de produit



In [None]:

# 3. Heatmap de corrélation des variables numériques




### Questions

1. Observez-vous une relation particulière entre `price` et `quantity` ?  
2. Quelles catégories de produits génèrent le plus de revenue médian ?  
3. Quelles variables numériques semblent le plus corrélées entre elles ?



## 9. Analyse temporelle du chiffre d'affaires

À partir de la variable `revenue` et de la date de commande (`order_date` ou `order_month`) :

1. Calculez le chiffre d'affaires par mois.  
2. Tracez la série temporelle du CA mensuel.  
3. Si possible, comparez des périodes (avant/après une date, ou année N vs année N+1).


In [None]:

# 1. Calcul du chiffre d'affaires mensuel



In [None]:

# 2. Visualisation de la série temporelle




### Questions

1. Observez-vous une tendance globale (hausse, baisse, saisonnalité) ?  
2. Quels mois semblent les plus forts en termes de chiffre d'affaires ?



## 11. Types de visualisations et choix du graphique

Dans cette section, l'objectif est de **réfléchir au bon type de visualisation** selon :

- la nature des variables (numérique, catégorielle, temporelle),
- la question métier,
- le public cible (data scientist, manager, client...).

Rappel (à compléter avec vos mots) :

- Variable **numérique** → histogramme, boxplot, scatter plot, line plot (série temporelle)...  
- Variable **catégorielle** → barplot, countplot, pie chart (rarement recommandé)...  
- Variable **temporelle** → line plot, area plot, barplot par période...

### Exercice 1 — Associer question ↔ type de graphique

Pour chaque question ci-dessous, proposez **1 ou 2 types de graphique adaptés** :

1. "Comment évolue le chiffre d'affaires au fil des mois ?"  
2. "Quelles catégories de produits génèrent le plus de revenus ?"  
3. "Existe-t-il une relation entre le prix et la quantité commandée ?"  
4. "Comment se répartissent les valeurs de `payment_value` ?"  
5. "Quel est le top 10 des villes en nombre de commandes ?"

Note : répondez dans une cellule markdown séparée.


In [None]:

# Vous pouvez utiliser cette cellule markdown (ou en créer une nouvelle) pour répondre à l'exercice 1.



### Exercice 2 — Implémenter une visualisation adaptée

1. Choisissez **une question métier** parmi celles de l'exercice 1 (ou une autre que vous formulez).  
2. Écrivez le code pour produire **le graphique que vous jugez le plus adapté**.  
3. Ajoutez un **titre clair** et des **labels d'axes explicites**.  
4. Commentez en 3–4 lignes ce que l'on apprend du graphique.


In [None]:

# Implémentez ici la visualisation correspondant à la question métier choisie.




## 10. Synthèse et mini-rapport

Rédigez une synthèse (1 page maximum) répondant aux points suivants :

1. Principaux problèmes de qualité détectés et stratégies de correction.  
2. Description des variables dérivées créées et de leur intérêt métier.  
3. Principaux insights issus de l'EDA (au moins 3).  
4. Décisions prises concernant les outliers (conservés, supprimés, transformés…).  
5. Idées de modèles ou d'analyses prédictives que l'on pourrait faire sur ce dataset ensuite.



Fin du **notebook d'approfondissement (version étudiant, sans réponses)**.
