# Business Understanding

## Problem Statement
Dans un contexte e-commerce, la capacité à anticiper les ventes futures est un levier stratégique majeur pour :
1. optimiser la gestion des stocks,
2. améliorer la planification logistique,
3. ajuster les stratégies marketing et promotionnelles,
4. maximiser le chiffre d’affaires tout en réduisant les coûts opérationnels.

Cependant, les ventes e-commerce sont influencées par de nombreux facteurs :
1. la saisonnalité (jours, mois, périodes spécifiques),
2. les comportements clients,
3. les types de produits,
4. les modes de paiement,
5. la localisation géographique,
6. les délais et conditions de livraison.

Le défi consiste donc à exploiter des données transactionnelles historiques complexes et multi-tables afin de construire des modèles capables de prédire les ventes de manière fiable et exploitable.


## Goal
L’objectif principal de ce projet est de concevoir une application interactive de prévision des ventes e-commerce basé sur des données historiques, permettant de :
1. prédire les ventes futures sur différentes granularités temporelles (journalière, mensuelle),
2. fournir des indicateurs clairs et interprétables pour la prise de décision,
3. rendre les résultats accessibles via une application interactive Streamlit.

## Objectives

Pour atteindre cet objectif, le projet se structure autour des objectifs suivants :

1️⃣ Compréhension et préparation des données
	•	Explorer et comprendre les différentes tables du dataset e-commerce.
	•	Analyser la qualité des données (valeurs manquantes, incohérences, distributions).
	•	Fusionner les tables pertinentes afin de construire des datasets analytiques cohérents.

⸻

2️⃣ Analyse Exploratoire des Données (EDA)
	•	Étudier l’évolution des ventes dans le temps.
	•	Identifier les tendances, saisonnalités et cycles récurrents.
	•	Analyser les ventes par :
	•	type de produit,
	•	région géographique,
	•	mode de paiement,
	•	comportement client.
	•	Mettre en évidence les corrélations entre les variables explicatives et les ventes.

⸻

3️⃣ Feature Engineering orienté séries temporelles
	•	Créer des variables temporelles pertinentes (jour, mois, trimestre, année).
	•	Générer des features de séries temporelles :
	•	lag features,
	•	moyennes et sommes glissantes,
	•	indicateurs de tendance.
	•	Construire des variables métier utiles à la prévision des ventes.

⸻

4️⃣ Modélisation et prévision des ventes
	•	Mettre en œuvre et comparer plusieurs modèles de prévision :
	•	modèles statistiques (ARIMA, SARIMA, Holt-Winters),
	•	modèles de Machine Learning (Régression, Random Forest, XGBoost),
	•	modèles spécialisés en séries temporelles (Prophet).
	•	Évaluer les performances à l’aide de métriques adaptées (MAE, RMSE, MAPE).
	•	Sélectionner les modèles les plus performants selon les cas d’usage.

⸻

5️⃣ Restitution et déploiement
	•	Concevoir des visualisations interactives pour l’analyse et les prévisions.
	•	Déployer les résultats dans une application Streamlit avec :
	•	filtres dynamiques (dates, produits, régions),
	•	affichage des KPI clés,
	•	visualisation et téléchargement des prévisions.
	•	Préparer le projet pour une intégration MLOps (monitoring, maintenance).

⸻

✅ Résultat attendu

À l’issue du projet, le livrable sera :
	•	un pipeline de données robuste,
	•	des modèles de prévision fiables et comparés,
	•	une application interactive permettant aux utilisateurs métiers de consulter, analyser et anticiper les ventes.

# Data Understanding

## Preview Data

The data is divided into 2 parts, namely training data and testing data. Each section has 5 types of tables, namely the df_Customers, df_OrderItems, df_Orders, df_Payments, and df_Products tables. <br>
The following is a further explanation of each data:
1. Table df_Customers <br>
This table contains data on customers who make product transactions on ecommerce
2. Table df_OrderItems <br>
This table contains a mapping between orders placed by customers and the table of products purchased
3. Table df_Orders <br>
This table contains data on orders placed by each user
4. df_Payments table <br>
This table contains payments made by each user, containing payment details and transaction value
5. df_Products table <br>
This table contains a list of products sold on ecccomercce and contained in transactions <br>
Let's look at the detailed contents of the table

### Column Analysis
#### Customers table
1. **customer_id** <br>
ID of each customer who makes a transaction
2. **customer_zip_code_prefix** <br>
prefix of each customer's postal code
3. **customer_city** <br>
the city where the customer lives/the goods will be sent
4. **customer_state** <br>
state/province where the customer lives/items will be shipped

#### Order Items table
1. **product_id** <br>
ID of each product purchased by the customer
2. **seller_id** <br>
ID of the seller/seller for each item in each order
3. **price** <br>
the price of each item sold
4. **shipping_charges** <br>
shipping costs for each item

#### Orders Table
1. **order_id** <br>
ID of each order or orders placed
2. **customer_id** <br>
ID of each customer who makes a transaction
3. **order_status** <br>
status of each order placed
4. **order_purchase_timestamp** <br>
the time at which the purchase is made/initiated by the customer
5. **order_approved_at** <br>
the time when the order is received by the seller
6. **order_delivered_timestamp** <br>
the time when the order has been received by the customer
7. **order_estimated_delivery_date** <br>
the estimated time at which the order is expected to arrive

#### Payments Table
1. **order_id** <br>
ID of each order or orders placed
2. **payment_sequential** <br>
order of payment / payment installments by the customer
3. **payment_type** <br>
type of payment made by the customer
4. **payment_installments** <br>
The number of installments chosen by the customer for each order
5. **payment_value** <br>
payment value for each order, sequentially

#### Products table
1. **product_id** <br>
ID of each product sold
2. **product_category_name** <br>
category name of each product sold
3. **product_weight_g** <br>
weight of each product in grams 
3. **product_length_cm** <br>
Width of each product in cm
4. **product_height_cm** <br>
Height of each product in cm
5. **product_width_cm** <br>
length of each product in cm