#  Analyse des ventes – Projet Superstore



## Création de tables et import des données

Dans cette section, nous structurons les données brutes en **plusieurs tables relationnelles** pour faciliter l'analyse.

 Cette structure va nous permettre d'obtenir un modèle en étoile classique avec :
- des **tables de dimensions** (clients, produits, commandes)
- une **table de faits** (`order_details`), liée par des identifiants communs.


In [None]:
import pandas as pd

# Chemin du fichier source
source_file = "C:/Users/tonio/Documents/superstore-project/data/Sample - Superstore.csv"

# Chargement du fichier CSV avec l'encodage compatible
df = pd.read_csv(source_file, encoding="ISO-8859-1")

# Nettoyage du noms des colonnes (remplacer les espaces par des underscores)
df.columns = df.columns.str.strip().str.replace(' ', '_')


Créeation des tables relationnelles 
 - `customers` : informations clients (ID, nom, segment, localisation…)
 - `products` : catalogue produits (ID, nom, catégorie, sous-catégorie)
 - `orders` : en-têtes de commande (ID, dates, mode de livraison, client)
 - `order_details` : lignes de commande avec mesures chiffrées (ventes, quantités, remises, profits)

In [None]:
# Supprimer les doublons pour chaque dimension
customers = df[['Customer_ID', 'Customer_Name', 'Segment', 'City', 'State', 'Country', 'Region', 'Postal_Code']].drop_duplicates()
products = df[['Product_ID', 'Product_Name', 'Category', 'Sub-Category']].drop_duplicates()
orders = df[['Order_ID', 'Order_Date', 'Ship_Date', 'Ship_Mode', 'Customer_ID']].drop_duplicates()

# Table de faits brute
order_details = df[['Order_ID', 'Product_ID', 'Sales', 'Quantity', 'Discount', 'Profit']]

Nettoyage des doublons pour chaque tables de dimension

In [None]:
# Nettoyage des doublons client (Customer_ID)
customers = customers.drop_duplicates(subset="Customer_ID")

# Nettoyage des doublons produit (Product_ID)
products = products.drop_duplicates(subset="Product_ID")

# Agrégation des lignes de commande en double (Order_ID + Product_ID)
order_details = order_details.groupby(["Order_ID", "Product_ID"], as_index=False).agg({
    "Sales": "sum",
    "Quantity": "sum",
    "Discount": "mean",  # Moyenne si constante
    "Profit": "sum"
})

Sauvegarde des fichiers nettoyés

In [None]:
# Dossier de destination des fichiers CSV
fichier = "C:/Users/tonio/Documents/superstore-project/data/"

# Sauvegarde des fichiers au format CSV
customers.to_csv(fichier + "customers.csv", index=False)
products.to_csv(fichier + "products.csv", index=False)
orders.to_csv(fichier + "orders.csv", index=False)
order_details.to_csv(fichier + "order_details.csv", index=False)


## Création et chargement des données dans PostgreSQL

Après avoir préparé les fichiers `.csv` via Python, les données sont importées dans une **base relationnelle PostgreSQL**.

### 🔹 Étapes réalisées :

1. **Création des tables relationnelles** (`customers`, `products`, `orders`, `order_details`)
   - Clés primaires et étrangères définies
   - Relation en étoile classique (star schema)

2. **Chargement des fichiers `.csv`** avec la commande `COPY`

3. **Nettoyage dans PostgreSQL** :
   - Conversion des colonnes `Order_Date` et `Ship_Date` au format `DATE`
   - Suppression des colonnes inutiles (`Country`, `Postal_Code`) dans `customers`


>Le script complet est disponible dans le fichier suivant :[`sql/create_and_load_tables.sql`](../sql/create_and_load_tables.sql)


Ensuite je me connecte à mon serveur PostgreSQL local via Python afin de récupérer les tables de mon serveur Superstore, que j’ai importée juste avant, pour effectuer des analyses directement dans mon Jupyter notebook.

In [1]:
%load_ext sql
%sql postgresql://postgres:momo1489@localhost:5432/Superstore

## Analyse commerciale

On classe l'analyse commerciale en 4 sections, de la plus générale à la plus spécifique

- 1. Performance commerciale
- 2. Analyse client
- 3. Analyse géographique
- 4. Logistique & livraison
---

Création d'une vue avec toutes les colonnes des différentes tables

In [14]:
%%sql
CREATE VIEW v_superstore_complete AS
SELECT
    o.Order_ID,
    o.Order_Date,
    o.Ship_Date,
    o.Ship_Mode,
    o.Customer_ID,
    c.Customer_Name,
    c.Segment,
    c.City,
    c.State,
    c.Region,
    p.Product_ID,
    p.Product_Name,
    p.Category,
    p.Sub_Category,
    od.Sales,
    od.Quantity,
    od.Discount,
    od.Profit
FROM order_details od
JOIN orders o ON od.Order_ID = o.Order_ID
JOIN customers c ON o.Customer_ID = c.Customer_ID
JOIN products p ON od.Product_ID = p.Product_ID;

 * postgresql://postgres:***@localhost:5432/Superstore
Done.


[]

In [5]:
%%sql
SELECT * FROM v_superstore_complete LIMIT 5;

 * postgresql://postgres:***@localhost:5432/Superstore
5 rows affected.


order_id,order_date,ship_date,ship_mode,customer_id,customer_name,segment,city,state,region,product_id,product_name,category,sub_category,sales,quantity,discount,profit
CA-2014-100006,2014-09-07,2014-09-13,Standard Class,DK-13375,Dennis Kane,Consumer,Marion,Ohio,East,TEC-PH-10002075,AT&T EL51110 DECT,Technology,Phones,377.97,3,0.0,109.6113
CA-2014-100090,2014-07-08,2014-07-12,Standard Class,EB-13705,Ed Braxton,Corporate,Akron,Ohio,East,FUR-TA-10003715,Hon 2111 Invitation Series Corner Table,Furniture,Tables,502.488,3,0.2,-87.9354
CA-2014-100090,2014-07-08,2014-07-12,Standard Class,EB-13705,Ed Braxton,Corporate,Akron,Ohio,East,OFF-BI-10001597,"Wilson Jones Ledger-Size, Piano-Hinge Binder, 2"", Blue",Office Supplies,Binders,196.704,6,0.2,68.8464
CA-2014-100293,2014-03-14,2014-03-18,Standard Class,NF-18475,Neil Französisch,Home Office,Rockford,Illinois,Central,OFF-PA-10000176,Xerox 1887,Office Supplies,Paper,91.056,6,0.2,31.8696
CA-2014-100328,2014-01-28,2014-02-03,Standard Class,JC-15340,Jasper Cacioppo,Consumer,Los Angeles,California,West,OFF-BI-10000343,"Pressboard Covers with Storage Hooks, 9 1/2"" x 11"", Light Blue",Office Supplies,Binders,3.928,1,0.2,1.3257


## 1. Performance commerciale

Évolution des ventes dans le temps ?

Quels sont les produits et sous-catégories les plus rentables ?

Quels produits génèrent des pertes malgré un volume élevé ?

Quels sont les effets des remises sur le profit ?

In [2]:
%%sql
-- Total des ventes, profits, et nombre de produits vendus par année

WITH yearly_data AS (
    SELECT 
        EXTRACT(YEAR FROM order_date) AS year,
        SUM(sales) AS total_sales,
        SUM(profit) AS total_profit,
        SUM(quantity) AS total_quantity,
        SUM(discount * Sales) / SUM(Sales) * 100 AS average_discount,
        COUNT(DISTINCT order_id) AS total_orders
    FROM v_superstore_complete
    GROUP BY EXTRACT(YEAR FROM order_date)
)
SELECT 
    year,
    ROUND(total_sales, 0) AS total_sales,
    ROUND(total_profit, 0) AS total_profit,
    total_quantity,
    total_orders,
    ROUND(
        ((total_sales - LAG(total_sales) OVER (ORDER BY year)) / 
         LAG(total_sales) OVER (ORDER BY year)) * 100, 2
    ) AS sales_growth,
    ROUND(
        ((total_profit - LAG(total_profit) OVER (ORDER BY year)) / 
         LAG(total_profit) OVER (ORDER BY year)) * 100, 2
    ) AS profit_growth,
    ROUND((total_profit / total_sales) * 100, 2) AS average_profit_margin,
    ROUND(total_sales / total_quantity, 2) AS average_price_per_unit,
    ROUND(average_discount, 2) AS average_discount_percentage
FROM yearly_data
ORDER BY year;

 * postgresql://postgres:***@localhost:5432/Superstore
4 rows affected.


year,total_sales,total_profit,total_quantity,total_orders,sales_growth,profit_growth,average_profit_margin,average_price_per_unit,average_discount_percentage
2014,484247,49544,7581,969,,,10.23,63.88,16.02
2015,470533,61619,7979,1038,-2.83,24.37,13.1,58.97,13.36
2016,609206,81795,9837,1315,29.47,32.74,13.43,61.93,13.28
2017,733215,93439,12476,1687,20.36,14.24,12.74,58.77,13.81


### Pourquoi utiliser une moyenne pondérée du discount ?

La **moyenne simple** des remises (`AVG(discount)`) attribue le même poids à chaque ligne de commande, quelle que soit la valeur de la vente. Cela peut fausser l’analyse : une petite commande avec une grosse remise aura autant d’impact qu’une commande très élevée avec une remise minime.

Pour corriger cela, on utilise une **moyenne pondérée par le montant des ventes (sales)**, plus représentative de la réalité économique.

**Formule SQL utilisée :** SUM(discount * Sales) / SUM(Sales)

### Interprétation :

- En **2015**, les ventes baissent légèrement de **2,83 %**, mais le **profit augmente fortement (+24,37 %)**, grâce à une **amélioration nette de la marge bénéficiaire** (passant de 10,2 % à 13,1 %). La remise moyenne diminue également, ce qui suggère un meilleur contrôle des rabais commerciaux.
- En **2016**, on observe une **croissance exceptionnelle** de **29,47 % des ventes** et **32,74 % de profit**, soutenue par une augmentation des volumes vendus.
- En **2017**, les ventes continuent de progresser fortement (+20,36 %), mais la **croissance du profit ralentit (+14,24 %)**. Cela peut s’expliquer par une **légère baisse du prix moyen par unités vendues** (58,77 € contre 61,93 €) et une **marge du profit en recul** (12,74 %).

### Conclusion :

L’entreprise connaît une **croissance solide et soutenue** sur la période 2015–2017. Elle parvient à **générer davantage de profit à partir de volumes croissants**, tout en maintenant une structure de remises maîtrisée. 

In [23]:
%%sql
SELECT 
    category, 
    ROUND(SUM(Sales), 0) AS total_sales,
    ROUND(SUM(Profit), 0) AS total_profit,
    SUM(quantity) AS total_quantity,
    ROUND(SUM(Profit) / SUM(Sales) * 100, 2) AS profit_margin,
    ROUND(SUM(Sales) / SUM(Quantity), 2) AS average_unit_price,
    ROUND(SUM(discount * Sales) / SUM(Sales) * 100, 2) AS average_discount,
    ROUND(SUM(Sales) * 100.0 / SUM(SUM(Sales)) OVER (), 2) AS sales_percentage
FROM v_superstore_complete
GROUP BY category
ORDER BY total_profit DESC;


 * postgresql://postgres:***@localhost:5432/Superstore
3 rows affected.


category,total_sales,total_profit,total_quantity,profit_margin,average_unit_price,average_discount,sales_percentage
Technology,836154,145455,6939,17.4,120.5,14.67,36.4
Office Supplies,719047,122491,22906,17.04,31.39,10.63,31.3
Furniture,742000,18451,8028,2.49,92.43,16.65,32.3


### Interprétation

- **Technology** est la catégorie **la plus rentable**, avec la marge de profit la plus élevée (17,4 %) et le chiffre d’affaires le plus important. Bien que la remise moyenne soit élevée (14,67 %), les prix unitaires élevés (120,50 €) permettent de préserver une excellente rentabilité.
- **Office Supplies** génère une **forte rotation** : plus de 22 000 unités vendues, bien que le prix unitaire soit bas elle dispose d'une rentabilité correcte. La remise moyenne modérée (10,63 %) semble bien calibrée pour stimuler le volume sans dégrader la marge.
- **Furniture** est **la moins performante** en termes de rentabilité, avec une marge bénéficiaire très faible (2,49 %) malgré un volume de ventes élevé.La remise moyenne y est la plus forte (16,65 %), ce qui rogne considérablement la marge, surtout sur des produits à prix moyen élevé (92,43 €).

On peut dont conclure ceci sur nos catégories :

- **Technology** : produits premium, bien margés.
- **Office Supplies** : produits de consommation courante, très haut volume.
- **Furniture** : marge quasi inexistante, coûts trop élevés.

### Recommandations
 
- **Accentuer la vente de produits Technology**, forte demande, bons prix, et bonne marge malgré des remises importantes.
- **Optimiser les remises sur Office Supplies** sans affecter le volume.
- **Repenser la stratégie sur Furniture** : réduire les coûts, réduire les niveaux de remises, ou repositionner la gamme.

In [26]:
%%sql
-- Requête pour obtenir les ventes totales, le profit total et la quantité par catégorie et sous-catégorie
SELECT category, sub_category,
       ROUND(SUM(Sales),2) AS total_sales,
       ROUND(SUM(Profit),2) AS total_profit,
       SUM(quantity) AS total_quantity,
       ROUND(SUM(Sales) / SUM(quantity),2) AS avg_price_per_unit,
       ROUND(SUM(discount * Sales) / NULLIF(SUM(Sales), 0) * 100, 2) AS average_discount,
       RANK() OVER (PARTITION BY category ORDER BY SUM(Profit) DESC) AS rank_category
FROM v_superstore_complete
GROUP BY category, sub_category
ORDER BY total_profit DESC

 * postgresql://postgres:***@localhost:5432/Superstore
17 rows affected.


category,sub_category,total_sales,total_profit,total_quantity,avg_price_per_unit,average_discount,rank_category
Technology,Copiers,149528.03,55617.82,234,639.01,12.04,1
Technology,Phones,330007.05,44515.73,3289,100.34,14.57,2
Technology,Accessories,167380.32,41936.64,2976,56.24,5.86,3
Office Supplies,Paper,78479.21,34053.57,5178,15.16,6.45,1
Office Supplies,Binders,203412.73,30221.76,5974,34.05,21.51,2
Furniture,Chairs,328449.1,26590.17,2356,139.41,15.17,1
Office Supplies,Storage,223843.61,21278.83,3158,70.88,5.9,3
Office Supplies,Appliances,107532.16,18138.01,1729,62.19,6.97,4
Furniture,Furnishings,91705.16,13059.14,3563,25.74,9.5,2
Office Supplies,Envelopes,16476.4,6964.18,906,18.19,7.13,5


### Interprétation

- Les **trois sous-catégories les plus rentables** (Copiers, Phones, Accessories) appartiennent toutes à la catégorie **Technology**, confirmant son rôle moteur dans la rentabilité globale.
- À l’inverse, **trois sous-catégories sont déficitaires**, dont **deux liées au mobilier** : *Tables* et *Bookcases*  avecune remise moyenne très élevée. Cela confirme que la catégorie **Furniture est globalement peu rentable**, voire problématique.
- On remarque également que ces sous-catégories déficitaires sont celles avec une forte remise moyenne, ce qui renforce l’hypothèse d’un **effet négatif des remises excessives sur la rentabilité**.

### Recommandations

- Mieux **cibler les remises** selon les sous-catégories par example éviter les fortes remises  les sous-catégories structurellement fragiles, notamment Tables et Bookcases sauf justification exceptionnelle (déstockage, obsolescence…).
- **Renforcer les investissements marketing** sur les produits de type *Copiers* et *Phones*.
- Repenser l’offre ou la stratégie tarifaire sur *Tables* et *Bookcases* (produits déficitaires malgré des volumes de vente élevés).


## 2. Analyse client (rentabilité et fidélité)


Quels segments de clients sont les plus rentables ?

Peut-on segmenter les clients selon le RFM ?

In [87]:
%%sql
-- Ventes & profits par segment client
SELECT 
    segment,
	COUNT(DISTINCT customer_id) AS total_customers,
	COUNT(DISTINCT order_id) AS total_orders,
	ROUND(SUM(sales),0) AS total_sales,
    ROUND(SUM(profit),0) AS total_profit,
    SUM(quantity) AS total_quantity,
	ROUND(SUM(profit)/COUNT(DISTINCT order_id),2) AS avg_profit_per_order,
	ROUND(SUM(quantity) * 1.0 / COUNT(DISTINCT order_id), 2) AS quantity_per_order,
	ROUND(SUM(Profit)/SUM(Sales)*100,2) AS profit_margin
FROM v_superstore_complete
GROUP BY segment
ORDER BY total_profit DESC;

 * postgresql://postgres:***@localhost:5432/Superstore
3 rows affected.


segment,total_customers,total_orders,total_sales,total_profit,total_quantity,avg_profit_per_order,quantity_per_order,profit_margin
Consumer,409,2586,1161401,134119,19521,51.86,7.55,11.55
Corporate,236,1514,706146,91979,11608,60.75,7.67,13.03
Home Office,148,909,429653,60299,6744,66.34,7.42,14.03


### Interprétation

- Le segment **Consumer** représente la **plus grande base de clients** (plus de 50 % des clients) et génère **près de la moitié du chiffre d’affaires** total avec 409 clients et 2586 commandes. Cela en fait un segment clé en volume, mais avec une marge de profit plus faible que les autres. Le profit moyen par commande est aussi le plus bas (51,86 €).
- Le segment **Home Office**, bien que plus petit 148 clients et 909 commandes,il affiche le **meilleur profit moyen par commande (66,34 €)** et la **meilleure marge bénéficiaire (14.03 %)**, ce qui en fait un segment **très rentable** malgré un volume plus faible.
- Le segment **Corporate** est intermédiaire en volume, mais présente une bonne marge (13,03 %) et un profit moyen par commande plus élevé que **Consumer** (60,75 €). Il allie équilibre entre volume et rentabilité.

Enfin, la quantité moyenne par commande est très similaire pour les trois segments (autour de 7,5 produits/commande), ce qui indique un comportement d’achat comparable en termes de volume, mais des marges très différentes selon le segment.

### Recommandations

- Consolider le segment **Consumer** en améliorant la **marge bénéficiaire** (optimisation des remises, upselling).
- Capitaliser davantage sur **Home Office**, qui combine faible volume mais **excellente rentabilité** à soutenir avec des offres personnalisées ou fidélisantes.
- Suivre de près le segment Corporate, qui présente un bon compromis entre volume et profitabilité
- Adapter les stratégies de vente par segment (prix, remises, offres ciblées).


---

RFM est un acronyme qui signifie Récence, Fréquence, Montant, c’est une méthode d’analyse marketing utilisée pour segmenter les clients selon leur comportement d'achat.

Création du RFM :

In [19]:
%%sql
CREATE OR REPLACE VIEW v_rfm_segmentation AS

WITH ref AS (
    SELECT MAX(Order_Date) + INTERVAL '1 day' AS ref_date
    FROM orders
),

rfm_base AS (
    SELECT
        o.Customer_ID,
        MAX(o.Order_Date) AS last_order,
        COUNT(DISTINCT o.Order_ID) AS frequency,
        SUM(od.Sales) AS monetary
    FROM orders AS o
    JOIN order_details AS od ON o.Order_ID = od.Order_ID
    GROUP BY o.Customer_ID
),

rfm AS (
    SELECT
        rb.Customer_ID,
        EXTRACT(DAY FROM(ref.ref_date - rb.last_order)) AS recency_interval,
        rb.frequency,
        ROUND(rb.monetary, 2) AS monetary
    FROM rfm_base rb
    CROSS JOIN ref
),

scored_rfm AS (
    SELECT *,
        NTILE(5) OVER (ORDER BY recency_interval DESC) AS r_score,
        NTILE(5) OVER (ORDER BY frequency ASC) AS f_score,
        NTILE(5) OVER (ORDER BY monetary ASC) AS m_score
    FROM rfm
),

labeled_rfm AS (
    SELECT *,
        CONCAT(r_score, f_score, m_score) AS rfm_code,
        CASE
            WHEN r_score = 5 AND f_score >= 4 AND m_score >= 4 THEN 'VIP'
            WHEN r_score >= 4 AND f_score >= 3 THEN 'Fidèle'
            WHEN r_score = 5 AND f_score <= 2 THEN 'Nouveau client'
            WHEN r_score <= 2 AND f_score >= 4 THEN 'À relancer'
            WHEN m_score >= 4 THEN 'Gros acheteur'
            ELSE 'Standard'
        END AS segment_rfm
    FROM scored_rfm
)

SELECT 
    c.Segment AS client_type,
    r.segment_rfm AS rfm_segment,
    COUNT(*) AS total_customers
FROM labeled_rfm AS r
JOIN customers AS c ON r.Customer_ID = c.Customer_ID
GROUP BY c.Segment, r.segment_rfm
ORDER BY c.Segment, total_customers DESC;

SELECT * FROM v_rfm_segmentation;


 * postgresql://postgres:***@localhost:5432/Superstore
Done.
18 rows affected.


client_type,rfm_segment,total_customers
Consumer,Standard,155
Consumer,Fidèle,97
Consumer,Gros acheteur,66
Consumer,À relancer,39
Consumer,VIP,29
Consumer,Nouveau client,23
Corporate,Standard,88
Corporate,Fidèle,53
Corporate,Gros acheteur,37
Corporate,À relancer,27


Nous avons croisé les segments RFM avec les trois types de clients : **Consumer**, **Corporate** et **Home Office**. Cette approche permet de comprendre les comportements d'achat spécifiques à chaque groupe de clients.

### Interprétation

####  **Consumer**
- Représente le **plus grand volume de clients**.
- Forte proportion de **clients Standard (155)**, mais aussi **97 Fidèles** et **66 Gros acheteurs**.
-  Indique un **potentiel de montée en gamme** vers le segment VIP avec un bon ciblage.

####  **Corporate**
- Moins nombreux que les Consumers, mais avec un **bon équilibre entre Fidèles (53)** et **Gros acheteurs (37)**.
-  Montre un comportement **régulier et rentable**, idéal pour des **offres packagées ou programmes B2B**.

####  **Home Office**
- Taille plus réduite mais présence significative de **Gros acheteurs (27)** et **Fidèles (25)**.
- Le segment **VIP (8)** est limité mais mérite d'être **consolidé**.
-  Besoin d’un **accompagnement personnalisé** pour activer et fidéliser davantage.


###  Recommandations

-  **Consumer** : mettre en place des **offres de fidélisation** pour faire évoluer les Standards vers Fidèle/VIP.
-  **Corporate** : cibler les **Gros acheteurs** avec des programmes premium ou de remises volume.
-  **Home Office** : relancer les clients inactifs et renforcer la valeur perçue pour faire émerger plus de VIP.

---

## 3. Analyse géographique (localisation des résultats)

Quelles régions/États sont les plus performants ?

Régions avec beaucoup de ventes mais peu de profit ?

In [6]:
%%sql
SELECT
         region,
         ROUND(SUM(sales),2) AS total_sales,
         ROUND(SUM(profit),2) AS total_profit,
         SUM(quantity) AS total_quantity,
         COUNT(DISTINCT order_id) AS total_orders
FROM v_superstore_complete
GROUP BY region
ORDER BY total_profit DESC;


 * postgresql://postgres:***@localhost:5432/Superstore
4 rows affected.


region,total_sales,total_profit,total_quantity,total_orders
West,764634.45,98008.22,12272,1594
East,611734.3,94604.31,10515,1392
Central,518800.13,63609.35,8965,1196
South,402031.98,30175.14,6121,827


### Interprétation :

- **Région Ouest (West)** : 
  - Génère le plus **haut chiffre d'affaires** et **le plus grand profit**.
  - Aussi la **région avec le plus de commandes** et de produits vendus.
  - Elle constitue la **zone la plus stratégique** de l’entreprise.

- **Région Est (East)** :
  - Très proche de l’Ouest en termes de **profitabilité**, bien que légèrement moins en volume.
  - Elle présente un **potentiel de croissance** similaire à l’Ouest.

- **Région Centre (Central)** :
  - Performances **intermédiaires**, aussi bien en ventes qu’en commandes.
  - Peut être optimisée par des actions ciblées.

- **Région Sud (South)** :
  - Dernière sur tous les indicateurs.
  - Cette région nécessite une **analyse plus approfondie** : problèmes de prix, de logistique ou de demande ?

### Recommandations :

- **Renforcer les investissements marketing et logistiques dans l’Ouest** pour soutenir sa croissance.
- **Analyser les leviers de performance de l’Est** pour répliquer le succès ailleurs.
- **Auditer la région Sud** pour identifier les freins commerciaux : faible couverture, mauvaise rentabilité, ou besoins spécifiques ?

Cette analyse régionale permet de **prioriser les efforts commerciaux** en fonction de la rentabilité et du potentiel géographique.

In [61]:
%%sql
-- Top 5 des états avec le profit le plus élevé
(   SELECT
        state,
        region,
        ROUND(SUM(sales),0) AS total_sales,
        ROUND(SUM(profit),0) AS total_profit,
        SUM(quantity) AS total_quantity,
        COUNT(DISTINCT order_id) AS total_orders,
        ROUND(SUM(profit)/SUM(sales)*100,2) AS profit_margin

    FROM v_superstore_complete
    GROUP BY state, region
    ORDER BY total_profit DESC
    LIMIT 5
)
UNION ALL
-- Top 5 des états avec le profit le plus bas
(
    SELECT
        state,
        region,
        ROUND(SUM(sales),0) AS total_sales,
        ROUND(SUM(profit),0) AS total_profit,
        SUM(quantity) AS total_quantity,
        COUNT(DISTINCT order_id) AS total_orders,
        ROUND(SUM(profit)/SUM(sales)*100,2) AS profit_margin
    FROM v_superstore_complete
    GROUP BY state, region
    ORDER BY total_profit ASC
    LIMIT 5
)
ORDER BY total_profit DESC;


 * postgresql://postgres:***@localhost:5432/Superstore
10 rows affected.


state,region,total_sales,total_profit,total_quantity,total_orders,profit_margin
California,West,451037,59398,7624,1006,13.17
New York,East,279550,58178,4178,554,20.81
Washington,West,133177,24406,1673,227,18.33
Texas,Central,192758,20529,3450,463,10.65
Pennsylvania,East,142839,13605,2505,308,9.52
Nevada,West,1215,278,47,8,22.89
Oregon,West,17327,234,205,24,1.35
Kansas,Central,1728,139,40,6,8.06
Arkansas,South,4583,-63,87,11,-1.37
North Carolina,South,116635,-4237,1338,180,-3.63


### Interprétation


- **California** et **New York** sont de loin les États les plus rentables.
- **New York** affiche une marge de profit particulièrement élevée (> 20 %), ce qui reflète une très bonne rentabilité relative.
- Ces États concentrent aussi un volume important de commandes et de ventes.
- **Arkansas** et **North Carolina** sont les **seuls États avec un profit négatif**, et ils sont tous deux situés dans la **région Sud**.
- Certains États comme **Nevada** ont une marge très élevée mais sur un très faible volume (peu de commandes).
- Les marges varient fortement d’un État à l’autre, ce qui pourrait être dû à :
  - des différences de mix produits (catégories à marge basse ou forte),
  - des coûts logistiques régionaux,
  - ou des stratégies commerciales spécifiques (remises, ciblage).

### Conclusion

- Les performances économiques sont très **géolocalisées**.
- La région Sud montre des **signes de fragilité**, avec plusieurs États peu ou pas rentables.
- Il serait judicieux de :
  - **analyser les produits vendus** dans les États à faible rentabilité,
  - **évaluer les coûts de livraison** par région,
  - **revoir les remises ou stratégies de vente** appliquées dans le Sud.

Cela permettra d’identifier **des leviers d’amélioration de la rentabilité géographique**.

---

## 4. Logistique & livraison (impact opérationnel)

Quel est l’impact du mode de livraison sur le profit ?

Lien entre délai de livraison et rentabilité ?

In [62]:
%%sql
-- Délai moyen de livraison(en jours),panier moyen et nombre total de commande par mode de livraison
SELECT 
    ship_mode,
    ROUND(AVG(ship_date - order_date), 2) AS time_delivery,
    ROUND(AVG(sales), 2) AS avg_sales,
    ROUND(AVG(quantity), 2) AS avg_quantity,
    ROUND(AVG(profit),2) AS avg_profit,
    ROUND(SUM(discount * Sales) / NULLIF(SUM(Sales), 0) * 100, 2) AS average_discount,
    COUNT(DISTINCT order_id) AS commandes
FROM v_superstore_complete
GROUP BY ship_mode

 * postgresql://postgres:***@localhost:5432/Superstore
4 rows affected.


ship_mode,time_delivery,avg_sales,avg_quantity,avg_profit,average_discount,commandes
First Class,2.18,228.65,3.7,31.86,14.74,787
Same Day,0.04,236.4,3.61,29.27,15.66,264
Second Class,3.24,236.45,3.82,29.58,12.16,964
Standard Class,5.01,227.74,3.82,27.51,14.35,2994


### Interprétation

- **Standard Class** est **le mode le plus utilisé** (près de 3 000 commandes), mais aussi **le plus lent** (5 jours en moyenne). Il semble être le choix par défaut, probablement pour des raisons de coût.
- **Same Day** est **extrêmement rapide** (livraison quasi immédiate), avec un panier moyen élevé, mais reste **très peu utilisé** : peut-être réservé à des zones spécifiques ou à un coût plus élevé pour le client.
- **Second Class** offre un **bon compromis** entre rapidité (3,2 jours) et performance commerciale (panier et profit moyens élevés).
- **First Class** est plus rapide que Standard mais moins populaire. Toutefois, c’est le mode avec le **profit moyen par commande le plus élevé**.

### Recommandations

- **Analyser pourquoi Standard est autant utilisé** malgré sa lenteur : est-ce le mode par défaut ? le moins cher ?
- **Promouvoir Second Class** comme option intermédiaire efficace, surtout si la logistique permet d’en élargir l’usage.
- **Explorer le potentiel de Same Day** : si rentable, pourrait être davantage proposé dans certaines zones.
- **Évaluer la rentabilité réelle de chaque mode**, en tenant compte des coûts logistiques (non présents ici).

Cette analyse montre comment le choix du mode de livraison peut influencer directement la rentabilité et la qualité de service.

In [9]:
%%sql
SELECT
    segment,
    ship_mode,
    COUNT(DISTINCT order_id) AS total_orders
FROM v_superstore_complete
GROUP BY segment, ship_mode
ORDER BY segment, total_orders DESC;


 * postgresql://postgres:***@localhost:5432/Superstore
12 rows affected.


segment,ship_mode,total_orders
Consumer,Standard Class,1535
Consumer,Second Class,498
Consumer,First Class,396
Consumer,Same Day,157
Corporate,Standard Class,905
Corporate,Second Class,301
Corporate,First Class,250
Corporate,Same Day,58
Home Office,Standard Class,554
Home Office,Second Class,165


### Interprétation :

- Le mode **Standard Class** est de loin **le plus utilisé** par tous les segments, représentant **environ 60 % à 65 % des commandes**.
- **Les Consumers** sont les plus nombreux et utilisent **tous les modes**, avec une adoption légèrement plus élevée du **Same Day**.
- **Les Corporate** utilisent surtout **Standard** et **First Class**, mais sont **plus conservateurs sur le Same Day** (seulement 58 commandes).
- **Les Home Office** privilégient aussi **Standard**, mais utilisent relativement plus **First Class** que Same Day.

### Conclusion :

- Il n'y a pas pas de corrélation significative entre segment client et choix du mode de livraison
- L’analyse montre que les trois segments (`Consumer`, `Corporate`, `Home Office`) utilisent les modes de livraison dans des proportions très similaires.



In [None]:
%%sql
-- Délai de livraison trier par jours
SELECT
    CASE
        WHEN ship_date - order_date <= 1 THEN 'Livraison < 1j'
        WHEN ship_date - order_date <= 2 THEN '1-2 jours'
        WHEN ship_date - order_date <= 4 THEN '3-4 jours'
        ELSE '5+ jours'
    END AS delivery_speed,
    COUNT(DISTINCT order_id) AS total_orders,
    ROUND(AVG(profit), 2) AS avg_profit,
    ROUND(AVG(sales), 2) AS avg_sales,
    ROUND(SUM(profit)/SUM(sales)*100, 2) AS profit_margin
FROM v_superstore_complete
GROUP BY delivery_speed
ORDER BY delivery_speed;


 * postgresql://postgres:***@localhost:5432/Superstore
4 rows affected.


delivery_speed,total_orders,avg_profit,avg_sales,profit_margin
1-2 jours,675,39.88,276.63,14.42
3-4 jours,1912,25.97,221.65,11.72
5+ jours,1988,28.14,225.29,12.49
Livraison < 1j,434,25.82,217.21,11.89


### Interprétation :

- **Les livraisons en 1-2 jours** sont les plus rentables, avec une **marge de profit de 14,42 %** et le **panier moyen le plus élevé** (276 €).
- Les **livraisons ultra-rapides (< 1 jour)** ne sont **pas les plus rentables**, avec une marge légèrement inférieure à celle des délais classiques (11,89 %).
- Les livraisons longues (5+ jours) ne pénalisent pas fortement la rentabilité, mais restent inférieures aux livraisons en 1-2 jours.
- Les délais de 3 à 4 jours ont la **marge de profit la plus faible** de toutes les catégories.

### Conclusion & recommandations :

- Il semble qu’un **délai raisonnable (1-2 jours)** offre **le meilleur compromis entre rapidité et rentabilité**.
- Les livraisons **trop rapides (< 1 jour)** n’améliorent pas la marge et sont donc à réserver à des cas spécifiques (produits urgents, clients VIP).
- Les livraisons **intermédiaires (3-4 jours)** mériteraient une optimisation : baisse de coût, meilleure gestion logistique ou ciblage marketing adapté.

## Conclusion générale

Ce projet a permis d’analyser en profondeur les performances commerciales, les comportements client et les dynamiques logistiques à partir des données Superstore. Voici les principaux enseignements :

---

### Analyse commerciale

- Les ventes et les profits ont connu une croissance régulière entre 2015 et 2017, portée par l’augmentation des quantités vendues.
- En 2015, l'entreprise a amélioré sa rentabilité malgré une baisse du chiffre d'affaires, grâce à une meilleure marge.
- La catégorie **Technology** est la plus rentable, tandis que **Furniture** est faiblement margée, voire déficitaire.
- Certaines sous-catégories comme **Copiers**, **Phones**, ou **Chairs** génèrent une part importante du profit global.

---

### Analyse client & RFM

- Le segment **Consumer** représente plus de la moitié de la base client.
- La segmentation RFM a permis d’identifier des profils clés comme les **VIP**, **Gros acheteurs**, et les **clients à relancer**.
- Tous les segments (Consumer, Corporate, Home Office) utilisent majoritairement le même mode de livraison, ce qui indique une absence de corrélation forte entre **profil client** et **choix logistique**.

---

### Logistique & livraison

- Le mode **Standard Class** est le plus utilisé mais aussi le plus lent (5 jours).
- Les commandes livrées en **1 à 2 jours** sont les plus rentables (marge moyenne de 14,4 %).
- Les livraisons < 1 jour ne sont pas forcément plus rentables.
- Revoir l’équilibre entre rapidité et rentabilité semble essentiel.

---

## Recommandations

- **Rééquilibrer les remises** sur les sous-catégories à faible marge (ex. Furniture).
- **Mieux cibler les clients RFM “VIP” ou “Fidèles”** avec des offres personnalisées.
- **Optimiser la logistique** : encourager la livraison 1-2 jours, réduire les coûts des livraisons <1j.
- **Surveiller les performances par région et état**, notamment dans le Sud, où certaines zones sont déficitaires.

---

## Limites et pistes futures

- Analyse limitée à la **dimension transactionnelle** (pas de données marketing ou produit).
- Pas de modélisation prédictive intégrée dans ce notebook (à faire dans Python ou Power BI).
- Possibilité d’approfondir par une **analyse de saisonnalité**, un clustering de clients, ou une prévision de ventes.