#  Analyse des ventes ‚Äì Projet Superstore



## Cr√©ation de tables et import des donn√©es

Dans cette section, nous structurons les donn√©es brutes en **plusieurs tables relationnelles** pour faciliter l'analyse.

 Cette structure va nous permettre d'obtenir un mod√®le en √©toile classique avec :
- des **tables de dimensions** (clients, produits, commandes)
- une **table de faits** (`order_details`), li√©e par des identifiants communs.


In [None]:
import pandas as pd

# Chemin du fichier source
source_file = "C:/Users/tonio/Documents/superstore-project/data/Sample - Superstore.csv"

# Chargement du fichier CSV avec l'encodage compatible
df = pd.read_csv(source_file, encoding="ISO-8859-1")

# Nettoyage du noms des colonnes (remplacer les espaces par des underscores)
df.columns = df.columns.str.strip().str.replace(' ', '_')


Cr√©eation des tables relationnelles 
 - `customers` : informations clients (ID, nom, segment, localisation‚Ä¶)
 - `products` : catalogue produits (ID, nom, cat√©gorie, sous-cat√©gorie)
 - `orders` : en-t√™tes de commande (ID, dates, mode de livraison, client)
 - `order_details` : lignes de commande avec mesures chiffr√©es (ventes, quantit√©s, remises, profits)

In [None]:
# Supprimer les doublons pour chaque dimension
customers = df[['Customer_ID', 'Customer_Name', 'Segment', 'City', 'State', 'Country', 'Region', 'Postal_Code']].drop_duplicates()
products = df[['Product_ID', 'Product_Name', 'Category', 'Sub-Category']].drop_duplicates()
orders = df[['Order_ID', 'Order_Date', 'Ship_Date', 'Ship_Mode', 'Customer_ID']].drop_duplicates()

# Table de faits brute
order_details = df[['Order_ID', 'Product_ID', 'Sales', 'Quantity', 'Discount', 'Profit']]

Nettoyage des doublons pour chaque tables de dimension

In [None]:
# Nettoyage des doublons client (Customer_ID)
customers = customers.drop_duplicates(subset="Customer_ID")

# Nettoyage des doublons produit (Product_ID)
products = products.drop_duplicates(subset="Product_ID")

# Agr√©gation des lignes de commande en double (Order_ID + Product_ID)
order_details = order_details.groupby(["Order_ID", "Product_ID"], as_index=False).agg({
    "Sales": "sum",
    "Quantity": "sum",
    "Discount": "mean",  # Moyenne si constante
    "Profit": "sum"
})

Sauvegarde des fichiers nettoy√©s

In [None]:
# Dossier de destination des fichiers CSV
fichier = "C:/Users/tonio/Documents/superstore-project/data/"

# Sauvegarde des fichiers au format CSV
customers.to_csv(fichier + "customers.csv", index=False)
products.to_csv(fichier + "products.csv", index=False)
orders.to_csv(fichier + "orders.csv", index=False)
order_details.to_csv(fichier + "order_details.csv", index=False)


## Cr√©ation et chargement des donn√©es dans PostgreSQL

Apr√®s avoir pr√©par√© les fichiers `.csv` via Python, les donn√©es sont import√©es dans une **base relationnelle PostgreSQL**.

### üîπ √âtapes r√©alis√©es :

1. **Cr√©ation des tables relationnelles** (`customers`, `products`, `orders`, `order_details`)
   - Cl√©s primaires et √©trang√®res d√©finies
   - Relation en √©toile classique (star schema)

2. **Chargement des fichiers `.csv`** avec la commande `COPY`

3. **Nettoyage dans PostgreSQL** :
   - Conversion des colonnes `Order_Date` et `Ship_Date` au format `DATE`
   - Suppression des colonnes inutiles (`Country`, `Postal_Code`) dans `customers`


>Le script complet est disponible dans le fichier suivant :[`sql/create_and_load_tables.sql`](../sql/create_and_load_tables.sql)


Ensuite je me connecte √† mon serveur PostgreSQL local via Python afin de r√©cup√©rer les tables de mon serveur Superstore, que j‚Äôai import√©e juste avant, pour effectuer des analyses directement dans mon Jupyter notebook.

In [1]:
%load_ext sql
%sql postgresql://postgres:momo1489@localhost:5432/Superstore

## Analyse commerciale

On classe l'analyse commerciale en 4 sections, de la plus g√©n√©rale √† la plus sp√©cifique

- 1. Performance commerciale
- 2. Analyse client
- 3. Analyse g√©ographique
- 4. Logistique & livraison
---

Cr√©ation d'une vue avec toutes les colonnes des diff√©rentes tables

In [14]:
%%sql
CREATE VIEW v_superstore_complete AS
SELECT
    o.Order_ID,
    o.Order_Date,
    o.Ship_Date,
    o.Ship_Mode,
    o.Customer_ID,
    c.Customer_Name,
    c.Segment,
    c.City,
    c.State,
    c.Region,
    p.Product_ID,
    p.Product_Name,
    p.Category,
    p.Sub_Category,
    od.Sales,
    od.Quantity,
    od.Discount,
    od.Profit
FROM order_details od
JOIN orders o ON od.Order_ID = o.Order_ID
JOIN customers c ON o.Customer_ID = c.Customer_ID
JOIN products p ON od.Product_ID = p.Product_ID;

 * postgresql://postgres:***@localhost:5432/Superstore
Done.


[]

In [5]:
%%sql
SELECT * FROM v_superstore_complete LIMIT 5;

 * postgresql://postgres:***@localhost:5432/Superstore
5 rows affected.


order_id,order_date,ship_date,ship_mode,customer_id,customer_name,segment,city,state,region,product_id,product_name,category,sub_category,sales,quantity,discount,profit
CA-2014-100006,2014-09-07,2014-09-13,Standard Class,DK-13375,Dennis Kane,Consumer,Marion,Ohio,East,TEC-PH-10002075,AT&T EL51110 DECT,Technology,Phones,377.97,3,0.0,109.6113
CA-2014-100090,2014-07-08,2014-07-12,Standard Class,EB-13705,Ed Braxton,Corporate,Akron,Ohio,East,FUR-TA-10003715,Hon 2111 Invitation Series Corner Table,Furniture,Tables,502.488,3,0.2,-87.9354
CA-2014-100090,2014-07-08,2014-07-12,Standard Class,EB-13705,Ed Braxton,Corporate,Akron,Ohio,East,OFF-BI-10001597,"Wilson Jones Ledger-Size, Piano-Hinge Binder, 2"", Blue",Office Supplies,Binders,196.704,6,0.2,68.8464
CA-2014-100293,2014-03-14,2014-03-18,Standard Class,NF-18475,Neil Franz√∂sisch,Home Office,Rockford,Illinois,Central,OFF-PA-10000176,Xerox 1887,Office Supplies,Paper,91.056,6,0.2,31.8696
CA-2014-100328,2014-01-28,2014-02-03,Standard Class,JC-15340,Jasper Cacioppo,Consumer,Los Angeles,California,West,OFF-BI-10000343,"Pressboard Covers with Storage Hooks, 9 1/2"" x 11"", Light Blue",Office Supplies,Binders,3.928,1,0.2,1.3257


## 1. Performance commerciale

√âvolution des ventes dans le temps ?

Quels sont les produits et sous-cat√©gories les plus rentables ?

Quels produits g√©n√®rent des pertes malgr√© un volume √©lev√© ?

Quels sont les effets des remises sur le profit ?

In [2]:
%%sql
-- Total des ventes, profits, et nombre de produits vendus par ann√©e

WITH yearly_data AS (
    SELECT 
        EXTRACT(YEAR FROM order_date) AS year,
        SUM(sales) AS total_sales,
        SUM(profit) AS total_profit,
        SUM(quantity) AS total_quantity,
        SUM(discount * Sales) / SUM(Sales) * 100 AS average_discount,
        COUNT(DISTINCT order_id) AS total_orders
    FROM v_superstore_complete
    GROUP BY EXTRACT(YEAR FROM order_date)
)
SELECT 
    year,
    ROUND(total_sales, 0) AS total_sales,
    ROUND(total_profit, 0) AS total_profit,
    total_quantity,
    total_orders,
    ROUND(
        ((total_sales - LAG(total_sales) OVER (ORDER BY year)) / 
         LAG(total_sales) OVER (ORDER BY year)) * 100, 2
    ) AS sales_growth,
    ROUND(
        ((total_profit - LAG(total_profit) OVER (ORDER BY year)) / 
         LAG(total_profit) OVER (ORDER BY year)) * 100, 2
    ) AS profit_growth,
    ROUND((total_profit / total_sales) * 100, 2) AS average_profit_margin,
    ROUND(total_sales / total_quantity, 2) AS average_price_per_unit,
    ROUND(average_discount, 2) AS average_discount_percentage
FROM yearly_data
ORDER BY year;

 * postgresql://postgres:***@localhost:5432/Superstore
4 rows affected.


year,total_sales,total_profit,total_quantity,total_orders,sales_growth,profit_growth,average_profit_margin,average_price_per_unit,average_discount_percentage
2014,484247,49544,7581,969,,,10.23,63.88,16.02
2015,470533,61619,7979,1038,-2.83,24.37,13.1,58.97,13.36
2016,609206,81795,9837,1315,29.47,32.74,13.43,61.93,13.28
2017,733215,93439,12476,1687,20.36,14.24,12.74,58.77,13.81


### Pourquoi utiliser une moyenne pond√©r√©e du discount ?

La **moyenne simple** des remises (`AVG(discount)`) attribue le m√™me poids √† chaque ligne de commande, quelle que soit la valeur de la vente. Cela peut fausser l‚Äôanalyse : une petite commande avec une grosse remise aura autant d‚Äôimpact qu‚Äôune commande tr√®s √©lev√©e avec une remise minime.

Pour corriger cela, on utilise une **moyenne pond√©r√©e par le montant des ventes (sales)**, plus repr√©sentative de la r√©alit√© √©conomique.

**Formule SQL utilis√©e :** SUM(discount * Sales) / SUM(Sales)

### Interpr√©tation :

- En **2015**, les ventes baissent l√©g√®rement de **2,83 %**, mais le **profit augmente fortement (+24,37 %)**, gr√¢ce √† une **am√©lioration nette de la marge b√©n√©ficiaire** (passant de 10,2 % √† 13,1 %). La remise moyenne diminue √©galement, ce qui sugg√®re un meilleur contr√¥le des rabais commerciaux.
- En **2016**, on observe une **croissance exceptionnelle** de **29,47 % des ventes** et **32,74 % de profit**, soutenue par une augmentation des volumes vendus.
- En **2017**, les ventes continuent de progresser fortement (+20,36 %), mais la **croissance du profit ralentit (+14,24 %)**. Cela peut s‚Äôexpliquer par une **l√©g√®re baisse du prix moyen par unit√©s vendues** (58,77 ‚Ç¨ contre 61,93 ‚Ç¨) et une **marge du profit en recul** (12,74 %).

### Conclusion :

L‚Äôentreprise conna√Æt une **croissance solide et soutenue** sur la p√©riode 2015‚Äì2017. Elle parvient √† **g√©n√©rer davantage de profit √† partir de volumes croissants**, tout en maintenant une structure de remises ma√Ætris√©e. 

In [23]:
%%sql
SELECT 
    category, 
    ROUND(SUM(Sales), 0) AS total_sales,
    ROUND(SUM(Profit), 0) AS total_profit,
    SUM(quantity) AS total_quantity,
    ROUND(SUM(Profit) / SUM(Sales) * 100, 2) AS profit_margin,
    ROUND(SUM(Sales) / SUM(Quantity), 2) AS average_unit_price,
    ROUND(SUM(discount * Sales) / SUM(Sales) * 100, 2) AS average_discount,
    ROUND(SUM(Sales) * 100.0 / SUM(SUM(Sales)) OVER (), 2) AS sales_percentage
FROM v_superstore_complete
GROUP BY category
ORDER BY total_profit DESC;


 * postgresql://postgres:***@localhost:5432/Superstore
3 rows affected.


category,total_sales,total_profit,total_quantity,profit_margin,average_unit_price,average_discount,sales_percentage
Technology,836154,145455,6939,17.4,120.5,14.67,36.4
Office Supplies,719047,122491,22906,17.04,31.39,10.63,31.3
Furniture,742000,18451,8028,2.49,92.43,16.65,32.3


### Interpr√©tation

- **Technology** est la cat√©gorie **la plus rentable**, avec la marge de profit la plus √©lev√©e (17,4‚ÄØ%) et le chiffre d‚Äôaffaires le plus important. Bien que la remise moyenne soit √©lev√©e (14,67‚ÄØ%), les prix unitaires √©lev√©s (120,50‚ÄØ‚Ç¨) permettent de pr√©server une excellente rentabilit√©.
- **Office Supplies** g√©n√®re une **forte rotation** : plus de 22 000 unit√©s vendues, bien que le prix unitaire soit bas elle dispose d'une rentabilit√© correcte. La remise moyenne mod√©r√©e (10,63‚ÄØ%) semble bien calibr√©e pour stimuler le volume sans d√©grader la marge.
- **Furniture** est **la moins performante** en termes de rentabilit√©, avec une marge b√©n√©ficiaire tr√®s faible (2,49‚ÄØ%) malgr√© un volume de ventes √©lev√©.La remise moyenne y est la plus forte (16,65‚ÄØ%), ce qui rogne consid√©rablement la marge, surtout sur des produits √† prix moyen √©lev√© (92,43‚ÄØ‚Ç¨).

On peut dont conclure ceci sur nos cat√©gories :

- **Technology** : produits premium, bien marg√©s.
- **Office Supplies** : produits de consommation courante, tr√®s haut volume.
- **Furniture** : marge quasi inexistante, co√ªts trop √©lev√©s.

### Recommandations
 
- **Accentuer la vente de produits Technology**, forte demande, bons prix, et bonne marge malgr√© des remises importantes.
- **Optimiser les remises sur Office Supplies** sans affecter le volume.
- **Repenser la strat√©gie sur Furniture** : r√©duire les co√ªts, r√©duire les niveaux de remises, ou repositionner la gamme.

In [26]:
%%sql
-- Requ√™te pour obtenir les ventes totales, le profit total et la quantit√© par cat√©gorie et sous-cat√©gorie
SELECT category, sub_category,
       ROUND(SUM(Sales),2) AS total_sales,
       ROUND(SUM(Profit),2) AS total_profit,
       SUM(quantity) AS total_quantity,
       ROUND(SUM(Sales) / SUM(quantity),2) AS avg_price_per_unit,
       ROUND(SUM(discount * Sales) / NULLIF(SUM(Sales), 0) * 100, 2) AS average_discount,
       RANK() OVER (PARTITION BY category ORDER BY SUM(Profit) DESC) AS rank_category
FROM v_superstore_complete
GROUP BY category, sub_category
ORDER BY total_profit DESC

 * postgresql://postgres:***@localhost:5432/Superstore
17 rows affected.


category,sub_category,total_sales,total_profit,total_quantity,avg_price_per_unit,average_discount,rank_category
Technology,Copiers,149528.03,55617.82,234,639.01,12.04,1
Technology,Phones,330007.05,44515.73,3289,100.34,14.57,2
Technology,Accessories,167380.32,41936.64,2976,56.24,5.86,3
Office Supplies,Paper,78479.21,34053.57,5178,15.16,6.45,1
Office Supplies,Binders,203412.73,30221.76,5974,34.05,21.51,2
Furniture,Chairs,328449.1,26590.17,2356,139.41,15.17,1
Office Supplies,Storage,223843.61,21278.83,3158,70.88,5.9,3
Office Supplies,Appliances,107532.16,18138.01,1729,62.19,6.97,4
Furniture,Furnishings,91705.16,13059.14,3563,25.74,9.5,2
Office Supplies,Envelopes,16476.4,6964.18,906,18.19,7.13,5


### Interpr√©tation

- Les **trois sous-cat√©gories les plus rentables** (Copiers, Phones, Accessories) appartiennent toutes √† la cat√©gorie **Technology**, confirmant son r√¥le moteur dans la rentabilit√© globale.
- √Ä l‚Äôinverse, **trois sous-cat√©gories sont d√©ficitaires**, dont **deux li√©es au mobilier** : *Tables* et *Bookcases*  avecune remise moyenne tr√®s √©lev√©e. Cela confirme que la cat√©gorie **Furniture est globalement peu rentable**, voire probl√©matique.
- On remarque √©galement que ces sous-cat√©gories d√©ficitaires sont celles avec une forte remise moyenne, ce qui renforce l‚Äôhypoth√®se d‚Äôun **effet n√©gatif des remises excessives sur la rentabilit√©**.

### Recommandations

- Mieux **cibler les remises** selon les sous-cat√©gories par example √©viter les fortes remises  les sous-cat√©gories structurellement fragiles, notamment Tables et Bookcases sauf justification exceptionnelle (d√©stockage, obsolescence‚Ä¶).
- **Renforcer les investissements marketing** sur les produits de type *Copiers* et *Phones*.
- Repenser l‚Äôoffre ou la strat√©gie tarifaire sur *Tables* et *Bookcases* (produits d√©ficitaires malgr√© des volumes de vente √©lev√©s).


## 2. Analyse client (rentabilit√© et fid√©lit√©)


Quels segments de clients sont les plus rentables ?

Peut-on segmenter les clients selon le RFM ?

In [87]:
%%sql
-- Ventes & profits par segment client
SELECT 
    segment,
	COUNT(DISTINCT customer_id) AS total_customers,
	COUNT(DISTINCT order_id) AS total_orders,
	ROUND(SUM(sales),0) AS total_sales,
    ROUND(SUM(profit),0) AS total_profit,
    SUM(quantity) AS total_quantity,
	ROUND(SUM(profit)/COUNT(DISTINCT order_id),2) AS avg_profit_per_order,
	ROUND(SUM(quantity) * 1.0 / COUNT(DISTINCT order_id), 2) AS quantity_per_order,
	ROUND(SUM(Profit)/SUM(Sales)*100,2) AS profit_margin
FROM v_superstore_complete
GROUP BY segment
ORDER BY total_profit DESC;

 * postgresql://postgres:***@localhost:5432/Superstore
3 rows affected.


segment,total_customers,total_orders,total_sales,total_profit,total_quantity,avg_profit_per_order,quantity_per_order,profit_margin
Consumer,409,2586,1161401,134119,19521,51.86,7.55,11.55
Corporate,236,1514,706146,91979,11608,60.75,7.67,13.03
Home Office,148,909,429653,60299,6744,66.34,7.42,14.03


### Interpr√©tation

- Le segment **Consumer** repr√©sente la **plus grande base de clients** (plus de 50‚ÄØ% des clients) et g√©n√®re **pr√®s de la moiti√© du chiffre d‚Äôaffaires** total avec 409 clients et 2586 commandes. Cela en fait un segment cl√© en volume, mais avec une marge de profit plus faible que les autres. Le profit moyen par commande est aussi le plus bas (51,86‚ÄØ‚Ç¨).
- Le segment **Home Office**, bien que plus petit 148 clients et 909 commandes,il affiche le **meilleur profit moyen par commande (66,34 ‚Ç¨)** et la **meilleure marge b√©n√©ficiaire (14.03‚ÄØ%)**, ce qui en fait un segment **tr√®s rentable** malgr√© un volume plus faible.
- Le segment **Corporate** est interm√©diaire en volume, mais pr√©sente une bonne marge (13,03‚ÄØ%) et un profit moyen par commande plus √©lev√© que **Consumer** (60,75‚ÄØ‚Ç¨). Il allie √©quilibre entre volume et rentabilit√©.

Enfin, la quantit√© moyenne par commande est tr√®s similaire pour les trois segments (autour de 7,5 produits/commande), ce qui indique un comportement d‚Äôachat comparable en termes de volume, mais des marges tr√®s diff√©rentes selon le segment.

### Recommandations

- Consolider le segment **Consumer** en am√©liorant la **marge b√©n√©ficiaire** (optimisation des remises, upselling).
- Capitaliser davantage sur **Home Office**, qui combine faible volume mais **excellente rentabilit√©** √† soutenir avec des offres personnalis√©es ou fid√©lisantes.
- Suivre de pr√®s le segment Corporate, qui pr√©sente un bon compromis entre volume et profitabilit√©
- Adapter les strat√©gies de vente par segment (prix, remises, offres cibl√©es).


---

RFM est un acronyme qui signifie R√©cence, Fr√©quence, Montant, c‚Äôest une m√©thode d‚Äôanalyse marketing utilis√©e pour segmenter les clients selon leur comportement d'achat.

Cr√©ation du RFM :

In [19]:
%%sql
CREATE OR REPLACE VIEW v_rfm_segmentation AS

WITH ref AS (
    SELECT MAX(Order_Date) + INTERVAL '1 day' AS ref_date
    FROM orders
),

rfm_base AS (
    SELECT
        o.Customer_ID,
        MAX(o.Order_Date) AS last_order,
        COUNT(DISTINCT o.Order_ID) AS frequency,
        SUM(od.Sales) AS monetary
    FROM orders AS o
    JOIN order_details AS od ON o.Order_ID = od.Order_ID
    GROUP BY o.Customer_ID
),

rfm AS (
    SELECT
        rb.Customer_ID,
        EXTRACT(DAY FROM(ref.ref_date - rb.last_order)) AS recency_interval,
        rb.frequency,
        ROUND(rb.monetary, 2) AS monetary
    FROM rfm_base rb
    CROSS JOIN ref
),

scored_rfm AS (
    SELECT *,
        NTILE(5) OVER (ORDER BY recency_interval DESC) AS r_score,
        NTILE(5) OVER (ORDER BY frequency ASC) AS f_score,
        NTILE(5) OVER (ORDER BY monetary ASC) AS m_score
    FROM rfm
),

labeled_rfm AS (
    SELECT *,
        CONCAT(r_score, f_score, m_score) AS rfm_code,
        CASE
            WHEN r_score = 5 AND f_score >= 4 AND m_score >= 4 THEN 'VIP'
            WHEN r_score >= 4 AND f_score >= 3 THEN 'Fid√®le'
            WHEN r_score = 5 AND f_score <= 2 THEN 'Nouveau client'
            WHEN r_score <= 2 AND f_score >= 4 THEN '√Ä relancer'
            WHEN m_score >= 4 THEN 'Gros acheteur'
            ELSE 'Standard'
        END AS segment_rfm
    FROM scored_rfm
)

SELECT 
    c.Segment AS client_type,
    r.segment_rfm AS rfm_segment,
    COUNT(*) AS total_customers
FROM labeled_rfm AS r
JOIN customers AS c ON r.Customer_ID = c.Customer_ID
GROUP BY c.Segment, r.segment_rfm
ORDER BY c.Segment, total_customers DESC;

SELECT * FROM v_rfm_segmentation;


 * postgresql://postgres:***@localhost:5432/Superstore
Done.
18 rows affected.


client_type,rfm_segment,total_customers
Consumer,Standard,155
Consumer,Fid√®le,97
Consumer,Gros acheteur,66
Consumer,√Ä relancer,39
Consumer,VIP,29
Consumer,Nouveau client,23
Corporate,Standard,88
Corporate,Fid√®le,53
Corporate,Gros acheteur,37
Corporate,√Ä relancer,27


Nous avons crois√© les segments RFM avec les trois types de clients : **Consumer**, **Corporate** et **Home Office**. Cette approche permet de comprendre les comportements d'achat sp√©cifiques √† chaque groupe de clients.

### Interpr√©tation

####  **Consumer**
- Repr√©sente le **plus grand volume de clients**.
- Forte proportion de **clients Standard (155)**, mais aussi **97 Fid√®les** et **66 Gros acheteurs**.
-  Indique un **potentiel de mont√©e en gamme** vers le segment VIP avec un bon ciblage.

####  **Corporate**
- Moins nombreux que les Consumers, mais avec un **bon √©quilibre entre Fid√®les (53)** et **Gros acheteurs (37)**.
-  Montre un comportement **r√©gulier et rentable**, id√©al pour des **offres packag√©es ou programmes B2B**.

####  **Home Office**
- Taille plus r√©duite mais pr√©sence significative de **Gros acheteurs (27)** et **Fid√®les (25)**.
- Le segment **VIP (8)** est limit√© mais m√©rite d'√™tre **consolid√©**.
-  Besoin d‚Äôun **accompagnement personnalis√©** pour activer et fid√©liser davantage.


###  Recommandations

-  **Consumer** : mettre en place des **offres de fid√©lisation** pour faire √©voluer les Standards vers Fid√®le/VIP.
-  **Corporate** : cibler les **Gros acheteurs** avec des programmes premium ou de remises volume.
-  **Home Office** : relancer les clients inactifs et renforcer la valeur per√ßue pour faire √©merger plus de VIP.

---

## 3. Analyse g√©ographique (localisation des r√©sultats)

Quelles r√©gions/√âtats sont les plus performants ?

R√©gions avec beaucoup de ventes mais peu de profit ?

In [6]:
%%sql
SELECT
         region,
         ROUND(SUM(sales),2) AS total_sales,
         ROUND(SUM(profit),2) AS total_profit,
         SUM(quantity) AS total_quantity,
         COUNT(DISTINCT order_id) AS total_orders
FROM v_superstore_complete
GROUP BY region
ORDER BY total_profit DESC;


 * postgresql://postgres:***@localhost:5432/Superstore
4 rows affected.


region,total_sales,total_profit,total_quantity,total_orders
West,764634.45,98008.22,12272,1594
East,611734.3,94604.31,10515,1392
Central,518800.13,63609.35,8965,1196
South,402031.98,30175.14,6121,827


### Interpr√©tation :

- **R√©gion Ouest (West)** : 
  - G√©n√®re le plus **haut chiffre d'affaires** et **le plus grand profit**.
  - Aussi la **r√©gion avec le plus de commandes** et de produits vendus.
  - Elle constitue la **zone la plus strat√©gique** de l‚Äôentreprise.

- **R√©gion Est (East)** :
  - Tr√®s proche de l‚ÄôOuest en termes de **profitabilit√©**, bien que l√©g√®rement moins en volume.
  - Elle pr√©sente un **potentiel de croissance** similaire √† l‚ÄôOuest.

- **R√©gion Centre (Central)** :
  - Performances **interm√©diaires**, aussi bien en ventes qu‚Äôen commandes.
  - Peut √™tre optimis√©e par des actions cibl√©es.

- **R√©gion Sud (South)** :
  - Derni√®re sur tous les indicateurs.
  - Cette r√©gion n√©cessite une **analyse plus approfondie** : probl√®mes de prix, de logistique ou de demande ?

### Recommandations :

- **Renforcer les investissements marketing et logistiques dans l‚ÄôOuest** pour soutenir sa croissance.
- **Analyser les leviers de performance de l‚ÄôEst** pour r√©pliquer le succ√®s ailleurs.
- **Auditer la r√©gion Sud** pour identifier les freins commerciaux : faible couverture, mauvaise rentabilit√©, ou besoins sp√©cifiques ?

Cette analyse r√©gionale permet de **prioriser les efforts commerciaux** en fonction de la rentabilit√© et du potentiel g√©ographique.

In [61]:
%%sql
-- Top 5 des √©tats avec le profit le plus √©lev√©
(   SELECT
        state,
        region,
        ROUND(SUM(sales),0) AS total_sales,
        ROUND(SUM(profit),0) AS total_profit,
        SUM(quantity) AS total_quantity,
        COUNT(DISTINCT order_id) AS total_orders,
        ROUND(SUM(profit)/SUM(sales)*100,2) AS profit_margin

    FROM v_superstore_complete
    GROUP BY state, region
    ORDER BY total_profit DESC
    LIMIT 5
)
UNION ALL
-- Top 5 des √©tats avec le profit le plus bas
(
    SELECT
        state,
        region,
        ROUND(SUM(sales),0) AS total_sales,
        ROUND(SUM(profit),0) AS total_profit,
        SUM(quantity) AS total_quantity,
        COUNT(DISTINCT order_id) AS total_orders,
        ROUND(SUM(profit)/SUM(sales)*100,2) AS profit_margin
    FROM v_superstore_complete
    GROUP BY state, region
    ORDER BY total_profit ASC
    LIMIT 5
)
ORDER BY total_profit DESC;


 * postgresql://postgres:***@localhost:5432/Superstore
10 rows affected.


state,region,total_sales,total_profit,total_quantity,total_orders,profit_margin
California,West,451037,59398,7624,1006,13.17
New York,East,279550,58178,4178,554,20.81
Washington,West,133177,24406,1673,227,18.33
Texas,Central,192758,20529,3450,463,10.65
Pennsylvania,East,142839,13605,2505,308,9.52
Nevada,West,1215,278,47,8,22.89
Oregon,West,17327,234,205,24,1.35
Kansas,Central,1728,139,40,6,8.06
Arkansas,South,4583,-63,87,11,-1.37
North Carolina,South,116635,-4237,1338,180,-3.63


### Interpr√©tation


- **California** et **New York** sont de loin les √âtats les plus rentables.
- **New York** affiche une marge de profit particuli√®rement √©lev√©e (> 20 %), ce qui refl√®te une tr√®s bonne rentabilit√© relative.
- Ces √âtats concentrent aussi un volume important de commandes et de ventes.
- **Arkansas** et **North Carolina** sont les **seuls √âtats avec un profit n√©gatif**, et ils sont tous deux situ√©s dans la **r√©gion Sud**.
- Certains √âtats comme **Nevada** ont une marge tr√®s √©lev√©e mais sur un tr√®s faible volume (peu de commandes).
- Les marges varient fortement d‚Äôun √âtat √† l‚Äôautre, ce qui pourrait √™tre d√ª √† :
  - des diff√©rences de mix produits (cat√©gories √† marge basse ou forte),
  - des co√ªts logistiques r√©gionaux,
  - ou des strat√©gies commerciales sp√©cifiques (remises, ciblage).

### Conclusion

- Les performances √©conomiques sont tr√®s **g√©olocalis√©es**.
- La r√©gion Sud montre des **signes de fragilit√©**, avec plusieurs √âtats peu ou pas rentables.
- Il serait judicieux de :
  - **analyser les produits vendus** dans les √âtats √† faible rentabilit√©,
  - **√©valuer les co√ªts de livraison** par r√©gion,
  - **revoir les remises ou strat√©gies de vente** appliqu√©es dans le Sud.

Cela permettra d‚Äôidentifier **des leviers d‚Äôam√©lioration de la rentabilit√© g√©ographique**.

---

## 4. Logistique & livraison (impact op√©rationnel)

Quel est l‚Äôimpact du mode de livraison sur le profit ?

Lien entre d√©lai de livraison et rentabilit√© ?

In [62]:
%%sql
-- D√©lai moyen de livraison(en jours),panier moyen et nombre total de commande par mode de livraison
SELECT 
    ship_mode,
    ROUND(AVG(ship_date - order_date), 2) AS time_delivery,
    ROUND(AVG(sales), 2) AS avg_sales,
    ROUND(AVG(quantity), 2) AS avg_quantity,
    ROUND(AVG(profit),2) AS avg_profit,
    ROUND(SUM(discount * Sales) / NULLIF(SUM(Sales), 0) * 100, 2) AS average_discount,
    COUNT(DISTINCT order_id) AS commandes
FROM v_superstore_complete
GROUP BY ship_mode

 * postgresql://postgres:***@localhost:5432/Superstore
4 rows affected.


ship_mode,time_delivery,avg_sales,avg_quantity,avg_profit,average_discount,commandes
First Class,2.18,228.65,3.7,31.86,14.74,787
Same Day,0.04,236.4,3.61,29.27,15.66,264
Second Class,3.24,236.45,3.82,29.58,12.16,964
Standard Class,5.01,227.74,3.82,27.51,14.35,2994


### Interpr√©tation

- **Standard Class** est **le mode le plus utilis√©** (pr√®s de 3‚ÄØ000 commandes), mais aussi **le plus lent** (5 jours en moyenne). Il semble √™tre le choix par d√©faut, probablement pour des raisons de co√ªt.
- **Same Day** est **extr√™mement rapide** (livraison quasi imm√©diate), avec un panier moyen √©lev√©, mais reste **tr√®s peu utilis√©** : peut-√™tre r√©serv√© √† des zones sp√©cifiques ou √† un co√ªt plus √©lev√© pour le client.
- **Second Class** offre un **bon compromis** entre rapidit√© (3,2 jours) et performance commerciale (panier et profit moyens √©lev√©s).
- **First Class** est plus rapide que Standard mais moins populaire. Toutefois, c‚Äôest le mode avec le **profit moyen par commande le plus √©lev√©**.

### Recommandations

- **Analyser pourquoi Standard est autant utilis√©** malgr√© sa lenteur : est-ce le mode par d√©faut ? le moins cher ?
- **Promouvoir Second Class** comme option interm√©diaire efficace, surtout si la logistique permet d‚Äôen √©largir l‚Äôusage.
- **Explorer le potentiel de Same Day** : si rentable, pourrait √™tre davantage propos√© dans certaines zones.
- **√âvaluer la rentabilit√© r√©elle de chaque mode**, en tenant compte des co√ªts logistiques (non pr√©sents ici).

Cette analyse montre comment le choix du mode de livraison peut influencer directement la rentabilit√© et la qualit√© de service.

In [9]:
%%sql
SELECT
    segment,
    ship_mode,
    COUNT(DISTINCT order_id) AS total_orders
FROM v_superstore_complete
GROUP BY segment, ship_mode
ORDER BY segment, total_orders DESC;


 * postgresql://postgres:***@localhost:5432/Superstore
12 rows affected.


segment,ship_mode,total_orders
Consumer,Standard Class,1535
Consumer,Second Class,498
Consumer,First Class,396
Consumer,Same Day,157
Corporate,Standard Class,905
Corporate,Second Class,301
Corporate,First Class,250
Corporate,Same Day,58
Home Office,Standard Class,554
Home Office,Second Class,165


### Interpr√©tation :

- Le mode **Standard Class** est de loin **le plus utilis√©** par tous les segments, repr√©sentant **environ 60 % √† 65 % des commandes**.
- **Les Consumers** sont les plus nombreux et utilisent **tous les modes**, avec une adoption l√©g√®rement plus √©lev√©e du **Same Day**.
- **Les Corporate** utilisent surtout **Standard** et **First Class**, mais sont **plus conservateurs sur le Same Day** (seulement 58 commandes).
- **Les Home Office** privil√©gient aussi **Standard**, mais utilisent relativement plus **First Class** que Same Day.

### Conclusion :

- Il n'y a pas pas de corr√©lation significative entre segment client et choix du mode de livraison
- L‚Äôanalyse montre que les trois segments (`Consumer`, `Corporate`, `Home Office`) utilisent les modes de livraison dans des proportions tr√®s similaires.



In [None]:
%%sql
-- D√©lai de livraison trier par jours
SELECT
    CASE
        WHEN ship_date - order_date <= 1 THEN 'Livraison < 1j'
        WHEN ship_date - order_date <= 2 THEN '1-2 jours'
        WHEN ship_date - order_date <= 4 THEN '3-4 jours'
        ELSE '5+ jours'
    END AS delivery_speed,
    COUNT(DISTINCT order_id) AS total_orders,
    ROUND(AVG(profit), 2) AS avg_profit,
    ROUND(AVG(sales), 2) AS avg_sales,
    ROUND(SUM(profit)/SUM(sales)*100, 2) AS profit_margin
FROM v_superstore_complete
GROUP BY delivery_speed
ORDER BY delivery_speed;


 * postgresql://postgres:***@localhost:5432/Superstore
4 rows affected.


delivery_speed,total_orders,avg_profit,avg_sales,profit_margin
1-2 jours,675,39.88,276.63,14.42
3-4 jours,1912,25.97,221.65,11.72
5+ jours,1988,28.14,225.29,12.49
Livraison < 1j,434,25.82,217.21,11.89


### Interpr√©tation :

- **Les livraisons en 1-2 jours** sont les plus rentables, avec une **marge de profit de 14,42 %** et le **panier moyen le plus √©lev√©** (276 ‚Ç¨).
- Les **livraisons ultra-rapides (< 1 jour)** ne sont **pas les plus rentables**, avec une marge l√©g√®rement inf√©rieure √† celle des d√©lais classiques (11,89 %).
- Les livraisons longues (5+ jours) ne p√©nalisent pas fortement la rentabilit√©, mais restent inf√©rieures aux livraisons en 1-2 jours.
- Les d√©lais de 3 √† 4 jours ont la **marge de profit la plus faible** de toutes les cat√©gories.

### Conclusion & recommandations :

- Il semble qu‚Äôun **d√©lai raisonnable (1-2 jours)** offre **le meilleur compromis entre rapidit√© et rentabilit√©**.
- Les livraisons **trop rapides (< 1 jour)** n‚Äôam√©liorent pas la marge et sont donc √† r√©server √† des cas sp√©cifiques (produits urgents, clients VIP).
- Les livraisons **interm√©diaires (3-4 jours)** m√©riteraient une optimisation : baisse de co√ªt, meilleure gestion logistique ou ciblage marketing adapt√©.

## Conclusion g√©n√©rale

Ce projet a permis d‚Äôanalyser en profondeur les performances commerciales, les comportements client et les dynamiques logistiques √† partir des donn√©es Superstore. Voici les principaux enseignements :

---

### Analyse commerciale

- Les ventes et les profits ont connu une croissance r√©guli√®re entre 2015 et 2017, port√©e par l‚Äôaugmentation des quantit√©s vendues.
- En 2015, l'entreprise a am√©lior√© sa rentabilit√© malgr√© une baisse du chiffre d'affaires, gr√¢ce √† une meilleure marge.
- La cat√©gorie **Technology** est la plus rentable, tandis que **Furniture** est faiblement marg√©e, voire d√©ficitaire.
- Certaines sous-cat√©gories comme **Copiers**, **Phones**, ou **Chairs** g√©n√®rent une part importante du profit global.

---

### Analyse client & RFM

- Le segment **Consumer** repr√©sente plus de la moiti√© de la base client.
- La segmentation RFM a permis d‚Äôidentifier des profils cl√©s comme les **VIP**, **Gros acheteurs**, et les **clients √† relancer**.
- Tous les segments (Consumer, Corporate, Home Office) utilisent majoritairement le m√™me mode de livraison, ce qui indique une absence de corr√©lation forte entre **profil client** et **choix logistique**.

---

### Logistique & livraison

- Le mode **Standard Class** est le plus utilis√© mais aussi le plus lent (5 jours).
- Les commandes livr√©es en **1 √† 2 jours** sont les plus rentables (marge moyenne de 14,4‚ÄØ%).
- Les livraisons < 1 jour ne sont pas forc√©ment plus rentables.
- Revoir l‚Äô√©quilibre entre rapidit√© et rentabilit√© semble essentiel.

---

## Recommandations

- **R√©√©quilibrer les remises** sur les sous-cat√©gories √† faible marge (ex. Furniture).
- **Mieux cibler les clients RFM ‚ÄúVIP‚Äù ou ‚ÄúFid√®les‚Äù** avec des offres personnalis√©es.
- **Optimiser la logistique** : encourager la livraison 1-2 jours, r√©duire les co√ªts des livraisons <1j.
- **Surveiller les performances par r√©gion et √©tat**, notamment dans le Sud, o√π certaines zones sont d√©ficitaires.

---

## Limites et pistes futures

- Analyse limit√©e √† la **dimension transactionnelle** (pas de donn√©es marketing ou produit).
- Pas de mod√©lisation pr√©dictive int√©gr√©e dans ce notebook (√† faire dans Python ou Power BI).
- Possibilit√© d‚Äôapprofondir par une **analyse de saisonnalit√©**, un clustering de clients, ou une pr√©vision de ventes.