# KPI Analysis — Olist

Ce notebook présente quelques indicateurs clés calculés à partir
de la base SQLite issue du pipeline ETL (schéma étoile).

Les requêtes SQL complètes sont stockées dans le dossier `sql/kpi/`.

Les KPI sont calculés en SQL dans des scripts dédiés.
Le notebook se limite à l’exécution et à la visualisation de quelques indicateurs représentatifs.

In [7]:
# --- Connexion à la base SQLite (Python) ---

import sqlite3
import pandas as pd

DB_PATH = "../db/olist_final.sqlite"
conn = sqlite3.connect(DB_PATH)

In [36]:
# KPI-04 : Top catégories : Classement du top des catégories de produits par chiffre d’affaires (CA)

def read_sql(path):
    with open(path, "r", encoding="utf-8-sig") as f:
        return f.read()

query = read_sql("../sql/kpi_business_ventes_logistiques/04_top_categories.sql")
df = pd.read_sql_query(query, conn)
df.head(10)

Unnamed: 0,categorie,nb_articles_vendus,commandes,CA
0,beleza_saude,9670,8836,1441248.07
1,relogios_presentes,5991,5624,1305541.61
2,cama_mesa_banho,11115,9417,1241681.72
3,esporte_lazer,8641,7720,1156656.48
4,informatica_acessorios,7827,6689,1059272.4
5,moveis_decoracao,8334,6449,902511.79
6,utilidades_domesticas,6964,5884,778397.77
7,cool_stuff,3796,3632,719329.95
8,automotivo,4235,3897,685384.32
9,ferramentas_jardim,4347,3518,584219.21


Analyse du classement des catégories de produits par chiffre d’affaires (CA)

beleza_saude       : 1.44M
relogios_presentes : 1.30M
cama_mesa_banho    : 1.24M

Ces 3 catégories concentrent une grosse part du chiffre d'affaires et constituent les piliers du e-commerce.

| catégorie          | items vendus | CA        | lecture                   |
| ------------------ | ------------ | --------- | ------------------------- |
| cama_mesa_banho    | 11115        | 1.24M     | gros volume               |
| beleza_saude       | 9670         | 1.44M     | meilleure valeur unitaire |
| relogios_presentes | 5991         | 1.30M     | panier élevé              |

relogios_presentes vend moins de volume mais rapporte presque autant (produits premium).

In [41]:
# KPI-08 : Taux de commandes livrées en retard

def read_sql(path):
    with open(path, "r", encoding="utf-8-sig") as f:
        return f.read()

query = read_sql("../sql/kpi_business_ventes_logistiques/08_taux_de_livraisons_en_retard.sql")
df = pd.read_sql_query(query, conn)
df.head(10)

Unnamed: 0,commandes_livrées,commandes_en_retard,taux_de_commandes_en_retard
0,96476,6535,6.77


In [21]:
# KPI-03 : Calcul du panier moyen par commande

def read_sql(path):
    with open(path, "r", encoding="utf-8-sig") as f:
        return f.read()

query = read_sql("../sql/kpi_business_ventes_logistiques/03_panier_moyen.sql")
df = pd.read_sql_query(query, conn)
df.head(10)

Unnamed: 0,panier_moyen,panier_min,panier_max
0,160.58,9.59,13664.08


Analyse du panier moyen par commande

Panier moyen   : 160.58
Panier minimum : 9.59
Panier maximum : 13 664.08

On observe un écart énorme entre le panier min et le panier max.
Il en découle un panier moyen élevé qui semble malgré tout être tiré vers le haut par des commandes exceptionnelles.
Cette tendance influence la performance globale et mériterait une analyse plus fine basée sur d'autres KPIs.

In [34]:
# Répartition du CA par État (clients)

def read_sql(path):
    with open(path, "r", encoding="utf-8-sig") as f:
        return f.read()

query = read_sql("../sql/kpi_business_ventes_logistiques/06_repartition_geographique_clients.sql")
df = pd.read_sql_query(query, conn)
df.head(10)

Unnamed: 0,customer_state,clients,commandes,CA
0,SP,41375,41375,5921678.12
1,RJ,12762,12762,2129681.98
2,MG,11544,11544,1856161.49
3,RS,5432,5432,885826.76
4,PR,4998,4998,800935.44
5,BA,3358,3358,611506.67
6,SC,3612,3612,610213.6
7,DF,2125,2125,353229.44
8,GO,2007,2007,347706.93
9,ES,2025,2025,324801.91


Le chiffre d’affaires est très fortement concentré dans l’État de Sao Paulo, qui domine largement en volume de clients et niveau de CA.