## Processing ETL des sets de donn√©es Olist

#### 1. Nettoyage: Op√©rations globales √† tous les fichiers source

Dans cette partie je g√®re les nettoyages qui peuvent potentiellement s'appliquer √† toutes les tables, sans faire de traitement sp√©cifique pour telle ou telle table

In [22]:
# Import de d√©pendances et chargement des datasets en m√©moire vive

import os
from pathlib import Path
import pandas as pd
from scripts.utils import clean_data

data = {}

rt = Path('./data')
file_paths = os.listdir(rt)
csv_file_paths = [f for f in file_paths if f.endswith('.csv')]
for csv_path in csv_file_paths:
    print(f'Loading {csv_path}...')
    df = pd.read_csv(rt.joinpath(csv_path))
    df = clean_data(df) # Utilisation d'un heler g√©n√©rique de nettoyage
    source = csv_path.replace('olist_', '').replace('.csv', '').replace('_dataset', '')
    data[source] = df

Loading olist_orders_dataset.csv...


  df[col] = pd.to_datetime(df[col],
  df[col] = pd.to_datetime(df[col],
  df[col] = pd.to_datetime(df[col],
  df[col] = pd.to_datetime(df[col],
  df[col] = pd.to_datetime(df[col],


Loading olist_products_dataset.csv...
Loading olist_order_items_dataset.csv...
Loading product_category_name_translation.csv...
Loading olist_sellers_dataset.csv...
Loading olist_geolocation_dataset.csv...
Loading olist_order_reviews_dataset.csv...
Loading olist_order_payments_dataset.csv...
Loading olist_customers_dataset.csv...


  df[col] = pd.to_datetime(df[col],
  df[col] = pd.to_datetime(df[col],


#### 2. Nettoyage: Cas sp√©cifiques

Dans cette partie du notebook j'applique des netoyages plus sp√©cifiques, sur des tables en particulier:
- customers: suppression de doublons et d"une colonne non utilis√©e => EDIT: Pas une bonne id√©e, je commente
- geolocation et customers: normalisation des noms de ville pour coh√©rence des √©ventuels PKI qui utiliseraient les noms de ville

In [None]:
# Nettoyage des doublons de donn√©es table customers
# data['customers'].drop_duplicates(subset=['customer_unique_id'], keep='first')
# data['customers'] = data['customers'].drop(columns=['customer_unique_id'])

In [23]:
from scripts.utils import norm

# Normalise les noms de villes
data['geolocation']['geolocation_city'] = data['geolocation']['geolocation_city'].apply(norm)
data['customers']['customer_city'] = data['customers']['customer_city'].apply(norm)

#### 3. Transformations

La transformation principale que j'ai imagin√©e sur ce cas d'√©cole a √©t√© d'ajouter les traductions de noms de cat√©gories directement dans la table produits.

Le but √©tant de simplifier les requ√™tes devant filtrer ou grouper par cat√©gorie, cela √©vite d'avoir √† faire des jointures ult√©rieures pour r√©cup√©rer les traductions.

Au d√©part j'ai m√™me consid√©r√© faire cela pour cmpl√®tement supprimer la table de traductions, mais j'ai d√©cid√© de la garder, dans le sc√©nario o√π un utilisateur br√©silien aurait besoin de faire des requ√™tes sur la base de donn√©es: dans ce cas les jointures resteront faisables.

In [24]:
# Transformation de la table des produits

# Merge des dataframes pour ajouter la traduction anglaise et √©viter les jointures
data['products'] = data['products'].merge(
    data['product_category_name_translation'],
    how='left', # Type de jointure : left pour conserver tous les produits m√™me sans traduction
    left_on='product_category_name', # Cl√© de jointure dans la table des produits
    right_on='product_category_name' # Cl√© de jointure dans la table de traduction
)

# Renommer la nouvelle colonne pour √©viter les conflits
data['products'].rename(columns={'product_category_name_english': 'product_category_name_en'},
                inplace=True)

# R√©sultat final
print(data['products'][['product_category_name', 'product_category_name_en']].head())

   product_category_name product_category_name_en
0             perfumaria                perfumery
1                  artes                      art
2          esporte_lazer           sports_leisure
3                  bebes                     baby
4  utilidades_domesticas               housewares


#### 4. Chargement en base de donn√©es


Pour le chargement j'ai choisi d'utiliser sqlite3 pour g√©rer la partie cr√©ation de tables en manuel avec des scripts SQL; √ßa permet d'avoir une cr√©ation de tables qui inclue directement toutes les contraintes n√©cessaires, et c'est plus simple que d'utiliser la syntaxe de sqlalchemy, qui ajoute une couche d'abstraction suppl√©mentaire √† SQL.

In [25]:
import sqlite3

DB_PATH = "./olist.db"
with sqlite3.connect(DB_PATH) as conn:
    cur = conn.cursor()

    # Ouverture et ex√©cution du script SQL de cr√©ation de sch√©ma de base de donn√©es
    with open('./scripts/schema.sql', 'r') as f:
        schema_sql = f.read()
        cur.executescript(schema_sql)

In [26]:
# Chargement des donn√©es nettoy√©es/transform√©es dans la base de donn√©es SQLite
for table_name, df in data.items():
    df.to_sql(table_name, con=conn, if_exists='replace', index=False)

### 5. D√©veloppement d'indicateurs de perfomances

In [27]:
# Setup du syst√®me de benchmark
%load_ext autoreload
%autoreload 2

from scripts.utils import QueryBenchmark
import importlib
import scripts
importlib.reload(scripts.utils) # Recharger le module pour prendre en compte les modifications r√©centes
benchmark = QueryBenchmark()
format_stats = lambda rows, elapsed: f"Fetched {rows} rows in {elapsed:.3f}s"

from scripts.utils import get_perf_stats

# D√©finition d'une fonction d'ex√©cution de requ√™tes SQL avec mesure de performance
def execute(fld, category, query, optimized=False, preview=False):
    query_type = "optimized" if optimized else "raw"
    with open(f'./scripts/{fld}/{category}/{query}.sql', 'r') as f:
        sql_script = f.read()
        result, rows_processed, execution_time = get_perf_stats(sql_script)
        benchmark.set_stats(category, query, query_type, rows_processed, execution_time)
        
        print(format_stats(rows_processed, execution_time))
        if preview:
            print('R√©sultat (max. 12):')
            for row in result:
                print(dict(row))

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


#### üí∞ Ventes

In [28]:
execute('pki', 'sales', 'daily', preview=True)

Fetched 633 rows in 0.420s
R√©sultat (max. 12):
{'jour': '2016-09-04', 'ca_jour': 136.23}
{'jour': '2016-09-05', 'ca_jour': 75.06}
{'jour': '2016-09-13', 'ca_jour': 40.95}
{'jour': '2016-10-02', 'ca_jour': 109.34}
{'jour': '2016-10-03', 'ca_jour': 595.14}
{'jour': '2016-10-04', 'ca_jour': 11914.65}
{'jour': '2016-10-05', 'ca_jour': 10212.22}
{'jour': '2016-10-06', 'ca_jour': 9398.61}
{'jour': '2016-10-07', 'ca_jour': 8255.19}
{'jour': '2016-10-08', 'ca_jour': 9716.13}
{'jour': '2016-10-09', 'ca_jour': 4152.11}
{'jour': '2016-10-10', 'ca_jour': 4675.1}


In [29]:

execute('pki', 'sales', 'monthly', preview=True)

Fetched 25 rows in 0.436s
R√©sultat (max. 12):
{'mois': '2016-09', 'ca_mois': 252.24}
{'mois': '2016-10', 'ca_mois': 59090.48}
{'mois': '2016-12', 'ca_mois': 19.62}
{'mois': '2017-01', 'ca_mois': 138488.04}
{'mois': '2017-02', 'ca_mois': 291908.01}
{'mois': '2017-03', 'ca_mois': 449863.6}
{'mois': '2017-04', 'ca_mois': 417788.03}
{'mois': '2017-05', 'ca_mois': 592918.82}
{'mois': '2017-06', 'ca_mois': 511276.38}
{'mois': '2017-07', 'ca_mois': 592382.92}
{'mois': '2017-08', 'ca_mois': 674396.32}
{'mois': '2017-09', 'ca_mois': 727762.45}


In [30]:
execute('pki', 'sales', 'yearly', preview=True)

Fetched 3 rows in 0.400s
R√©sultat (max. 12):
{'annee': '2016', 'ca_annee': 59362.34}
{'annee': '2017', 'ca_annee': 7249746.73}
{'annee': '2018', 'ca_annee': 8699763.05}


In [31]:
execute('pki', 'sales', 'previous_year_comparison', preview=True)

Fetched 633 rows in 0.811s
R√©sultat (max. 12):
{'jour': '2016-09-04', 'ca_courant': 136.23, 'ca_n_1': 28719.24, 'variation_abs': -28583.010000000002, 'variation_pct': -99.53}
{'jour': '2016-09-05', 'ca_courant': 75.06, 'ca_n_1': 24954.68, 'variation_abs': -24879.62, 'variation_pct': -99.7}
{'jour': '2016-09-13', 'ca_courant': 40.95, 'ca_n_1': 32054.37, 'variation_abs': -32013.42, 'variation_pct': -99.87}
{'jour': '2016-10-02', 'ca_courant': 109.34, 'ca_n_1': 25565.11, 'variation_abs': -25455.77, 'variation_pct': -99.57}
{'jour': '2016-10-03', 'ca_courant': 595.14, 'ca_n_1': 30389.12, 'variation_abs': -29793.98, 'variation_pct': -98.04}
{'jour': '2016-10-04', 'ca_courant': 11914.65, 'ca_n_1': 24787.58, 'variation_abs': -12872.930000000002, 'variation_pct': -51.93}
{'jour': '2016-10-05', 'ca_courant': 10212.22, 'ca_n_1': 29129.83, 'variation_abs': -18917.61, 'variation_pct': -64.94}
{'jour': '2016-10-06', 'ca_courant': 9398.61, 'ca_n_1': 21890.58, 'variation_abs': -12491.970000000001, '

In [32]:
execute('pki', 'sales', 'top10', preview=True)

Fetched 10 rows in 0.671s
R√©sultat (max. 12):
{'product_id': '5769ef0a239114ac3a854af00df129e4', 'product_category_name_en': 'fixed_telephony', 'product_name_length': 39.0, 'ca_produit': 109312.64, 'rang': 1}
{'product_id': 'bb50f2e236e5eea0100680137654686c', 'product_category_name_en': 'health_beauty', 'product_name_length': 60.0, 'ca_produit': 81887.42, 'rang': 2}
{'product_id': '422879e10f46682990de24d770e7f83d', 'product_category_name_en': 'garden_tools', 'product_name_length': 56.0, 'ca_produit': 79512.22, 'rang': 3}
{'product_id': 'd1c427060a0f73f6b889a5c7c61f2ac4', 'product_category_name_en': 'computers_accessories', 'product_name_length': 59.0, 'ca_produit': 70557.9, 'rang': 4}
{'product_id': '6cdd53843498f92890544667809f1595', 'product_category_name_en': 'health_beauty', 'product_name_length': 51.0, 'ca_produit': 64825.67, 'rang': 5}
{'product_id': 'd5991653e037ccb7af6ed7d94246b249', 'product_category_name_en': 'computers_accessories', 'product_name_length': 42.0, 'ca_produit

#### üë• Clients

In [33]:
execute('pki', 'customers', 'new_vs_recurring_customers', preview=True)

Fetched 1 rows in 0.062s
R√©sultat (max. 12):
{'new_customers': 99441, 'returning_customers': 0}


In [34]:
execute('pki', 'customers', 'average_cart', preview=True)

Fetched 1 rows in 0.053s
R√©sultat (max. 12):
{'avg_basket_value': 160.57763809214927}


In [35]:
execute('pki', 'customers', 'conversion_rate', preview=True)

Fetched 1 rows in 0.013s
R√©sultat (max. 12):
{'conversion_rate': 0.9702034372140264}


In [36]:
execute('pki', 'customers', 'rfmbbq_analysis', preview=True)

Fetched 98666 rows in 0.517s
R√©sultat (max. 12):
{'customer_id': '1617b1357756262bfa56ab541c47bc16', 'recency_days': 3059, 'frequency': 1, 'monetary': 13664.08}
{'customer_id': 'ec5b2ba62e574342386871631fafd3fc', 'recency_days': 2770, 'frequency': 1, 'monetary': 7274.88}
{'customer_id': 'c6e2731c5b391845f6800c97401a43a9', 'recency_days': 3288, 'frequency': 1, 'monetary': 6929.31}
{'customer_id': 'f48d464a0baaea338cb25f816991ab1f', 'recency_days': 2760, 'frequency': 1, 'monetary': 6922.21}
{'customer_id': '3fd6777bbce08a352fddd04e4a7cc8f6', 'recency_days': 3187, 'frequency': 1, 'monetary': 6726.66}
{'customer_id': '05455dfa7cd02f13d132aa7a6a9729c6', 'recency_days': 3003, 'frequency': 1, 'monetary': 6081.54}
{'customer_id': 'df55c14d1476a9a3467f131269c2477f', 'recency_days': 3240, 'frequency': 1, 'monetary': 4950.34}
{'customer_id': 'e0a2412720e9ea4f26c1ac985f6a7358', 'recency_days': 2773, 'frequency': 1, 'monetary': 4809.44}
{'customer_id': '24bbf5fd2f2e1b359ee7de94defc4a15', 'recency_

### üìä Cohortes

In [37]:
execute('pki', 'cohorts', 'first_month_retention', preview=True)

Fetched 634 rows in 0.422s
R√©sultat (max. 12):
{'cohort_date': '2016-09-04', 'cohort_month': 0, 'active_customers': 1}
{'cohort_date': '2016-09-05', 'cohort_month': 0, 'active_customers': 1}
{'cohort_date': '2016-09-13', 'cohort_month': 0, 'active_customers': 1}
{'cohort_date': '2016-09-15', 'cohort_month': 0, 'active_customers': 1}
{'cohort_date': '2016-10-02', 'cohort_month': 0, 'active_customers': 1}
{'cohort_date': '2016-10-03', 'cohort_month': 0, 'active_customers': 8}
{'cohort_date': '2016-10-04', 'cohort_month': 0, 'active_customers': 63}
{'cohort_date': '2016-10-05', 'cohort_month': 0, 'active_customers': 47}
{'cohort_date': '2016-10-06', 'cohort_month': 0, 'active_customers': 51}
{'cohort_date': '2016-10-07', 'cohort_month': 0, 'active_customers': 46}
{'cohort_date': '2016-10-08', 'cohort_month': 0, 'active_customers': 42}
{'cohort_date': '2016-10-09', 'cohort_month': 0, 'active_customers': 26}


In [38]:
execute('pki', 'cohorts', 'lifetime_value_per_cohort', preview=True)

Fetched 616 rows in 0.759s
R√©sultat (max. 12):
{'cohort_date': '2016-09-04', 'customers_in_cohort': 1, 'total_revenue': 136.23, 'ltv_per_customer': 136.23}
{'cohort_date': '2016-09-05', 'customers_in_cohort': 1, 'total_revenue': 75.06, 'ltv_per_customer': 75.06}
{'cohort_date': '2016-09-15', 'customers_in_cohort': 1, 'total_revenue': 143.46, 'ltv_per_customer': 143.46}
{'cohort_date': '2016-10-02', 'customers_in_cohort': 1, 'total_revenue': 109.34, 'ltv_per_customer': 109.34}
{'cohort_date': '2016-10-03', 'customers_in_cohort': 8, 'total_revenue': 595.14, 'ltv_per_customer': 74.3925}
{'cohort_date': '2016-10-04', 'customers_in_cohort': 60, 'total_revenue': 11295.48, 'ltv_per_customer': 188.25799999999998}
{'cohort_date': '2016-10-05', 'customers_in_cohort': 42, 'total_revenue': 9645.94, 'ltv_per_customer': 229.6652380952381}
{'cohort_date': '2016-10-06', 'customers_in_cohort': 49, 'total_revenue': 9131.23, 'ltv_per_customer': 186.35163265306122}
{'cohort_date': '2016-10-07', 'customer

### 6. Optimisation base & requ√™tes

In [39]:
import sqlite3

# Optimisation de la base
# Ajout des indexes pour optimiser les performances des requ√™tes
with open('./scripts/indexes.sql', 'r') as f:
    sql_script = f.read()
    with sqlite3.connect('./olist.db') as conn:
        cur = conn.cursor()
        cur.executescript(sql_script)   

### 7. Requ√™tes optimis√©es üöÄ

#### üöÄ üí∞ Ventes

1 - CA journalier

Probl√®mes potentiels
- DATE() casse l‚Äôusage d‚Äôindex
- Ordre des op√©rations:
    SQLite:
    - Fait le JOIN
    - Calcule DATE()
    - Groupe
    - Trie

Si les tables sont grosses, √ßa devient co√ªteux.

Optimisations:
- √âviter le calcul r√©p√©titif dans GROUP BY

SQLite va recalculer STRFTIME('%Y-%m', o.order_purchase_timestamp) pour chaque ligne du GROUP BY. On peut utiliser une sous-requ√™te ou CTE pour calculer le mois une seule fois.

In [40]:
category = "sales"
query = "daily"

execute('opti_pki', category, query, optimized=True)

comparison = benchmark.compare(category, query)
print(comparison)

Fetched 633 rows in 0.388s
{'rows_difference': 0, 'time_difference': 0.03152861399939866, 'rows_improvement_percent': 0.0, 'time_improvement_percent': 7.5126608194956175}


2 - CA mensuel

Si order_payments a plusieurs paiements par commande, on peut pr√©-agr√©ger les paiements avant le JOIN, ce qui r√©duit le nombre de lignes √† grouper

Avantage: si order_payments a beaucoup de lignes par commande, √ßa r√©duit drastiquement le nombre de lignes manipul√©es par le GROUP BY.

In [41]:
category = "sales"
query = "monthly"

execute('opti_pki', category, query, optimized=True)

comparison = benchmark.compare(category, query)
print(comparison)

Fetched 25 rows in 0.428s
{'rows_difference': 0, 'time_difference': 0.008011595000425586, 'rows_improvement_percent': 0.0, 'time_improvement_percent': 1.838586052097372}


3 - CA annuel

Optimisation n¬∞1 : Pr√©-agr√©ger les paiements
Si une commande peut avoir plusieurs paiements, un JOIN multiplie les lignes avant agr√©gation.

Optimisation n¬∞2 : √âviter DATE() si possible
- Si le timestamp est au format ISO (YYYY-MM-DD HH:MM:SS), on peut faire : SUBSTR(o.order_purchase_timestamp, 1, 10)
- SUBSTR(...,1,4) remplace STRFTIME('%Y', ...) et est plus rapide sur SQLite.
- WITH payments r√©duit le volume interm√©diaire si commandes ont plusieurs paiements.

In [42]:
category = "sales"
query = "yearly"

execute('opti_pki', category, query, optimized=True)

comparison = benchmark.compare(category, query)
print(comparison)

Fetched 3 rows in 0.380s
{'rows_difference': 0, 'time_difference': 0.019855563004966825, 'rows_improvement_percent': 0.0, 'time_improvement_percent': 4.96436489768988}


4 - Chiffre d'affaires annuel compar√© √† n-1

Am√©liorations:
- Pr√©-agr√©gation des paiements par commande et en utilisant SUBSTR pour √©viter DATE().
- Utilisation d'une CTE en lieu et place d'une sous-requ√™te

Avantages:
- Volume interm√©diaire r√©duit ‚Üí on agr√®ge order_payments par order_id avant le JOIN.
- SUBSTR(...,1,10) permet d‚Äôutiliser un index sur la colonne order_purchase_timestamp.
- M√™me logique que ta version originale, mais beaucoup plus performante sur de grandes tables.

In [43]:
category = "sales"
query = "previous_year_comparison"

execute('opti_pki', category, query, optimized=True)

comparison = benchmark.compare(category, query)
print(comparison)

Fetched 633 rows in 0.399s
{'rows_difference': 0, 'time_difference': 0.4110897630052932, 'rows_improvement_percent': 0.0, 'time_improvement_percent': 50.71922728683089}


5 - Top 10 produits par chiffre d‚Äôaffaires

Probl√®mes de la version initiale :
- Jointure multiplicative entre order_items et order_payments ‚Üí explosion du nombre de lignes interm√©diaires (produits √ó paiements).
- Agr√©gation tardive (GROUP BY apr√®s tous les JOIN) ‚Üí gros volume √† trier et regrouper.
- ROW_NUMBER() + ORDER BY ‚Üí double tri co√ªteux.
- Mauvaise scalabilit√© sur gros volumes.

Am√©liorations :
- Pr√©-agr√©gation des paiements par order_id avant les JOIN.
- R√©duction du dataset le plus t√¥t possible (principe de ‚Äúreduce early‚Äù).
- Application des classements et tris sur un dataset d√©j√† agr√©g√©.

Avantages :

- Volume interm√©diaire fortement r√©duit.
- Suppression de l‚Äôeffet multiplicatif paiements √ó produits.
- Moins de tris m√©moire.
- Requ√™te plus stable et scalable sur grandes tables.

In [44]:
category = "sales"
query = "top10"

execute('opti_pki', category, query, optimized=True)

comparison = benchmark.compare(category, query)
print(comparison)

Fetched 633 rows in 0.400s
{'rows_difference': -623, 'time_difference': 0.27159139800278354, 'rows_improvement_percent': -6230.0, 'time_improvement_percent': 40.463049731712644}


#### üöÄ üë• Clients

1 - Comptage de clients nouveaux vs r√©currents

Am√©liorations:
- SUBSTR(...,1,10) remplace date() ‚Üí plus rapide et indexable.
- M√™me logique de groupements, mais simplifi√©e pour √©viter des fonctions SQLite lourdes.
- COUNT(DISTINCT customer_id) pour √©viter double comptage si un client a plusieurs commandes dans la cohorte.

In [45]:
category = "customers"
query = "new_vs_recurring_customers"

execute('opti_pki', category, query, optimized=True)

comparison = benchmark.compare(category, query)
print(comparison)

Fetched 1 rows in 0.020s
{'rows_difference': 0, 'time_difference': 0.04239232899635681, 'rows_improvement_percent': 0.0, 'time_improvement_percent': 67.89987517320534}


2 - Montant de panier moyen

Point √† optimiser:
En faisant un CTE (WITH) mais pour une seule utilisation, SQLite le traite parfois comme une sous-requ√™te mat√©rialis√©e, donc sur tr√®s gros volumes √ßa peut √™tre lent.
Utiliser COUNT(CASE...) en lieu et place de SUM(CASE...)

Pourquoi c‚Äôest plus rapide:
- Pas de CTE, donc SQLite peut optimiser la sous-requ√™te directement.
- GROUP BY order_id est indexable.

In [46]:
category = "customers"
query = "average_cart"

execute('opti_pki', category, query, optimized=True)

comparison = benchmark.compare(category, query)
print(comparison)

Fetched 1 rows in 0.054s
{'rows_difference': 0, 'time_difference': -0.001058970003214199, 'rows_improvement_percent': 0.0, 'time_improvement_percent': -1.9983827232773854}


3 - Taux de conversion

- COUNT(CASE WHEN ... THEN 1 END) compte uniquement les commandes livr√©es.
- * 1.0 force le calcul en float pour ne pas avoir un r√©sultat entier (important en SQLite).
- ROUND(...,4) permet de limiter le nombre de d√©cimales √† 4 (optionnel mais pratique pour affichage).

In [47]:
category = "customers"
query = "conversion_rate"

execute('opti_pki', category, query, optimized=True)

comparison = benchmark.compare(category, query)
print(comparison)

Fetched 1 rows in 0.007s
{'rows_difference': 0, 'time_difference': 0.005832580998685444, 'rows_improvement_percent': 0.0, 'time_improvement_percent': 45.98975678094913}


4 - Calcul RFM (Recency, Frequency, Monetary) pour chaque client

Points √† optimiser:
- date(o.order_purchase_timestamp) emp√™che l‚Äôutilisation directe d‚Äôun index sur order_purchase_timestamp.
- Le CTE order_totals peut √™tre remplac√© par une sous-requ√™te pour √©viter que SQLite mat√©rialise le CTE (utile sur de gros volumes).

Am√©liorations:
- SUBSTR(...,1,10) au lieu de date() ‚Üí plus rapide et indexable.
- Suppression de CTE : SQLite optimisera mieux la sous-requ√™te.
- COUNT(DISTINCT o.order_id) ‚Üí s√©curit√© si une commande a plusieurs lignes dans order_items.

In [48]:
category = "customers"
query = "rfmbbq_analysis"

execute('opti_pki', category, query, optimized=True)

comparison = benchmark.compare(category, query)
print(comparison)

Fetched 98666 rows in 0.619s
{'rows_difference': 0, 'time_difference': -0.10129961900383933, 'rows_improvement_percent': 0.0, 'time_improvement_percent': -19.578309459954703}


### üöÄ üìä Cohortes

1 - Analyse de cohortes pour suivre la r√©tention client mois apr√®s mois

Points √† optimiser:
- date(o.order_purchase_timestamp) et strftime(...) emp√™chent l‚Äôutilisation d‚Äôindex.
- CTE multiples ‚Üí SQLite va souvent mat√©rialiser chaque CTE, ce qui peut co√ªter cher.
- Les calculs de cohort_month peuvent √™tre simplifi√©s en pr√©-calculant le nombre de mois.

Changements cl√©s:
- SUBSTR(...,1,10) remplace date() ‚Üí plus rapide, indexable si tu ajoutes un index sur order_purchase_timestamp.
- CAST(SUBSTR(...)) remplace strftime() pour calculer les mois ‚Üí moins co√ªteux pour SQLite.
- M√™me logique de cohort_month, mais plus efficace pour gros volumes.

In [49]:
category = "cohorts"
query = "first_month_retention"

execute('opti_pki', category, query, optimized=True)

comparison = benchmark.compare(category, query)
print(comparison)

Fetched 634 rows in 0.129s
{'rows_difference': 0, 'time_difference': 0.2931561489967862, 'rows_improvement_percent': 0.0, 'time_improvement_percent': 69.4361015756003}


2 - LTV (Lifetime Value) par cohorte

A am√©liorer:
- Il y a plusieurs JOIN et date() sur chaque ligne.
- On groupe par o.order_id, o.customer_id, cohort_date ‚Üí beaucoup de lignes interm√©diaires.
- Les fonctions date() emp√™chent l‚Äôusage d‚Äôindex.

Am√©liorations:
- SUBSTR(...,1,10) remplace date() ‚Üí plus rapide et indexable.
- M√™me logique de groupements, mais simplifi√©e pour √©viter des fonctions SQLite lourdes.
- COUNT(DISTINCT customer_id) pour √©viter double comptage si un client a plusieurs commandes dans la cohorte.

In [50]:
category = "cohorts"
query = "lifetime_value_per_cohort"

execute('opti_pki', category, query, optimized=True)

comparison = benchmark.compare(category, query)
print(comparison)



Fetched 616 rows in 0.572s
{'rows_difference': 0, 'time_difference': 0.18657415999769, 'rows_improvement_percent': 0.0, 'time_improvement_percent': 24.595460461799828}
