## Processing ETL des sets de donn√©es Olist

#### 1. Nettoyage: Op√©rations globales √† tous les fichiers source

Dans cette partie je g√®re les nettoyages qui peuvent potentiellement s'appliquer √† toutes les tables, sans faire de traitement sp√©cifique pour telle ou telle table

In [2]:
# Import de d√©pendances et chargement des datasets en m√©moire vive

import os
from pathlib import Path
import pandas as pd
from scripts.utils import clean_data

data = {}

rt = Path('./data')
file_paths = os.listdir(rt)
csv_file_paths = [f for f in file_paths if f.endswith('.csv')]
for csv_path in csv_file_paths:
    print(f'Loading {csv_path}...')
    df = pd.read_csv(rt.joinpath(csv_path))
    df = clean_data(df) # Utilisation d'un heler g√©n√©rique de nettoyage
    source = csv_path.replace('olist_', '').replace('.csv', '').replace('_dataset', '')
    data[source] = df

Loading olist_orders_dataset.csv...


  df[col] = pd.to_datetime(df[col],
  df[col] = pd.to_datetime(df[col],
  df[col] = pd.to_datetime(df[col],
  df[col] = pd.to_datetime(df[col],


Loading olist_products_dataset.csv...
Loading olist_order_items_dataset.csv...


  df[col] = pd.to_datetime(df[col],


Loading product_category_name_translation.csv...
Loading olist_sellers_dataset.csv...
Loading olist_geolocation_dataset.csv...
Loading olist_order_reviews_dataset.csv...


  df[col] = pd.to_datetime(df[col],
  df[col] = pd.to_datetime(df[col],


Loading olist_order_payments_dataset.csv...
Loading olist_customers_dataset.csv...


#### 2. Nettoyage: Cas sp√©cifiques

Dans cette partie du notebook j'applique des netoyages plus sp√©cifiques, sur des tables en particulier:
- customers: suppression de doublons et d"une colonne non utilis√©e => EDIT: Pas une bonne id√©e, je commente
- geolocation et customers: normalisation des noms de ville pour coh√©rence des √©ventuels PKI qui utiliseraient les noms de ville

In [None]:
# Nettoyage des doublons de donn√©es table customers
# data['customers'].drop_duplicates(subset=['customer_unique_id'], keep='first')
# data['customers'] = data['customers'].drop(columns=['customer_unique_id'])

In [3]:
from scripts.utils import norm

# Normalise les noms de villes
data['geolocation']['geolocation_city'] = data['geolocation']['geolocation_city'].apply(norm)
data['customers']['customer_city'] = data['customers']['customer_city'].apply(norm)

#### 3. Transformations

La transformation principale que j'ai imagin√©e sur ce cas d'√©cole a √©t√© d'ajouter les traductions de noms de cat√©gories directement dans la table produits.

Le but √©tant de simplifier les requ√™tes devant filtrer ou grouper par cat√©gorie, cela √©vite d'avoir √† faire des jointures ult√©rieures pour r√©cup√©rer les traductions.

Au d√©part j'ai m√™me consid√©r√© faire cela pour cmpl√®tement supprimer la table de traductions, mais j'ai d√©cid√© de la garder, dans le sc√©nario o√π un utilisateur br√©silien aurait besoin de faire des requ√™tes sur la base de donn√©es: dans ce cas les jointures resteront faisables.

In [4]:
# Transformation de la table des produits

# Merge des dataframes pour ajouter la traduction anglaise et √©viter les jointures
data['products'] = data['products'].merge(
    data['product_category_name_translation'],
    how='left', # Type de jointure : left pour conserver tous les produits m√™me sans traduction
    left_on='product_category_name', # Cl√© de jointure dans la table des produits
    right_on='product_category_name' # Cl√© de jointure dans la table de traduction
)

# Renommer la nouvelle colonne pour √©viter les conflits
data['products'].rename(columns={'product_category_name_english': 'product_category_name_en'},
                inplace=True)

# R√©sultat final
print(data['products'][['product_category_name', 'product_category_name_en']].head())

   product_category_name product_category_name_en
0             perfumaria                perfumery
1                  artes                      art
2          esporte_lazer           sports_leisure
3                  bebes                     baby
4  utilidades_domesticas               housewares


#### 4. Chargement en base de donn√©es


Pour le chargement j'ai choisi d'utiliser sqlite3 pour g√©rer la partie cr√©ation de tables en manuel avec des scripts SQL; √ßa permet d'avoir une cr√©ation de tables qui inclue directement toutes les contraintes n√©cessaires, et c'est plus simple que d'utiliser la syntaxe de sqlalchemy, qui ajoute une couche d'abstraction suppl√©mentaire √† SQL.

In [5]:
import sqlite3

DB_PATH = "./olist.db"
with sqlite3.connect(DB_PATH) as conn:
    cur = conn.cursor()

    # Ouverture et ex√©cution du script SQL de cr√©ation de sch√©ma de base de donn√©es
    with open('./scripts/schema.sql', 'r') as f:
        schema_sql = f.read()
        cur.executescript(schema_sql)

In [6]:
# Chargement des donn√©es nettoy√©es/transform√©es dans la base de donn√©es SQLite
for table_name, df in data.items():
    df.to_sql(table_name, con=conn, if_exists='replace', index=False)

### 5. D√©veloppement d'indicateurs de perfomances

#### üí∞ Ventes

In [None]:
from scripts.utils import benchmark_query

with open('./scripts/pki/sales/daily.sql', 'r') as f:
    sql_script = f.read()
    print(benchmark_query(sql_script))

# Performance non optimis√©e: Fetched 633 rows in 0.905s

Fetched 633 rows in 0.905s


In [None]:
from scripts.utils import benchmark_query

with open('./scripts/pki/sales/monthly.sql', 'r') as f:
    sql_script = f.read()
    benchmark_query(sql_script)
    print(benchmark_query(sql_script))

# Performance non optimis√©e: Fetched 25 rows in 0.716s

Fetched 25 rows in 0.716s


In [None]:
from scripts.utils import benchmark_query

with open('./scripts/pki/sales/yearly.sql', 'r') as f:
    sql_script = f.read()
    print(benchmark_query(sql_script))

# Performance non optimis√©e: Fetched 3 rows in 0.791s

Fetched 3 rows in 0.791s


In [None]:
from scripts.utils import benchmark_query

with open('./scripts/pki/sales/previous_year_comparison.sql', 'r') as f:
    sql_script = f.read()
    print(benchmark_query(sql_script))

# Performance non optimis√©e: Fetched 633 rows in 1.742s

Fetched 633 rows in 1.742s


In [None]:
from scripts.utils import benchmark_query

with open('./scripts/pki/sales/top10.sql', 'r') as f:
    sql_script = f.read()
    print(benchmark_query(sql_script))

# Performance non optimis√©e: Fetched 10 rows in 1.228s

Fetched 10 rows in 1.228s


#### üë• Clients

In [None]:
from scripts.utils import benchmark_query

with open('./scripts/pki/customers/new_vs_recurring_customers.sql', 'r') as f:
    sql_script = f.read()
    print(benchmark_query(sql_script))

# Performance non optimis√©e: Fetched 1 rows in 0.141s

Fetched 1 rows in 0.141s


In [None]:
from scripts.utils import benchmark_query

with open('./scripts/pki/customers/average_cart.sql', 'r') as f:
    sql_script = f.read()
    print(benchmark_query(sql_script))

# Performance non optimis√©e: Fetched 1 rows in 0.135s

Fetched 1 rows in 0.135s


In [None]:
from scripts.utils import benchmark_query

with open('./scripts/pki/customers/conversion_rate.sql', 'r') as f:
    sql_script = f.read()
    print(benchmark_query(sql_script))

# Performance non optimis√©e: Fetched 1 rows in 0.027s

Fetched 1 rows in 0.027s


In [None]:
from scripts.utils import benchmark_query

with open('./scripts/pki/customers/rfmbbq_analysis.sql', 'r') as f:
    sql_script = f.read()
    print(benchmark_query(sql_script))

# Performance non optimis√©e: Fetched 98666 rows in 1.195s

Fetched 98666 rows in 1.195s
