In [1]:
import pandas as pd
import duckdb

# Filter (or CASE WHEN)

In [2]:
data = {
    'store_id': ["Armentieres", "Armentieres", "Armentieres", "Armentieres", "Lille", "Lille", "Lille", "Lille", "Douai", "Douai", "Douai", "Douai"],
    'product_name': ['redbull', 'chips', 'wine', 'redbull', 'redbull', 'chips', 'wine', 'icecream', 'redbull', 'chips', 'wine', 'icecream'],
    'amount': [45, 60, 60, 45, 100, 140, 190, 170, 55, 70, 20, 45]
}
df = pd.DataFrame(data)

On a vu ensemble qu'un grouping set nous permet d'obtenir cette table:

In [3]:
query = """
SELECT store_id, 
COALESCE(product_name, 'tous_produits') AS product_name, 
SUM(amount) as sum_amount 
FROM df
GROUP BY 
GROUPING SETS ((store_id, product_name), store_id)
ORDER BY store_id
"""
duckdb.sql(query)

┌─────────────┬───────────────┬────────────┐
│  store_id   │ product_name  │ sum_amount │
│   varchar   │    varchar    │   int128   │
├─────────────┼───────────────┼────────────┤
│ Armentieres │ chips         │         60 │
│ Armentieres │ tous_produits │        210 │
│ Armentieres │ redbull       │         90 │
│ Armentieres │ wine          │         60 │
│ Douai       │ icecream      │         45 │
│ Douai       │ chips         │         70 │
│ Douai       │ tous_produits │        190 │
│ Douai       │ redbull       │         55 │
│ Douai       │ wine          │         20 │
│ Lille       │ redbull       │        100 │
│ Lille       │ wine          │        190 │
│ Lille       │ icecream      │        170 │
│ Lille       │ chips         │        140 │
│ Lille       │ tous_produits │        600 │
├─────────────┴───────────────┴────────────┤
│ 14 rows                        3 columns │
└──────────────────────────────────────────┘

Problème: on avait dû faire un self-join un peu tiré par les cheveux 

Dans ce notebook, on va découvrir Filter

## La syntaxe de filter

Explication avec la table des salaires:

In [4]:
data = {
    'name': ['Toufik', 'Jean-Nicolas', 'Daniel', 'Kaouter', 'Sylvie', 
             'Sebastien', 'Diane', 'Romain', 'François', 'Anna',
             'Zeinaba', 'Gregory', 'Karima', 'Arthur', 'Benjamin'],
    'wage': [60000, 75000, 55000, 80000, 70000, 
             90000, 65000, 72000, 68000, 85000, 
             100000, 120000, 95000, 83000, 110000],
    'department': ['IT', 'HR', 'SALES', 'IT', 'IT', 
                   'HR', 'SALES', 'IT', 'HR', 'SALES', 
                   'IT', 'IT', 'HR', 'SALES', 'CEO']
}

wages = pd.DataFrame(data)

wages

Unnamed: 0,name,wage,department
0,Toufik,60000,IT
1,Jean-Nicolas,75000,HR
2,Daniel,55000,SALES
3,Kaouter,80000,IT
4,Sylvie,70000,IT
5,Sebastien,90000,HR
6,Diane,65000,SALES
7,Romain,72000,IT
8,François,68000,HR
9,Anna,85000,SALES


En utilisant FILTER, on peut choisir <br />
sur quelle sous-partie de notre donnée <br />
on veut faire une agrégation:

In [5]:
query = """
SELECT department,
SUM(wage) masse_salariale,
SUM(wage) FILTER(WHERE department = 'IT') as masse_salariale_IT, 
FROM wages
GROUP BY department
"""
duckdb.sql(query)

┌────────────┬─────────────────┬────────────────────┐
│ department │ masse_salariale │ masse_salariale_IT │
│  varchar   │     int128      │       int128       │
├────────────┼─────────────────┼────────────────────┤
│ HR         │          328000 │               NULL │
│ CEO        │          110000 │               NULL │
│ SALES      │          288000 │               NULL │
│ IT         │          502000 │             502000 │
└────────────┴─────────────────┴────────────────────┘

In [6]:
query = """
SELECT 
SUM(wage) FILTER(WHERE department = 'IT') as masse_salariale_IT, 
SUM(wage) masse_salariale,
FROM wages
"""
duckdb.sql(query)

┌────────────────────┬─────────────────┐
│ masse_salariale_IT │ masse_salariale │
│       int128       │     int128      │
├────────────────────┼─────────────────┤
│             502000 │         1228000 │
└────────────────────┴─────────────────┘

## Retour au use-case redbull

In [7]:
query = """
SELECT 
store_id, 
SUM(amount) FILTER(WHERE product_name = 'redbull') as redbull_amount, 
SUM(amount)  
FROM df
GROUP BY store_id
"""
duckdb.sql(query)

┌─────────────┬────────────────┬─────────────┐
│  store_id   │ redbull_amount │ sum(amount) │
│   varchar   │     int128     │   int128    │
├─────────────┼────────────────┼─────────────┤
│ Lille       │            100 │         600 │
│ Armentieres │             90 │         210 │
│ Douai       │             55 │         190 │
└─────────────┴────────────────┴─────────────┘

Problème: FILTER n'existe pas partout.

La bonne nouvelle, c'est qu'on peut imiter son fonctionnement avec CASE WHEN !

In [8]:
# %%timeit # (457 µs ± 20.9 µs per loop)
query = """
SELECT store_id, 
SUM(
    CASE WHEN product_name = 'redbull' THEN amount
    END
) AS product_amount,
SUM(amount) AS total_amount,
SUM(
    CASE WHEN product_name = 'redbull' THEN amount
    END
) / SUM(amount) AS pct_amount,
FROM df
GROUP BY store_id
"""
duckdb.sql(query)

┌─────────────┬────────────────┬──────────────┬─────────────────────┐
│  store_id   │ product_amount │ total_amount │     pct_amount      │
│   varchar   │     int128     │    int128    │       double        │
├─────────────┼────────────────┼──────────────┼─────────────────────┤
│ Armentieres │             90 │          210 │ 0.42857142857142855 │
│ Douai       │             55 │          190 │  0.2894736842105263 │
│ Lille       │            100 │          600 │ 0.16666666666666666 │
└─────────────┴────────────────┴──────────────┴─────────────────────┘