In [1]:
import pandas as pd
import duckdb

## Rappel sur les Case When

Avant de donner une augmentation à tout le monde, <br />
les contrôleurs de gestion aimeraient connaître l'impact <br />
que cette augmentation aurait <br />
sur la masse salariale <br />

In [2]:
# Voici la table des salaires:
data = {
    'name': ['Toufik', 'Jean-Nicolas', 'Daniel', 'Kaouter', 'Sylvie', 
             'Sebastien', 'Diane', 'Romain', 'François', 'Anna',
             'Zeinaba', 'Gregory', 'Karima', 'Arthur', 'Benjamin'],
    'wage': [60000, 75000, 55000, 80000, 70000, 
             90000, 65000, 72000, 68000, 85000, 
             100000, 120000, 95000, 83000, 110000],
    'department': ['IT', 'HR', 'SALES', 'IT', 'IT', 
                   'HR', 'SALES', 'IT', 'HR', 'SALES', 
                   'IT', 'IT', 'HR', 'SALES', 'CEO']
}

wages = pd.DataFrame(data)

wages.tail()

Unnamed: 0,name,wage,department
10,Zeinaba,100000,IT
11,Gregory,120000,IT
12,Karima,95000,HR
13,Arthur,83000,SALES
14,Benjamin,110000,CEO


Le problème: on n'applique pas la même augmentation à tout le monde. <br />
Les sales auront 10% d'augmentation, les RH 5%, les Tech (IT auront 3%) <br />
(le CEO Benjamin, exemplaire, a décidé de ne s'attribuer aucune augmentation )

### CASE WHEN: rappel de la syntaxe:

In [3]:
data = {
    'order_id': [1, 2, 3, 4, 5],
    'order_date': ['2023-01-15', '2023-02-20', '2023-03-05', '2023-04-10', '2023-05-18'],
    'order_amount': [120, 450, 800, 60, 1500]
}

# Create a Pandas DataFrame
orders = pd.DataFrame(data)
orders

Unnamed: 0,order_id,order_date,order_amount
0,1,2023-01-15,120
1,2,2023-02-20,450
2,3,2023-03-05,800
3,4,2023-04-10,60
4,5,2023-05-18,1500


Important: essayez de retirer le "ELSE" pour voir ce qui se passe:

In [4]:
query = """
SELECT *, 
       CASE
           WHEN order_amount < 200 THEN 'Small'
           WHEN order_amount >= 200 AND order_amount < 800 THEN 'Medium'
           ELSE 'Large'
       END AS order_category
FROM orders
"""
duckdb.sql(query).df()

Unnamed: 0,order_id,order_date,order_amount,order_category
0,1,2023-01-15,120,Small
1,2,2023-02-20,450,Medium
2,3,2023-03-05,800,Large
3,4,2023-04-10,60,Small
4,5,2023-05-18,1500,Large


### Exercice: appliquez les augmentations à la table des salaires
- si le département est "SALES" => 10% d'augmentation
- si le département est "HR" => 05% d'augmentation
- si le département est "IT" => 03% d'augmentation
- pour les autres (le CEO) => 0% d'augmentation

In [5]:
wages.head(3)

Unnamed: 0,name,wage,department
0,Toufik,60000,IT
1,Jean-Nicolas,75000,HR
2,Daniel,55000,SALES


In [7]:
query_augmentation = """
SELECT
    *,
    CASE
        WHEN department = 'SALES' THEN wage * 1.10
        WHEN department = 'HR' THEN wage * 1.05
        WHEN department = 'IT' THEN wage * 1.03
        ELSE wage
    END AS wage_w_raise
FROM wages
"""

duckdb.sql(query_augmentation)

┌──────────────┬────────┬────────────┬───────────────┐
│     name     │  wage  │ department │ wage_w_raise  │
│   varchar    │ int64  │  varchar   │ decimal(22,2) │
├──────────────┼────────┼────────────┼───────────────┤
│ Toufik       │  60000 │ IT         │      61800.00 │
│ Jean-Nicolas │  75000 │ HR         │      78750.00 │
│ Daniel       │  55000 │ SALES      │      60500.00 │
│ Kaouter      │  80000 │ IT         │      82400.00 │
│ Sylvie       │  70000 │ IT         │      72100.00 │
│ Sebastien    │  90000 │ HR         │      94500.00 │
│ Diane        │  65000 │ SALES      │      71500.00 │
│ Romain       │  72000 │ IT         │      74160.00 │
│ François     │  68000 │ HR         │      71400.00 │
│ Anna         │  85000 │ SALES      │      93500.00 │
│ Zeinaba      │ 100000 │ IT         │     103000.00 │
│ Gregory      │ 120000 │ IT         │     123600.00 │
│ Karima       │  95000 │ HR         │      99750.00 │
│ Arthur       │  83000 │ SALES      │      91300.00 │
│ Benjamin

In [8]:
# %load solutions/1simple_case_when_sql.py
query = """
SELECT name, department, 
CASE 
    WHEN department = 'SALES' THEN wage * 1.1
    WHEN department = 'HR' THEN wage * 1.05
    WHEN department = 'IT' THEN wage * 1.03
    ELSE wage
END as wage_with_raise
FROM wages
"""

duckdb.sql(query)


┌──────────────┬────────────┬─────────────────┐
│     name     │ department │ wage_with_raise │
│   varchar    │  varchar   │  decimal(22,2)  │
├──────────────┼────────────┼─────────────────┤
│ Toufik       │ IT         │        61800.00 │
│ Jean-Nicolas │ HR         │        78750.00 │
│ Daniel       │ SALES      │        60500.00 │
│ Kaouter      │ IT         │        82400.00 │
│ Sylvie       │ IT         │        72100.00 │
│ Sebastien    │ HR         │        94500.00 │
│ Diane        │ SALES      │        71500.00 │
│ Romain       │ IT         │        74160.00 │
│ François     │ HR         │        71400.00 │
│ Anna         │ SALES      │        93500.00 │
│ Zeinaba      │ IT         │       103000.00 │
│ Gregory      │ IT         │       123600.00 │
│ Karima       │ HR         │        99750.00 │
│ Arthur       │ SALES      │        91300.00 │
│ Benjamin     │ CEO        │       110000.00 │
├──────────────┴────────────┴─────────────────┤
│ 15 rows                           3 co

In [9]:
wages.head(3)

Unnamed: 0,name,wage,department
0,Toufik,60000,IT
1,Jean-Nicolas,75000,HR
2,Daniel,55000,SALES


In [12]:
raises = {
    'SALES' : 1.1,
    'IT' : 1.03,
    'HR' : 1.05
}


raise_pourcentage = wages["department"].apply(lambda x: raises.get(x,1))

wages["wage_raised"] = wages["wage"] * raise_pourcentage

wages


Unnamed: 0,name,wage,department,wage_raised
0,Toufik,60000,IT,61800.0
1,Jean-Nicolas,75000,HR,78750.0
2,Daniel,55000,SALES,60500.0
3,Kaouter,80000,IT,82400.0
4,Sylvie,70000,IT,72100.0
5,Sebastien,90000,HR,94500.0
6,Diane,65000,SALES,71500.0
7,Romain,72000,IT,74160.0
8,François,68000,HR,71400.0
9,Anna,85000,SALES,93500.0


In [13]:
#rappel assign
wages.assign(
    new_col=lambda df_: df_['wage'] * 2  # je préfère df_
).head(3)

Unnamed: 0,name,wage,department,wage_raised,new_col
0,Toufik,60000,IT,61800.0,120000
1,Jean-Nicolas,75000,HR,78750.0,150000
2,Daniel,55000,SALES,60500.0,110000


In [14]:
raises = {
    "SALES": 1.1,
    "HR": 1.05,
    "IT": 1.03,
}

wages["raise_pct"] = (wages["department"]
                      .apply(lambda x: raises.get(x, 1))
                     )
wages["new_wage"] = wages["wage"] * wages["raise_pct"]
wages

Unnamed: 0,name,wage,department,wage_raised,raise_pct,new_wage
0,Toufik,60000,IT,61800.0,1.03,61800.0
1,Jean-Nicolas,75000,HR,78750.0,1.05,78750.0
2,Daniel,55000,SALES,60500.0,1.1,60500.0
3,Kaouter,80000,IT,82400.0,1.03,82400.0
4,Sylvie,70000,IT,72100.0,1.03,72100.0
5,Sebastien,90000,HR,94500.0,1.05,94500.0
6,Diane,65000,SALES,71500.0,1.1,71500.0
7,Romain,72000,IT,74160.0,1.03,74160.0
8,François,68000,HR,71400.0,1.05,71400.0
9,Anna,85000,SALES,93500.0,1.1,93500.0


In [15]:
wages.assign(
    raise_pct=lambda df_: df_['department'].apply(lambda x: raises.get(x, 1)),
    new_wage=lambda df_: df_["wage"] * df_["raise_pct"]
).head(3)

Unnamed: 0,name,wage,department,wage_raised,raise_pct,new_wage
0,Toufik,60000,IT,61800.0,1.03,61800.0
1,Jean-Nicolas,75000,HR,78750.0,1.05,78750.0
2,Daniel,55000,SALES,60500.0,1.1,60500.0


### [Optionnel] Exercice Python:
Fermez le volet ci-dessus et essayez de réécrire le case when en Python:
- Soit en déclarant les colonnes
- Soit en utilisant assign

In [16]:
wages.head()

Unnamed: 0,name,wage,department,wage_raised,raise_pct,new_wage
0,Toufik,60000,IT,61800.0,1.03,61800.0
1,Jean-Nicolas,75000,HR,78750.0,1.05,78750.0
2,Daniel,55000,SALES,60500.0,1.1,60500.0
3,Kaouter,80000,IT,82400.0,1.03,82400.0
4,Sylvie,70000,IT,72100.0,1.03,72100.0


### Exercice: appliquez les augmentations à la table des salaires
- si le département est "SALES" => 10% d'augmentation
- si le département est "HR" => 05% d'augmentation
- si le département est "IT" => 03% d'augmentation
- pour les autres (le CEO) => 0% d'augmentation

In [17]:
augmentations = {
    "SALES": 1.1,
    "HR": 1.05,
    "IT": 1.03
}

In [19]:
augmentations_sur_df = wages["department"].apply(lambda x: augmentations.get(x,1))

wages["new_col_wage_raised"] = wages["wage"] * augmentations_sur_df

wages

Unnamed: 0,name,wage,department,wage_raised,raise_pct,new_wage,new_col_wage_raised
0,Toufik,60000,IT,61800.0,1.03,61800.0,61800.0
1,Jean-Nicolas,75000,HR,78750.0,1.05,78750.0,78750.0
2,Daniel,55000,SALES,60500.0,1.1,60500.0,60500.0
3,Kaouter,80000,IT,82400.0,1.03,82400.0,82400.0
4,Sylvie,70000,IT,72100.0,1.03,72100.0,72100.0
5,Sebastien,90000,HR,94500.0,1.05,94500.0,94500.0
6,Diane,65000,SALES,71500.0,1.1,71500.0,71500.0
7,Romain,72000,IT,74160.0,1.03,74160.0,74160.0
8,François,68000,HR,71400.0,1.05,71400.0,71400.0
9,Anna,85000,SALES,93500.0,1.1,93500.0,93500.0
