# Trouver les meilleurs clients

In [1]:
import pandas as pd
import duckdb

In [2]:
clients = ["Oussama", "Julie", "Chris", "Tom", "Jean-Nicolas", "Aline", "Ben", "Toufik", "Sylvie", "David"]
ventes = [110, 49, 65, 23, 24, 3.99, 29, 48.77, 44, 10, 60, 12, 62, 19, 75] * 2 

ventes = pd.DataFrame(ventes)
ventes.columns = ["montant"]
ventes["client"] = clients * 3
ventes.head(6)

Unnamed: 0,montant,client
0,110.0,Oussama
1,49.0,Julie
2,65.0,Chris
3,23.0,Tom
4,24.0,Jean-Nicolas
5,3.99,Aline


## Exercice, calculer le panier moyen pour chaque client

C'est à dire, faire simplement la moyenne des achats

In [4]:
(
    ventes
    .groupby("client")["montant"].mean().astype(int)
)

client
Aline           57
Ben             30
Chris           58
David           36
Jean-Nicolas    36
Julie           30
Oussama         57
Sylvie          28
Tom             28
Toufik          58
Name: montant, dtype: int32

In [6]:
query_mean = """
select
    client,
    CAST(AVG(montant) AS INTEGER) AS mean_rate
FROM ventes
GROUP BY client
"""
duckdb.sql(query_mean).df()

Unnamed: 0,client,mean_rate
0,Toufik,59
1,David,36
2,Ben,30
3,Sylvie,29
4,Chris,59
5,Jean-Nicolas,36
6,Oussama,58
7,Julie,30
8,Tom,29
9,Aline,58


In [8]:
# %load solutions/5panier_moyen_client_python.py
(
    ventes
    .groupby("client")
    ["montant"].mean()
)


client
Aline           57.996667
Ben             30.000000
Chris           58.590000
David           36.333333
Jean-Nicolas    36.333333
Julie           30.000000
Oussama         57.996667
Sylvie          28.666667
Tom             28.666667
Toufik          58.590000
Name: montant, dtype: float64

In [10]:
# %load solutions/6panier_moyen_client_sql.py
query = """
SELECT client, MEAN(montant) as total_ventes
FROM ventes
GROUP BY client
"""

duckdb.sql(query)


┌──────────────┬────────────────────┐
│    client    │    total_ventes    │
│   varchar    │       double       │
├──────────────┼────────────────────┤
│ Toufik       │              58.59 │
│ Aline        │  57.99666666666667 │
│ David        │ 36.333333333333336 │
│ Ben          │               30.0 │
│ Sylvie       │ 28.666666666666668 │
│ Chris        │              58.59 │
│ Jean-Nicolas │ 36.333333333333336 │
│ Oussama      │  57.99666666666667 │
│ Julie        │               30.0 │
│ Tom          │ 28.666666666666668 │
├──────────────┴────────────────────┤
│ 10 rows                 2 columns │
└───────────────────────────────────┘

--- 

Ensuite, votre PO vous demande de sortir la liste des clients qui ont des achats supérieurs à la moyenne 

## Exercice: je triche avec Python, mais si vous étiez en interview SQL ?!

In [11]:
mean = (
    ventes["montant"].mean()
)
mean

42.31733333333333

In [16]:
query = f"""
SELECT client, 
MEAN(montant) as mean_sales
FROM ventes
GROUP BY CLIENT
HAVING mean_sales > {mean}
"""

duckdb.sql(query)

┌─────────┬───────────────────┐
│ client  │    mean_sales     │
│ varchar │      double       │
├─────────┼───────────────────┤
│ Chris   │             58.59 │
│ Toufik  │             58.59 │
│ Aline   │ 57.99666666666667 │
│ Oussama │ 57.99666666666667 │
└─────────┴───────────────────┘

In [17]:
(
    ventes
    .groupby("client")
    ["montant"].mean()
    .reset_index()
    .query(f"montant > {mean}")
)

Unnamed: 0,client,montant
0,Aline,57.996667
2,Chris,58.59
6,Oussama,57.996667
9,Toufik,58.59


Faites la même chose en SQL sans utiliser une F-string Python:

In [18]:
# %load solutions/7mean_sales_python.py
# Avec une subquery
query = f"""
SELECT client, 
MEAN(montant) as mean_sales
FROM ventes
GROUP BY CLIENT
HAVING mean_sales > 
(SELECT MEAN(montant) FROM ventes)
"""

duckdb.sql(query)


┌─────────┬───────────────────┐
│ client  │    mean_sales     │
│ varchar │      double       │
├─────────┼───────────────────┤
│ Chris   │             58.59 │
│ Aline   │ 57.99666666666667 │
│ Toufik  │             58.59 │
│ Oussama │ 57.99666666666667 │
└─────────┴───────────────────┘

In [20]:
# %load solutions/8mean_sales_sql.py
query = f"""
WITH mean_sale AS
    (SELECT MEAN(montant) FROM ventes)

SELECT client, 
MEAN(montant) as total_sales
FROM ventes
GROUP BY CLIENT
HAVING total_sales > (SELECT * FROM mean_sale)
"""

duckdb.sql(query)


┌─────────┬───────────────────┐
│ client  │    total_sales    │
│ varchar │      double       │
├─────────┼───────────────────┤
│ Toufik  │             58.59 │
│ Oussama │ 57.99666666666667 │
│ Chris   │             58.59 │
│ Aline   │ 57.99666666666667 │
└─────────┴───────────────────┘

## Exercice: la moyenne de la somme des ventes

Voici les ventes totales pour chaque client:

In [21]:
ventes.groupby("client")["montant"].sum()

client
Aline           173.99
Ben              90.00
Chris           175.77
David           109.00
Jean-Nicolas    109.00
Julie            90.00
Oussama         173.99
Sylvie           86.00
Tom              86.00
Toufik          175.77
Name: montant, dtype: float64

La moyenne de ces ventes totales est différente de celle de tout à l'heure:

In [22]:
ventes.groupby("client")["montant"].sum().mean()

126.952

Utilisez une CTE pour obtenir les clients qui ont un total d'achat supérieur à la moyenne des totaux d'achats des autres clients:

<img src="images/pirates-of-the-caribbean-captain-jack-sparrow.gif" />

(On veut les clients qui ont dépensé plus que 126.95€ :p)

Etapes:
- Faire une query pour obtenir les ventes totales par client
- La stocker dans une subquery
- A partir de cette subquery, faire un query pour obtenir la moyenne de ces ventes totales
- La stocker dans une 2nde subquery
- A partir de cette deuxième subquery, récupérer les clients et leur somme totales dépensées, et filtrer sur les clients dont la moyenne est supérieure à celle calculée dans la 2e subquery

In [23]:
query = """
WITH TOTAL_SALES_PER_CLIENT AS (
    SELECT SUM(montant) AS total_sales
    FROM ventes
    GROUP BY client
),

MEAN_TOTAL_SALES AS (
    SELECT MEAN(total_sales)
    FROM TOTAL_SALES_PER_CLIENT
)

SELECT client, 
SUM(montant) as total_sales
FROM ventes
GROUP BY CLIENT
HAVING total_sales > 
(SELECT * FROM MEAN_TOTAL_SALES)
"""

duckdb.sql(query)

┌─────────┬─────────────┐
│ client  │ total_sales │
│ varchar │   double    │
├─────────┼─────────────┤
│ Chris   │      175.77 │
│ Toufik  │      175.77 │
│ Oussama │      173.99 │
│ Aline   │      173.99 │
└─────────┴─────────────┘

# Les réunions, 2

Participants aux réunions:

In [14]:
person_names = ["Benjamin", "Florian", "Tarik", "Bob", "Sirine", "Alice"]

Création de la donnée sur les meetings:

In [15]:
import random

meetings_data = []
for meeting_id in range(150):
    persons_in_meet = random.sample(person_names, random.randint(1,5))
    for person_name in persons_in_meet:
        meetings_data.append((meeting_id, person_name))


meetings_df = pd.DataFrame(meetings_data, columns=["meeting_id", "person_name"])

Durées des meetings:

In [16]:
meeting_durations = []
for meeting_id in meetings_df["meeting_id"].unique():
    duration = random.randint(10, 45)  # You can adjust the range as needed
    meeting_durations.append((meeting_id, duration))

durations_df = pd.DataFrame(meeting_durations, columns=["meeting_id", "duration_minutes"])

Tweak de la donnée pour rendre l'exercice plus fun ;)

In [17]:
average_duration = durations_df["duration_minutes"].mean()
meetings_with_flo = meetings_df[meetings_df["person_name"] == "Florian"]["meeting_id"].unique()
# meetings_with_ben = meetings_df[meetings_df["person_name"] == "Benjamin"]["meeting_id"].unique()
# s=set(meetings_with_ben) & set(meetings_with_flo)
for _, row in durations_df.iterrows():
    if row["meeting_id"] in meetings_with_flo:
        row["duration_minutes"] += random.randint(50, 65)  # Add extra minutes to meet the condition

Total:

In [18]:
merged_df = meetings_df.merge(durations_df, on="meeting_id")
merged_df

Unnamed: 0,meeting_id,person_name,duration_minutes
0,0,Bob,34
1,0,Benjamin,34
2,1,Benjamin,86
3,1,Florian,86
4,1,Sirine,86
...,...,...,...
467,148,Alice,42
468,149,Sirine,98
469,149,Benjamin,98
470,149,Tarik,98


## Exercice 1: refaites le self join 

In [19]:
# on veut récup toutes les réunions qui concernent Bejamin

In [20]:
benjamin_meeting = """
SELECT
    meeting_id,
    b.person_name AS colleague,
    a.duration_minutes
FROM merged_df a
INNER JOIN merged_df b
USING (meeting_id)
WHERE a.person_name = 'Benjamin'
    AND b.person_name != 'Benjamin'

"""

duckdb.sql(benjamin_meeting)

┌────────────┬───────────┬──────────────────┐
│ meeting_id │ colleague │ duration_minutes │
│   int64    │  varchar  │      int64       │
├────────────┼───────────┼──────────────────┤
│          0 │ Bob       │               34 │
│          1 │ Florian   │               86 │
│          1 │ Sirine    │               86 │
│          1 │ Tarik     │               86 │
│          1 │ Bob       │               86 │
│          2 │ Sirine    │               23 │
│          2 │ Bob       │               23 │
│          2 │ Alice     │               23 │
│          4 │ Tarik     │               75 │
│          4 │ Florian   │               75 │
│          · │    ·      │                · │
│          · │    ·      │                · │
│          · │    ·      │                · │
│        145 │ Florian   │               70 │
│        145 │ Alice     │               70 │
│        145 │ Bob       │               70 │
│        145 │ Tarik     │               70 │
│        148 │ Tarik     │        

- créer une table avec toutes les combinaisons de personnes ayant assisté au même meeting
- ne garder que les records qui me concernent (Benjamin)
- enlever les records où je suis en réunion "avec moi-même"

In [21]:
# %load solutions/9self_join_review.py
query = """
SELECT meeting_id, 
rdf.person_name as colleague,
ldf.duration_minutes
FROM merged_df ldf
INNER JOIN merged_df rdf
USING (meeting_id)
WHERE ldf.person_name == 'Benjamin'
AND rdf.person_name != 'Benjamin'
"""

duckdb.sql(query)


┌────────────┬───────────┬──────────────────┐
│ meeting_id │ colleague │ duration_minutes │
│   int64    │  varchar  │      int64       │
├────────────┼───────────┼──────────────────┤
│          0 │ Bob       │               34 │
│          1 │ Florian   │               86 │
│          1 │ Sirine    │               86 │
│          1 │ Tarik     │               86 │
│          1 │ Bob       │               86 │
│          2 │ Sirine    │               23 │
│          2 │ Bob       │               23 │
│          2 │ Alice     │               23 │
│          4 │ Tarik     │               75 │
│          4 │ Florian   │               75 │
│          · │    ·      │                · │
│          · │    ·      │                · │
│          · │    ·      │                · │
│        145 │ Florian   │               70 │
│        145 │ Alice     │               70 │
│        145 │ Bob       │               70 │
│        145 │ Tarik     │               70 │
│        148 │ Tarik     │        

## Exercice 2: calculez la durée moyenne des meetings avec chaque collegue 

Ensuite, faire un group by pour savoir la durée moyenne de mes meetings avec chaque personne
- [optionnel]: ne garder que les résultats pour lesquels la moyenne est > à 1h

#### AVEC SUBQUERY

In [22]:
query_mean_duration = """

SELECT
    colleague,
    ROUND(AVG(duration_minutes),2) AS mean_duration
FROM (

SELECT meeting_id, 
rdf.person_name as colleague,
ldf.duration_minutes
FROM merged_df ldf
INNER JOIN merged_df rdf
USING (meeting_id)
WHERE ldf.person_name == 'Benjamin'
AND rdf.person_name != 'Benjamin'


)

GROUP BY colleague
HAVING mean_duration > 60


"""

duckdb.sql(query_mean_duration)

┌───────────┬───────────────┐
│ colleague │ mean_duration │
│  varchar  │    double     │
├───────────┼───────────────┤
│ Bob       │         60.44 │
│ Sirine    │         61.96 │
│ Florian   │         84.33 │
└───────────┴───────────────┘

#### AVEC CTE

In [26]:
query_mean_duration_CTE ="""
WITH inner_join_query AS(
SELECT meeting_id, 
rdf.person_name as colleague,
ldf.duration_minutes
FROM merged_df ldf
INNER JOIN merged_df rdf
USING (meeting_id)
WHERE ldf.person_name == 'Benjamin'
AND rdf.person_name != 'Benjamin'
)

SELECT 
    colleague,
    ROUND(AVG(duration_minutes), 2) AS mean_duration_mn
FROM inner_join_query
GROUP BY colleague
HAVING mean_duration_mn > 60
"""

duckdb.sql(query_mean_duration_CTE)

┌───────────┬──────────────────┐
│ colleague │ mean_duration_mn │
│  varchar  │      double      │
├───────────┼──────────────────┤
│ Sirine    │            61.96 │
│ Florian   │            84.33 │
│ Bob       │            60.44 │
└───────────┴──────────────────┘

In [25]:
# %load solutions/10reunions_solution.py
query = """ 
WITH meetings_benjamin AS (
    SELECT meeting_id, 
    rdf.person_name as colleague,
    ldf.duration_minutes
    FROM merged_df ldf
    INNER JOIN merged_df rdf
    USING (meeting_id)
    WHERE ldf.person_name == 'Benjamin'
    AND rdf.person_name != 'Benjamin'
)

SELECT colleague,
MEAN(duration_minutes) as avg_meeting_duration
FROM meetings_benjamin
GROUP BY colleague
"""

duckdb.sql(query)


┌───────────┬──────────────────────┐
│ colleague │ avg_meeting_duration │
│  varchar  │        double        │
├───────────┼──────────────────────┤
│ Sirine    │    61.95918367346939 │
│ Tarik     │   59.285714285714285 │
│ Florian   │    84.32608695652173 │
│ Alice     │   58.680851063829785 │
│ Bob       │    60.44230769230769 │
└───────────┴──────────────────────┘