# Left join - intuition

Dans la partie précédente, on a découvert les inner joins.

Les inner join sont souvent utilisés pour filtrer les lignes sur lesquelles on ne dispose pas de la donnée intéressante

In [1]:
import pandas as pd
import duckdb
import io

## Inner join pour filtrer

Imaginons qu'on ait une table de ventes & une table qui contient le numéro de carte de fidélité des clients:

In [2]:
csv = '''
customer_id,product_bought
1234, t-shirt
R2D2, jeans
C3PO, jeans
1234, shoes
R2D2, sweat
C3PO, shorts
'''

csv2 = '''
customer_id,loyalty_card_id
R2D2,887b3c5c-3ff2-11ee-be56-0242ac120002
'''


sales = pd.read_csv(io.StringIO(csv))
loyalty_cards = pd.read_csv(io.StringIO(csv2))

In [3]:
display(sales)
loyalty_cards

Unnamed: 0,customer_id,product_bought
0,1234,t-shirt
1,R2D2,jeans
2,C3PO,jeans
3,1234,shoes
4,R2D2,sweat
5,C3PO,shorts


Unnamed: 0,customer_id,loyalty_card_id
0,R2D2,887b3c5c-3ff2-11ee-be56-0242ac120002


Comme un seul client dispose d'une carte de fidélité, on obtient uniquement des résultats pour celui-ci:

<img src="images/left_join1.png" />

In [4]:
cross_join_query_where = """
SELECT * FROM sales
INNER JOIN loyalty_cards
USING (customer_id) 
"""
duckdb.sql(cross_join_query_where)

┌─────────────┬────────────────┬──────────────────────────────────────┐
│ customer_id │ product_bought │           loyalty_card_id            │
│   varchar   │    varchar     │               varchar                │
├─────────────┼────────────────┼──────────────────────────────────────┤
│ R2D2        │  jeans         │ 887b3c5c-3ff2-11ee-be56-0242ac120002 │
│ R2D2        │  sweat         │ 887b3c5c-3ff2-11ee-be56-0242ac120002 │
└─────────────┴────────────────┴──────────────────────────────────────┘

<img src="images/cross_join_after_filter.png" />

Mais si on vous demande combien d'articles ont été achetés par des clients qui n'ont pas de carte de fid' ?

C'est là qu'un Left join entre en jeu

## Left join as a cross product

L'objectif, c'est de garder toutes les ventes.
Mais si on garde toutes les ventes dans un cross join, on se retrouve avec n'importe quoi dans les colonnes de droite:

In [5]:
cross_join_query_where = """
SELECT *
FROM sales
CROSS JOIN loyalty_cards
"""
duckdb.sql(cross_join_query_where)

┌─────────────┬────────────────┬─────────────┬──────────────────────────────────────┐
│ customer_id │ product_bought │ customer_id │           loyalty_card_id            │
│   varchar   │    varchar     │   varchar   │               varchar                │
├─────────────┼────────────────┼─────────────┼──────────────────────────────────────┤
│ 1234        │  t-shirt       │ R2D2        │ 887b3c5c-3ff2-11ee-be56-0242ac120002 │
│ R2D2        │  jeans         │ R2D2        │ 887b3c5c-3ff2-11ee-be56-0242ac120002 │
│ C3PO        │  jeans         │ R2D2        │ 887b3c5c-3ff2-11ee-be56-0242ac120002 │
│ 1234        │  shoes         │ R2D2        │ 887b3c5c-3ff2-11ee-be56-0242ac120002 │
│ R2D2        │  sweat         │ R2D2        │ 887b3c5c-3ff2-11ee-be56-0242ac120002 │
│ C3PO        │  shorts        │ R2D2        │ 887b3c5c-3ff2-11ee-be56-0242ac120002 │
└─────────────┴────────────────┴─────────────┴──────────────────────────────────────┘

Ci-dessus, on a la carte de fid' de R2D2 mise en face de chaque client...

<br />
Il faudrait la remplacer par des Null quand on s'aperçoit que les customer_id ne sont pas les mêmes:

In [6]:
cross_join_query_where = """
SELECT product_bought, sales.customer_id, 
CASE WHEN
    loyalty_cards.customer_id != sales.customer_id 
    THEN NULL
    ELSE loyalty_card_id
END AS loyalty_card_id
FROM sales
CROSS JOIN loyalty_cards

"""
duckdb.sql(cross_join_query_where)

┌────────────────┬─────────────┬──────────────────────────────────────┐
│ product_bought │ customer_id │           loyalty_card_id            │
│    varchar     │   varchar   │               varchar                │
├────────────────┼─────────────┼──────────────────────────────────────┤
│  t-shirt       │ 1234        │ NULL                                 │
│  jeans         │ R2D2        │ 887b3c5c-3ff2-11ee-be56-0242ac120002 │
│  jeans         │ C3PO        │ NULL                                 │
│  shoes         │ 1234        │ NULL                                 │
│  sweat         │ R2D2        │ 887b3c5c-3ff2-11ee-be56-0242ac120002 │
│  shorts        │ C3PO        │ NULL                                 │
└────────────────┴─────────────┴──────────────────────────────────────┘

Pour faire ça plus simplement, SQL mets à notre disposition la syntaxe LEFT JOIN:

## Plus clean:

In [7]:
cross_join_query_where = """
SELECT * FROM sales
LEFT JOIN loyalty_cards
USING (customer_id) 
"""
duckdb.sql(cross_join_query_where)

┌─────────────┬────────────────┬──────────────────────────────────────┐
│ customer_id │ product_bought │           loyalty_card_id            │
│   varchar   │    varchar     │               varchar                │
├─────────────┼────────────────┼──────────────────────────────────────┤
│ R2D2        │  jeans         │ 887b3c5c-3ff2-11ee-be56-0242ac120002 │
│ R2D2        │  sweat         │ 887b3c5c-3ff2-11ee-be56-0242ac120002 │
│ 1234        │  t-shirt       │ NULL                                 │
│ C3PO        │  jeans         │ NULL                                 │
│ 1234        │  shoes         │ NULL                                 │
│ C3PO        │  shorts        │ NULL                                 │
└─────────────┴────────────────┴──────────────────────────────────────┘

⇒ Encore une fois, on voit qu'on peut redériver toutes sortes de joins à un produit cartésien auquel on applique un filtre.


Dans le prochain notebook, on va voir reprendre les exemples qu'on avait avec INNER JOIN et voir quelles différences ça fait avec un LEFT ;)