# full outer join - exemples

Dans le notebook précédent, on a réalisé qu'on pouvait faire exactement la même chose avec un LEFT et avec un RIGHT, juste en changeant l'ordre dans lequel on appelle les tables.


Mais comment faire si on souhaite faire _à la fois_ un left _ET_ un right ?

In [12]:
import pandas as pd
import duckdb
import io

## Data

In [13]:
# Table des clients
customers_data = {
    'customer_id': [11, 12, 13, 14, 15],
    'customer_name': ["Zeinaba", "Tancrède", "Israel", "Kaouter", "Alan"]
}

df_customers = pd.DataFrame(customers_data)
df_customers

Unnamed: 0,customer_id,customer_name
0,11,Zeinaba
1,12,Tancrède
2,13,Israel
3,14,Kaouter
4,15,Alan


In [14]:
# Table des stores:
stores_data = {
    'store_id': [1, 2, 3, 4],
    'customer_id': [11, 12, 13, 15]
}



df_stores = pd.DataFrame(stores_data)
df_stores

Unnamed: 0,store_id,customer_id
0,1,11
1,2,12
2,3,13
3,4,15


In [15]:
# produits vendus
store_products_data = {
    'store_id': [1, 1, 1, 2, 2, 3, 4],
    'product_id': [101, 103, 105, 101, 103, 104, 105],
}

df_store_products = pd.DataFrame(store_products_data)
df_store_products

Unnamed: 0,store_id,product_id
0,1,101
1,1,103
2,1,105
3,2,101
4,2,103
5,3,104
6,4,105


In [16]:
# Table des produits
p_names = ["Cherry coke", "Laptop", "Ipad", "Livre",]
products_data = {
    'product_id': [100, 101, 103, 104],
    'product_name': p_names,
    'product_price': [3, 800, 400, 30]
}

df_products = pd.DataFrame(products_data)
df_products

Unnamed: 0,product_id,product_name,product_price
0,100,Cherry coke,3
1,101,Laptop,800
2,103,Ipad,400
3,104,Livre,30


## Left joins pour rassembler les tables

### Exercice 1: left join pour rassembler les clients avec leurs stores

In [17]:
detailed_order = pd.merge(
    df_customers,
    df_stores,
    on='customer_id',
    how='left'
)
detailed_order

Unnamed: 0,customer_id,customer_name,store_id
0,11,Zeinaba,1.0
1,12,Tancrède,2.0
2,13,Israel,3.0
3,14,Kaouter,
4,15,Alan,4.0


In [18]:
query = """
SELECT * FROM df_customers
LEFT JOIN df_stores
USING (customer_id)
"""

# on df_orders.order_id = df_order_details.order_id

duckdb.query(query)

┌─────────────┬───────────────┬──────────┐
│ customer_id │ customer_name │ store_id │
│    int64    │    varchar    │  int64   │
├─────────────┼───────────────┼──────────┤
│          11 │ Zeinaba       │        1 │
│          12 │ Tancrède      │        2 │
│          13 │ Israel        │        3 │
│          15 │ Alan          │        4 │
│          14 │ Kaouter       │     NULL │
└─────────────┴───────────────┴──────────┘

Si vous changez "LEFT" par "INNER", vous verrez que cette fois-ci, il y a une différence.
<br />

Kaouter s'est inscrite, mais n'a pas encore ouvert de store, donc elle n'a pas de store_id ;)

<br />

### Exercice 2:  left join pour rassembler les clients et leurs stores avec les produits qu'ils vendent

In [19]:
%load solutions/1left_join_python.py

Unnamed: 0,customer_id,customer_name,store_id,product_id
0,11,Zeinaba,1.0,101.0
1,11,Zeinaba,1.0,103.0
2,11,Zeinaba,1.0,105.0
3,12,Tancrède,2.0,101.0
4,12,Tancrède,2.0,103.0
5,13,Israel,3.0,104.0
6,14,Kaouter,,
7,15,Alan,4.0,105.0


In [20]:
%load solutions/2left_join_sql.py

┌─────────────┬───────────────┬──────────┬────────────┐
│ customer_id │ customer_name │ store_id │ product_id │
│    int64    │    varchar    │  double  │   int64    │
├─────────────┼───────────────┼──────────┼────────────┤
│          11 │ Zeinaba       │      1.0 │        105 │
│          12 │ Tancrède      │      2.0 │        103 │
│          13 │ Israel        │      3.0 │        104 │
│          15 │ Alan          │      4.0 │        105 │
│          11 │ Zeinaba       │      1.0 │        103 │
│          12 │ Tancrède      │      2.0 │        101 │
│          11 │ Zeinaba       │      1.0 │        101 │
│          14 │ Kaouter       │     NULL │       NULL │
└─────────────┴───────────────┴──────────┴────────────┘

### Exercice 3: outer join pour rassembler les stores_et_produits avec le détail des produits

In [21]:
%load solutions/3outer_join_python.py

Unnamed: 0,customer_id,customer_name,store_id,product_id,product_name,product_price
0,11.0,Zeinaba,1.0,101.0,Laptop,800.0
1,12.0,Tancrède,2.0,101.0,Laptop,800.0
2,11.0,Zeinaba,1.0,103.0,Ipad,400.0
3,12.0,Tancrède,2.0,103.0,Ipad,400.0
4,11.0,Zeinaba,1.0,105.0,,
5,15.0,Alan,4.0,105.0,,
6,13.0,Israel,3.0,104.0,Livre,30.0
7,14.0,Kaouter,,,,
8,,,,100.0,Cherry coke,3.0


In [25]:
%load solutions/4outer_join_sql.py

Unnamed: 0,customer_id,customer_name,store_id,product_id,product_name,product_price
0,11.0,Zeinaba,1.0,101.0,Laptop,800.0
1,11.0,Zeinaba,1.0,103.0,Ipad,400.0
2,12.0,Tancrède,2.0,101.0,Laptop,800.0
3,12.0,Tancrède,2.0,103.0,Ipad,400.0
4,13.0,Israel,3.0,104.0,Livre,30.0
5,11.0,Zeinaba,1.0,105.0,,
6,14.0,Kaouter,,,,
7,15.0,Alan,4.0,105.0,,
8,,,,100.0,Cherry coke,3.0


Dans les exemples ci-dessus, remplacez outer par left et voyez la différence.
<br />
Un item disparaît. 
<br />
Joke: Pouvez-vous deviner pourquoi ? :P

<br />
<br />
<br />