# Faire un cross join avec un inner join

In [2]:
import pandas as pd
import io
import duckdb

## Data

In [3]:
csv = '''
beverage,price
orange juice,2.5
Expresso,2
Tea,3
'''

beverages = pd.read_csv(io.StringIO(csv))

In [4]:
csv2 = '''
food_item,food_price
cookie,2.5
chocolatine,2
muffin,3
'''

food_items = pd.read_csv(io.StringIO(csv2))

In [5]:
# checks
query_beverages = """
SELECT * FROM beverages
"""
duckdb.sql(query_beverages)

┌──────────────┬────────┐
│   beverage   │ price  │
│   varchar    │ double │
├──────────────┼────────┤
│ orange juice │    2.5 │
│ Expresso     │    2.0 │
│ Tea          │    3.0 │
└──────────────┴────────┘

In [6]:
query_food_items = """
SELECT * FROM food_items
"""
duckdb.sql(query_food_items)

┌─────────────┬────────────┐
│  food_item  │ food_price │
│   varchar   │   double   │
├─────────────┼────────────┤
│ cookie      │        2.5 │
│ chocolatine │        2.0 │
│ muffin      │        3.0 │
└─────────────┴────────────┘

## Cross join

In [7]:
cross_join_query = """
SELECT * FROM beverages
CROSS JOIN food_items
"""
duckdb.sql(cross_join_query)

┌──────────────┬────────┬─────────────┬────────────┐
│   beverage   │ price  │  food_item  │ food_price │
│   varchar    │ double │   varchar   │   double   │
├──────────────┼────────┼─────────────┼────────────┤
│ orange juice │    2.5 │ cookie      │        2.5 │
│ orange juice │    2.5 │ chocolatine │        2.0 │
│ orange juice │    2.5 │ muffin      │        3.0 │
│ Expresso     │    2.0 │ cookie      │        2.5 │
│ Expresso     │    2.0 │ chocolatine │        2.0 │
│ Expresso     │    2.0 │ muffin      │        3.0 │
│ Tea          │    3.0 │ cookie      │        2.5 │
│ Tea          │    3.0 │ chocolatine │        2.0 │
│ Tea          │    3.0 │ muffin      │        3.0 │
└──────────────┴────────┴─────────────┴────────────┘

In [8]:
output = (
    beverages
    .merge(food_items, how="cross")
)
output

Unnamed: 0,beverage,price,food_item,food_price
0,orange juice,2.5,cookie,2.5
1,orange juice,2.5,chocolatine,2.0
2,orange juice,2.5,muffin,3.0
3,Expresso,2.0,cookie,2.5
4,Expresso,2.0,chocolatine,2.0
5,Expresso,2.0,muffin,3.0
6,Tea,3.0,cookie,2.5
7,Tea,3.0,chocolatine,2.0
8,Tea,3.0,muffin,3.0


## Inner join

<blockquote> "Sur quelle colonne tu veux que je fasse un inner join ?!" </blockquote>
=> Il n'y a pas de colonne en commun. On va donc en créer une ;)

In [9]:
beverages["id"] = [1, 1, 1]
beverages

Unnamed: 0,beverage,price,id
0,orange juice,2.5,1
1,Expresso,2.0,1
2,Tea,3.0,1


In [10]:
food_items["id"] = [1, 1, 1]
food_items

Unnamed: 0,food_item,food_price,id
0,cookie,2.5,1
1,chocolatine,2.0,1
2,muffin,3.0,1


In [11]:
output = (
    beverages
    .merge(food_items, on="id")
)
output

Unnamed: 0,beverage,price,id,food_item,food_price
0,orange juice,2.5,1,cookie,2.5
1,orange juice,2.5,1,chocolatine,2.0
2,orange juice,2.5,1,muffin,3.0
3,Expresso,2.0,1,cookie,2.5
4,Expresso,2.0,1,chocolatine,2.0
5,Expresso,2.0,1,muffin,3.0
6,Tea,3.0,1,cookie,2.5
7,Tea,3.0,1,chocolatine,2.0
8,Tea,3.0,1,muffin,3.0


In [12]:
cross_join_query = """
SELECT * FROM beverages
INNER JOIN food_items
USING (id)
"""
duckdb.sql(cross_join_query).df()

Unnamed: 0,beverage,price,id,food_item,food_price
0,Tea,3.0,1,cookie,2.5
1,Tea,3.0,1,chocolatine,2.0
2,Tea,3.0,1,muffin,3.0
3,Expresso,2.0,1,cookie,2.5
4,Expresso,2.0,1,chocolatine,2.0
5,Expresso,2.0,1,muffin,3.0
6,orange juice,2.5,1,cookie,2.5
7,orange juice,2.5,1,chocolatine,2.0
8,orange juice,2.5,1,muffin,3.0


<blockquote> "Ca donne pas le même résultat qu'un CROSS JOIN ton truc !" </ blockquote> 


## Exercice: que pourrait-on changer ?

In [13]:
# %load solutions/5exercice_cross_with_inner.py
food_items["id"] = beverages["id"] = [1, 1, 1]
cross_join_query = """
SELECT * FROM beverages
INNER JOIN food_items
USING (id)
"""
duckdb.sql(cross_join_query).df()


Unnamed: 0,beverage,price,id,food_item,food_price
0,Tea,3.0,1,cookie,2.5
1,Tea,3.0,1,chocolatine,2.0
2,Tea,3.0,1,muffin,3.0
3,Expresso,2.0,1,cookie,2.5
4,Expresso,2.0,1,chocolatine,2.0
5,Expresso,2.0,1,muffin,3.0
6,orange juice,2.5,1,cookie,2.5
7,orange juice,2.5,1,chocolatine,2.0
8,orange juice,2.5,1,muffin,3.0


---

<img src="images/cross_product.jpg" />

Au début, il n'y avait pas d'implémentation du cross_join dans pandas, et quand les gens en avaient besoin, ils l'implémentaient "à la mano":

<img src="images/cross_join_with_inner_so.png" />