In [3]:
import pandas as pd
import duckdb
import io

In [4]:
csv = """
beverages,price
orang juice,2.5
Expresso,2
Tea,3
"""

beverages = pd.read_csv(io.StringIO(csv))

In [6]:
query_beverages = """
SELECT * FROM beverages
"""
duckdb.sql(query_beverages)

┌─────────────┬────────┐
│  beverages  │ price  │
│   varchar   │ double │
├─────────────┼────────┤
│ orang juice │    2.5 │
│ Expresso    │    2.0 │
│ Tea         │    3.0 │
└─────────────┴────────┘

In [8]:
csv2 = """
food_item,food_price
cookie juice,2.5
chocolatine,2
muffin,3
"""

food_items = pd.read_csv(io.StringIO(csv2))

In [9]:
query_food_items = """
SELECT * FROM food_items
"""
duckdb.sql(query_food_items)

┌──────────────┬────────────┐
│  food_item   │ food_price │
│   varchar    │   double   │
├──────────────┼────────────┤
│ cookie juice │        2.5 │
│ chocolatine  │        2.0 │
│ muffin       │        3.0 │
└──────────────┴────────────┘

## Cross join (SQL et Python)

In [15]:
# SQL
cross_join_query = """
SELECT * FROM beverages
CROSS JOIN food_items
"""
duckdb.sql(cross_join_query)

┌─────────────┬────────┬──────────────┬────────────┐
│  beverages  │ price  │  food_item   │ food_price │
│   varchar   │ double │   varchar    │   double   │
├─────────────┼────────┼──────────────┼────────────┤
│ orang juice │    2.5 │ cookie juice │        2.5 │
│ orang juice │    2.5 │ chocolatine  │        2.0 │
│ orang juice │    2.5 │ muffin       │        3.0 │
│ Expresso    │    2.0 │ cookie juice │        2.5 │
│ Expresso    │    2.0 │ chocolatine  │        2.0 │
│ Expresso    │    2.0 │ muffin       │        3.0 │
│ Tea         │    3.0 │ cookie juice │        2.5 │
│ Tea         │    3.0 │ chocolatine  │        2.0 │
│ Tea         │    3.0 │ muffin       │        3.0 │
└─────────────┴────────┴──────────────┴────────────┘

In [12]:
# Python
output = (
    beverages
    .join(food_items, how="cross")

)
output

Unnamed: 0,beverages,price,food_item,food_price
0,orang juice,2.5,cookie juice,2.5
1,orang juice,2.5,chocolatine,2.0
2,orang juice,2.5,muffin,3.0
3,Expresso,2.0,cookie juice,2.5
4,Expresso,2.0,chocolatine,2.0
5,Expresso,2.0,muffin,3.0
6,Tea,3.0,cookie juice,2.5
7,Tea,3.0,chocolatine,2.0
8,Tea,3.0,muffin,3.0


In [13]:
duckdb.sql(cross_join_query).df()

Unnamed: 0,beverages,price,food_item,food_price
0,orang juice,2.5,cookie juice,2.5
1,orang juice,2.5,chocolatine,2.0
2,orang juice,2.5,muffin,3.0
3,Expresso,2.0,cookie juice,2.5
4,Expresso,2.0,chocolatine,2.0
5,Expresso,2.0,muffin,3.0
6,Tea,3.0,cookie juice,2.5
7,Tea,3.0,chocolatine,2.0
8,Tea,3.0,muffin,3.0


### EXERCICE

In [16]:
size = '''
size
XS
M
L
XL
'''

trademark = '''
trademark
Nike
Asphalte
Abercrombie
Lewis
'''

size = pd.read_csv(io.StringIO(size))
trademark = pd.read_csv(io.StringIO(trademark))

##### En SQL

In [18]:
sql_cross_join = """
SELECT * FROM size
CROSS JOIN trademark
"""

duckdb.sql(sql_cross_join)

┌─────────┬─────────────┐
│  size   │  trademark  │
│ varchar │   varchar   │
├─────────┼─────────────┤
│ XS      │ Nike        │
│ XS      │ Asphalte    │
│ XS      │ Abercrombie │
│ XS      │ Lewis       │
│ M       │ Nike        │
│ M       │ Asphalte    │
│ M       │ Abercrombie │
│ M       │ Lewis       │
│ L       │ Nike        │
│ L       │ Asphalte    │
│ L       │ Abercrombie │
│ L       │ Lewis       │
│ XL      │ Nike        │
│ XL      │ Asphalte    │
│ XL      │ Abercrombie │
│ XL      │ Lewis       │
├─────────┴─────────────┤
│ 16 rows     2 columns │
└───────────────────────┘

##### En Python

In [19]:
python_cross_join = (
    size
    .join(trademark, how = "cross")
    
)

python_cross_join

Unnamed: 0,size,trademark
0,XS,Nike
1,XS,Asphalte
2,XS,Abercrombie
3,XS,Lewis
4,M,Nike
5,M,Asphalte
6,M,Abercrombie
7,M,Lewis
8,L,Nike
9,L,Asphalte


### Exercice 2

Créez un set pour toutes les heures de 8h à midi, et un set pour chaque quart d'heure.

Faites le cross join pour obtenir tous les quarts d'heure d'ouverture de votre magasin.

In [23]:
hours = """
hour
8
9
10
11
12
"""

quarts = """
quart
00
15
30
45

"""

hours = pd.read_csv(io.StringIO(hours))
quarts = pd.read_csv(io.StringIO(quarts))

##### En SQL

In [26]:
hours_quarts_query = """
SELECT * FROM hours
CROSS JOIN quarts
ORDER BY hour
"""

duckdb.sql(hours_quarts_query)

┌───────┬───────┐
│ hour  │ quart │
│ int64 │ int64 │
├───────┼───────┤
│     8 │     0 │
│     8 │    15 │
│     8 │    30 │
│     8 │    45 │
│     9 │     0 │
│     9 │    15 │
│     9 │    30 │
│     9 │    45 │
│    10 │     0 │
│    10 │    15 │
│    10 │    30 │
│    10 │    45 │
│    11 │     0 │
│    11 │    15 │
│    11 │    30 │
│    11 │    45 │
│    12 │     0 │
│    12 │    15 │
│    12 │    30 │
│    12 │    45 │
├───────┴───────┤
│    20 rows    │
└───────────────┘

##### En Python

In [30]:
hours_quarts_python = hours.join(quarts, how = "cross") # pour trier par "quart" --> .sort_values(by="quart", ascending=False)
hours_quarts_python

Unnamed: 0,hour,quart
0,8,0
1,8,15
2,8,30
3,8,45
4,9,0
5,9,15
6,9,30
7,9,45
8,10,0
9,10,15


# Cas real: retail

In [32]:
df = pd.read_csv(r"C:\Users\kervi\OneDrive\Bureau\BENJAMIN DUBREU FORMATION\Manipulation Data\Cross join benjamin\data\weights_turnover_retail.csv")

In [33]:
df

Unnamed: 0,store_name,month,day_of_week,market_type,quarterhour,turnover_weight,n_lines
0,Lesquin,1,1,fruits et légumes,08:45,0.000006,3.0
1,Lesquin,1,1,fruits et légumes,09:00,0.000034,16.0
2,Lesquin,1,1,fruits et légumes,09:15,0.000155,46.0
3,Lesquin,1,1,fruits et légumes,09:30,0.000267,81.0
4,Lesquin,1,1,fruits et légumes,09:45,0.000480,123.0
...,...,...,...,...,...,...,...
87036,Whatever,12,7,jeux vidéos,18:45,0.000002,3.0
87037,Whatever,12,7,jeux vidéos,19:00,0.000008,5.0
87038,Whatever,12,7,jeux vidéos,19:15,0.000006,5.0
87039,Whatever,12,7,jeux vidéos,19:30,0.000002,3.0


#### on veut cross join : entre tout

In [35]:
group_by_sql = """
SELECT 
    market_type,
    COUNT(market_type)
FROM df
GROUP BY market_type
"""
duckdb.sql(group_by_sql)

┌───────────────────┬────────────────────┐
│    market_type    │ count(market_type) │
│      varchar      │       int64        │
├───────────────────┼────────────────────┤
│ fruits et légumes │              17790 │
│ snacks            │              17740 │
│ produits maison   │              17684 │
│ charcuterie       │              17678 │
│ jeux vidéos       │              16149 │
└───────────────────┴────────────────────┘

In [36]:
value_counts = df["market_type"].value_counts()
value_counts

fruits et légumes    17790
snacks               17740
produits maison      17684
charcuterie          17678
jeux vidéos          16149
Name: market_type, dtype: int64

In [37]:
unique_stores = ['Lesquin', 'Londres', 'Madrid', 'Paris', 'Whatever']
unique_months = list(range(1,13))
unique_days = list(range(1,8))
unique_markets = ['fruits et légumes', 'produits maison', 'charcuterie', 'snacks', 'jeux vidéos']
quarters = (['08:00', '08:30', '08:45', '09:00', '09:15', '09:30', '09:45',
       '10:00', '10:15', '10:30', '10:45', '11:00', '11:15', '11:30',
       '11:45', '12:00', '12:15', '12:30', '12:45', '13:00', '13:15',
       '13:30', '08:30', '13:45', '14:00', '14:15', '14:30', '14:45',
       '15:00', '15:15', '15:30', '15:45', '16:00', '16:15', '16:30',
       '16:45', '17:00', '17:15', '17:30', '17:45', '18:00', '18:15',
       '18:30', '18:45', '19:00', '19:15', '19:30', '19:45', '20:00'])

In [38]:
stores = pd.DataFrame(unique_stores, columns=["store_id"])

months = pd.DataFrame(unique_months, columns=["month"])

dows = pd.DataFrame(unique_days, columns=["day_of_week"])

markets = pd.DataFrame(unique_markets, columns=["market_type"])

quarters = pd.DataFrame(quarters, columns=["quarterhour"])

### CROSS JOIN AVEC PYTHON

In [41]:
full = (
    stores
    .join(months, how = "cross")
    .join(dows, how = "cross")
    .join(markets, how = "cross")
    .join(quarters, how = "cross")
)
full = full[~((full.day_of_week == 7) & (full.quarterhour >= "12:00"))]
full

Unnamed: 0,store_id,month,day_of_week,market_type,quarterhour
0,Lesquin,1,1,fruits et légumes,08:00
1,Lesquin,1,1,fruits et légumes,08:30
2,Lesquin,1,1,fruits et légumes,08:45
3,Lesquin,1,1,fruits et légumes,09:00
4,Lesquin,1,1,fruits et légumes,09:15
...,...,...,...,...,...
102862,Whatever,12,7,jeux vidéos,11:00
102863,Whatever,12,7,jeux vidéos,11:15
102864,Whatever,12,7,jeux vidéos,11:30
102865,Whatever,12,7,jeux vidéos,11:45


### CROSS JOIN AVEC SQL

In [53]:
cross_join_full_sql = """
SELECT 
    *
FROM stores
CROSS JOIN months
CROSS JOIN dows
CROSS JOIN markets
CROSS JOIN quarters

WHERE NOT (day_of_week = 7 AND quarterhour >= '12:00')
ORDER BY day_of_week DESC

"""
duckdb.sql(cross_join_full_sql)

┌──────────┬───────┬─────────────┬───────────────────┬─────────────┐
│ store_id │ month │ day_of_week │    market_type    │ quarterhour │
│ varchar  │ int64 │    int64    │      varchar      │   varchar   │
├──────────┼───────┼─────────────┼───────────────────┼─────────────┤
│ Lesquin  │     1 │           7 │ fruits et légumes │ 08:00       │
│ Lesquin  │     2 │           7 │ fruits et légumes │ 08:00       │
│ Lesquin  │     3 │           7 │ fruits et légumes │ 08:00       │
│ Lesquin  │     4 │           7 │ fruits et légumes │ 08:00       │
│ Lesquin  │     5 │           7 │ fruits et légumes │ 08:00       │
│ Lesquin  │     6 │           7 │ fruits et légumes │ 08:00       │
│ Lesquin  │     7 │           7 │ fruits et légumes │ 08:00       │
│ Lesquin  │     8 │           7 │ fruits et légumes │ 08:00       │
│ Lesquin  │     9 │           7 │ fruits et légumes │ 08:00       │
│ Lesquin  │    10 │           7 │ fruits et légumes │ 08:00       │
│   ·      │     · │           · │