# Merge - spojování tabulek v Pandas

V Pandas je ekvivalentem SQL příkazu `JOIN` funkce `merge`. Slouží ke spojení dvou nebo více tabulek do jedné na základě zadaných podmínek.

Dostupné typy spojení:
- `left` - použije všechny řádky z levé tabulky
- `right` - použije všechny řádky z pravé tabulky
- `inner` - použije pouze společné řádky (výchozí)
- `outer` - použije všechny řádky z obou tabulek
- `cross` - spojí každý řádek s každým (od Pandas 1.2.0)

## 1. Import knihovny a příprava dat

In [1]:
import pandas as pd

In [2]:
# Vytvoříme DataFrame s názvy krajů (simulace dat ze souboru)
df_province = pd.DataFrame({
    'province': ['DOLNÍ SLEZSKO', 'LUBUŠSKO', 'ZÁPADNÍ POMOŘANSKO', 
                 'VELKOPOLSKO', 'MALOPOLSKO', 'MAZOVSKO']
})

In [None]:
df_province

In [3]:
# Vytvoříme "slovník" krajů (některé existující + jeden nový, který ještě není v datech)
d_province = pd.DataFrame(
    columns=['d_province'],
    data=['DOLNÍ SLEZSKO', 'LUBUŠSKO', 'ZÁPADNÍ POMOŘANSKO', 'VARŠAVSKÝ OBVOD']
)

In [None]:
d_province

## 2. Funkce merge - základní parametry

```python
pd.merge(
    left,      # první DataFrame
    right,     # druhý DataFrame
    how,       # typ spojení: 'left', 'right', 'inner', 'outer', 'cross'
    on,        # sloupec pro spojení (pokud má stejný název v obou tabulkách)
    left_on,   # sloupec z levé tabulky
    right_on   # sloupec z pravé tabulky
)
```

Parametry `left_on` a `right_on` používáme, když se názvy sloupců liší.

## 3. LEFT JOIN

Použije všechny řádky z levé tabulky. Pokud není shoda v pravé tabulce, hodnoty budou `NaN`.

In [4]:
# Spojení pomocí left join
left_join_example = pd.merge(
    left=df_province,
    right=d_province,
    how='left',
    left_on=['province'],
    right_on=['d_province']
)

In [5]:
left_join_example

Unnamed: 0,province,d_province
0,DOLNÍ SLEZSKO,DOLNÍ SLEZSKO
1,LUBUŠSKO,LUBUŠSKO
2,ZÁPADNÍ POMOŘANSKO,ZÁPADNÍ POMOŘANSKO
3,VELKOPOLSKO,
4,MALOPOLSKO,
5,MAZOVSKO,


**Otázka:** Proč mají některé řádky hodnotu `NaN` ve sloupci `d_province`?

## 4. RIGHT JOIN

Použije všechny řádky z pravé tabulky. Je to opak `left join` - můžeme je vzájemně zaměnit prohozením tabulek.

In [6]:
# Spojení pomocí right join
right_join_example = pd.merge(
    left=df_province,
    right=d_province,
    how='right',
    left_on=['province'],
    right_on=['d_province']
)

In [7]:
right_join_example

Unnamed: 0,province,d_province
0,DOLNÍ SLEZSKO,DOLNÍ SLEZSKO
1,LUBUŠSKO,LUBUŠSKO
2,ZÁPADNÍ POMOŘANSKO,ZÁPADNÍ POMOŘANSKO
3,,VARŠAVSKÝ OBVOD


**Otázka:** Který kraj se objevil, který nebyl v původních datech `df_province`?

## 5. INNER JOIN

Vrátí pouze řádky, které existují v obou tabulkách (průnik). Toto je **výchozí** typ spojení.

In [8]:
# Spojení pomocí inner join
inner_join_example = pd.merge(
    left=df_province,
    right=d_province,
    how='inner',  # můžeme vynechat, je to výchozí hodnota
    left_on=['province'],
    right_on=['d_province']
)

In [9]:
inner_join_example

Unnamed: 0,province,d_province
0,DOLNÍ SLEZSKO,DOLNÍ SLEZSKO
1,LUBUŠSKO,LUBUŠSKO
2,ZÁPADNÍ POMOŘANSKO,ZÁPADNÍ POMOŘANSKO


In [10]:
print(f"Počet řádků: {len(inner_join_example)}")

Počet řádků: 3


## 6. OUTER JOIN

Vrátí všechny řádky z obou tabulek (sjednocení). Chybějící hodnoty budou `NaN`.

In [12]:
# Spojení pomocí outer join
outer_join_example = pd.merge(
    left=df_province,
    right=d_province,
    how='outer',
    left_on=['province'],
    right_on=['d_province']
)

In [13]:
outer_join_example

Unnamed: 0,province,d_province
0,DOLNÍ SLEZSKO,DOLNÍ SLEZSKO
1,LUBUŠSKO,LUBUŠSKO
2,MALOPOLSKO,
3,MAZOVSKO,
4,,VARŠAVSKÝ OBVOD
5,VELKOPOLSKO,
6,ZÁPADNÍ POMOŘANSKO,ZÁPADNÍ POMOŘANSKO


In [14]:
print(f"Počet řádků: {len(outer_join_example)}")

Počet řádků: 7


**Otázka:** Proč má `outer join` více řádků než `inner join`?

## 7. CROSS JOIN

Spojí každý řádek z levé tabulky s každým řádkem z pravé tabulky. **Pozor:** Může vytvořit velmi velkou tabulku! (n × m řádků)

In [15]:
# Spojení pomocí cross join
cross_join_example = pd.merge(
    left=df_province,
    right=d_province,
    how='cross'
    # u cross join nezadáváme podmínku spojení
)

In [16]:
cross_join_example

Unnamed: 0,province,d_province
0,DOLNÍ SLEZSKO,DOLNÍ SLEZSKO
1,DOLNÍ SLEZSKO,LUBUŠSKO
2,DOLNÍ SLEZSKO,ZÁPADNÍ POMOŘANSKO
3,DOLNÍ SLEZSKO,VARŠAVSKÝ OBVOD
4,LUBUŠSKO,DOLNÍ SLEZSKO
5,LUBUŠSKO,LUBUŠSKO
6,LUBUŠSKO,ZÁPADNÍ POMOŘANSKO
7,LUBUŠSKO,VARŠAVSKÝ OBVOD
8,ZÁPADNÍ POMOŘANSKO,DOLNÍ SLEZSKO
9,ZÁPADNÍ POMOŘANSKO,LUBUŠSKO


In [17]:
print(f"Počet řádků: {len(cross_join_example)}")
print(f"Očekáváno: {len(df_province)} × {len(d_province)} = {len(df_province) * len(d_province)}")

Počet řádků: 24
Očekáváno: 6 × 4 = 24


## 8. Merge s podmínkami

V Pandas můžeme při `merge` použít pouze operátor `==`. Pro složitější podmínky (jako `>=`, `<` atd.) musíme:
1. Nejprve udělat `cross join`
2. Poté filtrovat pomocí `loc` nebo `query`

In [20]:
# Najdeme kraje, kde název v province je >= než název v d_province
gp = pd.merge(
    left=df_province,
    right=d_province,
    how='cross'
)

In [None]:
# maska df['province'] > df['d_province']

gp.loc[gp['province'] >= gp['d_province']]

In [22]:
# Filtrujeme výsledek
result = gp.loc[gp['province'] >= gp['d_province']].sort_values('province')

In [None]:
result

In [None]:
result = pd.merge(left = df_province,
                  right = d_province,
                  how = 'cross'
                 ).query("province >= d_province").sort_values('province')
result

In [None]:
result = pd.merge(left = df_province,
                  right = d_province,
                  how = 'cross'
                 ).loc[lambda x: x['province'] >= x['d_province']].sort_values('province')
result

---
## Úlohy na opravu chyb

V následujících buňkách jsou chyby. Opravte je.

### Úloha 1: Opravte chybu v merge

In [33]:
# OPRAVTE: Chceme left join, ale kód nefunguje správně
result = pd.merge(
    left=df_province,
    right=d_province,
    how='left',
    on='province'  
)

KeyError: 'province'

In [34]:
# OPRAVTE: Chceme left join, ale kód nefunguje správně
result = pd.merge(
    left=df_province,
    right=d_province,
    how='left',
    left_on='province',
    right_on='d_province' 
)

### Úloha 2: Opravte syntaxi

In [35]:
# OPRAVTE: Cross join nefunguje
result = pd.merge(
    left=df_province,
    right=d_province,
    how='cross',
    left_on=['province'],  
    right_on=['d_province']
)

MergeError: Can not pass on, right_on, left_on or set right_index=True or left_index=True

In [36]:
# OPRAVTE: Cross join nefunguje
result = pd.merge(
    left=df_province,
    right=d_province,
    how='cross'
)

---
## Cvičení

### Cvičení 1: Normalizace datasetu

V listech souboru **dims.xlsx** jsou slovníky pro data ze souboru **product_prices_cleaned.csv**. Pomocí `merge` normalizujte data podle následujících kroků:

1. Načtěte obsah listů souboru **dims.xlsx** do samostatných `DataFrame`. Pro přehlednost pojmenujte rámce podle názvů listů.

2. Načtěte data ze souboru **product_prices_cleaned.csv** do proměnné `df`.

3. Na základě listu **d_province** pomocí sloupce `id` přidejte do rámce `df` sloupec `province_id`.

4. Na základě listu **d_product** přidejte do rámce `df` sloupec `product_id`.

5. Z tabulky extrahujte pouze sloupce, které odkazují na jiné tabulky (např. **product_id**) a sloupce **value**, **date**. Myslíte, že je to přehlednější? Jaké jsou potenciální výhody tohoto přístupu?

> Více o normalizaci databází najdete na [odkazu](https://www.sqlshack.com/what-is-database-normalization-in-sql-server/).

In [38]:
# Váš kód zde
f = pd.ExcelFile('../Data/dims.xlsx')
f.sheet_names

['d_province', 'd_product', 'd_product_group']

In [41]:
d_province = pd.read_excel('../Data/dims.xlsx', sheet_name='d_province')
d_province.head(2)

Unnamed: 0,province_id,province
0,8,SUBCARPATHIA
1,14,ŁÓDŹ


In [42]:
d_product = pd.read_excel('../Data/dims.xlsx', sheet_name='d_product')
d_product.head(2)

Unnamed: 0,product_id,product,product_group_id
0,20,pork ham cooked - per 1kg,2
1,26,bread - per 1kg,4


In [43]:
d_product_group = pd.read_excel('../Data/dims.xlsx', sheet_name='d_product_group')
d_product_group.head(2)

Unnamed: 0,product_group_id,product_group
0,1,preserves
1,2,meat products


In [44]:
df = pd.read_csv('../Data/product_prices_cleaned.csv', sep = ';')
df.head(2)

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date,product
0,SUBCARPATHIA,,PLN,2,pork ham cooked - per 1kg,21.37,2013-3,pork ham cooked - per 1kg
1,ŁÓDŹ,,PLN,4,bread - per 1kg,,2018-2,bread - per 1kg


In [45]:
df = pd.merge(
    left = df,
    right = d_province,
    how = 'left',
    on = 'province'    
)

In [46]:
df.head(2)

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date,product,province_id
0,SUBCARPATHIA,,PLN,2,pork ham cooked - per 1kg,21.37,2013-3,pork ham cooked - per 1kg,8.0
1,ŁÓDŹ,,PLN,4,bread - per 1kg,,2018-2,bread - per 1kg,14.0


In [50]:
sum(df['province_id'].isna())

7559

In [48]:
df[df['province_id'].isna()].head()

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date,product,province_id
7,POLAND,,PLN,2,pork belly cooked - per 1kg,19.62,2017-3,pork belly cooked - per 1kg,
13,POLAND,fresh chichen egges - per 10pcs.,PLN,3,,0.27,2009-8,fresh chichen egges - per 10pcs.,
15,POLAND,whole pickled cucumbers 0.9l - per 1pc.,PLN,1,,2.36,2004-12,whole pickled cucumbers 0.9l - per 1pc.,
16,POLAND,,PLN,4,bread - per 1kg,,2017-9,bread - per 1kg,
52,POLAND,,PLN,4,Masurian barley groats - per 1kg,2.08,2017-1,Masurian barley groats - per 1kg,


In [53]:
df.columns

Index(['province', 'product_types', 'currency', 'product_group_id',
       'product_line', 'value', 'date', 'product', 'province_id'],
      dtype='object')

In [54]:
d_product.columns

Index(['product_id', 'product', 'product_group_id'], dtype='object')

In [57]:
df = pd.merge(
    left = df,
    right = d_product,
    how = 'left',
    on = ['product', 'product_group_id'])
df.head(2)

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date,product,province_id,product_id
0,SUBCARPATHIA,,PLN,2,pork ham cooked - per 1kg,21.37,2013-3,pork ham cooked - per 1kg,8.0,20.0
1,ŁÓDŹ,,PLN,4,bread - per 1kg,,2018-2,bread - per 1kg,14.0,26.0


In [58]:
sum(df['product_id'].isna())

4284

In [59]:
df.columns

Index(['province', 'product_types', 'currency', 'product_group_id',
       'product_line', 'value', 'date', 'product', 'province_id',
       'product_id'],
      dtype='object')

In [64]:
df = df[['product_id',  'product_group_id', 'province_id', 'value', 'date']]

In [65]:
df.shape

(128503, 5)

In [66]:
df.head(2)

Unnamed: 0,product_id,product_group_id,province_id,value,date
0,20.0,2,8.0,21.37,2013-3
1,26.0,4,14.0,,2018-2


In [67]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128503 entries, 0 to 128502
Data columns (total 5 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   product_id        124219 non-null  float64
 1   product_group_id  128503 non-null  int64  
 2   province_id       120944 non-null  float64
 3   value             119935 non-null  float64
 4   date              128503 non-null  object 
dtypes: float64(3), int64(1), object(1)
memory usage: 4.9+ MB


### Cvičení 2: Merge s podmínkami

Pomocí surových dat ze souboru **product_prices_cleaned.csv** zjistěte, kolikrát byla historicky uvedena nižší cena pro daný **produkt, kraj a měsíc**. Postupujte takto:

1. Spojte tabulku samu se sebou. Jaký typ spojení byste měli použít?

2. Filtrujte data tak, abyste našli dřívější roky a hodnoty menší než v aktuálním roce v daném kraji.

3. Seskupte data odpovídajícím způsobem.

Který produkt(y) měl(y) nejvíce takových výskytů?

> Všimněte si, co se stane s názvy sloupců, když sloupce nejsou použity jako podmínka spojení, ale mají stejné názvy.

In [74]:
# Váš kód zde
df = pd.read_csv('../Data/product_prices_cleaned.csv', sep = ';')

In [77]:
df = df.head(1000)

In [78]:
df.shape

(1000, 8)

In [79]:
df.columns

Index(['province', 'product_types', 'currency', 'product_group_id',
       'product_line', 'value', 'date', 'product'],
      dtype='object')

In [80]:
dfm = pd.merge(
    left = df,
    right = df,
    how = 'inner',
    on = ['product', 'province']    
)
dfm.shape

(2988, 14)

In [83]:
dfm.columns

Index(['province', 'product_types_x', 'currency_x', 'product_group_id_x',
       'product_line_x', 'value_x', 'date_x', 'product', 'product_types_y',
       'currency_y', 'product_group_id_y', 'product_line_y', 'value_y',
       'date_y'],
      dtype='object')

In [84]:
df_fil = dfm.loc[(dfm['date_x'] < dfm ['date_y']) & (dfm['value_x'] <= dfm['value_y'])]
df_fil.shape

(727, 14)

In [86]:
df_fil.head(2)

Unnamed: 0,province,product_types_x,currency_x,product_group_id_x,product_line_x,value_x,date_x,product,product_types_y,currency_y,product_group_id_y,product_line_y,value_y,date_y
10,WARMIA-MASURIA,,PLN,2,Italian head cheese - per 1kg,5.63,2002-3,Italian head cheese - per 1kg,,PLN,2,Italian head cheese - per 1kg,8.89,2016-1
15,WEST POMERANIA,fresh chichen egges - per 10pcs.,PLN,3,,0.0,2004-12,fresh chichen egges - per 10pcs.,fresh chichen egges - per 10pcs.,PLN,3,,0.0,2011-6


In [90]:
df_fil = df_fil.sort_values('product')

In [92]:
df_fil.head(5)

Unnamed: 0,province,product_types_x,currency_x,product_group_id_x,product_line_x,value_x,date_x,product,product_types_y,currency_y,product_group_id_y,product_line_y,value_y,date_y
1711,HOLY CROSS,30% tomato concentrate - per 1kg,PLN,1,,0.0,2010-7,30% tomato concentrate - per 1kg,30% tomato concentrate - per 1kg,PLN,1,,0.0,2011-6
1712,HOLY CROSS,30% tomato concentrate - per 1kg,PLN,1,,0.0,2010-7,30% tomato concentrate - per 1kg,30% tomato concentrate - per 1kg,PLN,1,,0.0,2012-3
1116,HOLY CROSS,30% tomato concentrate - per 1kg,PLN,1,,0.0,2009-4,30% tomato concentrate - per 1kg,30% tomato concentrate - per 1kg,PLN,1,,0.0,2011-6
1117,HOLY CROSS,30% tomato concentrate - per 1kg,PLN,1,,0.0,2009-4,30% tomato concentrate - per 1kg,30% tomato concentrate - per 1kg,PLN,1,,0.0,2012-3
2413,LOWER SILESIA,30% tomato concentrate - per 1kg,PLN,1,,0.0,2006-7,30% tomato concentrate - per 1kg,30% tomato concentrate - per 1kg,PLN,1,,0.0,2010-11


In [98]:
# (df_fil['value_x'] != 0) & (df_fil['value_y'] != 0)
df_fil = df_fil.loc[(df_fil['value_x'] != 0) & (df_fil['value_y'] != 0)]
df_fil.head(4)

Unnamed: 0,province,product_types_x,currency_x,product_group_id_x,product_line_x,value_x,date_x,product,product_types_y,currency_y,product_group_id_y,product_line_y,value_y,date_y
2077,SILESIA,30% tomato concentrate - per 1kg,PLN,1,,4.76,2010-8,30% tomato concentrate - per 1kg,30% tomato concentrate - per 1kg,PLN,1,,6.07,2013-7
1663,SILESIA,30% tomato concentrate - per 1kg,PLN,1,,4.96,2010-11,30% tomato concentrate - per 1kg,30% tomato concentrate - per 1kg,PLN,1,,6.07,2013-7
25,POMERANIA,30% tomato concentrate - per 1kg,PLN,1,,7.46,1999-10,30% tomato concentrate - per 1kg,30% tomato concentrate - per 1kg,PLN,1,,11.91,2018-12
711,SUBCARPATHIA,30% tomato concentrate - per 1kg,PLN,1,,8.08,2006-4,30% tomato concentrate - per 1kg,30% tomato concentrate - per 1kg,PLN,1,,8.12,2007-5


In [99]:
df_fil.shape

(457, 14)

In [103]:
df_fil. groupby(by=['province', 'product', 'date_x']).size().sort_values(ascending=False)

province        product                                           date_x 
SILESIA         plain mixed bread (wheat-rye) - per 1kg           2000-11    5
                                                                  2000-12    5
WEST POMERANIA  buckwheat groats roasted whole - per 1kg          2005-10    4
LESSER POLAND   pork  with bone (center-cut pork chop) - per 1kg  2003-10    4
WARMIA-MASURIA  plain mixed bread (wheat-rye) - per 1kg           2003-10    4
                                                                            ..
WEST POMERANIA  pork  with bone (center-cut pork chop) - per 1kg  2002-1     1
                pork belly cooked - per 1kg                       2006-9     1
ŁÓDŹ            pork belly cooked - per 1kg                       1999-12    1
                pork meat with bone (shoulder) - per 1kg          2001-8     1
GREATER POLAND  Hunter's sausage dried - per 1kg                  2005-12    1
Length: 293, dtype: int64

---
## Přehled použitých metod a funkcí

| Funkce/Metoda | Popis |
|---------------|-------|
| `pd.merge()` | Spojení dvou DataFrame na základě společných sloupců |
| `how='left'` | Left join - všechny řádky z levé tabulky |
| `how='right'` | Right join - všechny řádky z pravé tabulky |
| `how='inner'` | Inner join - pouze společné řádky (výchozí) |
| `how='outer'` | Outer join - všechny řádky z obou tabulek |
| `how='cross'` | Cross join - kartézský součin (každý s každým) |
| `on` | Sloupec pro spojení (stejný název v obou tabulkách) |
| `left_on` | Sloupec z levé tabulky pro spojení |
| `right_on` | Sloupec z pravé tabulky pro spojení |
| `df.loc[]` | Filtrování DataFrame pomocí logické podmínky |
| `df.sort_values()` | Seřazení DataFrame podle sloupce |