# Kontingenční tabulky (Pivot tables)

Kontingenční tabulka je známý nástroj z tabulkových procesorů (Excel, Google Sheets). Umožňuje přetvořit data do přehlednější formy vhodné pro analýzu.

Kontingenční tabulka dokáže agregovat data pomocí průměru, součtu nebo jiné statistiky.

## Pivot v Pandas

Pandas nabízí dvě metody pro práci s kontingenčními tabulkami:

1. **`pivot`** - transformuje DataFrame pomocí hodnot pro index/sloupce. Nepodporuje agregaci, pouze reorganizuje data.

2. **`pivot_table`** - zobecněná verze pivot, podobná té z tabulkových procesorů. Podporuje agregace, ale pracuje pouze s číselnými hodnotami.

---
## Načtení dat

In [None]:
import pandas as pd

In [None]:
# Načtení dat ze souboru
df = pd.read_csv(
    'product_prices_cleaned.csv',  # cesta k souboru s daty
    sep=';',  # oddělovač sloupců
)

In [None]:
# Převod sloupce date na datetime
df['date'] = pd.to_datetime(df['date'], format='%Y-%m')

In [None]:
df.head()

In [None]:
df.info()

---
## Metoda `pivot`

Metoda `pivot` slouží k transformaci dat. Nepodporuje agregaci, ale může pracovat s libovolným typem dat.

**Parametry:**
- `data` - DataFrame, který chceme transformovat
- `index` - sloupce, které budou použity jako řádky/indexy
- `columns` - sloupce, které budou použity jako názvy sloupců
- `values` - sloupce, které se zobrazí jako hodnoty (na průsečíku řádku a sloupce)

**Důležité:** Sloupce předané do `index` a `columns` musí dohromady tvořit unikátní klíč (žádné duplicity). Jinak dostaneme `ValueError`.

### Příklad: Zobrazení hodnoty produktu v provincii podle data

In [None]:
# Zobrazení hodnoty produktu v provincii v čase
pd.pivot(
    data=df,  # DataFrame, který chceme "otočit"
    index=['province', 'product'],  # sloupce dat, které budou zobrazeny jako řádky
    columns=['date'],  # sloupec dat, který bude zobrazen jako sloupce
    values=['value']  # co zobrazit jako hodnoty
)

### Otázka k zamyšlení

Co se stane, když kombinace `index` a `columns` nebude unikátní? Jakou chybu Pandas vyhodí?

---
## Metoda `pivot_table`

Metoda podobná kontingenčním tabulkám z tabulkových procesorů. Umožňuje vypočítat statistiky - souhrny DataFramu.

Můžeme použít pouze číselné sloupce, ale na rozdíl od `pivot` nemusí být dvojice (index, columns) unikátní.

**Parametry:**
- `data` - DataFrame, který chceme zpracovat
- `values` - sloupce, které chceme agregovat
- `index` - sloupce, které budou použity jako řádky/indexy
- `columns` - sloupce, které budou použity jako názvy sloupců
- `aggfunc` - funkce pro agregaci hodnot, výchozí je průměr (`'mean'`)

### Příklad: Průměrná cena produktu v provinciích

In [None]:
# Určení průměrné ceny produktu v provinciích
pd.pivot_table(
    data=df,
    index=['product'],
    columns=['province'],
    values=['value']
)

### Příklad: Medián cen v provinciích

In [None]:
# Určení mediánu cen v provinciích
pd.pivot_table(
    data=df,
    index=['product'],
    columns=['province'],
    values=['value'],
    aggfunc='median'
)

---
## Úloha: Oprav chybu v kódu

V následujícím kódu je chyba. Najdi ji a oprav.

In [None]:
# OPRAV CHYBU: Chceme vytvořit pivot tabulku s průměrnou cenou produktů podle roku
pd.pivot_table(
    data=df,
    index='product', 
    columns='province', 
    values='value',  
    aggfunc=mean  
)

---
## Úloha: Doplň kód

Doplň chybějící parametry v následujícím kódu tak, aby pivot tabulka zobrazila minimální ceny produktů v jednotlivých provinciích.

In [None]:
# DOPLŇ: Vytvoř pivot tabulku s minimální cenou produktů v provinciích
pd.pivot_table(
    data=df,
    index=___,  # produkty jako řádky
    columns=___,  # provincie jako sloupce
    values=___,  # hodnota ceny
    aggfunc=___  # minimální hodnota
)

---
## Praktické úlohy

Použij data ze souboru **product_prices_cleaned.csv** a vyřeš následující úlohy:

### Úloha 1

Vytvoř kontingenční tabulku, kde řádky budou roky a sloupce názvy zboží. Jako hodnotu použij průměrnou cenu produktu.

**Nápověda:** Pro extrakci roku z data můžeš použít `df['date'].dt.year`

In [None]:
# Tvůj kód zde:


### Úloha 2

Kód s využitím `pivot` funkcie pretransformuj na řešení s pomocí `lambda` a `pivot_table`.

**Kód:**
```python
pd.pivot(data=df, index=['province', 'product'], columns=['date'], values=['value'])
```

Analyzuj výsledek rekonstrukce - co můžeš říct o tom, co bylo předáno funkci?

In [None]:
# Tvůj kód zde:


### Úloha 3

Pomocí `pivot_table` zjisti, jak se vyvíjely průměrné a mediánové ceny produktů v jednotlivých regiónech v průběhu let.

**Nápověda:** Do parametru `aggfunc` lze předat seznam funkcí, např. `['mean', 'median']`

In [None]:
# Tvůj kód zde:


---
## Přehled použitých metod a funkcí

| Metoda/Funkce | Popis |
|---------------|-------|
| `pd.read_csv()` | Načtení dat z CSV souboru do DataFrame |
| `pd.to_datetime()` | Převod sloupce na datetime formát |
| `df.head()` | Zobrazení prvních řádků DataFrame |
| `df.info()` | Zobrazení informací o DataFrame (typy, paměť) |
| `pd.pivot()` | Transformace dat bez agregace, vyžaduje unikátní kombinaci index+columns |
| `pd.pivot_table()` | Kontingenční tabulka s agregací, podporuje duplicitní klíče |
| `df['col'].dt.year` | Extrakce roku z datetime sloupce |