# Seskupování dat (Grouping data)

Seskupování dat je jednou ze základních analytických operací. Umožňuje nám vyvozovat zobecněné závěry na základě množiny dat.

Základní agregační funkce:
- **mean** - průměr
- **median** - medián (střední hodnota)
- **min** - minimum
- **max** - maximum
- **count** - počet pozorování

## Příprava dat

V této lekci budeme pracovat s vyčištěnými daty ze souboru `product_prices_cleaned.csv`.

In [1]:
# Import knihovny pandas
import pandas as pd

In [2]:
# Načtení dat
df = pd.read_csv(r'..\Data\product_prices_renamed.csv', sep = ';')

In [3]:
# Zobrazení prvních řádků
df.head()

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
0,SUBCARPATHIA,,PLN,2,pork ham cooked - per 1kg,21.37,2013-3
1,ŁÓDŹ,,PLN,4,bread - per 1kg,,2018-2
2,KUYAVIA-POMERANIA,,PLN,2,barley groats sausage - per 1kg,3.55,2019-12
3,LOWER SILESIA,,PLN,2,dressed chickens - per 1kg,6.14,2019-2
4,WARMIA-MASURIA,,PLN,2,Italian head cheese - per 1kg,5.63,2002-3


In [4]:
# Zjištění informací o datech
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149940 entries, 0 to 149939
Data columns (total 7 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   province          149940 non-null  object 
 1   product_types     34272 non-null   object 
 2   currency          149940 non-null  object 
 3   product_group_id  149940 non-null  int64  
 4   product_line      115668 non-null  object 
 5   value             137088 non-null  float64
 6   date              149940 non-null  object 
dtypes: float64(1), int64(1), object(5)
memory usage: 8.0+ MB


---

## Základní agregační funkce v Pandas

| Statistika | Název v Pandas | Příklad použití |
|------------|----------------|------------------|
| průměr | mean | `df['value'].mean()` |
| medián | median | `df['value'].median()` |
| minimum | min | `df['value'].min()` |
| maximum | max | `df['value'].max()` |
| počet | count | `df['value'].count()` |

In [5]:
# Průměrná cena
df['value'].mean()

np.float64(6.615226740294512)

In [None]:
# Medián ceny
df['value'].median()

In [None]:
# Minimální cena
df['value'].min()

In [None]:
# Maximální cena
df['value'].max()

In [None]:
# Počet hodnot
df['value'].count()

---

## Seskupování v Pandas - metoda `groupby`

Klíčem k datové analýze je správné rozdělení dat - abychom mohli vyvozovat správné závěry. Příslovečné "porovnávání jablek s hruškami" se týká právě tohoto problému.

Pandas nabízí flexibilní rozhraní `groupby`, které umožňuje přirozeně rozdělovat a sumarizovat datové sady.

### Jednoduchý příklad na malých datech

Nejprve si ukážeme `groupby` na jednoduchém příkladu, abychom pochopili princip.

In [6]:
# Vytvoření malého DataFrame pro ukázku
data = {
    'produkt': ['jablka', 'jablka', 'hrušky', 'hrušky', 'banány', 'banány'],
    'obchod': ['Tesco', 'Billa', 'Tesco', 'Billa', 'Tesco', 'Billa'],
    'cena': [25, 28, 30, 32, 20, 22]
}

df_ovoce = pd.DataFrame(data)
df_ovoce

Unnamed: 0,produkt,obchod,cena
0,jablka,Tesco,25
1,jablka,Billa,28
2,hrušky,Tesco,30
3,hrušky,Billa,32
4,banány,Tesco,20
5,banány,Billa,22


In [7]:
df_ovoce.groupby('obchod')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001D3561DB380>

In [9]:
skupiny = df_ovoce.groupby('obchod')

In [10]:
skupiny.groups

{'Billa': [1, 3, 5], 'Tesco': [0, 2, 4]}

In [11]:
skupiny.groups.keys()

dict_keys(['Billa', 'Tesco'])

In [13]:
skupiny.groups.values()

dict_values([Index([1, 3, 5], dtype='int64'), Index([0, 2, 4], dtype='int64')])

In [8]:
# Seskupení podle produktu
skupiny_podle_produktu = df_ovoce.groupby('produkt')
print(type(skupiny_podle_produktu))

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


In [14]:
# Jaké máme skupiny?
skupiny_podle_produktu.groups.keys()

dict_keys(['banány', 'hrušky', 'jablka'])

In [17]:
df_ovoce['cena'].mean()

np.float64(26.166666666666668)

In [18]:
# Průměrná cena každého produktu
skupiny_podle_produktu['cena'].mean()

produkt
banány    21.0
hrušky    31.0
jablka    26.5
Name: cena, dtype: float64

In [19]:
# Iterace přes skupiny - podívejme se, co je v každé skupině
for produkt, data in skupiny_podle_produktu:
    print(f"\n=== {produkt} ===")
    print(data)


=== banány ===
  produkt obchod  cena
4  banány  Tesco    20
5  banány  Billa    22

=== hrušky ===
  produkt obchod  cena
2  hrušky  Tesco    30
3  hrušky  Billa    32

=== jablka ===
  produkt obchod  cena
0  jablka  Tesco    25
1  jablka  Billa    28


In [21]:
# Výběr konkrétní skupiny
skupiny_podle_produktu.get_group('jablka')

Unnamed: 0,produkt,obchod,cena
0,jablka,Tesco,25
1,jablka,Billa,28


In [22]:
skupiny_podle_produktu['cena'].mean()

produkt
banány    21.0
hrušky    31.0
jablka    26.5
Name: cena, dtype: float64

In [23]:
skupiny_podle_produktu['cena'].min()

produkt
banány    20
hrušky    30
jablka    25
Name: cena, dtype: int64

In [24]:
skupiny_podle_produktu['cena'].max()

produkt
banány    22
hrušky    32
jablka    28
Name: cena, dtype: int64

In [25]:
# Více statistik najednou pomocí agg
skupiny_podle_produktu['cena'].agg(['min', 'max', 'mean'])

Unnamed: 0_level_0,min,max,mean
produkt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
banány,20,22,21.0
hrušky,30,32,31.0
jablka,25,28,26.5


**Co se děje:**
1. `groupby('produkt')` rozdělí data do skupin podle hodnot ve sloupci 'produkt'
2. Každá skupina obsahuje všechny řádky se stejnou hodnotou produktu
3. Na každou skupinu můžeme aplikovat agregační funkce (mean, min, max...)

---

## Práce s reálnými daty

Nyní použijeme stejné principy na větším datasetu s cenami produktů.

### Základní použití `groupby`

Metoda `groupby` seskupuje DataFrame podle jednoho nebo více sloupců. Vrací objekt `DataFrameGroupBy`.

In [26]:
df.columns

Index(['province', 'product_types', 'currency', 'product_group_id',
       'product_line', 'value', 'date'],
      dtype='object')

In [27]:
# Seskupení podle data
df_by_date = df.groupby('date')

In [28]:
# Vrací objekt DataFrameGroupBy
type(df_by_date)

pandas.core.groupby.generic.DataFrameGroupBy

Objekt `DataFrameGroupBy` si můžeme představit jako kolekci DataFrame, kde každý obsahuje řádky se stejnou hodnotou ve sloupci, podle kterého jsme seskupovali.

---

## Iterace přes skupiny

Při rozbalení objektu `DataFrameGroupBy` dostaneme dvě proměnné:
1. **key** - unikátní hodnota ze sloupce, podle kterého seskupujeme
2. **podmnožina dat** - řádky se stejnou hodnotou klíče (je to DataFrame)

In [30]:
len(df_by_date.groups.keys())

254

In [31]:
# Iterace přes první 4 skupiny (pro ukázku)
counter = 0

for (key, df_date) in df_by_date:
    print(f"Klíč: {key}")
    print(df_date.head(5))
    print("-" * 50)
    counter += 1
    if counter >= 4:
        break

Klíč: 1888-0
             province product_types currency  product_group_id  \
11908          LUBUSZ           NaN      PLN                 2   
14765         SILESIA           NaN      PLN                 2   
16125  WARMIA-MASURIA           NaN      PLN                 2   
18737   LOWER SILESIA           NaN      PLN                 2   
20293      HOLY CROSS           NaN      PLN                 2   

                           product_line  value    date  
11908  fresh non-dressed carp - per 1kg   8.17  1888-0  
14765  fresh non-dressed carp - per 1kg   0.00  1888-0  
16125  fresh non-dressed carp - per 1kg   8.03  1888-0  
18737  fresh non-dressed carp - per 1kg   0.00  1888-0  
20293  fresh non-dressed carp - per 1kg   7.94  1888-0  
--------------------------------------------------
Klíč: 1999-1
               province product_types currency  product_group_id  \
133      WARMIA-MASURIA           NaN      PLN                 2   
301   KUYAVIA-POMERANIA           NaN      PLN  

### Práce s konkrétními skupinami

Užitečné metody:
- `groups.keys()` - zobrazí klíče, podle kterých byla kolekce rozdělena
- `get_group()` - vybere konkrétní podmnožinu

In [32]:
# Zobrazení dostupných skupin (klíčů)
df_by_date.groups.keys()

dict_keys(['1888-0', '1999-1', '1999-10', '1999-11', '1999-12', '1999-2', '1999-3', '1999-4', '1999-5', '1999-6', '1999-7', '1999-8', '1999-9', '2000-1', '2000-10', '2000-11', '2000-12', '2000-2', '2000-3', '2000-4', '2000-5', '2000-6', '2000-7', '2000-8', '2000-9', '2001-1', '2001-10', '2001-11', '2001-12', '2001-2', '2001-3', '2001-4', '2001-5', '2001-6', '2001-7', '2001-8', '2001-9', '2002-1', '2002-10', '2002-11', '2002-12', '2002-2', '2002-3', '2002-4', '2002-5', '2002-6', '2002-7', '2002-8', '2002-9', '2003-1', '2003-10', '2003-11', '2003-12', '2003-2', '2003-3', '2003-4', '2003-5', '2003-6', '2003-7', '2003-8', '2003-9', '2004-1', '2004-10', '2004-11', '2004-12', '2004-2', '2004-3', '2004-4', '2004-5', '2004-6', '2004-7', '2004-8', '2004-9', '2005-1', '2005-10', '2005-11', '2005-12', '2005-2', '2005-3', '2005-4', '2005-5', '2005-6', '2005-7', '2005-8', '2005-9', '2006-1', '2006-10', '2006-11', '2006-12', '2006-2', '2006-3', '2006-4', '2006-5', '2006-6', '2006-7', '2006-8', '2006

In [None]:
# Výběr konkrétní skupiny - například '2019-9-01'
# (upravte datum podle dat ve vašem souboru)
# df_by_date.get_group('2019-9-01')

In [35]:
df_by_date.get_group('2019-1')

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
994,MASOVIA,,PLN,2,pork with bone (center-cut pork chop) - per 1kg,14.58,2019-1
1053,POLAND,,PLN,2,dressed chickens - per 1kg,6.22,2019-1
1102,WEST POMERANIA,,PLN,2,pork with bone (center-cut pork chop) - per 1kg,14.97,2019-1
1574,WEST POMERANIA,,PLN,2,fresh non-dressed trout - per 1kg,12.87,2019-1
1813,LESSER POLAND,,PLN,4,buckwheat groats roasted whole - per 1kg,0.00,2019-1
...,...,...,...,...,...,...,...
149148,SILESIA,,PLN,2,fresh non-dressed trout - per 1kg,0.00,2019-1
149361,MASOVIA,,PLN,2,Italian head cheese - per 1kg,13.22,2019-1
149366,PODLASKIE,30% tomato concentrate - per 1kg,PLN,1,,0.00,2019-1
149615,WARMIA-MASURIA,,PLN,2,pork ham cooked - per 1kg,24.29,2019-1


**Otázka k zamyšlení:** Proč je výsledek `get_group()` typu DataFrame a ne DataFrameGroupBy?

---

## Statistiky na seskupených datech

Objekt `DataFrameGroupBy` implementuje všechny základní statistiky jako `DataFrame`. Rozdíl je v tom, že statistiky se počítají pro každou skupinu zvlášť.

In [36]:
# Maximální cena v daném měsíci
df_by_date['value'].max()

date
1888-0      8.17
1999-1     17.86
1999-10    22.00
1999-11    22.26
1999-12    22.59
           ...  
2019-6     32.81
2019-7     32.81
2019-8     32.81
2019-9     32.81
2099-13    20.96
Name: value, Length: 254, dtype: float64

In [37]:
# Průměrná cena produktů v měsíci
df_by_date['value'].mean()

date
1888-0     4.051765
1999-1     4.498899
1999-10    4.617719
1999-11    4.588033
1999-12    4.638095
             ...   
2019-6     6.366698
2019-7     6.560438
2019-8     6.427568
2019-9     6.375831
2099-13    7.349412
Name: value, Length: 254, dtype: float64

**Úloha - oprav chybu:** Následující kód obsahuje chybu. Najdi ji a oprav.

In [38]:
# Chyba: Chceme spočítat počet záznamů pro každé datum
df_by_date.count['value']()

TypeError: 'method' object is not subscriptable

In [39]:
df_by_date['value'].count()

date
1888-0      17
1999-1     527
1999-10    544
1999-11    544
1999-12    544
          ... 
2019-6     544
2019-7     544
2019-8     544
2019-9     544
2099-13     17
Name: value, Length: 254, dtype: int64

---

## Funkce `agg` / `aggregate`

Funkce `agg` slouží k agregaci řádků nebo sloupců pomocí jedné nebo více funkcí. Můžeme použít:
- předdefinované funkce (`mean`, `median`, `min`, `max`...)
- vlastní funkce
- lambda funkce

S `agg` můžeme analyzovat každý sloupec nezávisle.

**Poznámka:** Funkce `aggregate` je totožná s `agg` - je to alias.

In [40]:
# Určení maximální, minimální a průměrné ceny ve sloupci value
df[['value']].agg(["min", "max", "mean"])

Unnamed: 0,value
min,0.0
max,3000.0
mean,6.615227


### Kombinace `groupby` a `agg`

Nejčastěji se `agg` používá ve spojení s `groupby` pro výpočet více statistik najednou.

In [41]:
# Více statistik pro každou skupinu
df.groupby('date')['value'].agg(['min', 'max', 'mean', 'median', 'std'])

Unnamed: 0_level_0,min,max,mean,median,std
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1888-0,0.0,8.17,4.051765,6.840,3.953741
1999-1,0.0,17.86,4.498899,2.200,4.985182
1999-10,0.0,22.00,4.617719,2.265,5.163354
1999-11,0.0,22.26,4.588033,2.200,5.150470
1999-12,0.0,22.59,4.638095,2.260,5.167312
...,...,...,...,...,...
2019-6,0.0,32.81,6.366698,3.770,7.185322
2019-7,0.0,32.81,6.560438,3.910,7.324178
2019-8,0.0,32.81,6.427568,3.915,7.150963
2019-9,0.0,32.81,6.375831,3.825,7.070288


**Otázka k zamyšlení:** Co znamená `std` ve výstupu? Kdy je tato statistika užitečná?

### Seskupení podle více sloupců

In [43]:
# Seskupení podle produktu a data
df.groupby(['date', 'product_types'])['value'].mean()

date    product_types                          
1999-1  30% tomato concentrate - per 1kg           3.455882
        apple juice, boxed - per 1l                1.285882
        beet sugar white, bagged - per 1kg         1.525294
        fresh chichen egges - per 666pcs.          0.062353
        frozen carrot and pea mix - per 1kg        0.541176
                                                     ...   
2019-9  fresh chichen egges - per 666pcs.          0.227647
        frozen carrot and pea mix - per 1kg        0.534231
        natural chocolate plain - per 1kg          4.727647
        white table salt bagged - per 1kg          0.088235
        whole pickled cucumbers 0.9l - per 1pc.    2.145882
Name: value, Length: 2016, dtype: float64

In [45]:
len(df.groupby(['date', 'product_types']).groups.keys())

2270

**Úloha - doplň kód:** Doplň chybějící část kódu pro výpočet minimální a maximální ceny pro každý produkt.

In [None]:
# Doplň: min a max cena pro každý produkt
# df.groupby(___)[___].agg([___, ___])

In [47]:
df.groupby('product_types')['value'].agg(['min', 'max'])

Unnamed: 0_level_0,min,max
product_types,Unnamed: 1_level_1,Unnamed: 2_level_1
30% tomato concentrate - per 1kg,0.0,3000.0
"apple juice, boxed - per 1l",0.0,3.29
"beet sugar white, bagged - per 1kg",0.0,3.98
fresh chichen egges - per 666pcs.,0.0,0.52
frozen carrot and pea mix - per 1kg,0.0,1.221687
natural chocolate plain - per 1kg,0.0,25.96
white table salt bagged - per 1kg,0.0,0.57
whole pickled cucumbers 0.9l - per 1pc.,0.0,6.92


---

## Praktické cvičení

**Úloha - oprav chybu:** V následujícím kódu je syntaktická chyba. Oprav ji.

In [None]:
# Chyba v kódu
# df.groupby('product').['value'].mean()

In [50]:
df.groupby('product_line')['value'].mean()

product_line
Backpacker's canned pork meat - per 300 g            1.604069
Hunter's sausage dried - per 1kg                    18.433434
Italian head cheese - per 1kg                        8.443114
Masurian barley groats - per 1kg                     0.826062
Poznan wheat flour, bagged - per 1kg                 0.564297
barley groats sausage - per 1kg                      6.000275
beef with bone (rump steak) - per 1kg               18.092197
boneless beef (sirloin) - per 1kg                   22.039316
bread - per 1kg                                      1.280588
buckwheat groats roasted whole - per 1kg             1.521676
dressed chickens - per 1kg                           5.445089
fresh non-dressed carp - per 1kg                     2.575275
fresh non-dressed trout - per 1kg                    4.125824
haddock fillets frozen - per 1kg                     4.846429
plain mixed bread (wheat-rye) - per 1kg              3.160745
pork  meat (raw bacon) - per 1kg                    10.70

**Úloha - doplň kód:** Iterace přes skupiny - doplň chybějící části.

In [None]:
# Doplň proměnné v cyklu for
# df_by_product = df.groupby('product')
# for (___, ___) in df_by_product:
#     print(f"Produkt: {___}")
#     print(f"Průměrná cena: {___['value'].mean()}")

In [54]:
df_gby_product = df.groupby('product_line')

for key, dfg in df_gby_product:
    print("="*10)
    print(f"Produkt: {key}")
    print(f"Prumerna cena: {round(dfg['value'].mean(), 2)}")

Produkt: Backpacker's canned pork meat - per 300 g
Prumerna cena: 1.6
Produkt: Hunter's sausage dried - per 1kg
Prumerna cena: 18.43
Produkt: Italian head cheese - per 1kg
Prumerna cena: 8.44
Produkt: Masurian barley groats - per 1kg
Prumerna cena: 0.83
Produkt: Poznan wheat flour, bagged - per 1kg
Prumerna cena: 0.56
Produkt: barley groats sausage - per 1kg
Prumerna cena: 6.0
Produkt: beef with bone (rump steak) - per 1kg
Prumerna cena: 18.09
Produkt: boneless beef (sirloin) - per 1kg
Prumerna cena: 22.04
Produkt: bread - per 1kg
Prumerna cena: 1.28
Produkt: buckwheat groats roasted whole - per 1kg
Prumerna cena: 1.52
Produkt: dressed chickens - per 1kg
Prumerna cena: 5.45
Produkt: fresh non-dressed carp - per 1kg
Prumerna cena: 2.58
Produkt: fresh non-dressed trout - per 1kg
Prumerna cena: 4.13
Produkt: haddock fillets frozen - per 1kg
Prumerna cena: 4.85
Produkt: plain mixed bread (wheat-rye) - per 1kg
Prumerna cena: 3.16
Produkt: pork  meat (raw bacon) - per 1kg
Prumerna cena: 10.7

In [56]:
df.to_csv('skus.csv', sep = ';', index=False)

---

## Úlohy k procvičení

### Úloha 1: Seskupování produktů

Pomocí dat ze souboru **product_prices_cleaned.csv** vyřeš následující úkoly:

1. Jaká byla průměrná měsíční cena každé komodity?
2. Který produkt měl nejvyšší cenovou volatilitu (směrodatnou odchylku) za celé období?

Použij sloupce **product** a **value** pro analýzu.

Dodatečné otázky:
- Jsou potřeba nějaké další předpoklady pro tyto úlohy?
- Proč lze tuto úlohu provést až teď, po vyčištění dat?

In [None]:
# Řešení úlohy 1.1 - průměrná měsíční cena každé komodity


In [None]:
# Řešení úlohy 1.2 - produkt s nejvyšší volatilitou


### Úloha 2: Agregace

Pomocí dat ze souboru **product_prices_cleaned.csv** proveď agregaci dat pro každý produkt podle měsíce a urči statistiky: `min, max, median, mean, std` pro ceny (sloupec **value**):

1. Vynech národní data z analýzy
2. Proveď agregaci přímo na objektu z `groupby`
3. Napiš cyklus, který spočítá tyto hodnoty pro jednotlivé provincie

Použij metodu `agg` a seskup data podle sloupců `'product', 'date'`.

In [None]:
# Řešení úlohy 2.1 - vynechání národních dat


In [None]:
# Řešení úlohy 2.2 - agregace s groupby


In [None]:
# Řešení úlohy 2.3 - cyklus pro jednotlivé provincie


---

## Přehled použitých metod a funkcí

| Metoda/Funkce | Použití |
|---------------|--------|
| `df.groupby(sloupec)` | Seskupí DataFrame podle zadaného sloupce/sloupců |
| `df.groupby([sloupec1, sloupec2])` | Seskupení podle více sloupců |
| `grouped.groups.keys()` | Zobrazí všechny klíče (unikátní hodnoty) skupin |
| `grouped.get_group(hodnota)` | Vrátí DataFrame pro konkrétní skupinu |
| `df['sloupec'].mean()` | Spočítá průměr hodnot ve sloupci |
| `df['sloupec'].median()` | Spočítá medián hodnot ve sloupci |
| `df['sloupec'].min()` | Vrátí minimální hodnotu ve sloupci |
| `df['sloupec'].max()` | Vrátí maximální hodnotu ve sloupci |
| `df['sloupec'].count()` | Spočítá počet neprázdných hodnot |
| `df['sloupec'].std()` | Spočítá směrodatnou odchylku |
| `df.agg([funkce1, funkce2])` | Aplikuje více agregačních funkcí najednou |
| `grouped['sloupec'].agg([...])` | Agregace na seskupených datech |