# 🐼 Práce s daty pomocí Pandas
V tomto kurzu budeme většinou pracovat s tabulkovými daty. K práci s takovým typem dat se velmi často využívá balíček `pandas`. Není možné vám v rámci jednoho cvičení ukázat všechno (`pandas` toho umí udělat vážně hodně 💪). Naším cílem je ukázat vám základní principy. V každé sekci je přidán link na dokumentaci, kdybyste chtěli vědět víc. Celou dokumentaci naleznete [zde](https://pandas.pydata.org/pandas-docs/stable/index.html).

Chcete-li načíst balíček `pandas` a začít s ním pracovat, je třeba jej importovat. Komunitou schválený alias pro `pandas` je `pd`.

In [1]:
import pandas as pd

## ☝️ DataFrame

`DataFrame` je 2D datová struktura, která může ukládat data různých typů (včetně znaků, celých čísel, hodnot s plovoucí desetinnou čárkou, kategorických dat a dalších) ve sloupcích. Je to něco podobné jako spreadsheet nebo SQL tabulka.

`DataFrame` se skládá z řádků a sloupců kde
* každý **řádek** reprezentuje **jeden záznam**
* každý **sloupec** reprezentuje **hodnoty jednoho příznaku**

Řádky i sloupce mají své identifikátory, podle kterých se na ně můžeme dotazovat. Identifikátor řádku se nazývá **index**. Sloupec je identifikován svým **názvem**.

![dataframe](img/dataframe.png)

### Inicializace DataFramu
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)

`DataFrame` inicializujeme pomocí funkce `pd.DataFrame()`. Parametrem můžeme zadat například data, která má `DataFrame` obsahovat, indexy či názvy sloupců. Pokud indexy či názvy sloupců nezadáme, `pandas` defaultně použije celá čísla začínající od 0.

⚙️**Ukázka:**
Představme si `DataFrame` obsahující statistiky o počtu vypitých nápojů daného typu během jednoho týdne. Měření probíhala u tří osob – Honza, Emma a Alex: 
- Honza vypil 3 kávy a 10 čajů. 
- Emma vypila 14 matéček, 
- Alex 5 káv, 1 čaj a 3 matéčka.

`DataFrame` bychom mohli vytvořit například tímto způsobem:

In [2]:
# we've only specified the data as 2D array of rows, default indices and column names were used
pd.DataFrame(data=[[3, 10, 0], [0, 0, 14], [5, 1, 3]])

Unnamed: 0,0,1,2
0,3,10,0
1,0,0,14
2,5,1,3


I když výše uvedený způsob vytvořil korektní dataset, na první pohled není jasně vidět o jaká data se jedná. Přidání indexů a názvů sloupců by jistě pomohlo.

In [3]:
beverage_df = pd.DataFrame(
    # data (2D array of rows)
    data=[[3, 10, 0], [0, 0, 14], [5, 1, 3]],
    # row indices
    index=['Honza', 'Emma', 'Alex'],
    # column labels
    columns=['coffee', 'tea', 'mate']
)
beverage_df

Unnamed: 0,coffee,tea,mate
Honza,3,10,0
Emma,0,0,14
Alex,5,1,3


☕️ Teď už je jasné, jaká data `DataFrame` obsahuje ☕️

## ☝️ Series
Series je 1D struktura s řádkovými indexy. Každý sloupec `DataFramu` je `Series`.

![series](img/series.png)

### Inicializace Series
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.Series.html)

`Series` inicializujeme pomocí funkce `pd.Series()`. Mnohem častěji ale budeme vytvářet `Series` pomocí **výběru sloupců** `DataFramu`. K tomu nám poslouží **název** daného sloupce.

In [4]:
# creates Series named 'coffee' representing the number of coffees drunk
pd.Series(data=[3,0,5], index=['Honza', 'Emma', 'Alex'], name='coffee')

Honza    3
Emma     0
Alex     5
Name: coffee, dtype: int64

In [5]:
# same as above achieved by selecting the coffee column from existing beverage_df
beverage_df['coffee']

Honza    3
Emma     0
Alex     5
Name: coffee, dtype: int64

Ve výstupu buňky vidíme následující informace:
* samotná `data` 
    * (3, 0, 5)
    * naměřené hodnoty
* `index`
    * (Honza, Emma, Alex)
    * podle indexu se dokážeme na daná měření dotazovat, ale nemusí být unikátní (mohl by dvakrát obsahovat prvek Honza)
* `name`
    * reprezentuje název `Series` a je volitelný, takže jej můžeme specifikovat pro lepší orientaci ve výpisech buněk
    * pokud `Series` vznikne výběrem sloupce `DataFramu`, název `Series` se bude shodovat s názvem sloupce
* `dtype`
    * určuje datový typ dat uložených v `Series`
    * pokud ho nespecifikujeme, `pandas` se ho pokusí odvodit

In [6]:
# non-unique index, no name specified, dtype inferred
seriesHonza = pd.Series(data=[3,0,5], index=['Honza', 'Honza', 'Honza'])

In [7]:
seriesHonza.Honza

Honza    3
Honza    0
Honza    5
dtype: int64

## ☝️ Výběr
Někdy chceme pracovat pouze nad určitou podmnožinou `DataFramu`. `Pandas` nám umožňuje vybrat pouze konkrétní sloupec/řádek či podmnožinu sloupců/řádků.

### Výběr sloupců
Sloupec získáme tak, že za název `DataFrame` proměnné napíšeme do hranatých závorek název sloupce. Výsledkem operace bude `Series`. Pro výběr více sloupců lze do hranatých závorek vložit  **pole názvů**. Výsledkem pak bude `DataFrame`.

Existuje také alternativní syntaxe pro výběr **jednoho sloupce**, které ale fungují jen v některých případech (tzv. dot notation).

**Bracket notation**
* `df['column_name']`
* funguje vždy,
* je rychlejší (vizte srovnání [zde](https://stackoverflow.com/questions/56240925/speed-difference-between-bracket-notation-and-dot-notation-for-accessing-columns)).

**Dot notation**
* `df.column_name`
* i když lépe vypadá, jedná se o "bad practice", 
* nefunguje pokud název sloupce:
     * obsahuje mezeru (např. max temperature),
     * je integer (např. 1),
     * shoduje se s názvem atributu DataFrame (např. count),
     * shoduje se s nějakým klíčovým slovem Pythonu (např. class).

In [8]:
# single column selection dot notation
beverage_df.coffee

Honza    3
Emma     0
Alex     5
Name: coffee, dtype: int64

In [9]:
# single column selection bracket notation
single = beverage_df['coffee']
single

Honza    3
Emma     0
Alex     5
Name: coffee, dtype: int64

In [10]:
# multiple column selection
multiple = beverage_df[['coffee','mate']]
multiple

Unnamed: 0,coffee,mate
Honza,3,0
Emma,0,14
Alex,5,3


In [11]:
# if you don't understand the syntax, look up string interpolation in Python
print("Result of single column selection is of type {}" .format(type(single)))
print("Result of multiple column selection is of type {}" .format(type(multiple)))

Result of single column selection is of type <class 'pandas.core.series.Series'>
Result of multiple column selection is of type <class 'pandas.core.frame.DataFrame'>


### Výběr pomocí loc
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html)

`loc[]` umožňuje **výběr skupiny řádků a sloupců** pomocí jejich **názvů** (názvů sloupců nebo indexů řádků). Funkce `loc[]` se uvnitř hranatých závorek skládá ze dvou částí oddělených čárkou. První část slouží k výběru řádků a druhá k výběru sloupců.

Řádky nebo sloupce můžeme vybírat například pomocí:
* jednoho názvu, např. `'coffee'` nebo `'Honza'`
* pole názvů, např. `['coffee', 'mate']` nebo `['Honza', 'Emma']`
* slice objekt s názvy, např. `'Honza':'Alex'`
* více v dokumentaci

#### Slice objekty v loc
* `start:stop` - od `start` do `stop`
* `start:` - od `start` do posledního řádku/sloupce
* `:stop` - od prvního řádku/sloupce do `stop`
* `:`- všechny řádky/sloupce

Tady je pár příkladů použití funkce `.loc[]`:

In [12]:
# single row selection (note that : in column part can be ommited)
# beverage_df.loc['Honza', :] <- this is equivalent to expresion below
beverage_df.loc['Honza']

coffee     3
tea       10
mate       0
Name: Honza, dtype: int64

In [13]:
# single column selection
beverage_df.loc[:,'tea']

Honza    10
Emma      0
Alex      1
Name: tea, dtype: int64

In [14]:
# multiple column selection
beverage_df.loc[:,['coffee', 'mate']]

Unnamed: 0,coffee,mate
Honza,3,0
Emma,0,14
Alex,5,3


In [15]:
# multiple row selection (note that : in column part can be ommited)
beverage_df.loc[['Emma', 'Alex']]

Unnamed: 0,coffee,tea,mate
Emma,0,0,14
Alex,5,1,3


In [16]:
# mixed selection (column and row)
beverage_df.loc[['Emma', 'Alex'],['mate', 'tea']]

Unnamed: 0,mate,tea
Emma,14,0
Alex,3,1


In [17]:
# mixed selection using slice objects
beverage_df.loc[:'Emma','tea':]

Unnamed: 0,tea,mate
Honza,10,0
Emma,0,14


### Výběr pomocí iloc
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html)

`iloc[]` umožňujě **výběr skupiny řádků a sloupců** pomocí jejich **pozice**. Funkce `iloc[]` se uvnitř hranatých závorek taky skládá ze dvou částí oddělených čárkou. První část slouží k výběru řádků a druhá opět k výběru sloupců (stejně jako u `.loc[]`).

Řádky nebo sloupce můžeme vybírat například pomocí:
* jedné pozice (indexujeme od 0), např. `2`
* pole pozic, např. `[0,2]`
* slice objekt s pozicemi, např. `1:7`.
* více v dokumentaci

#### Slice objekty v iloc
* `start:stop` - od `start` do `stop-1`
* `start:` - od `start` do posledního řádku/sloupce
* `:stop` - od prvního řádku/sloupce do `stop-1`
* `:`- všechny řádky/sloupce

Tady je pár příkladů použití funkce `.iloc[]`:

In [18]:
# single column selection
beverage_df.iloc[:,0]

Honza    3
Emma     0
Alex     5
Name: coffee, dtype: int64

In [19]:
# multiple column selection
beverage_df.iloc[:,[0,2]]

Unnamed: 0,coffee,mate
Honza,3,0
Emma,0,14
Alex,5,3


In [20]:
# single row selection
beverage_df.iloc[1]

coffee     0
tea        0
mate      14
Name: Emma, dtype: int64

In [21]:
# multiple row selection using slice
beverage_df.iloc[1:]

Unnamed: 0,coffee,tea,mate
Emma,0,0,14
Alex,5,1,3


In [22]:
# mixed selection (column and row)
beverage_df.iloc[:2,[2,1]]

Unnamed: 0,mate,tea
Honza,0,10
Emma,14,0


## ☝️ Filtrování
👨🏽‍💻 [user guide](https://pandas.pydata.org/docs/user_guide/indexing.html#indexing-boolean)

Zatím jsme si ukázali výběr řádků a sloupců podle jejich názvů nebo pozice. Co kdybychom chtěli vybrat podle určité podmínky? I to je v `pandas` možné.

Pokud chceme vybrat řádky na základě podmínky, je třeba vložit podmínku do hranatých závorek za název `DataFramu`. Podmínka vypadá například takto:

In [23]:
beverage_df['mate'] >= 3

Honza    False
Emma      True
Alex      True
Name: mate, dtype: bool

Výsledkem podmínky je `Series` typu `bool`. Ta se použije k vyfiltrování řádků. Do výsledku se dostanou jen ty, jejichž hodnota je `True`.

In [24]:
beverage_df[beverage_df['mate'] >= 3]

Unnamed: 0,coffee,tea,mate
Emma,0,0,14
Alex,5,1,3


Podmínky lze kombinovat pomocí & (and) a | (or). Ale ⚠️ POZOR ⚠️ při kombinování více podmínek musí být každá podmínka **uzavřena kulatými závorkami**.

In [25]:
# beverage_df['mate'] >= 3 & beverage_df['coffee'] <= 4 will produce error due to operator precedence
(beverage_df['mate'] >= 3) & (beverage_df['coffee'] <= 4)

Honza    False
Emma      True
Alex     False
dtype: bool

In [26]:
beverage_df[(beverage_df['mate'] >= 3) & (beverage_df['coffee'] <= 4)]

Unnamed: 0,coffee,tea,mate
Emma,0,0,14


### isin()
👨🏽‍💻 [user guide](https://pandas.pydata.org/docs/user_guide/indexing.html#indexing-basics-indexing-isin) 

🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.Series.isin.html)

Další možností jak filtrovat řádky je pomocí metody `isin()` definované na `Series`. 

In [27]:
# number of coffees is exactly 5 or 0
beverage_df[beverage_df['coffee'].isin([5,0])]

Unnamed: 0,coffee,tea,mate
Emma,0,0,14
Alex,5,1,3


In [28]:
# isin() works on index too
beverage_df[beverage_df.index.isin(['Honza','Alex'])]

Unnamed: 0,coffee,tea,mate
Honza,3,10,0
Alex,5,1,3


### Použití podmínek v loc a iloc

Podmínky lze vkládat i do funkcí `loc` a `iloc`, které jsme si ukazovali před chvílí. `loc` si s podmínkami poradí bez problémů. `iloc` neumí zpracovat `Series`, proto potřebujeme `Series` zkonvertovat na pole booleanů pomocí `.values`.

In [29]:
# filtering using loc with Series
beverage_df.loc[beverage_df['coffee'].isin([5,0]), 'coffee']

Emma    0
Alex    5
Name: coffee, dtype: int64

In [30]:
# filtering using iloc with array (note how we used .values to convert Series to array) 
beverage_df.iloc[beverage_df['coffee'].isin([5,0]).values, 0]

Emma    0
Alex    5
Name: coffee, dtype: int64

## ☝️ Načtení datasetu
Náš jednoduchý `DataFrame` byl sice praktický, ale na ukázku komplikovanějších operací nám už nebude stačit. Využijeme volně dostupný dataset z meteorologické stanice Praha Libuš [dostupný zde](https://www.chmi.cz/historicka-data/pocasi/denni-data/data-ze-stanic-site-RBCN#).

Dataset je uložen ve formátu xls. Načteme jej pomocí `pandas` funkce `read_excel` (🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html)). My jsme využili tyto parametry:
* cesta k souboru, který chceme načíst
* `sheet_name` - pole názvů nebo indexů (indexuje se od 1) sešitů (sheets), které chceme načíst
* `header` - pozice záhlaví tabulky (indexuje se od 0)

Funkce vrací buď jeden `DataFrame` v případě, že jsme načetli jen jeden sešit, nebo dictionary `DataFramů` v případě více sešitů.

In [31]:
# df_dict is a dictionary because we've specified multiple sheets
df_dict = pd.read_excel("data/P1PLIB01.xls", sheet_name=[1, 2, 3], header=3)
df_avg, df_max, df_min = df_dict.values()

Pokud se chceme podívat na to, jaký dataset jsme načetli, poslouží nám funkce 
* `head` 🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html)
* `tail` 🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.tail.html)
* `info` 🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html)

Funkce `head`/`tail` jsou určeny k zobrazení prvních/posledních n záznamů z `DataFramu`. Funkce `info` produkuje stručné shrnutí o `DataFramu`. Ukáže nám například datové typy sloupců nebo kolik hodnot bylo v každém sloupci vyplněno.

In [32]:
# displays first 2 rows, default is 5
df_max.head(2)

Unnamed: 0,rok,měsíc,1.,2.,3.,4.,5.,6.,7.,8.,...,22.,23.,24.,25.,26.,27.,28.,29.,30.,31.
0,1971,1,-8.8,-9.1,-10.8,-6.9,-10.8,-9.0,-10.1,-9.0,...,3.2,7.7,8.2,6.3,10.5,9.6,7.2,6.0,2.0,3.4
1,1971,2,2.4,-0.4,0.7,2.0,2.0,2.9,2.6,4.7,...,5.4,2.9,4.2,5.1,1.0,-4.6,-3.5,,,


In [33]:
# displays last 7 rows
df_max.tail(7)

Unnamed: 0,rok,měsíc,1.,2.,3.,4.,5.,6.,7.,8.,...,22.,23.,24.,25.,26.,27.,28.,29.,30.,31.
593,2020,6,22.8,21.6,25.1,22.6,20.2,18.9,18.8,17.6,...,26.2,24.1,21.6,24.3,24.9,30.4,30.4,23.8,25.5,
594,2020,7,31.1,28.2,23.3,26.7,28.8,25.5,21.2,19.3,...,25.4,26.7,27.9,29.7,25.3,29.3,34.8,29.5,30.0,29.7
595,2020,8,31.9,26.1,18.3,17.1,24.5,27.5,31.2,32.5,...,27.3,25.3,23.6,25.0,25.8,20.8,27.5,19.9,18.3,20.2
596,2020,9,16.5,20.2,22.5,27.0,27.1,20.0,21.4,24.1,...,26.4,24.5,23.5,16.6,9.1,13.4,9.2,12.4,17.3,
597,2020,10,18.6,19.9,23.3,19.4,14.1,16.5,16.1,17.0,...,15.0,16.0,17.8,17.0,13.6,11.3,11.0,11.7,13.5,15.0
598,2020,11,11.1,18.3,17.6,11.5,9.4,9.4,3.7,3.6,...,7.3,8.0,2.2,0.8,0.5,0.7,1.6,3.9,4.5,
599,2020,12,2.9,0.4,-0.3,4.3,9.2,13.5,9.4,6.7,...,12.0,11.5,12.1,3.6,2.5,2.0,2.2,8.2,4.4,4.8


👉 Z výstupu funkcí `head` a `tail` vidíme, že `DataFrame` obsahuje sloupce pro rok, měsíc a 31 sloupců pro každý den v měsíci. Rok a měsíc jsou celá čísla, sloupce 1. až 31. obsahují floaty a někdy hodnotu `NaN`. `NaN` **reprezentuje chybějící hodnotu** (v původním souboru tato hodnota nebyla vyplněna). Floaty ve sloupcích 1. až 31. reprezentují maximální pozorovanou teplotu v daný den.

Tato zjištění si můžeme ověřit pomocí funkce `info`:

In [34]:
# produces short summary
df_max.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 600 entries, 0 to 599
Data columns (total 33 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   rok     600 non-null    int64  
 1   měsíc   600 non-null    int64  
 2   1.      600 non-null    float64
 3   2.      600 non-null    float64
 4   3.      600 non-null    float64
 5   4.      600 non-null    float64
 6   5.      600 non-null    float64
 7   6.      600 non-null    float64
 8   7.      600 non-null    float64
 9   8.      600 non-null    float64
 10  9.      600 non-null    float64
 11  10.     600 non-null    float64
 12  11.     600 non-null    float64
 13  12.     600 non-null    float64
 14  13.     600 non-null    float64
 15  14.     600 non-null    float64
 16  15.     600 non-null    float64
 17  16.     600 non-null    float64
 18  17.     600 non-null    float64
 19  18.     600 non-null    float64
 20  19.     600 non-null    float64
 21  20.     600 non-null    float64
 22  21

👉 Z výstupu funkce `info` vidíme, že jsme správně odhadli datové typy. Navíc jsme se dozvěděli, že chybějící hodnoty obsahují jen sloupce 29, 30 a 31. To dává smysl, protože ne všechny měsíce mají tolik dní.

## ☝️ Některé Series funkce
V této sekci si ukážeme, jak získat zajímavé informace o konkrétním sloupci. Umíme získat například minimální, maximální a průměrnou hodnotu, počet unikátních hodnot atp.

Předtím, než začneme, přejmenujeme sloupce, abychom nemuseli psát tolik diakritiky:

In [35]:
# renames columns
df_max = df_max.rename(columns={"rok": "year", "měsíc": "month"})

In [36]:
year = df_max["year"]
# unique values of year column
year.unique()

array([1971, 1972, 1973, 1974, 1975, 1976, 1977, 1978, 1979, 1980, 1981,
       1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 1992,
       1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003,
       2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014,
       2015, 2016, 2017, 2018, 2019, 2020])

In [37]:
# number of unique values of year column
year.nunique()

50

In [38]:
# min and max value of series
print("📅 První a poslední rok měření: ")
print("první - {}" .format(year.min()))
print("poslední - {}" .format(year.max()))

📅 První a poslední rok měření: 
první - 1971
poslední - 2020


## ☝️ Reshaping - Melt, Pivot, Stack, Unstack
👨🏽‍💻 [user guide](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html)

Funkce `melt`, `pivot`, `stack` a `unstack` slouží ke změně tvaru (tzv. reshaping) `DataFramu`. Abychom si mohli vysvětlit, co přesně dělají, musíme si zadefinovat, co to je široký a dlouhý formát dat.

### Široký a dlouhý formát (wide and long format)
Široký (wide) formát je formát, kde má každý atribut (příznak) vlastní sloupec. Dlouhý (long) formát má jeden sloupec pro všechny příznaky a jeden sloupec pro jejich hodnoty. Nejsnáze se to dá pochopit z obrázku:
![long_wide](img/long_wide.png)

### Melt
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.melt.html)

Funkce `melt` transformuje DataFrame do dlouhého formátu. Volitelně můžeme přes parametr `id_vars` zadat názvy sloupců, které nechceme transformovat.

In [39]:
# reshape to long format
df_max.melt()

Unnamed: 0,variable,value
0,year,1971.0
1,year,1971.0
2,year,1971.0
3,year,1971.0
4,year,1971.0
...,...,...
19795,31.,20.2
19796,31.,
19797,31.,15.0
19798,31.,


In [40]:
df_max_long = df_max.melt(id_vars=['year', 'month'], var_name='day', value_name= 'max temperature')
df_max_long

Unnamed: 0,year,month,day,max temperature
0,1971,1,1.,-8.8
1,1971,2,1.,2.4
2,1971,3,1.,-4.8
3,1971,4,1.,11.9
4,1971,5,1.,5.9
...,...,...,...,...
18595,2020,8,31.,20.2
18596,2020,9,31.,
18597,2020,10,31.,15.0
18598,2020,11,31.,


### Pivot
🗂  [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pivot.html)

Funkce `pivot` transformuje `DataFrame` do námi zvoleného tvaru. V parametrech můžeme zadat, které sloupce mají být použity jako index, ze kterých sloupců se mají vytvořit nové sloupce a které sloupce obsahují reálné hodnoty (pozorování).

Takto můžeme například `pivot` použít k tomu, abychom `DataFrame` vrátili do původního širokého formátu.

In [41]:
# reshape to wide format
df_max_long.pivot(index=['year', 'month'], columns='day', values='max temperature')

Unnamed: 0_level_0,day,1.,10.,11.,12.,13.,14.,15.,16.,17.,18.,...,29.,3.,30.,31.,4.,5.,6.,7.,8.,9.
year,month,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
1971,1,-8.8,-6.6,-9.1,-4.4,-1.3,3.2,-0.5,3.7,2.7,0.8,...,6.0,-10.8,2.0,3.4,-6.9,-10.8,-9.0,-10.1,-9.0,-4.9
1971,2,2.4,4.3,4.7,6.7,7.6,7.1,6.8,5.3,4.7,4.3,...,,0.7,,,2.0,2.0,2.9,2.6,4.7,7.1
1971,3,-4.8,1.2,-0.6,1.0,6.3,9.6,9.4,4.7,10.8,13.9,...,5.4,-5.6,4.6,6.5,-9.5,-7.1,-6.4,-3.5,2.5,5.8
1971,4,11.9,13.9,10.8,13.5,14.2,11.7,15.3,22.0,14.3,14.9,...,14.1,12.9,10.9,,14.9,11.5,15.0,15.7,17.0,18.9
1971,5,5.9,17.0,23.0,26.0,27.7,26.3,23.2,26.4,29.8,29.3,...,16.2,9.6,13.3,18.6,10.1,13.3,13.9,16.7,18.4,22.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2020,8,31.9,31.8,30.2,31.1,32.0,29.6,26.0,27.6,28.9,25.3,...,19.9,18.3,18.3,20.2,17.1,24.5,27.5,31.2,32.5,33.4
2020,9,16.5,20.5,22.3,27.4,28.2,29.6,31.0,28.9,21.0,19.7,...,12.4,22.5,17.3,,27.0,27.1,20.0,21.4,24.1,26.9
2020,10,18.6,14.0,8.9,11.9,8.6,7.6,11.3,9.8,8.8,10.5,...,11.7,23.3,13.5,15.0,19.4,14.1,16.5,16.1,17.0,19.7
2020,11,11.1,5.6,5.7,8.2,11.5,15.0,8.7,11.8,12.4,13.6,...,3.9,17.6,4.5,,11.5,9.4,9.4,3.7,3.6,4.3


### Stack
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.stack.html)

Funkce `stack` funguje podobně jako `melt`, ale melt vytvoří nový sloupec (variable) zatímco stack přidá další úroveň indexu. `stack` teda použije názvy sloupců jako další level indexu.
![stack](img/reshaping_stack.png)
💡 Řádek nemusí být identifikován pouze jednou hodnotou indexu. Pokud je hodnot více, takový index nazýváme `MultiIndex`. 💡

In [42]:
# stacks all columns
df_max.stack()

0    year     1971.0
     month       1.0
     1.         -8.8
     2.         -9.1
     3.        -10.8
               ...  
599  27.         2.0
     28.         2.2
     29.         8.2
     30.         4.4
     31.         4.8
Length: 19463, dtype: float64

In [43]:
# if year and month are set as index, only day columns are stacked
df_max_idx = df_max.set_index(['year', 'month'])
df_max_stacked = df_max_idx.stack()
df_max_stacked

year  month     
1971  1      1.     -8.8
             2.     -9.1
             3.    -10.8
             4.     -6.9
             5.    -10.8
                    ... 
2020  12     27.     2.0
             28.     2.2
             29.     8.2
             30.     4.4
             31.     4.8
Length: 18263, dtype: float64

### Unstack
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html)

Inverzní funkce k funkci `stack`. Vezme určitý level indexu a zkonvertuje jej na sloupce. Defaultně se bere nejvnitřnější level, ale můžeme zadat i jinou úroveň.
![unstack](img/reshaping_unstack.png)

In [44]:
df_max_stacked.unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,1.,2.,3.,4.,5.,6.,7.,8.,9.,10.,...,22.,23.,24.,25.,26.,27.,28.,29.,30.,31.
year,month,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
1971,1,-8.8,-9.1,-10.8,-6.9,-10.8,-9.0,-10.1,-9.0,-4.9,-6.6,...,3.2,7.7,8.2,6.3,10.5,9.6,7.2,6.0,2.0,3.4
1971,2,2.4,-0.4,0.7,2.0,2.0,2.9,2.6,4.7,7.1,4.3,...,5.4,2.9,4.2,5.1,1.0,-4.6,-3.5,,,
1971,3,-4.8,-1.8,-5.6,-9.5,-7.1,-6.4,-3.5,2.5,5.8,1.2,...,14.6,4.5,10.3,11.0,8.4,7.7,7.2,5.4,4.6,6.5
1971,4,11.9,8.2,12.9,14.9,11.5,15.0,15.7,17.0,18.9,13.9,...,21.2,21.9,15.9,9.4,6.9,12.3,7.7,14.1,10.9,
1971,5,5.9,4.8,9.6,10.1,13.3,13.9,16.7,18.4,22.7,17.0,...,14.6,16.3,16.0,20.4,19.9,23.3,19.1,16.2,13.3,18.6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2020,8,31.9,26.1,18.3,17.1,24.5,27.5,31.2,32.5,33.4,31.8,...,27.3,25.3,23.6,25.0,25.8,20.8,27.5,19.9,18.3,20.2
2020,9,16.5,20.2,22.5,27.0,27.1,20.0,21.4,24.1,26.9,20.5,...,26.4,24.5,23.5,16.6,9.1,13.4,9.2,12.4,17.3,
2020,10,18.6,19.9,23.3,19.4,14.1,16.5,16.1,17.0,19.7,14.0,...,15.0,16.0,17.8,17.0,13.6,11.3,11.0,11.7,13.5,15.0
2020,11,11.1,18.3,17.6,11.5,9.4,9.4,3.7,3.6,4.3,5.6,...,7.3,8.0,2.2,0.8,0.5,0.7,1.6,3.9,4.5,


In [45]:
# equivalent to df_max_stacked.unstack(1)
df_max_stacked.unstack('month')

Unnamed: 0_level_0,month,1,2,3,4,5,6,7,8,9,10,11,12
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1971,1.,-8.8,2.4,-4.8,11.9,5.9,22.4,15.0,28.9,21.3,18.8,8.1,2.6
1971,2.,-9.1,-0.4,-1.8,8.2,4.8,23.5,17.8,31.8,19.9,17.7,9.8,2.0
1971,3.,-10.8,0.7,-5.6,12.9,9.6,24.8,18.1,34.2,23.6,21.2,11.6,4.4
1971,4.,-6.9,2.0,-9.5,14.9,10.1,24.4,21.4,26.2,27.0,15.8,16.5,4.7
1971,5.,-10.8,2.0,-7.1,11.5,13.3,24.1,23.6,28.8,20.0,9.9,15.9,6.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2020,27.,8.5,6.8,16.8,22.6,21.2,30.4,29.3,20.8,13.4,11.3,0.7,2.0
2020,28.,8.1,6.0,16.6,24.8,15.7,30.4,34.8,27.5,9.2,11.0,1.6,2.2
2020,29.,5.4,7.9,9.7,17.9,19.1,23.8,29.5,19.9,12.4,11.7,3.9,8.2
2020,30.,7.3,,5.4,20.8,17.2,25.5,30.0,18.3,17.3,13.5,4.5,4.4


Pár tipů a triků k stack a unstack najdete například v tomto [tutoriálu](https://towardsdatascience.com/reshaping-a-dataframe-with-pandas-stack-and-unstack-925dc9ce1289).

### 🛠 Příprava na další sekci
V další sekci by se nám hodilo, aby byla data v širokém formátu. Pojďme tedy pomocí funkce `melt` transformovat všechny `DataFramy`.

In [46]:
def preprocess(df, value_name):
    # rename columns
    df = df.rename(columns={"rok": "year", "měsíc": "month"})
    # reshape to long format
    df = df.melt(id_vars=['year', 'month'], var_name='day', value_name= value_name)
    # convert day column from string to int ('3.' -> 3) 
    df.day = df.day.str.replace(".", "", regex=False).astype("int")
    # make index from year month and day 
    df = df.set_index(['year', 'month', 'day'])
    
    return df

df_max = preprocess(df_max, "max temperature")
df_min = preprocess(df_min, "min temperature")
df_avg = preprocess(df_avg, "avg temperature")

df_avg.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,avg temperature
year,month,day,Unnamed: 3_level_1
1971,1,1,-11.8
1971,2,1,0.4
1971,3,1,-6.3
1971,4,1,7.5
1971,5,1,2.8


## ☝️ Spojování - Merge, Join, Concat

Co když máme data ve více `DataFramech` a chtěli bychom je sloučit do jednoho? I na tohle má `pandas` připraveny různé funkce.

👨🏽‍💻 [user guide](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)


### Concat
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.concat.html)

Je to top-level pandas funkce, která kombinuje `DataFramy` vertikálně nebo horizontálně (podle toho, co zadáme v parametru axes - 0 znamená vertikálně a 1 horizontálně). Pokud kombinujeme horizontálně, **řádky se uspořádají podle hodnoty indexu**.

In [47]:
# notice that values in both max temperature columns are identical, it's because concat uses index to align rows
pd.concat([df_min,df_max,df_avg, df_max.sort_values('month')], axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,min temperature,max temperature,avg temperature,max temperature
year,month,day,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1971,1,1,-14.7,-8.8,-11.8,-8.8
1971,2,1,-1.2,2.4,0.4,2.4
1971,3,1,-9.3,-4.8,-6.3,-4.8
1971,4,1,0.7,11.9,7.5,11.9
1971,5,1,0.0,5.9,2.8,5.9
...,...,...,...,...,...,...
2020,8,31,12.5,20.2,15.4,20.2
2020,9,31,,,,
2020,10,31,9.0,15.0,11.4,15.0
2020,11,31,,,,


### Merge
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html)

`merge` kombinuje dva `DataFramy` **horizontálně**. Uspořádá řádky buď podle indexu nebo podle sloupce/sloupců, které zadáme. Defaultně funguje jako inner join, ale dá se změnit na letf, right, cross či outer join (znáte z BI-DBS).

### Join
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html)

Oproti `merge` nepodoporuje cross join a defaultně je nastaven jako left join. I když je možno nastavit pomocí parametru `on` sloupec, který má sloužit jako klíč, platí to jen pro první `DataFrame`. Jako klíč druhého `DataFramu` se **vždy použije index**.

`merge` a `join` si ukážeme na `beverage_df` ze začátku tohoto notebooku.

In [48]:
beverage_df

Unnamed: 0,coffee,tea,mate
Honza,3,10,0
Emma,0,0,14
Alex,5,1,3


Představme si, že jsme časem obdrželi nová měření pro další nápoje. A teď chceme obě měření spojit do jednoho `DataFramu`. Měření ale nejsou ve stejném formátu. První měření mají jméno osoby jako index a ty druhé ho mají uvedeny v samostatném sloupci.

In [49]:
# new data
beverage_df2 = pd.DataFrame(
    data=[['Honza', 3, 2], ['Emma', 1, 1], ['Alex', 5, 3]],
    columns=['name', 'beer', 'juice']
)
beverage_df2

Unnamed: 0,name,beer,juice
0,Honza,3,2
1,Emma,1,1
2,Alex,5,3


In [50]:
# indices do not match
beverage_df2.join(beverage_df)

Unnamed: 0,name,beer,juice,coffee,tea,mate
0,Honza,3,2,,,
1,Emma,1,1,,,
2,Alex,5,3,,,


In [51]:
# matches beverage_df2 name column with beverage_df index
beverage_df2.join(beverage_df, on='name')

Unnamed: 0,name,beer,juice,coffee,tea,mate
0,Honza,3,2,3,10,0
1,Emma,1,1,0,0,14
2,Alex,5,3,5,1,3


Pokud chceme spojit horizontálně dva `DataFramy` podle nějakého sloupce, `concat` ani `join` v tomto případě nebudou fungovat. Musíme použít `merge`. Sloupec dokonce může mít v obou `DataFramech` různé název (názvy prodáme parametry `right_on` a `left_on`).

In [52]:
# transform index to character column
beverage_df3 = beverage_df.reset_index().rename(columns={'index':'name'})
beverage_df3

Unnamed: 0,name,coffee,tea,mate
0,Honza,3,10,0
1,Emma,0,0,14
2,Alex,5,1,3


In [53]:
beverage_df3.merge(beverage_df2, on='name')

Unnamed: 0,name,coffee,tea,mate,beer,juice
0,Honza,3,10,0,3,2
1,Emma,0,0,14,1,1
2,Alex,5,1,3,5,3


## ☝️ Group by, agregace

👨🏽‍💻 [user guide](https://pandas.pydata.org/docs/user_guide/groupby.html)

🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html)

Pod pojmem **group by** se rozumí proces, který se skládá z jednoho nebo více následujících kroků:
* rozdělení dat do skupin na základě zadaných kritérií
* aplikování určité funkce na každou skupinu zvlášť
* zkombinování výsledků do nějaké datové struktury

In [54]:
joined = pd.concat([df_min,df_max,df_avg], axis=1)
joined

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,min temperature,max temperature,avg temperature
year,month,day,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1971,1,1,-14.7,-8.8,-11.8
1971,2,1,-1.2,2.4,0.4
1971,3,1,-9.3,-4.8,-6.3
1971,4,1,0.7,11.9,7.5
1971,5,1,0.0,5.9,2.8
...,...,...,...,...,...
2020,8,31,12.5,20.2,15.4
2020,9,31,,,
2020,10,31,9.0,15.0,11.4
2020,11,31,,,


#### První krok - rozdělení dat do skupin na základě zadaných kritérií
Toho docílíme použitím funkce `groupby`. Data můžeme sloučit například podle měsíce:

In [55]:
grouped = joined.groupby('month')

for name, group in grouped:
    print(name)
    print(group)

1
                min temperature  max temperature  avg temperature
year month day                                                   
1971 1     1              -14.7             -8.8            -11.8
1972 1     1               -1.7              3.3             -1.0
1973 1     1               -8.9              2.5             -3.5
1974 1     1               -2.2              0.7             -1.3
1975 1     1                1.5              6.8              4.8
...                         ...              ...              ...
2016 1     31               1.4              8.1              3.8
2017 1     31              -4.9             -2.7             -3.8
2018 1     31              -1.7             10.4              6.1
2019 1     31              -2.1              4.1             -0.3
2020 1     31               2.9             14.0             11.3

[1550 rows x 3 columns]
2
                min temperature  max temperature  avg temperature
year month day                                 

#### Druhý a třerí krok - aplikování funkce a konstrukce výsledku
Na výsledek funkce `groupby` můžeme aplikovat agregační funkce (např. min, max, count, avg, ...)

In [56]:
grouped.min()

Unnamed: 0_level_0,min temperature,max temperature,avg temperature
month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,-25.0,-16.4,-20.8
2,-23.4,-11.4,-16.1
3,-18.3,-9.5,-12.1
4,-7.0,0.1,-2.0
5,-1.8,4.5,1.1
6,0.9,9.9,7.3
7,5.9,11.2,9.7
8,3.2,11.4,9.6
9,0.2,7.2,5.8
10,-8.2,1.4,-2.6


In [57]:
grouped.max()

Unnamed: 0_level_0,min temperature,max temperature,avg temperature
month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,10.1,17.2,13.7
2,11.4,19.7,13.2
3,12.0,24.1,16.9
4,15.5,30.4,22.9
5,17.8,32.9,26.0
6,22.6,38.5,30.6
7,21.7,39.0,30.2
8,22.4,39.6,31.4
9,19.3,33.7,25.2
10,17.0,27.2,20.8


#### Zkusme si pomocí groupby odpovědět na následující otázky
❓Jaká byla nejnižší/nejvyšší naměřená teplota v jednotlivých letech?

❓Kolik dní každý rok mrzlo (teplota byla pod 0)?

**🥶🥶🥶 Nejnižší teplota v jednotlivých letech**

In [64]:
df_min.groupby('year').min()

Unnamed: 0_level_0,min temperature
year,Unnamed: 1_level_1
1971,-20.0
1972,-14.4
1973,-15.4
1974,-4.5
1975,-15.7
1976,-15.7
1977,-13.6
1978,-15.3
1979,-19.0
1980,-18.4


**🥵🥵🥵 Nejvyšší teplota v jednotlivých letech**

In [65]:
df_max.groupby('year').max()

Unnamed: 0_level_0,max temperature
year,Unnamed: 1_level_1
1971,34.6
1972,33.4
1973,33.2
1974,35.2
1975,31.4
1976,35.6
1977,30.6
1978,30.5
1979,32.0
1980,32.1


**🌡 Počet dní kdy mrzlo (opět v jednotlivých letech)**

In [66]:
import numpy as np

def was_freezing(row):
    # don't forget to deal with missing values
    if pd.isnull(row['min temperature']):
        return np.nan
    
    return row['min temperature'] <= 0

In [67]:
# creates new row by applying was_freezing funcion to every row
# set axis to 0 to apply function to every column
df_min['freezing'] = df_min.apply(was_freezing, axis=1)
df_min

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,min temperature,freezing
year,month,day,Unnamed: 3_level_1,Unnamed: 4_level_1
1971,1,1,-14.7,True
1971,2,1,-1.2,True
1971,3,1,-9.3,True
1971,4,1,0.7,False
1971,5,1,0.0,True
...,...,...,...,...
2020,8,31,12.5,False
2020,9,31,,
2020,10,31,9.0,False
2020,11,31,,


In [None]:
df_min.groupby(['year','freezing']).count()

### Uložení dat do souboru

🗂[dokumentace](https://pandas.pydata.org/docs/reference/io.html)

Data se do souboru ukládají pomocí funkcí `to_*` definovaných na `DataFramu`. Na ukázku si můžeme zkusit uložit `joined DataFrame` do csv souboru, kde budou jednotlivé hodnoty odděleny `;`: 

In [None]:
# sep means separator
joined.to_csv('results.csv', sep=';')

In [None]:
# let's verify that save was successful
test = pd.read_csv('results.csv', sep=';')
test

# 🎉 A to je vše! 🎉 