# 🐼 Práce s daty pomocí Pandas
V tomto kurzu budeme většinou pracovat s tabulkovými daty. K práci s takovým typem dat se velmi často využívá balíček `pandas`. Není možné vám v rámci jednoho cvičení ukázat všechno (`pandas` toho umí udělat vážně hodně 💪). Naším cílem je ukázat vám základní principy. V každé sekci je přidán link na dokumentaci, kdybyste chtěli vědět víc. Celou dokumentaci naleznete [zde](https://pandas.pydata.org/pandas-docs/stable/index.html).

Chcete-li načíst balíček `pandas` a začít s ním pracovat, je třeba jej importovat. Komunitou schválený alias pro `pandas` je `pd`.

In [None]:
import pandas as pd

## ☝️ DataFrame

`DataFrame` je 2D datová struktura, která může ukládat data různých typů (včetně znaků, celých čísel, hodnot s plovoucí desetinnou čárkou, kategorických dat a dalších) ve sloupcích. Je to něco podobné jako spreadsheet nebo SQL tabulka.

`DataFrame` se skládá z řádků a sloupců kde
* každý **řádek** reprezentuje **jeden záznam**
* každý **sloupec** reprezentuje **hodnoty jednoho příznaku**

Řádky i sloupce mají své identifikátory, podle kterých se na ně můžeme dotazovat. Identifikátor řádku se nazývá **index**. Sloupec je identifikován svým **názvem**.

![dataframe](img/dataframe.png)

### Inicializace DataFramu
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)

`DataFrame` inicializujeme pomocí funkce `pd.DataFrame()`. Parametrem můžeme zadat například data, která má `DataFrame` obsahovat, indexy či názvy sloupců. Pokud indexy či názvy sloupců nezadáme, `pandas` defaultně použije celá čísla začínající od 0.

⚙️**Ukázka:**
Představme si `DataFrame` obsahující statistiky o počtu vypitých nápojů daného typu během jednoho týdne. Měření probíhala u tří osob – Honza, Emma a Alex: 
- Honza vypil 3 kávy a 10 čajů. 
- Emma vypila 14 matéček, 
- Alex 5 káv, 1 čaj a 3 matéčka.

`DataFrame` bychom mohli vytvořit například tímto způsobem:

In [None]:
# we've only specified the data as 2D array of rows, default indices and column names were used
pd.DataFrame(data=[[3, 10, 0], [0, 0, 14], [5, 1, 3]])

I když výše uvedený způsob vytvořil korektní dataset, na první pohled není jasně vidět o jaká data se jedná. Přidání indexů a názvů sloupců by jistě pomohlo.

In [None]:
beverage_df = pd.DataFrame(
    # data (2D array of rows)
    data=[[3, 10, 0], [0, 0, 14], [5, 1, 3]],
    # row indices
    index=['Honza', 'Emma', 'Alex'],
    # column labels
    columns=['coffee', 'tea', 'mate']
)
beverage_df

☕️ Teď už je jasné, jaká data `DataFrame` obsahuje ☕️

## ☝️ Series
Series je 1D struktura s řádkovými indexy. Každý sloupec `DataFramu` je `Series`.

![series](img/series.png)

### Inicializace Series
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.Series.html)

`Series` inicializujeme pomocí funkce `pd.Series()`. Mnohem častěji ale budeme vytvářet `Series` pomocí **výběru sloupců** `DataFramu`. K tomu nám poslouží **název** daného sloupce.

In [None]:
# creates Series named 'coffee' representing the number of coffees drunk
pd.Series(data=[3,0,5], index=['Honza', 'Emma', 'Alex'], name='coffee')

In [None]:
# same as above achieved by selecting the coffee column from existing beverage_df
beverage_df['coffee']

Ve výstupu buňky vidíme následující informace:
* samotná `data` 
    * (3, 0, 5)
    * naměřené hodnoty
* `index`
    * (Honza, Emma, Alex)
    * podle indexu se dokážeme na daná měření dotazovat, ale nemusí být unikátní (mohl by dvakrát obsahovat prvek Honza)
* `name`
    * reprezentuje název `Series` a je volitelný, takže jej můžeme specifikovat pro lepší orientaci ve výpisech buněk
    * pokud `Series` vznikne výběrem sloupce `DataFramu`, název `Series` se bude shodovat s názvem sloupce
* `dtype`
    * určuje datový typ dat uložených v `Series`
    * pokud ho nespecifikujeme, `pandas` se ho pokusí odvodit

In [None]:
# non-unique index, no name specified, dtype inferred
seriesHonza = pd.Series(data=[3,0,5], index=['Honza', 'Honza', 'Honza'])

In [None]:
seriesHonza.Honza

## ☝️ Výběr
Někdy chceme pracovat pouze nad určitou podmnožinou `DataFramu`. `Pandas` nám umožňuje vybrat pouze konkrétní sloupec/řádek či podmnožinu sloupců/řádků.

### Výběr sloupců
Sloupec získáme tak, že za název `DataFrame` proměnné napíšeme do hranatých závorek název sloupce. Výsledkem operace bude `Series`. Pro výběr více sloupců lze do hranatých závorek vložit  **pole názvů**. Výsledkem pak bude `DataFrame`.

Existuje také alternativní syntaxe pro výběr **jednoho sloupce**, které ale fungují jen v některých případech (tzv. dot notation).

**Bracket notation**
* `df['column_name']`
* funguje vždy,
* je rychlejší (vizte srovnání [zde](https://stackoverflow.com/questions/56240925/speed-difference-between-bracket-notation-and-dot-notation-for-accessing-columns)).

**Dot notation**
* `df.column_name`
* i když lépe vypadá, jedná se o "bad practice", 
* nefunguje pokud název sloupce:
     * obsahuje mezeru (např. max temperature),
     * je integer (např. 1),
     * shoduje se s názvem atributu DataFrame (např. count),
     * shoduje se s nějakým klíčovým slovem Pythonu (např. class).

In [None]:
# single column selection dot notation
beverage_df.coffee

In [None]:
# single column selection bracket notation
single = beverage_df['coffee']
single

In [None]:
# multiple column selection
multiple = beverage_df[['coffee','mate']]
multiple

In [None]:
# if you don't understand the syntax, look up string interpolation in Python
print(" Result of single column selection is of type {}" .format(type(single)))
print("Result of multiple column selection is of type {}" .format(type(multiple)))

### Výběr pomocí loc
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html)

`loc[]` umožňuje **výběr skupiny řádků a sloupců** pomocí jejich **názvů** (názvů sloupců nebo indexů řádků). Funkce `loc[]` se uvnitř hranatých závorek skládá ze dvou částí oddělených čárkou. První část slouží k výběru řádků a druhá k výběru sloupců.

Řádky nebo sloupce můžeme vybírat například pomocí:
* jednoho názvu, např. `'coffee'` nebo `'Honza'`
* pole názvů, např. `['coffee', 'mate']` nebo `['Honza', 'Emma']`
* slice objekt s názvy, např. `'Honza':'Alex'`
* více v dokumentaci

#### Slice objekty v loc
* `start:stop` - od `start` do `stop`
* `start:` - od `start` do posledního řádku/sloupce
* `:stop` - od prvního řádku/sloupce do `stop`
* `:`- všechny řádky/sloupce

Tady je pár příkladů použití funkce `.loc[]`:

In [None]:
beverage_df.loc['Honza']

In [None]:
# single column selection
beverage_df.loc[:,'tea']

In [None]:
# multiple column selection
beverage_df.loc[:,['coffee', 'mate']]

In [None]:
# single row selection (note that : in column part can be ommited)
# beverage_df.loc['Emma', :] <- this is equivalent to expresion below
beverage_df.loc['Emma']

In [None]:
# multiple row selection (note that : in column part can be ommited)
beverage_df.loc[['Emma', 'Alex']]

In [None]:
# mixed selection (column and row)
beverage_df.loc[['Emma', 'Alex'],['mate', 'tea']]

In [None]:
# mixed selection using slice objects
beverage_df.loc[:'Emma','tea':]

### Výběr pomocí iloc
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html)

`iloc[]` umožňujě **výběr skupiny řádků a sloupců** pomocí jejich **pozice**. Funkce `iloc[]` se uvnitř hranatých závorek taky skládá ze dvou částí oddělených čárkou. První část slouží k výběru řádků a druhá opět k výběru sloupců (stejně jako u `.loc[]`).

Řádky nebo sloupce můžeme vybírat například pomocí:
* jedné pozice (indexujeme od 0), např. `2`
* pole pozic, např. `[0,2]`
* slice objekt s pozicemi, např. `1:7`.
* více v dokumentaci

#### Slice objekty v iloc
* `start:stop` - od `start` do `stop-1`
* `start:` - od `start` do posledního řádku/sloupce
* `:stop` - od prvního řádku/sloupce do `stop-1`
* `:`- všechny řádky/sloupce

Tady je pár příkladů použití funkce `.iloc[]`:

In [None]:
# single column selection
beverage_df.iloc[:,0]

In [None]:
# multiple column selection
beverage_df.iloc[:,[0,2]]

In [None]:
# single row selection
beverage_df.iloc[1]

In [None]:
# multiple row selection using slice
beverage_df.iloc[1:]

In [None]:
# mixed selection (column and row)
beverage_df.iloc[:2,[2,1]]

## ☝️ Filtrování
👨🏽‍💻 [user guide](https://pandas.pydata.org/docs/user_guide/indexing.html#indexing-boolean)

Zatím jsme si ukázali výběr řádků a sloupců podle jejich názvů nebo pozice. Co kdybychom chtěli vybrat podle určité podmínky? I to je v `pandas` možné.

Pokud chceme vybrat řádky na základě podmínky, je třeba vložit podmínku do hranatých závorek za název `DataFramu`. Podmínka vypadá například takto:

In [None]:
beverage_df['mate'] >= 3

Výsledkem podmínky je `Series` typu `bool`. Ta se použije k vyfiltrování řádků. Do výsledku se dostanou jen ty, jejichž hodnota je `True`.

In [None]:
beverage_df[beverage_df['mate'] >= 3]

Podmínky lze kombinovat pomocí & (and) a | (or). Ale ⚠️ POZOR ⚠️ při kombinování více podmínek musí být každá podmínka **uzavřena kulatými závorkami**.

In [None]:
# beverage_df['mate'] >= 3 & beverage_df['coffee'] <= 4 will produce error due to operator precedence
(beverage_df['mate'] >= 3) & (beverage_df['coffee'] <= 4)

In [None]:
beverage_df[(beverage_df['mate'] >= 3) & (beverage_df['coffee'] <= 4)]

### isin()
👨🏽‍💻 [user guide](https://pandas.pydata.org/docs/user_guide/indexing.html#indexing-basics-indexing-isin) 

🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.Series.isin.html)

Další možností jak filtrovat řádky je pomocí metody `isin()` definované na `Series`. 

In [None]:
# number of coffees is exactly 5 or 0
beverage_df[beverage_df['coffee'].isin([5,0])]

In [None]:
# isin() works on index too
beverage_df[beverage_df.index.isin(['Honza','Alex'])]

### Použití podmínek v loc a iloc

Podmínky lze vkládat i do funkcí `loc` a `iloc`, které jsme si ukazovali před chvílí. `loc` si s podmínkami poradí bez problémů. `iloc` neumí zpracovat `Series`, proto potřebujeme `Series` zkonvertovat na pole booleanů pomocí `.values`.

In [None]:
# filtering using loc with Series
beverage_df.loc[beverage_df['coffee'].isin([5,0]), 'coffee']

In [None]:
# filtering using iloc with array (note how we used .values to convert Series to array) 
beverage_df.iloc[beverage_df['coffee'].isin([5,0]).values, 0]

## ☝️ Načtení datasetu
Náš jednoduchý `DataFrame` byl sice praktický, ale na ukázku komplikovanějších operací nám už nebude stačit. Využijeme volně dostupný dataset z meteorologické stanice Praha Libuš [dostupný zde](https://www.chmi.cz/historicka-data/pocasi/denni-data/data-ze-stanic-site-RBCN#).

Dataset je uložen ve formátu xls. Načteme jej pomocí `pandas` funkce `read_excel` (🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html)). My jsme využili tyto parametry:
* cesta k souboru, který chceme načíst
* `sheet_name` - pole názvů nebo indexů (indexuje se od 1) sešitů (sheets), které chceme načíst
* `header` - pozice záhlaví tabulky (indexuje se od 0)

Funkce vrací buď jeden `DataFrame` v případě, že jsme načetli jen jeden sešit, nebo dictionary `DataFramů` v případě více sešitů.

In [None]:
# df_dict is a dictionary because we've specified multiple sheets
df_dict = pd.read_excel("P1PLIB01.xls", sheet_name=[1, 2, 3], header=3)
df_avg, df_max, df_min = df_dict.values()

Pokud se chceme podívat na to, jaký dataset jsme načetli, poslouží nám funkce 
* `head` 🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html)
* `tail` 🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.tail.html)
* `info` 🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html)

Funkce `head`/`tail` jsou určeny k zobrazení prvních/posledních n záznamů z `DataFramu`. Funkce `info` produkuje stručné shrnutí o `DataFramu`. Ukáže nám například datové typy sloupců nebo kolik hodnot bylo v každém sloupci vyplněno.

In [None]:
# displays first 2 rows, default is 5
df_max.head(2)

In [None]:
# displays last 7 rows
df_max.tail(7)

👉 Z výstupu funkcí `head` a `tail` vidíme, že `DataFrame` obsahuje sloupce pro rok, měsíc a 31 sloupců pro každý den v měsíci. Rok a měsíc jsou celá čísla, sloupce 1. až 31. obsahují floaty a někdy hodnotu `NaN`. `NaN` **reprezentuje chybějící hodnotu** (v původním souboru tato hodnota nebyla vyplněna). Floaty ve sloupcích 1. až 31. reprezentují maximální pozorovanou teplotu v daný den.

Tato zjištění si můžeme ověřit pomocí funkce `info`:

In [None]:
# produces short summary
df_max.info()

👉 Z výstupu funkce `info` vidíme, že jsme správně odhadli datové typy. Navíc jsme se dozvěděli, že chybějící hodnoty obsahují jen sloupce 29, 30 a 31. To dává smysl, protože ne všechny měsíce mají tolik dní.

## ☝️ Některé Series funkce
V této sekci si ukážeme, jak získat zajímavé informace o konkrétním sloupci. Umíme získat například minimální, maximální a průměrnou hodnotu, počet unikátních hodnot atp.

Předtím, než začneme, přejmenujeme sloupce, abychom nemuseli psát tolik diakritiky:

In [None]:
# renames columns
df_max = df_max.rename(columns={"rok": "year", "měsíc": "month"})

In [None]:
year = df_max["year"]
# unique values of year column
year.unique()

In [None]:
# number of unique values of year column
year.nunique()

In [None]:
# min and max value of series
print("📅 První a poslední rok měření: ")
print("první - {}" .format(year.min()))
print("poslední - {}" .format(year.max()))

## ☝️ Reshaping - Melt, Pivot, Stack, Unstack
👨🏽‍💻 [user guide](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html)

Funkce `melt`, `pivot`, `stack` a `unstack` slouží ke změně tvaru (tzv. reshaping) `DataFramu`. Abychom si mohli vysvětlit, co přesně dělají, musíme si zadefinovat, co to je široký a dlouhý formát dat.

### Široký a dlouhý formát (wide and long format)
Široký (wide) formát je formát, kde má každý atribut (příznak) vlastní sloupec. Dlouhý (long) formát má jeden sloupec pro všechny příznaky a jeden sloupec pro jejich hodnoty. Nejsnáze se to dá pochopit z obrázku:
![long_wide](img/long_wide.png)

### Melt
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.melt.html)

Funkce `melt` transformuje DataFrame do dlouhého formátu. Volitelně můžeme přes parametr `id_vars` zadat názvy sloupců, které nechceme transformovat.

In [None]:
# reshape to long format
df_max.melt()

⛔️ **Prostor pro vaše zamyšlení:** Jakým způsobem dojde k transformaci dlouhého formátu na široký, pokud jsme použili `melt()` na celý `df_max` jako v ukázce výše? Konkrétně nás zajímá, jaktože jsme neztratili informaci, který den patří ke kterému měsíci? Pokud znáte odpověď, neváhejte ji napsat do Gitlab Issue, aby se ji dozvěděli i ostatní spolužáci! 😇

In [None]:
df_max_long = df_max.melt(id_vars=['year', 'month'], var_name='day', value_name= 'max temperature')
df_max_long

### Pivot
🗂  [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pivot.html)

Funkce `pivot` transformuje `DataFrame` do námi zvoleného tvaru. V parametrech můžeme zadat které sloupce mají být použity jako index, ze kterých sloupců se mají vytvořit nové sloupce a které sloupce obsahují reálné hodnoty (pozorování).

Takto můžeme například `pivot` použít k tomu, abychom `DataFrame` vrátili do původního širokého formátu.

In [None]:
# reshape to wide format
df_max_long.pivot(index=['year', 'month'], columns='day', values='max temperature')

### Stack
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.stack.html)

Funkce `stack` funguje podobně jako `melt`, ale melt vytvoří nový sloupec (variable) zatímco stack přidá další úroveň indexu. `stack` teda použije názvy sloupců jako další level indexu.
![stack](img/reshaping_stack.png)
💡 Řádek nemusí být identifikován pouze jednou hodnotou indexu. Pokud je hodnot více, takový index nazýváme `MultiIndex`. 💡

In [None]:
# stacks all columns
df_max.stack()

In [None]:
# if year and month are set as index, only day columns are stacked
df_max_idx = df_max.set_index(['year', 'month'])
df_max_stacked = df_max_idx.stack()
df_max_stacked

### Unstack
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html)

Inverzní funkce k funkci `stack`. Vezme určitý level indexu a zkonvertuje jej na sloupce. Defaultně se bere nejvnitřnější level, ale můžeme zadat i jinou úroveň.
![unstack](img/reshaping_unstack.png)

In [None]:
df_max_stacked.unstack()

In [None]:
# equivalent to df_max_stacked.unstack(1)
df_max_stacked.unstack('month')

Pár tipů a triků k stack a unstack najdete například v tomto [tutoriálu](https://towardsdatascience.com/reshaping-a-dataframe-with-pandas-stack-and-unstack-925dc9ce1289).

### 🛠 Příprava na další sekci
V další sekci by se nám hodilo, aby byla data v širokém formátu. Pojďme tedy pomocí funkce `melt` transformovat všechny `DataFramy`.

In [None]:
def preprocess(df, value_name):
    # rename columns
    df = df.rename(columns={"rok": "year", "měsíc": "month"})
    # reshape to long format
    df = df.melt(id_vars=['year', 'month'], var_name='day', value_name= value_name)
    # convert day column from string to int ('3.' -> 3) 
    df.day = df.day.str.replace(".", "", regex=False).astype("int")
    # make index from year month and day 
    df = df.set_index(['year', 'month', 'day'])
    
    return df

df_max = preprocess(df_max, "max temperature")
df_min = preprocess(df_min, "min temperature")
df_avg = preprocess(df_avg, "avg temperature")

df_avg.head()

## ☝️ Spojování - Merge, Join, Concat

Co když máme data ve více `DataFramech` a chtěli bychom je sloučit do jednoho? I na tohle má `pandas` připraveny různé funkce.

👨🏽‍💻 [user guide](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)


### Concat
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.concat.html)

Je to top-level pandas funkce, která kombinuje `DataFramy` vertikálně nebo horizontálně (podle toho, co zadáme v parametru axes - 0 znamená vertikálně a 1 horizontálně). Pokud kombinujeme horizontálně, **řádky se uspořádají podle hodnoty indexu**.

In [None]:
# notice that values in both max temperature columns are identical, it's because concat uses index to align rows
pd.concat([df_min,df_max,df_avg, df_max.sort_values('month')], axis=1)

### Merge
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html)

`merge` kombinuje dva `DataFramy` **horizontálně**. Uspořádá řádky buď podle indexu nebo podle sloupce/sloupců, které zadáme. Defaultně funguje jako inner join, ale dá se změnit na letf, right, cross či outer join (znáte z BI-DBS).

### Join
🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html)

Oproti `merge` nepodoporuje cross join a defaultně je nastaven jako left join. I když je možno nastavit pomocí parametru `on` sloupec, který má sloužit jako klíč, platí to jen pro první `DataFrame`. Jako klíč druhého `DataFramu` se **vždy použije index**.

`merge` a `join` si ukážeme na `beverage_df` ze začátku tohoto notebooku.

In [None]:
beverage_df

Představme si, že jsme časem obdrželi nová měření pro další nápoje. A teď chceme obě měření spojit do jednoho `DataFramu`. Měření ale nejsou ve stejném formátu. První měření mají jméno osoby jako index a ty druhé ho mají uvedeny v samostatném sloupci.

In [None]:
# new data
beverage_df2 = pd.DataFrame(
    data=[['Honza', 3, 2], ['Emma', 1, 1], ['Alex', 5, 3]],
    columns=['name', 'beer', 'juice']
)
beverage_df2

In [None]:
# indices do not match
beverage_df2.join(beverage_df)

In [None]:
# matches beverage_df2 name column with beverage_df index
beverage_df2.join(beverage_df, on='name')

Pokud chceme spojit horizontálně dva `DataFramy` podle nějakého sloupce, `concat` ani `join` v tomto případě nebudou fungovat. Musíme použít `merge`. Sloupec dokonce může mít v obou `DataFramech` různý název (názvy prodáme parametry `right_on` a `left_on`).

In [None]:
# transform index to character column
beverage_df3 = beverage_df.reset_index().rename(columns={'index':'name'})
beverage_df3

In [None]:
beverage_df3.merge(beverage_df2, on='name')

## ☝️ Group by, agregace

👨🏽‍💻 [user guide](https://pandas.pydata.org/docs/user_guide/groupby.html)

🗂 [dokumentace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html)

Pod pojmem **group by** se rozumí proces, který se skládá z jednoho nebo více následujících kroků:
* rozdělení dat do skupin na základě zadaných kritérií
* aplikování určité funkce na každou skupinu zvlášť
* zkombinování výsledků do nějaké datové struktury

In [None]:
joined = pd.concat([df_min,df_max,df_avg], axis=1)
joined

#### První krok - rozdělení dat do skupin na základě zadaných kritérií
Toho docílíme použitím funkce `groupby`. Data můžeme sloučit například podle měsíce:

In [None]:
grouped = joined.groupby('month')

for name, group in grouped:
    print(name)
    print(group)

#### Druhý a třerí krok - aplikování funkce a konstrukce výsledku
Na výsledek funkce `groupby` můžeme aplikovat agregační funkce (např. min, max, count, avg, ...)

In [None]:
grouped.min()

In [None]:
grouped.max()

#### Zkusme si pomocí groupby odpovědět na následující otázky
❓Jaká byla nejnižší/nejvyšší roční naměřená teplota?

❓Kolik dní každý rok mrzlo (teplota byla pod 0)?

**🥶🥶🥶 Nejnižší roční teplota**

In [None]:
joined.groupby('year').min()['min temperature']

**🥵🥵🥵 Nejvyšší roční teplota**

In [None]:
joined.groupby('year').max()['max temperature']

**🌡 Počet dní kdy mrzlo**

In [None]:
import numpy as np

def was_freezing(row):
    # don't forget to deal with missing values
    if pd.isnull(row['min temperature']):
        return np.NaN
    
    return row['min temperature'] <= 0

In [None]:
# creates new row by applying was_freezing funcion to every row
# set axis to 0 to apply function to every column
df_min['freezing'] = df_min.apply(was_freezing, axis=1)
df_min

In [None]:
df_min.groupby(['year','freezing']).count()

### Uložení dat do souboru

🗂[dokumentace](https://pandas.pydata.org/docs/reference/io.html)

Data se do souboru ukládají pomocí funkcí `to_*` definovaných na `DataFramu`. Na ukázku si můžeme zkusit uložit `joined DataFrame` do csv souboru, kde budou jednotlivé hodnoty odděleny `;`: 

In [None]:
# sep means separator
joined.to_csv('results.csv', sep=';')

In [None]:
# let's verify that save was successful
test = pd.read_csv('results.csv', sep=';')
test

# 🎉 A to je vše! 🎉 