In [None]:
#@title -- Downloading Data -- { display-mode: "form" }
!{sys.executable} -m pip install git+https://github.com/michalgregor/class_utils.git
from class_utils.download import download_file_maybe_extract
download_file_maybe_extract(
    "https://github.com/michalgregor/luiza_notebooks/blob/198b2032e36fbbcfe4c815fe0907eedab3345810/data/iris.csv?raw=true",
    directory="data"
)

## Balíček `pandas`

Pri práci s dátami vie byť veľmi užitočný balíček `pandas`. Umožňuje načítať dáta z rôznych typov súborov, z databáz, komfortným spôsobom s nimi pracovať, vypočítať z nich základné štatistické ukazovatele, rýchlo zobraziť jednoduché grafy a pod.

### Dátové rámce

Základným dátovým typom v balíčku `pandas` sú dátové rámce – v podstate sú to tabuľky, kde stĺpce obsahujú určité pomenované atribúty a riadky zodpovedajú jednotlivým dátovým záznamom. Ak máme určité dáta s atribútmi `attr1, attr2, attr3`, vieme dátový rámec vytvoriť nasledovným spôsobom:



In [None]:
import pandas as pd

df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]], columns=["attr1", "attr2", "attr3"])
print(df)

Z dátového rámca vieme ľahko vybrať niektoré stĺpce:



In [None]:
a = df["attr1"]
print(a)

In [None]:
b = df[["attr2", "attr3"]]
print('df[["attr2", "attr3"]] = \n{}'.format(b))

Nové stĺpce je možné doplniť tak, že ich adresujeme a priradíme do nich nejaký výraz:



In [None]:
df["attr4"] = df["attr2"] + df["attr3"]
print(df)

Zoznam všetkých stĺpcov získame pomocou:



In [None]:
cols = df.columns
print(cols)

Ak chceme vybrať stĺpec podľa číselného indexu:



In [None]:
a = df.iloc[:, 1]
print(a)

Alebo zvoliť len niektoré riadky:



In [None]:
a = df.iloc[1:3]
print(a)

Použitím vlastnosti `.values` vieme z dátového rámca získať dáta v podobe klasického `numpy` poľa:



In [None]:
print(df.values)

### Načítanie dát z csv súboru

CSV súbory sú jednoduché textové súbory obsahujúce dáta oddelené čiarkami, napr.:

```
5.1,3.5,1.4,0.2,setosa
7.0,3.2,4.7,1.4,versicolor
6.7,3.1,5.6,2.4,virginica
```
V balíčku `pandas` sa dá na ich načítanie použiť funkcia `read_csv`:



In [None]:
import pandas as pd
df = pd.read_csv('data/iris.csv')
df.head()

Táto funkcia má zopár parametrov, ktoré treba správne nastaviť – napr. nastaviť `sep=';'` ak nie sú dáta oddelené čiarkami, ale bodkočiarkami alebo nastaviť `header=False` ak `pandas` nedeteguje správne, že CSV súbor nemá hlavičku.

### Prekódovanie kategorického atribútu na číselný

Niektoré metódy nevedia pracovať s kategorickými atribútmi (takými, ktoré nadobúdajú určitý konečný počet slovných hodnôt). V tom prípade treba také atribúty prekódovať na číselné. Je to možné urobiť napríklad pomocou triedy `OrdinalEncoder`  z balíčka `sklearn`:



In [None]:
from sklearn.preprocessing import OrdinalEncoder
ordenc = OrdinalEncoder()

# funkcia fit_transform nastaví parametre transformátora
# na základe dát a zároveň navrátiť transformované dáta
df['species_num'] = ordenc.fit_transform(df[['species']])

# z výsledku si pre kontrolu zobrazíme zopár vzoriek
df[["species", "species_num"]].iloc[[0, 1, 50, 80, 100, 101]]

### Jednoduché štatistiky a grafy

Balíček `pandas` umožňuje zobraziť aj jednoduché štatistiky a grafy. Keby sme napríklad chceli vedieť základné informácie o rozdelení hodnôt v prvom stĺpci, môžeme použiť funkciu `describe`.



In [None]:
print(df.iloc[:, 0].describe())

#### Boxplot

Alebo si môžeme zobraziť `boxplot`, ktorý nám dá podobnú informáciu v grafickej podobe:



In [None]:
df.boxplot(column=df.columns[0])

#### Porovnanie boxplot-ov medzi triedami

Ak chceme porovnať boxplot-y jednotlivých tried:



In [None]:
df.boxplot(column=df.columns[0], by='species')

#### Histogramy

Obdobne jednoduché je zobraziť histogram hodnôt zo stĺpca:



In [None]:
df[df.columns[0]].plot(bins=20, kind='hist')

#### Porovnanie histogramov medzi triedami

Ak chceme porovnať rozdelenie hodnôt naprieč triedami (`species`) môžeme použiť:



In [None]:
df.hist(column=df.columns[0], by='species', bins=50,
        sharex=True, sharey=True, figsize=[10, 8])

### Aplikácia ľubovoľnej funkcie na celý stĺpec

Vyššie sme ukázali ako je možné vytvoriť nový stĺpec.V zásade vieme na prvky existujúceho stĺpca aplikovať ľubovoľnú funkciu a výsledok uložiť ako nový stĺpec. Povedzme, že by sme chceli určiť aký počet znakov majú jednotlivé textové reťazce v stĺpci `species` v našej dátovej množine:



In [None]:
# transformácia
df["len"] = df["species"].map(lambda x: len(x))

# zobrazíme si niekoľko vzoriek
df["len"].iloc[[0, 1, 50, 80, 100, 101]]

### Hromadné porovnávanie a indexovanie prvkov

Podobne ako v poliach z balíčka `numpy`, aj v dátových rámcoch je možné nájsť a indexovať záznamy, ktoré spĺňajú určitú podmienku. Napr. vyberieme len tie riadky, kde hodnota nultého stĺpca je väčšia než 5.



In [None]:
a = df[df.iloc[:, 0] > 5]
a.head()