## Modul pandas - základný nástroj na spracovanie dát

### Moduly - knižnice Pythonu

Základ jazyka je malý, vieme ho rozšíriť **importovaním** (veľkého množstva) existujúcich **modulov.**

In [None]:
# Priklad:
sin(0.5)  # nepozna sinus, vynadal nam

In [None]:
import math          # napiste import ma a potom cez Tab sa vam doplnia vsetky moduly, co tak zacinaju
print(type(math))    # novy typ - trieda module; math je objektom tej triedy
math.sin(0.5)        # toto uz pojde, je to kvalifikovane meno - modul a v nom funkcia
                     # bodka sa pouziva na pristup k funkciam a datam objektov

In [None]:
# Stale by neslo sin(0.5), no mozeme ho importnut na "globalnu uroven" mien
from math import sin, cos, pi
sin(pi/2)

__Najdôležitejšie (pre nás) moduly budú__
- **`pandas`** - reprezentácia (štatistických) dát v tvare tabuľky s pomenovanými stĺpcami (niekedy i riadkami) a ich spracovanie
- **`numpy`** - efektívna práca s číselnymi poľami (vektory, matice, sústavy lin. rovníc,...); bez `numpy` by nešiel ani modul `pandas` 
- **`scipy`** - hlavne submodul `scipy.stats` pre štatistické funkcie, rozdelenia pravdepodobností, testovanie hypotéz,...
- **`matplotlib`** - modul pre grafiku, kreslenie obrázkov (v pozadí ho používa aj `pandas`).


**Užitočné sú tiež moduly**
- **`qgrid`** - pekné tabuľkové zobrazovanie dát s možnosťou ich filtrácie a usporiadania (podľa stĺpcov)
- **`folium`**   - modul pre zobrazovanie máp

**Na vytváranie interaktívnych aplikácií** (nemyslíme tým Jupyter notebooky) budeme používať moduly
- **`dash`** - tvorba a vykonávanie webových aplikácií
- **`plotly`** - modul pre veľmi interaktívnu grafiku vo webovom prehliadači


Napr. pre tento notebook dáme nasledujúce importy (to `as` je pre skratky), čiže ďalej nemusíme písať `numpy`, ale stačí `np` ...

In [None]:
import numpy as np
import pandas as pd

import qgrid

**Základnym typom pre reprezentáciu dát v module `pandas` je `DataFrame`.** Môžeme si to predstaviť ako tabuľku s pomenovanými
stĺpcami. **Stĺpce budú jednotlivé (namerané) veličiny a riadky budú predstavovať merania** (treba ich veľa, aby sa dalo čosi o dátach povedať).

### Príklad (kolegyňa Ida Stankovianska).
Máme k dispozícii dáta o hmotnosti a BMI (Body Mass Index) študentov, v súbore `BMI.csv` (pozrite si, pomeditujte, ale needitujte).

Modul `pandas` má veľa funkcií pre načítanie dát v rôznych formátoch, napr. z Excelu, CSV (Comma Separated Values) súboru, json, html formátu, atď. Načítame naše dáta do premennej `BMIdata`, presvedčíme sa, že typ načítaného je `pandas DataFrame` a vypíšeme tie dáta, najskôr "klasicky".

In [None]:
BMIdata = pd.read_csv("BMI.csv")     # doplnajte Tab-om, staci napisat pd.rea a Tab; doplni aj meno CVS suboru
print("Premenna BMIdata ma typ", type(BMIdata))
BMIdata[:6]                       # ak chceme len niekolko prvych riadkov, ak cele, dajte len BMIdata

Ajhľa, tabuľka, zobrazenie našej `DataFrame BMIdata`. 

Každá `Dataframe` má tieto tri základné komponenty:
- **`columns`**  - pomenovania (indexy) stĺpcov, obyčajne textové reťazce
- **`index`** - podobné pomenovania pre riadky, často sú to len poradové čísla meraní, počnúc nulou
- **`values`** - samotné namerané dáta v tvare `numpy` poľa (tj. typ `ndarray`)

In [None]:
print("columns: ",BMIdata.columns)     # ako vzdy, pouzivajte doplnanie cez Tab
print("\nindex: ",BMIdata.index)
print("\nvalues:\n",BMIdata.values[:6])  # nechceme vsetko vypisovat...

### Ďalej budeme namiesto `DataFrame` písať skratku `DF`.

Veľmi pohodlným nástrojom na manipuláciu `DF` (filtráciu a usporiadanie podľa stĺpcov) je modul `qgrid` (v pozadí je [JavaScriptova knižnica `SlickGrid`](https://github.com/mleibman/SlickGrid)). 

Asi nepotrebuje komentár. Klikajte na názvy stĺpcov pre usporiadanie a na tie "lieviky" pre filtráciu.

S pomocou toho nástroja ľahko zistíte napr.:
- minimálnu a maximálnu hmotnosť a tiež min. a max. BMI
- vyberiete tie riadky, kde sú študenti s hmotnosťou od 60 do 80 kg a (zároveň) BMI od 22 do 24.

In [None]:
qgrid_tabulka = qgrid.show_grid(BMIdata)
qgrid_tabulka   # Jupyter vie, ako ju ma zobrazit

### Najlepšie na tom je, že editovanú (filtrovanú) `DF` vieme dostať späť cez metódu `get_changed_df`:

In [None]:
normalni = qgrid_tabulka.get_changed_df()
normalni

### Veľmi dôležité - ako filtrovať `DF` programátorsky (kto pochopí, je na dobrej ceste k majstrovstvu v `pandas`)

To, čo sme stvárali myšou v `qgrid` tabuľke, nebude praktické, ak dát je veľa, alebo filtrovanie zložitejšie. Vždy však môžeme filtrovať pomocou booleovských podmienok na hodnoty stĺpcov `DataFrame`.

Chceme len tie **riadky, kde je hmotnosť od 60 do 80 kg a zároveň BMI od 22 do 24** (ako sme robili hore, myšou).

In [None]:
vyberHmot = (BMIdata['Hmot'] >= 60) & (BMIdata['Hmot'] <= 80)
vyberHmot[:8]     # vypiseme len prvych 8 riadkov

**Týmto výberom sme vytvorili booleovskú `DF`, ktorá má hodnoty `True` len pre tie indexy, kde je podmienka na hmotnosť splnená (`&` je `DF` booleovský operátor pre `AND`) a inde sú hodnoty `False` (počet riadkov je ten istý ako v pôvodnej `DF BMIdata`).**

Podobne vyrobíme filter aj pre BMI. 

In [None]:
vyberBMI = (BMIdata['BMI'] >= 22) & (BMIdata['BMI'] <= 24)

# chceme oba vybery aby platili
print("Booleovska DF pre oba vybery, aby platili sucasne:\n")
vyberHmot & vyberBMI       

Nakoniec, **urobíme Booleovské indexovanie pôvodnej DF, ktoré vyberie len tie riadky, kde sú obidva kritéria splnené** (voľným okom vidíme, že to budú riadky s indexami 2, 3, 4, 6, 11, atď.):

In [None]:
normalni = BMIdata[ vyberBMI & vyberHmot ]
normalni

Keď ďalej pracujeme s dátami, môže pre nás byť užitočná funkcia **group_by**, ktorá zoskupí dáta podľa daného kľúča.

In [None]:
zoskupeni = BMIdata.groupby('Hmot')    # zoskupi data podla hmotnosti
velkostne = zoskupeni.size()            # prideli jednotlivym hmotnostiam pocet studentov (moze byt aj podla ineho kriteria)
velkostne

In [None]:
velkostne[velkostne.values > 1]  # len tie, kde je viac ako 1 student

In [None]:
velkostne.sort_values(ascending=False,inplace=True)  # usporiada podla poctu studentov
velkostne            # ascending=False (od najvacsieho), inplace=True(ponecha poctu studentov aj ich hmotnost)

In [None]:
len(velkostne == 2)   # pocet hmotnosti, ktore maju 2 studenti