# Úvod do Pandas

[Pandas](https://pandas.pydata.org/) je rozšírená open-source Python knižnica, ktorá ponúka štruktúrya funkcie na 
analýzu dát. Hlavným cieľom tejto knižnice je poskutnúť pokročilú dátovú analytiku s minimom programovania.

V praxi sa jedná o tabuľku, ktorá sa volá `DataFrame`, ktorá obsahuje naše dáta, nad ktorou vieme vykonávať rôzne 
operácie.

Pre naše potešenie je celá knižnica detailne zdokumentovaná na nasledovnom odkaze:
[Pandas Docs](https://pandas.pydata.org/pandas-docs/stable/). Dokumentácia je vždy náš najlepší kamoš.

Predtým ako začneme pracovať, musíme Python-u povedať, že cheme s Pandas pracovať:


In [9]:
# Import knižníc
import pandas as pd
import numpy as np

# Schovaj nudné upozornenia
import warnings
warnings.filterwarnings('ignore')


Python už vie, že sa chceme hrať s Pandas, teraz si potrebujeme vytvoriť dataframe (`df`) s našimi dátami.

Pandas má na to hneď niekoľko možností (záleží v akej forme sme dáta dostali):

- [pandas.read_csv](http://pandas.pydata.org/pandas-docs/version/0.21/generated/pandas.read_csv.html): CSV súbory
- [pandas.read_excel](http://pandas.pydata.org/pandas-docs/version/0.21/generated/pandas.read_excel.html#pandas.read_excel): Excel
- [pandas.read_json](http://pandas.pydata.org/pandas-docs/version/0.21/generated/pandas.read_json.html#pandas.read_json): JSON


Náš prvý dataset som pripravil vo formáte CSV (Comma separated values), jedná sa o jednoduchý textový súbor, kde sú
hodnoty oddelené čiarkou, prípadne iným jednoznakovým oddelovačom (napríklad `;`, ` `, `|`, `,`).


In [2]:
df = pd.read_csv('../../data/bmi.csv', sep=';')


## Prvotná analýza

Už máme načítané dáta v premennej `df`, teraz ideme postupne objavovať čo všetko nám vedia povedať. Je dobrým zvykom
začať zistením aké dáta máme, ako vyzerajú a koľko ich je. K tomu nám pomôžu nasledujúce atribúty a funkcie:

- [pandas.DataFrame.info()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html): 
Základné informácie o tabuľke
- [pandas.DataFrame.shape](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html):
Rozmer tabuľky
- [pandas.DataFrame.head()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html):
Prvých 5 záznamov v tabuľke
- [pandas.DataFrame.tail()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.tail.html):
Posledných 5 záznamov v tabuľke

Jedna z výhod Jupyter Notebooks je, že dokážu veľmi efektívne pracovať s pandas DataFrames, napríklad stačí iba zavolať
názov premennej ktorá obsahuje DataFrame (napríklad `df`) a Jupyter rovno vykreslí celú tabuľku.


In [3]:
df.info()
# df.shape
# df.head()
# df.tail()
df


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 4 columns):
Unnamed: 0    32 non-null int64
Name          32 non-null object
Height        32 non-null float64
Weight        32 non-null int64
dtypes: float64(1), int64(2), object(1)
memory usage: 1.1+ KB


Unnamed: 0.1,Unnamed: 0,Name,Height,Weight
0,0,Iron Man,1.64,119
1,1,Thor,2.13,139
2,2,Ant-Man,1.76,61
3,3,Wasp,1.74,125
4,4,Hulk,1.8,131
5,5,Captain America,1.61,110
6,6,Hawkeye,1.61,111
7,7,Quicksilver,-12.21,110
8,8,Scarlet Witch,2.14,53
9,9,Swordsman,1.63,123


## Príprava dát

Predtým ako začneme reálnu analýzu, musíme sa pozrieť aké máme k dispozícii dáta a či sú v správnej forme. Aby sme
zabezpečili čo najväčšiu presnosť našich zistení a záverov, musíme odstrániť neuplné alebo poškodené dáta, prípadne 
upraviť stĺpce do dobre čitateľnej podoby.

Ako prvú vec, čo si všimnem je, že prvý stĺpec je nejaký divný a nemá pre nás žiadnu špeciálnu hodnotu, dáme ho preč.

Pomôžeme si prístupom cez konštrukciu 
[pandas.DataFrame.iloc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html#pandas.DataFrame.iloc)


In [4]:
df = df.iloc[:, 1:]
df.info()
df


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 3 columns):
Name      32 non-null object
Height    32 non-null float64
Weight    32 non-null int64
dtypes: float64(1), int64(1), object(1)
memory usage: 848.0+ bytes


Unnamed: 0,Name,Height,Weight
0,Iron Man,1.64,119
1,Thor,2.13,139
2,Ant-Man,1.76,61
3,Wasp,1.74,125
4,Hulk,1.8,131
5,Captain America,1.61,110
6,Hawkeye,1.61,111
7,Quicksilver,-12.21,110
8,Scarlet Witch,2.14,53
9,Swordsman,1.63,123


Každá tabuľka potrebuje nejaké referenčné body, musíme mať správne označené stĺpce a niekedy nám príde vhodné aj správne
pomenovať riadky. Napríklad, všetky údaje v riadku sa týkajú jednej osoby, ktorá je identifikovaná svojím menom.

V pandas sa niečo takéto volá index, vytvorme si teda index pre riadok na základe stĺpca `Name`.

Pomôcka: [set_index](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.set_index.html).


In [5]:
df = df.set_index(['Name'])
df.head()
df.info()
df


<class 'pandas.core.frame.DataFrame'>
Index: 32 entries, Iron Man to Chuck Norris
Data columns (total 2 columns):
Height    32 non-null float64
Weight    32 non-null int64
dtypes: float64(1), int64(1)
memory usage: 768.0+ bytes


Unnamed: 0_level_0,Height,Weight
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Iron Man,1.64,119
Thor,2.13,139
Ant-Man,1.76,61
Wasp,1.74,125
Hulk,1.8,131
Captain America,1.61,110
Hawkeye,1.61,111
Quicksilver,-12.21,110
Scarlet Witch,2.14,53
Swordsman,1.63,123


Je vždy dobré pre kalkuláciou pozrieť sa, či namerané hodnoty dávajú zmysel. Napríklad, ak máme nejaké nulové alebo 
záporné hodnoty, s vysokou pravdepodobnosťou je to chyba merania. Tieto dáta pre nás strácajú zmysel.

Pokúsime sa najprv takéto hodnoty nájsť, teraz to skúsime cez konštrukciu 
[pandas.DataFrame.loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html)
ktorá pristupuje k dátam tabuľky cez názvy stĺpcov a indexov.


In [10]:
mask = (df['Height'] < 0) | (df['Weight'] < 0)
df.loc[mask]

df['Height'][df['Height'] < 0] = np.NaN
df['Weight'][df['Weight'] < 0] = np.NaN

df


Unnamed: 0_level_0,Height,Weight,BMI,BMI Category
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iron Man,1.64,119.0,44.244497,Nadváha
Thor,2.13,139.0,30.63766,Nadváha
Ant-Man,1.76,61.0,19.692665,Podváha
Wasp,1.74,125.0,41.286828,Nadváha
Hulk,1.8,131.0,40.432099,Nadváha
Captain America,1.61,110.0,42.436634,Nadváha
Hawkeye,1.61,111.0,42.822422,Nadváha
Scarlet Witch,2.14,53.0,11.573063,Podváha
Swordsman,1.63,123.0,46.294554,Nadváha
Hercules,1.99,113.0,28.534633,Nadváha


Už naše dáta vyzerajú v poriadku, môžeme začať počítať BMI.


In [None]:
df['BMI'] = df['Weight'] / (df['Height'] ** 2)
df = df.dropna()
df


Na základe BMI, vieme ľudí zaradiť minimálne do troch kategórií:

- Podváha
- Normálna hmotnosť
- Nadváha

Vytvorme teda stĺpec `BMI Category`, ktorú bude hovoriť o hrdinovy do akej kategórie spadá.


In [12]:
df['BMI Category'] = np.NaN
df['BMI Category'][df['BMI'] < 20] = 'Podváha'
df['BMI Category'][(df['BMI'] >= 20) & (df['BMI'] < 25)] = 'Normálna hmotnosť'
df['BMI Category'][df['BMI'] >= 25] = 'Nadváha'

df


Unnamed: 0_level_0,Height,Weight,BMI,BMI Category
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iron Man,1.64,119.0,44.244497,Nadváha
Thor,2.13,139.0,30.63766,Nadváha
Ant-Man,1.76,61.0,19.692665,Podváha
Wasp,1.74,125.0,41.286828,Nadváha
Hulk,1.8,131.0,40.432099,Nadváha
Captain America,1.61,110.0,42.436634,Nadváha
Hawkeye,1.61,111.0,42.822422,Nadváha
Scarlet Witch,2.14,53.0,11.573063,Podváha
Swordsman,1.63,123.0,46.294554,Nadváha
Hercules,1.99,113.0,28.534633,Nadváha


## Analýza

Už máme vypočítané všetky potrebné dáta, môžeme začať klásť otázky a kresliť grafy.

1. Koľko superhrdinov trpí obezitou?
2. Koláčový graf (Pie chart) váhových kategórií 
([pandas.DataFrame.plot.pie](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.pie.html))
3. 