# Prieskumná analýza dát - Exploratory Data Analysis (EDA)

### Dnes sa budeme venovať tomu, ako...
- načítať dáta
- analyzovať jednotlivé atribúty
- analyzovať vzťahy medzi atribútmi
- vizualizovať dáta (vhodné typy vizualizácií, vlastnosti dobrých vizualizácií, ako neklamať vizualizáciou)

### Predtým, ako začneme analyzovať dáta, by sme si mali ujasniť...
- Aké otázky máme analýzou zodpovedať
- Akú úlohu máme riešiť

### Na tomto predmete sa budeme zaoberať ML len dvomi úlohami
- Klasifikácia
- Regresia

### V oboch prípadoch sa snažíme nájsť funkciu $f$ atribútov $X$, ktorá bude predikovať hodnotu závislej premennej $Y$
- V prípade regresie  𝑌∈𝑅
- V prípade klasifikácie  𝑌∈{𝐶1,𝐶2,…,𝐶𝑁}

Obe úlohy sú príkladom **učenia s učiteľom**

# Skúsme načítať data :)

In [None]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats

In [None]:
data = pd.read_csv("data/airbase/BETR8010000800100hour.1-1-1990.31-12-2012")
data.head()

Vidíme, že pri načítaní nastalo viacero problémov - všetky dáta skončili v jednom stĺpci a navyše prvý riadok bol automaticky interpretovaný ako hlavička.

### Skúsme sa pozrieť na dáta v nejakom editore (konzola) predtým, ako ich načítame

In [None]:
%%bash
head data/airbase/BETR8010000800100hour.1-1-1990.31-12-2012

## Teraz už vieme načítať dáta lepšie - pred načítaním dát by sme sa mali sami seba spýtať:

* Odkiaľ sú dané dáta? Kto ich vytvoril?
* V akom formáte sú reprezentované?
* Koľko ich je?
* Je niekde dostupná interpretácia jednotlivých stĺpcov?

In [None]:
filename = "data/airbase/BETR8010000800100hour.1-1-1990.31-12-2012"

data = pd.read_csv(filename, sep='\t', header=None,
                   na_values=[-999, -9999], index_col=0)
data.head()

# Môžeme sa pustiť do prieskumnej analýzy (EDA) 

- Opísať dáta spolu s ich charakteristikami = **Deskriptívna štatistika**
- Formulovať a overiť hypotézy o dátach = **Vizualizácia dát** + inferenčná štatistika
- Identifikovať vzťahy medzi atribútmi = **Závislosti** (napr. korelácie)
- Identifikovať problémy v dátach = Čo budeme musieť riešiť v rámci predspracovania

## Možné problémy v dátach

* nevhodná štruktúra dát (dáta nie sú v tabuľkovej podobe alebo jedna entita je opísaná viacerými riadkami tabuľky)
* duplicitné záznamy, resp. nejednoznačné mapovanie medzi záznamami
* nejednotné formáty dát
* chýbajúce hodnoty
* vychýlené (odľahlé) hodnoty (angl. *outliers*)
* a ďalšie

In [1]:
# Your code

# Vizualizácie nám pomáhajú pochopiť dáta
**Ak sú spravené dobre...**

