# Prieskumná analýza dát - Exploratory Data Analysis (EDA)

### Dnes sa budeme venovať tomu, ako...
- načítať dáta
- analyzovať jednotlivé atribúty
- analyzovať vzťahy medzi atribútmi
- vizualizovať dáta (vhodné typy vizualizácií, vlastnosti dobrých vizualizácií, ako neklamať vizualizáciou)

### Predtým, ako začneme analyzovať dáta, by sme si mali ujasniť...
- Aké otázky máme analýzou zodpovedať
- Akú úlohu máme riešiť

### Na tomto predmete sa budeme zaoberať ML len dvomi úlohami
- Klasifikácia
- Regresia

### V oboch prípadoch sa snažíme nájsť funkciu $f$ atribútov $X$, ktorá bude predikovať hodnotu závislej premennej $Y$
- V prípade regresie  𝑌∈𝑅
- V prípade klasifikácie  𝑌∈{𝐶1,𝐶2,…,𝐶𝑁}

Obe úlohy sú príkladom **učenia s učiteľom**

# Skúsme načítať data :)

In [1]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats

In [2]:
data = pd.read_csv("data/airbase/BETR8010000800100hour.1-1-1990.31-12-2012")
data.head()

Unnamed: 0,1990-01-01\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0\t-999.000\t0
0,1990-01-02\t-999.000\t0\t-999.000\t0\t-999.000...
1,1990-01-03\t51.000\t1\t50.000\t1\t47.000\t1\t4...
2,1990-01-04\t-999.000\t0\t-999.000\t0\t-999.000...
3,1990-01-05\t51.000\t1\t51.000\t1\t48.000\t1\t5...
4,1990-01-06\t-999.000\t0\t-999.000\t0\t-999.000...


Vidíme, že pri načítaní nastalo viacero problémov - všetky dáta skončili v jednom stĺpci a navyše prvý riadok bol automaticky interpretovaný ako hlavička.

### Skúsme sa pozrieť na dáta v nejakom editore (konzola) predtým, ako ich načítame

In [3]:
%%bash
head data/airbase/BETR8010000800100hour.1-1-1990.31-12-2012

Couldn't find program: 'bash'


## Teraz už vieme načítať dáta lepšie - pred načítaním dát by sme sa mali sami seba spýtať:

* Odkiaľ sú dané dáta? Kto ich vytvoril?
* V akom formáte sú reprezentované?
* Koľko ich je?
* Je niekde dostupná interpretácia jednotlivých stĺpcov?

In [4]:
filename = "data/airbase/BETR8010000800100hour.1-1-1990.31-12-2012"

data = pd.read_csv(filename, sep='\t', header=None,
                   na_values=[-999, -9999], index_col=0)
data.head()

Unnamed: 0_level_0,1,2,3,4,5,6,7,8,9,10,...,39,40,41,42,43,44,45,46,47,48
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1990-01-01,,0,,0,,0,,0,,0,...,,0,,0,,0,,0,,0
1990-01-02,,0,,0,,0,,0,,0,...,57.0,1,58.0,1,54.0,1,49.0,1,48.0,1
1990-01-03,51.0,1,50.0,1,47.0,1,48.0,1,51.0,1,...,84.0,1,75.0,1,,0,,0,,0
1990-01-04,,0,,0,,0,,0,,0,...,69.0,1,65.0,1,64.0,1,60.0,1,59.0,1
1990-01-05,51.0,1,51.0,1,48.0,1,50.0,1,51.0,1,...,,0,,0,,0,,0,,0


# Môžeme sa pustiť do prieskumnej analýzy (EDA) 

- Opísať dáta spolu s ich charakteristikami = **Deskriptívna štatistika**
- Formulovať a overiť hypotézy o dátach = **Vizualizácia dát** + inferenčná štatistika
- Identifikovať vzťahy medzi atribútmi = **Závislosti** (napr. korelácie)
- Identifikovať problémy v dátach = Čo budeme musieť riešiť v rámci predspracovania

## Možné problémy v dátach

* nevhodná štruktúra dát (dáta nie sú v tabuľkovej podobe alebo jedna entita je opísaná viacerými riadkami tabuľky)
* duplicitné záznamy, resp. nejednoznačné mapovanie medzi záznamami
* nejednotné formáty dát
* chýbajúce hodnoty
* vychýlené (odľahlé) hodnoty (angl. *outliers*)
* a ďalšie

## Iris dataset

iris = kosatec

Tri druhy: setosa, virginica, versicolor
<img src="https://i.imgur.com/PQqYGaW.png" width="70%" />

In [5]:
iris = sns.load_dataset("iris")
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [6]:
iris.shape[0] - iris.dropna().shape[0]

0

In [7]:
iris[iris.isnull().any(axis=1)]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species


In [8]:
iris.species.unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

# Typy atribútov
* Spojité (numerické)
* Diskrétne (kategorické) - nominálne vs. ordinálne

**Pozor na kategorické atribúty, ktoré sú reprezentované číselne, t. j. čísla len kódujú kategóriu**

### Analýza atribútov po jednom (univariate)

* **spojité** - deskriptívna štatistika (priemer, medián, ...), rozdelenia
* **kategorické** - počet unikátnych hodnôt, frekvencia ich výskytov

### Párová analýza (bivariate)

* **spojitý-spojitý** - závislosť, korelácia
* **spojitý-kategorický** - rozdiely v hodnote spojitého atribútu v závislosti od kategórie
* **kategorický-kategorický** - tabuľka, pomer početnosti hodnôt


In [9]:
iris.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [10]:
iris.describe(exclude=np.number)

Unnamed: 0,species
count,150
unique,3
top,setosa
freq,50


# Analýza jednotlivých atribútov: Spojité atribúty

Chceme zobraziť, aký je tvar rozdelenia dát, či sa zoskupujú okolo nejakého **centra**, a aká je **rozptýlenosť** hodnôt

## Zobrazenie centrálnosti

* **priemer** (mean)
* **medián** (median, stredná hodnota): hodnota, ktorá rozdeľuje vyššie a nižšie hodnoty
* **modus** (mode, modálna hodnota, najpravdepodobnejšia hodnota): najčastejsia hodnota (hodnota s najväčšou pravdepodobnosťou výskytu)

In [11]:
x = np.array([1000, 1000, 1200, 1100, 10000])
x.mean()

2860.0

In [12]:
np.median(x)

1100.0

In [13]:
stats.mode(x)

  stats.mode(x)


ModeResult(mode=array([1000]), count=array([2]))

## Rozptýlenosť

* **variancia** (variance): priemerná kvadratická odchýlka od priemeru 
$$ E[(X-E[X])^2] $$

* **smerodajná odchýlka** (standard deviation): druhá odmocnina variancie, je v jednotkách meranej premennej
$$ s = \sqrt{\frac{1}{N-1}\sum_{i=1}^N{(x_i-\overline{x})^2}} $$ 

* **rozsah** (range): max - min
* **horný/dolný kvartil** (quartile): hodnota, od ktorej je 25%, resp. 75% hodnôt menších 
* **percentil** (percentile): hodnota, od ktorej je XX% hodnôt menších
* **medzikvartilové rozpätie** (inter quartile range): rozdiel medzi 25% a 75% kvartilom, menej náchylné na outlierov ako rozsah



### Na vizualizáciu spojitých premenných používame dva základe typy grafov

* Krabicový graf (boxplot)
* Histogram (graf hustoty)

In [None]:
iris[iris.columns.difference(['species'])].plot.box()

## Histogram

- For continuous variables, a **pyplot.hist** or **seaborn.distplot** may be used. 
- For discrete variables, a *seaborn.countplot* is more convenient.

In [None]:
iris.petal_length.plot.hist(bins=30)

## Graf hustoty pravdepodobnostného rozdelenia

In [None]:
sns.displot(iris.petal_length, bins=30)

## Koeficienty asymetrie a špicatosti

### Koeficient asymetrie (skewness)

Koeficient asymetrie je metrika toho, ako je rozdelenie asymetrické. Úplne symetrické rozdelenie má hodnotu koeficientu rovnú 0. Rozdelenie naklonené doľava bude mať hodnotu koeficientu väčšiu ako 0, naklonené doprava bude mať menej ako 0.

<img src="https://miro.medium.com/max/600/1*nj-Ch3AUFmkd0JUSOW_bTQ.jpeg" alt="Skewness explained" />

So, when is the skewness too much?
* If the skewness is between -0.5 and 0.5, the data are fairly symmetrical.
* If the skewness is between -1 and -0.5(negatively skewed) or between 0.5 and 1(positively skewed), the data are moderately skewed.
* If the skewness is less than -1(negatively skewed) or greater than 1(positively skewed), the data are highly skewed.

In [None]:
sample_size = 10000

norm = stats.norm(0, 1)
x = np.linspace(-5, 5, 100)
sample = norm.rvs(sample_size)

plt.plot(x, norm.pdf(x))
plt.hist(sample, bins=20)
plt.title("Normalne rozdelenie: ""Skewness %.5f" % (stats.skew(sample), ))

In [None]:
sample_size = 1000

chi2 = stats.chi2(5)
x = np.linspace(0, 30, 100)
sample = chi2.rvs(sample_size)

plt.plot(x, chi2.pdf(x))
plt.hist(sample, bins=20)
plt.title("Chi-kvadrat(5) rozdelenie: ""Skewness %.5f" % (stats.skew(sample)))

In [None]:
sample_size = 1000

chi2 = stats.chi2(5)
x = np.linspace(0, 30, 100)
sample = 30 - chi2.rvs(sample_size)

plt.plot(x, chi2.pdf(30 - x))
plt.hist(sample, bins=20)
plt.title("30 - Chi-kvadrat(5) rozdelenie: ""Skewness %.5f" % (stats.skew(sample), ))

### Koeficient špicatosti (kurtosis)

- Koeficient špicatosti meria množstvo dát sustredené v chvostoch. Vyjadruje teda množstvo, resp. náchylnosť danej distribúcie produkovať odľahlé (od stredu distribúcie vzdialené) hodnoty.
- Veľmi často sa porovnáva k hodnote koeficientu normálneho rozdelenia, ktorá je 3. 
Ak je to viac ako 3, viac dát je sustredených na okrajoch. Ak menej ako 3, tak je menej dát v okrajoch.
- Často sa používa aj *excess kurtosis*, čo je rozdiel oproti normálnemu rozdeleniu, čize kurtosis - 3.

<img src="https://excelrcom.b-cdn.net/assets/admin/ckfinder/userfiles/images/tableau1/tableau2/tableau3/tableau4/tableau5/tableau6/skewness-kurtosis_1JPG-.jpg" width="50%"/>

In [None]:
sample_size = 100000

norm = stats.norm(0, 1)
x = np.linspace(-5, 5, 100)
sample = norm.rvs(sample_size)

plt.plot(x, norm.pdf(x))
plt.hist(sample, bins=20)
plt.title("Normalne rozdelenie: ""Kurtosis %.5f" % (stats.kurtosis(sample), ))

V základnom nastavení vracia funkcia excess kurtosis.

In [None]:
sample_size = 100000

norm = stats.norm(0,1)
x = np.linspace(-7, 7, 100)
sample = norm.rvs(sample_size)

plt.plot(x, norm.pdf(x))
plt.hist(sample, bins=20)
plt.title("Normalne rozdelenie: ""Kurtosis %.5f" % (stats.kurtosis(sample, fisher=False), ))
# musime prestavit parameter fisher na False

In [None]:
sample_size = 1000

logistic = stats.logistic()
x = np.linspace(-7, 7, 100)
sample = logistic.rvs(sample_size)

plt.plot(x, logistic.pdf(x))
plt.hist(sample, bins=20)

plt.title("Logisticke rozdelenie: ""Kurtosis %.5f" % (stats.kurtosis(sample, fisher=False)))

In [None]:
sample_size = 1000

uniform = stats.uniform()
x = np.linspace(-7, 7, 100)
sample = uniform.rvs(sample_size)

plt.plot(x, uniform.pdf(x))
plt.hist(sample, bins=20)

plt.title("Uniformne rozdelenie: ""Kurtosis %.5f" % (stats.kurtosis(sample, fisher=False)))

## Analýza po jednom: Kategorické atribúty

Najčastejším spôsobom zobrazenia je frekvenčná tabuľka zobrazujúca buď počty pozorovaní pre jednotlivé unikátne hodnoty atribútu alebo pomer voči celkovému počtu pozorovaní. 

Na grafickú vizualizáciu sa používa **stĺpcový graf (bar plot)**.

In [None]:
diamonds = pd.read_csv('data/diamonds.csv')
diamonds.head()

In [None]:
diamonds.color.value_counts()

In [None]:
diamonds.color.value_counts().plot(kind='bar')

### Kedy je vhodné použiť stĺpcový, a kedy koláčový graf? Aké sú ich výhody a nevýhody?

In [None]:
diamonds.color.value_counts().plot(kind='pie')

Pri počte hodnôt väčšom ako 3-4 je lepšie použiť stĺpcový graf.

## Párová analýza

### Spojitý - spojitý: Scatter plot

Najčastejší spôsob ako vizualizovať vzťah dvoch spojitých atribútov.

Zobrazuje rozmiestnenie v priestore hodnôt. Umožňuje zistiť, či sú v dátach nejaké prirodzené zhluky.

In [None]:
plt.scatter(iris.sepal_length, iris.sepal_width)

In [None]:
sns.pairplot(iris, hue="species")

## Korelácia

Hodnota v rozsahu [-1, 1], ktorá hovorí o tom, aký silný lineárny vzťah je medzi atribútmi.

* -1 perfektná negatívna korelácia
* 0 žiadna korelácia
* 1 perfektná kladná korelácia

Pearsonov korelačný koeficient:
$$ corr(X, Y) = \frac{cov(X,Y)}{\sigma_X\sigma_Y} = \frac{E[(X-E[X])(Y-E[Y])]}{\sigma_X\sigma_Y}$$

$$ r_{xy} = \frac{\sum_{i=1}^{n}{(x_i-\overline{x})(y_i-\overline{y})}}{(n-1)s_xs_y} $$

<img src="https://www.analyticsvidhya.com/wp-content/uploads/2015/02/Data_exploration_4.png" width="50%"/>

### Pearsonov korelačný koeficient meria **lineárnu závislosť** medzi dvomi premennými.

Medzi dvomi premennými však môže byť aj iný typ závislosti.

Alternatívy k Pearsonovmu korelačnému koeficientu, ktoré nevyžadujú linearitu, len monotónnosť, sú:
* Spearmanov koeficient
* Kendalovo $\tau$

In [None]:
sns.regplot(x="petal_length", y="petal_width", data=iris)
print("Pearson correlation: %.3f" % iris.petal_length.corr(iris.petal_width))

In [None]:
iris.corr()

In [None]:
fig, ax = plt.subplots(figsize=(10,8))
sns.heatmap(iris.corr(), ax=ax, annot=True, fmt=".3f")

## Korelácia $\neq$ kauzalita

- Ak dva javy spolu korelujú, môže to byť náhoda. (*Príklady vtipných korelácií nájdete tu:* http://tylervigen.com/spurious-correlations)
- Alebo môže existovať nejaký iný jav, ktorý je pôvodcom oboch. (*Napr. účasť študentov na prednáškach môže korelovať s ich finálnym hodnotením na predmete, ale možno len na prednášky chodí viac snaživejších študentov, ktorí by lepšie hodnotenie mali tak či tak.*)
- **Dokázať kauzalitu je netriviálne - kontrolovaný (randomizovaný) experiment**

## Párová analýza: Spojitý - kategorický

Tu sa najčastejšie používa rozdeľovanie pozorovaní podľa kategorickej hodnoty a zobrazovanie rozdelení podmnožín numerických hodnôt napríklad pomocou histogramov alebo boxplotov.

Čize ide o viacnásobné použitie vizualizácií, ktoré sa použivajú na zobrazenie spojitých atribútov.

In [None]:
sns.boxplot(x='species', y='petal_length', data=iris)

## Párová analýza: Kategorický - kategorický

* Kontingenčná tabuľka
* Teplotná mapa
* Zložený stĺpcový graf
* Chi-kvadrát testy

In [None]:
titanic = pd.read_csv('data/titanic/train.csv')
titanic.head()

In [None]:
# Frekvencna tabulka
titanic["Survived"].value_counts()

In [None]:
survived_class = pd.crosstab(index=titanic["Survived"], 
                             columns=titanic["Pclass"])
survived_class.index= ["died","survived"]
survived_class

In [None]:
sns.heatmap(survived_class, annot=True, fmt="d")

In [None]:
survived_class_perc = pd.crosstab(index=titanic["Survived"], 
                                  columns=titanic["Pclass"],
                                  normalize='columns') #'index', 'all'
survived_class_perc.index= ["died","survived"]

sns.heatmap(survived_class_perc, 
            annot=True, 
            fmt=".4f")
survived_class_perc

In [None]:
pd.crosstab(index=titanic["Survived"], 
            columns=[titanic["Pclass"], 
            titanic["Sex"]],
            margins=True)

In [None]:
pd.crosstab(index=titanic["Pclass"], columns=titanic["Survived"]).plot.bar(stacked=True)

# Vizualizácie nám pomáhajú pochopiť dáta
**Ak sú spravené dobre...**

