# Csoportosítás, korreláció, vizualizáció (Pandas)

---

(2020. 02. 04. – 14. óra)

Mittelholcz Iván

In [None]:
# íriszadatbázis beolvasása
import pandas as pd

path = ! [ -d 'iris.tsv' ] && echo 'iris.tsv' || echo '../13.pandas/iris.tsv'
df = pd.read_csv(path[0], sep='\t', index_col=0)
df

## 1. Csoportosítás (GroupBy)

Az agregáló függvényeket (sum, min, max, mean, mode, std, stb.) nem csak a teljes táblára, vagy annak egyes oszlopaira lehet lekérni, hanem egy vagy több oszlop értékei szerint csoportosítva is.

![kép](https://jakevdp.github.io/PythonDataScienceHandbook/figures/03.08-split-apply-combine.png)

forrás: [VanderPlas, Jake: Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html#Split,-apply,-combine)

Pl. íriszek fajtái szerint vagyunk kíváncsiak az átlagos mértekre:

### 1.1. Csoportosítás egy oszlop alapján

In [None]:
# a csoportosítás nem tábla, de táblaszerű
df.groupby('species')

In [None]:
# a csoportosításnak van oszlopszerűsége, ami nem oszlop
df.groupby('species')['sepal_width']

In [None]:
# viszont a tábla- ill. oszlopszerűségen is lehet aggregálni
# tábla:
df.groupby('species').mean()
# egy oszlop:
# df.groupby('species')['sepal_width'].mean()
# több oszlop:
# df.groupby('species')['sepal_length', 'sepal_width'].mean()

In [None]:
# Mi hiányzik? Miért hiányzik?
df.groupby('species').mean()
# df.groupby('sepal_width').mean()

### 1.2. Csoportosítás több oszlop alapján

In [None]:
# sepal_width és species szerint csoportosítunk, számláljuk a cellák eredményeit
print(df.groupby(['sepal_width', 'species'])['sepal_width'].count().head())
# print(df.groupby(['sepal_width', 'species'])['species'].count().head())
# Miért ugyanaz az eredmény?
# df.groupby(['sepal_width', 'species']).count().head()

## 2. Korreláció

Lineáris kapcsolat (függőség / függetlenség) két változó között. Ha nincs korreláció, attól még lehet (nem lineáris) kapcsolat (pl. négyzetes).

- $r$: mintabeli (Pearson-féle) korreláció
- $-1 \leq r \leq 1$
- $r = 0$: korrelálatlanok

szintaxis (Pearson - deafult):

```py
df['oszlop1'].corr(df['oszlop2'])
```

Spearman:

```py
df['oszlop1'].corr(df['oszlop2'], method='spearman')
```

Kendall:

```py
df['oszlop1'].corr(df['oszlop2'], method='kendall')
```

In [None]:
df['sepal_length'].corr(df['sepal_width'])

In [None]:
# setosa
df.loc[1:50, :]['sepal_length'].corr(df.loc[1:50, :]['sepal_width'])

In [None]:
# versicolor
df.loc[51:100, :]['sepal_length'].corr(df.loc[51:100, :]['sepal_width'])

In [None]:
# virginica
df.loc[101:150, :]['sepal_length'].corr(df.loc[101:150, :]['sepal_width'])

Korreláció is aggregál $\rightarrow$ lehet csoportosítással használni:

In [None]:
df.groupby('species')['sepal_length'].corr(df['sepal_width'])

In [None]:
# Feladat: Mi van a petal_length és petal_width közötti kapcsolattal? (összes írisz és fajták szerint is)

## 3. Vizualizáció

Minden DataFrame-nek és minden oszlopnak (Series) (és minden GroupBy-nak) van `.plot()` metódusa, ami igazából a *matplotlib* modult hívja a háttérben.

A `.plot()` alapból *line plot*-ot fog készíteni, ezt a `kind='típus'` opcionális paraméterrel tudjuk felülírni. Pl oszlopdiagram: `df.plot(kind='bar')` Lehetőségek:

- `'line'`
- `'bar'` és `'barh'`: függőleges és vízszintes oszlopdiagramm
- `'pie'`: torta
- `'hist'`: hisztogram
- `'box'`: dobozos
- `'scatter'`: pöttyös

További opcionális paraméterek: [`pandas.DataFrame.plot`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html#pandas.DataFrame.plot)

Ha még többet akar az ember, akkor közvetlenül a [`matplotlib`](https://matplotlib.org/contents.html)-et kell használni, vagy a [`seaborn`](https://seaborn.pydata.org/tutorial.html) csomagot.

In [None]:
%matplotlib inline

In [None]:
df.plot()

### 3.1. Egydimenziós adatok ábrázolása

In [None]:
df['sepal_length'].plot()

In [None]:
# boxplot (kvartilisek)
df['sepal_length'].plot(kind='box')

In [None]:
# hisztogram
df['sepal_length'].plot(kind='hist')

In [None]:
# hisztogram csoportokra
df.groupby('species')['sepal_length'].plot(kind='hist')

### 3.2. Kétdimenziós adatok ábrázolása

Az $x$ és $y$ tengely megadható az `x='oszlop1'` és `y='oszlop2'` paraméterekkel

In [None]:
# szórásdiagram
df.plot(x='sepal_length', y='sepal_width', kind='scatter', title='PLOTTTT')

In [None]:
# szórásdiagram csoportokra
df.groupby('species').plot(x='sepal_length', y='sepal_width', kind='scatter')

In [None]:
# Feladat: Elemezzünk a petal_length és petal_width szórásdiagramokat (összes íriszre és a fajtákra is)!

### 3.3. Többdimenziós adatok ábrázolása

Több változó ábrázolásához a [`pandas.plotting`](https://pandas.pydata.org/pandas-docs/stable/reference/plotting.html) alcsomag függvényeit lehet használni.

In [None]:
# szórásdiagram mátrix
pd.plotting.scatter_matrix(df, figsize=(12, 9))

In [None]:
pd.plotting.radviz(df, 'species')

## Irodalom

- Hivatalos:
    - [Dokumentáció](https://pandas.pydata.org/pandas-docs/stable/)
    - [Getting started](https://pandas.pydata.org/pandas-docs/stable/getting_started/index.html)
- [Real Python: Pandas](https://realpython.com/search?q=pandas)
- [Downey, Allen B.: Think Stats](http://www.greenteapress.com/thinkstats/)
- [VanderPlas, Jake: Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/)