# Seaborn: statisztikai adatvizualizálás
A seaborn python csomag alapverően a matplotlib-re épül, azt egészíti felhasználóbarát, hasznos funkciókkal a gyors és egyszerű vizualizációhoz.
Megtalálhatóak benne a leggyakoribb adatelemzéshez használt plot típusok, és nagyon jól működik együtt a Pandas Dataframe adattípussal is.

A szokásos módon telepíthető és importálható

    pip install seaborn
    
https://seaborn.pydata.org/examples/index.html

In [None]:
import seaborn as sns

## 1. Adatok eloszlásának megjelenítése
Az első lépésben egy adatsor eloszlását fogjuk elemezni. Hasznosak lehetnek ezek a plot típusok például mérési eredmények elemzéséhez, vagy érzékenységvizsgálathoz optimalizáció előtt, a megfelelő paraméterek megtalálásához.

In [None]:
tips = sns.load_dataset('tips')
tips.head()

### 1.1 Distplot
Az `sns.distplot()` egy adatsor eloszlását mutatja meg. Ehhez a seaborn-ból elérhető 'tips' példa adatsort fogjuk használni.
Már egy sor kóddal is hasznos információkat tartalmazó grafikonokhoz juthatunk.

In [None]:
sns.distplot(tips['total_bill'])
# Safe to ignore warnings

In [None]:
sns.distplot(tips['total_bill'],kde=False,bins=30)

### 1.2 Jointplot
Az `sns.jointplot()` alapvetően két eloszlás plotnak a kombinációja, amivel már két paraméter eloszlását is figyelhetjük egyszerre.

Többféle fomáji elérhetőek, amiket érdemes kipróbálgatni:
* “scatter” 
* “reg” 
* “resid” 
* “kde” 
* “hex”

In [None]:
sns.jointplot(x='total_bill',y='tip',data=tips,kind='scatter')
sns.jointplot(x='total_bill',y='tip',data=tips,kind='hex')

In [None]:
sns.jointplot(x='total_bill',y='tip',data=tips,kind='reg')

### 1.3 Pairplot
A `sns.pairplot()` még a korábbi példáhhoz képest is egy nagyon kód-takarékos és gyors megjelenítésni módszer, hiszen minden paraméter összes másikkal nézett kölcsönhatását segít vizualizálni.

In [None]:
sns.pairplot(tips)

In [None]:
sns.pairplot(tips,hue='sex',palette='coolwarm', kind='reg')

## 2. Kategorizált plotok
A fenti példában láttuk, hogy bizonyos paraméterek csak fix értékeket vehetnek fel, ezek esetében nem a legoptimálisabb a "szórás" típusú megjelenítés, ezért nézzünk pár példát, hogy ezeket az adatokat hogyan lehet hatékonyabban elemezni.

### 2.1 Barplot
A matplotlibhez készített barplot itt is elkészíthető, viszont itt az adatok valami függvény alapján vannak összesítva, ami alapból az 'átlag' de ez felülírható

In [None]:
sns.barplot(x='sex',y='total_bill',data=tips)

Láttuk, hogy korábban egy sor kóddal egy egész plot-mátrixot készített nekünk a seaborn, de ha egy kicsit több beavatkozást szeretnénk, annak sincs semmi akadája, hiszen a plotok jelentős részének bemeneti argumentuma lehet a `matplotlib ax` objetum, amire aztán a seaborn a kért adatokat megjeleníti.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

In [None]:
fig, axes = plt.subplots(1,2)
sns.barplot(x='time',y='total_bill',data=tips,ax=axes[0],estimator=np.median)
sns.barplot(x='day',y='total_bill',hue='time',data=tips,ax=axes[1],estimator=np.median)
plt.tight_layout()

### 2.2 Countplot
A `sns.coutplot()` nagyon hasonlít a korábbi oszlopdiagramhoz, viszont itt az előfordulások száma kerül megjelnítésre.

In [None]:
sns.countplot(x='sex',data=tips)

### 2.3 Box és violinplot
Ezt a két plottípust már a matplotlibnél is megnéztük, itt viszont kicsit más a szintaxis és több opciót érhetünk el nagyon kevés kóddal.

In [None]:
fig, axes = plt.subplots(1,2)
sns.boxplot(x="day", y="total_bill", data=tips,palette='rainbow',ax=axes[0])
sns.violinplot(x="day", y="total_bill", data=tips,palette='rainbow',ax=axes[1])
axes[0].set_title("BoxPlot")
axes[1].set_title("ViolinPlot")
plt.tight_layout()

In [None]:
fig, axes = plt.subplots(1,2, figsize=(10,6))
sns.violinplot(x="day", y="tip",hue="sex", data=tips,ax=axes[0])
sns.violinplot(x="day", y="tip",hue="sex",split=True, data=tips,ax=axes[1])
plt.tight_layout()

### Egy kis érdekesség: swarmplot

In [None]:
sns.violinplot(x="tip", y="day", data=tips,palette='rainbow')
sns.swarmplot(x="tip", y="day", data=tips,color='black',size=3)

## 3. Mátrix típusú plotok
A mátrix típusú plotok segítségével szín szerint kódolva jeleníthetünk meg adatokat. Sok esetben ez nagyon látványos módja eredmények vizualizálásának.

### 3.1 Heatmap
Az `sns.heatmap()` függvény bemenetének már egy kész mátrix formátumú dataframe-et kell megadni, és igazából csak az értékek alapján színezi a cellákat.

In [None]:
tips.corr()

In [None]:
sns.heatmap(tips.corr())

In [None]:
'''A seaborn visszetér egy matplotlib objektummal, amit tovább szerkeszthetünk.'''

ax = sns.heatmap(tips.corr(), cmap='coolwarm', linewidths=1, xticklabels=['létszám', 'borravaló', 'számla végösszeg'], annot=True)
print(type(ax))

ax.set_title('my_heatmap')
plt.show()

Az eddig használt borravalós adatsor nem túl látványos heatmap típusú vizualizációhoz, úgyhogy nézzünk egy másik adatsort...

In [None]:
flights = sns.load_dataset('flights')
flights.head()

In [None]:
pvflights = flights.pivot_table(values='passengers',index='month',columns='year')
pvflights.head()

In [None]:
sns.heatmap(pvflights, linewidth=0.5, )

### 3.2 Clustermap
Az `sns.clustermap()` nagyon hasonlít a heatmapre, azzal a különbséggel, hogy a hasonló oszlopokat és sorokat egy clusterezési algoritmus szerint összepárosítja, így egymás mellett jelenítni meg.

In [None]:
sns.clustermap(pvflights)

A klaszterezéshez használt elérhető módszerekről itt található további információ:
https://docs.scipy.org/doc/scipy/reference/generated/scipy.cluster.hierarchy.linkage.html

In [None]:
'''
Normalized, only cluesered for months.
'''
sns.clustermap(pvflights,cmap='coolwarm',standard_scale=1, col_cluster=False, method='weighted')
