# Seaborn biblioteka

<br>

---

Seaborn yra Python programavimo kalbos biblioteka, skirta statistinės duomenų vizualizacijos poreikiams tenkinti. Ji yra pastatyta ant kitos populiarios Python duomenų analizės bibliotekos, vadinamos `„matplotlib“`, ir suteikia paprastesnį, stilingesnį sąsają su aukštos kokybės grafikais ir diagramomis.<br>

Seaborn yra naudinga, kai reikia greitai ir efektyviai atvaizduoti duomenis, tokius kaip duomenų pasiskirstymai, ryšiai tarp kintamųjų, grupavimo analizė ir kt. Ji suteikia paprastesnes priemones vizualizuoti duomenis nei `„matplotlib“` ir turi integruotų funkcijų, leidžiančių lengviau kurti sudėtingesnius grafikus.<br>

Seaborn yra plačiai naudojama mokslinių tyrimų, duomenų analizės ir vizualizacijos projektuose.<br>

Dokumentaciją rasite [čia](https://seaborn.pydata.org/).

Diegiasi `*conda install seaborn*`, arba `*pip install seaborn*`.<br>
<br>
<br>
Naudingos nuorodos:<br>
[Spalvų paletės](https://seaborn.pydata.org/tutorial/color_palettes.html)<br>
[Seaborn duomenų rinkinys](
https://stackoverflow.com/questions/30336324/seaborn-load-dataset)

In [None]:
import pandas as pd
import matplotlib as plt
import seaborn as sns
import numpy as np

In [None]:
%matplotlib inline

`%matplotlib inline` yra speciali komanda, kuri nustato, kad visi "matplotlib" bibliotekos sugeneruoti vaizdai bus rodomi tiesiai Jupyter faile, o ne atskirame langelyje arba generuojamas atskiras failas kiekvienam vaizdui. Tai padeda išlaikyti darbo srautą ir pagerina vizualinį duomenų analizės ir modeliavimo procesą, nes vaizdai yra rodomi tiesiai kartu su kodo rezultatais.

Grafikams ir diagramoms rekomenduojama naudoti `tab10` paletę:

In [None]:
sns.color_palette("tab10")

Dažnai duomenų analizės bibliotekos turi integruotus dataset'us, demonstraciniams tikslams. Pasinaudokime vienu iš jų:

In [None]:
sns.get_dataset_names()

Pasirenkame `tips` seaborn duomenų rinkinį:

In [None]:
tips = sns.load_dataset('tips')
tips.shape

Turime sąskaitą:

In [None]:
tips.head()

In [None]:
tips.shape

### Pasiskirstymo histogramos

Jų pagalba matysime, koks yra kokio nors vieno rodiklio pasiskirstymas.

In [None]:
sns.displot(tips['total_bill'])

Parametras **bins** leidžia padidinti stulpelių skaičių.

In [None]:
sns.displot(tips['total_bill'], bins=20, kde=True)

In [None]:
tb_min = min(tips['total_bill'])
tb_min

In [None]:
tb_max = max(tips['total_bill'])
tb_max

Tą patį galima padaryti duoenys paskirsčius į 5 lygias dalis:

In [None]:
sns.displot(tips['total_bill'], bins=5)

In [None]:
tb_min = min(tips['total_bill'])
tb_min

In [None]:
tb_max = max(tips['total_bill'])
tb_max

In [None]:
bars = np.linspace(tb_min, tb_max, 5)
bars

Norint gauti tikslesnį rezultatą, `tb.max` pasirenkame 6:

In [None]:
bars = np.linspace(tb_min, tb_max, 6)
bars

In [None]:
total_bill = tips['total_bill']
bar1 = total_bill[(total_bill >= bars[0]) & (total_bill < bars[1])]
bar2 = total_bill[(total_bill >= bars[1]) & (total_bill < bars[2])]
print(len(bar1), len(bar2))

In [None]:
sns.displot(tips['total_bill'], kde=False, bins=20)

Matome kad dažniausiai sąskaitos išrašomos tarp 10 ir 20$.

In [None]:
tb_min = (tips['total_bill'])
tb_min

In [None]:
tb_max = (tips['total_bill'])
tb_max

In [None]:
bars = np.linspace(tb_min, tb_max, 6)
bars

In [None]:
total_bill = tips['total_bill']
bar1 = total_bill[(total_bill >=bars[0]) & (total_bill < bars[1])]
bar2 = total_bill[(total_bill >=bars[1]) & (total_bill < bars[2])]

### .jointplot()

Pasirenkame duomenys išmūsų sąskaitos. Galime išsikelti pagal lytį, laiką, tipsų dydį. Štai keletas pavyzdžių:

In [None]:
sns.jointplot(x='total_bill', y='tip', data=tips, hue='sex')

In [None]:
sns.jointplot(x='total_bill', y='tip', data=tips, hue='time')

In [None]:
sns.jointplot(x='total_bill', y='tip', data=tips, hue='size')

Matome, koks yra sąntykio tarp 'total_bill' ir 'tip' pasiskirstymas. Pagrindiniame lange yra sklaidos diagrama, o iš dešinės ir viršuje - tos pačios histogramos, iš kurių sukombinavome rezultatą.  

Rezultatą galime koreguoti su parametru **kind**:

In [None]:
sns.jointplot(x='total_bill', y='tip', data=tips, kind='hex')

In [None]:
sns.jointplot(x='total_bill', y='tip', data=tips, kind='hist')

reikšmė 'reg' stengiasi nubrėžti mums liniją, kuri atspindėtų tendenciją.

In [None]:
sns.jointplot(x='total_bill', y='tip', data=tips, kind='reg')

taip pat galime naudoti **kind** su 'kde' reikšme. Tokiu atveju matysime didžiausio tankio zonas:

In [None]:
sns.jointplot(x='total_bill', y='tip', data=tips, kind='kde')

### .scatterplot()
parametruose nurodžius ašis ir šaltinį, nubrėžia mums sklaidos diagramą.

In [None]:
sns.scatterplot(x='tip', y='total_bill', data=tips)

Parametruose taip pat galima nurodyti **hue** ir **size** reikšmes:

In [None]:
sns.scatterplot(x='total_bill', y='tip', data=tips, hue='sex')

Dar vienas pavyzdys su `size`, kuris nurodo kiek žmonių buvo sąskaitoje (remiantis vėl gi mūsų pavyzdiniais duomenimis):

In [None]:
sns.scatterplot(x='tip', y='total_bill', data=tips, hue='sex', size='size')

Tą patį galime padaryti su `time` ir `day`:

In [None]:
sns.scatterplot(x='total_bill', y='tip', data=tips, hue='time', size='day')

### .pairplot()
duoda mums visas įmanomas pasiskirstymo kombinacijas lentelėje:

In [None]:
sns.pairplot(tips)

pvz, dešinys-apatinis grafikas yra ne kas kita, kaip:

In [None]:
sns.scatterplot(x='total_bill', y='size', data=tips)

parametras **hue** išskiria kategorines reikšmes, o **diag_kind** šiuo atveju nurodo, kad įstrižainėje norime matyti ne linijas, o histogramas pvz.:

In [None]:
sns.pairplot(data=tips, hue='sex', diag_kind='hist')

In [None]:
sns.pairplot(data=tips, hue='sex')

Turime skirtingų spalvų taškus, kur oranžinė spalva reprezentuoja moteris.

### Kategorizavimo histogramos

**.barplot()** išskirsto kategorijas pagal kurį nors rodiklį ir leidžia tam rodikliui taikyi kokią nors funkciją:

In [None]:
sns.barplot(x='sex', y='total_bill', data=tips, palette='tab10', hue='sex')

In [None]:
sns.barplot(x='sex', y='total_bill', data=tips, estimator=sum,  palette='tab10', hue='sex')

Pašaliname `errorbar`:

In [None]:
sns.set_palette('tab10')

In [None]:
sns.barplot(x='sex', y='total_bill', data=tips, estimator=sum, errorbar=('ci', False),  palette='tab10', hue='sex')

Jeigu mes nenurodome, kokia ta funkcija, numatyta reikšmė yra vidurkis. Taigi šiame pavyzdyje matome sąskaitos vidurkių pasiskirstymą tarp lyčių. Jeigu norime nurodyti vidurkį, turime naudoti **estimator** parametrą, pvz.:

In [None]:
sns.set_style('whitegrid')
sns.despine()

In [None]:
sns.barplot(x='sex', y='total_bill', data=tips, hue='day', estimator=sum)

Šiuo atveju matome bendras sumas. Taip pat panaudojome *hue*, tokiu būdu rezultatą išskirstydami savaitės dienomis. *Nekreipkite dėmesio į juodas linijas, jos yra error bars, rodo statistinį skaičiavimo patikimumą, ir nėra mums aktualios. Norint jas išjungti, parametruose nurodykite ci=False* 

In [None]:
sns.barplot(x='sex', y='total_bill', data=tips, estimator=sum, errorbar=('ci', False), palette='tab10', hue='sex')

In [None]:
sns.set_style('whitegrid')
sns.despine()

In [None]:
sns.barplot(x='sex', y='total_bill', data=tips, hue='day', estimator=sum, palette='hls')

### .countplot() tiesiog suskaičiuoja kategorijas:

In [None]:
sns.countplot(x='smoker', data=tips, palette='tab10', hue='smoker')

Arba dar aiškiau išskaidant pagal lytį rūkančius ir nerūkančius:

In [None]:
sns.countplot(x='smoker', data=tips, palette='tab10', hue='sex')

In [None]:
tips.head()

In [None]:
sns.countplot(x='sex', data=tips, hue='sex')

### .boxplot() - stačiakampės diagramos

In [None]:
sns.boxplot(x='smoker', y='total_bill', hue='smoker', data=tips, palette='tab10')

In [None]:
tips.describe()

Kas yra *boxplot* (stačiakampė diagrama)? Iš esmės tai į ketvirtadalius sugrupuota informacija. Mūsų pavyzdyje matosi, kad rūkalių viršutinis ketvirtadalis maistui išleido nuo ~28 iki ~46, kai tuo tarpu nerūkančiųjų viršutinis ketvirtadalis išleido nuo ~24 iki ~37. Taškai viršuje yra išimtys. Jie pasitaiko per retai, kad būtų įtraukti į ketvirtadalius.

![](http://web.pdx.edu/~stipakb/download/PA551/boxplot_files/boxplot4.jpg)

Šis paveikslėlis paaiškina boxplot atvaizdavimą.

### .heatmap() 

pandas turi metodą, kuris parodo skaičių koreliacijas lentelėje:

In [None]:
koreliacijos = tips.corr(numeric_only=True)
koreliacijos

čia turime koreliacijų matricą. Ji rodo, kaip skirtingi kintamieji tarpusavyje koreliuoja. Kad būtų lengviau skaityti, atsispausdinkime vizualizaciją (mozaikinę diagramą):

In [None]:
sns.heatmap(koreliacijos, annot=True)

In [None]:
sns.heatmap(koreliacijos, annot=False, cmap='BuPu')

### .FacetGrid()

**.FacetGrid()** leidžia susikurti tinklelį, kurį vėliau reikės užpildyti diagramomis. Pvz.:

In [None]:
sns.FacetGrid(data=tips, col='time', row ='smoker')

O pats užpildymas atrodo taip:

In [None]:
g = sns.FacetGrid(data = tips, col='time', row='sex')
g.map(sns.scatterplot, 'tip', 'total_bill')

In [None]:
gridux = sns.FacetGrid(data=tips, col='time', row='smoker')
gridux.map(sns.scatterplot, 'tip', 'total_bill')

Taip išskirstėme atvaizdavimą į keturias diagramas. Vienoje pavaizduotos moterys per pietus, kitoje moterys per vakarienę ir t.t.

### Stilius ir spalvos

### .set_style()

Seaborn leidžia nustatyti stilių su **.set_style()** metodu. Į parametrus reikia įkelti vieną iš šių reikšmių - darkgrid, whitegrid, dark, white, ticks.

In [None]:
sns.set_style('darkgrid')
sns.barplot(x='sex', y='total_bill', data=tips, hue='day', estimator=sum)


### .despine()

Nuima viršutinį ir dešinį rėmą.

In [None]:
sns.set_style('whitegrid')
sns.barplot(x='sex', y='total_bill', data=tips, hue='day', estimator=sum)
sns.despine()

### palette parametras
leidžia pasirinkti vieną iš paruoštų naudoti spalvų palečių. Jas rasite [čia](https://matplotlib.org/3.1.0/tutorials/colors/colormaps.html#classes-of-colormaps). Kai kurie metodai nepriima parametro palette, tuomet reikia bandyti tas pačias reikšmes nurodyti į **cmap** parametrą

In [None]:
sns.set_style('white')
sns.barplot(x='sex', y='total_bill', data=tips, hue='day', estimator=sum, palette='cividis')
sns.despine()

Rekomendacija: pasitikrinti galimus įvairių metodų parametrus galite kursoriui mirksint skliaustelių viduje, spaudžiant *Shift+Tab*. Nevenkite eksperimentuoti :) 

<br>
<br>

# Užduotys:

---

Užduočių sprendimui mums reikalingi kai kurie įrankiai ir duomenys.<br>

Siekinat sklandaus darbo rezultato, kai kurie įrankiai šioje temoje pasikartoja.

In [None]:
import numpy as np
import pandas as pd
import matplotlib as plt
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline

In [None]:
mpg = sns.load_dataset('mpg')

In [None]:
mpg.head(10)

In [None]:
mpg.shape

<b>Reikšmės, kurios galbūt ne visai aiškios:</b><br>

<b>mpg</b> - miles per gallon<br>
<b>displacement</b> - variklio tūris kubiniais coliais.<br>

Jei norite pasisunkinti, galite perkaičiuoti stulpelius europietiškais standartais.

<br>

### Pirma užduotis:

Atspausdinkite histogramą, kurioje matytųsi, kiek automobilių turi kokią akseleraciją. Šioje ir kitose užduotyse žaiskite su stiliais ir spalvomis, taip, kaip jums patinka:

In [None]:
sns.displot(mpg['acceleration'], bins=20, color='lightblue', edgecolor='white')

<br>

### Antra užduotis:

Atspausdinkite histogramą, kurioje matytųsi, kiek automobilių turi kokius variklio tūrius:

In [None]:
sns.displot(mpg['displacement'])

<br>

### Trečia užduotis:

Atspausdinkite histogramą, kurioje matytųsi, kokie yra cilindrų skaičiaus variantai:

In [None]:
sns.countplot(x='cylinders', data=mpg)

<br>

### Ketvirta užduotis:

Atspausdinkite histogramą, kurioje matytųsi, kiek yra pagaminimo metų variantų:

In [None]:
sns.countplot(x='model_year', data=mpg, hue='model_year', palette='cubehelix', edgecolor='white', legend=False)

<br>

### Penkta užduotis:

Atspausdinkite histogramą, kurioje matytųsi, kiek automobilių lentelėje kokia šalis pagamino:

In [None]:
sns.countplot(x='origin', data=mpg, hue='origin', palette='cubehelix', edgecolor='white', legend=False)

<br>

### Šešta užduotis:

Atspausdinkite sklaidos diagramą, kurios x ašis būtų 'displacement', y - 'acceleration', taip pat kiekvienas taškas atspindėtų šalį gamintoją ir cilindrų skaičių:

In [None]:
sns.scatterplot(x='displacement', y='acceleration', data=mpg, hue='origin', size='cylinders', palette="Set2")

<br>

### Septinta užduotis:

Atspausdinkite visas įmanomas sklaidos diagramas lentelėje, kur pagal taško spalvą matytumėm šalį gamintoją.<br>

Kokias tendencijas galima aiškiai išskirti?

In [None]:
sns.pairplot(data=mpg, hue='origin')

<br>

### Aštunta užduotis:

Atspausdinkite stulpelinę diagramą, `'origin'` x `'mpg'`.<br>

Pabandykite interpretuoti rezultatą.

In [None]:
sns.boxplot(x='origin', y='mpg', data=mpg)

<br>

### Devinta užduotis:

Sukurkite koreliacijų matricą. Jos pagrindu atspausdinkite mozaikinę diagramą:

In [None]:
cor = mpg.corr(numeric_only=True)

In [None]:
cor

In [None]:
sns.heatmap(cor, annot=True, cmap='BrBG')

<br>

### Dešimta užduotis:

Atspausdinkite sklaidos diagramų rinkinį, kuriame kiekviena lentelė pagal šalį rodytų `'acceleration'` ir `'mpg'` sąntykį.

In [None]:
rinkinys = sns.FacetGrid(data=mpg, col='origin')
rinkinys.map(sns.scatterplot, 'acceleration', 'cylinders' )