# **Ábrázolás gyakorlat**

Az alábbi notebook az adatelemzésben gyakran használt diagramok, ábrák pythonban történő vizualizációját mutatja be a *plotly* könyvtár segítségével.

Bár az iparban a legelterjedebben használt python vizualizációs könyvtár a *matplotlib*, a *plotly* rendelkezik néhány tulajdonsággal, ami miatt a tárgy keretein belül érdemesebbnek tartottuk ennek a használatát, bemutatását:
* Nagyon egyszerűen, szinte konfigurálás nélkül előállíthatók és megjeleníthetők ábrák
* Nagyon jól együttműködik a *pandas* *Dataframe*-ekkel
* A megjelenített ábrák interaktívak (zoom, görgetés)

A tananyag keretein belül csak a felszínes használata kerül bemutatásra, a könyvtár a tárgyaltakon felül rengeteg további funkcióval, testreszabhatósággal rendelkezik.

A *plotly* teljes dokumentációja megtalálható: https://plotly.com/python-api-reference/

## **1. Plotly alapok**
Néhány példa a *plotly* főbb funkcionalitására

In [None]:
import pandas as pd
import numpy as np

### **1.1 Plotly express**
Magas szintű ábrázolási modul, segítségével 1-1 hívással lehet ábrákat létrehozni és megjeleníteni

In [None]:
# például vonaldiagram
import plotly.express as px
fig = px.line(x=["a","b","c"], y=[1,3,2], title="Plotly express példa")
fig

***Figure objektum paraméterei***

In [None]:
print(fig)

### **1.2. Plotly graph objects**
Alacsonyabb szintű modul, ahol egyenként kell definiálni az ábrák egyes elemeit (figure, trace, element)

Több konfigurációt igényel, azonban jóval nagyobb mértékű a testre szabhatóság


In [None]:
# Ábrák graph objects modulban

import plotly.graph_objects as go

# trace objektumok definiálása
trace1 = go.Scatter(x=[1, 2, 3],
                    y=[1, 3, 2])

trace2 = go.Scatter(x=[1, 2, 3],
                    y=[4, 5, 4],
                    name="2. elem",
                    mode="markers",
                    marker=go.scatter.Marker(symbol="x"))

# figure létrehozása
fig = go.Figure(
    data=[trace1, trace2],
    layout=go.Layout(
        title=go.layout.Title(text="Graph objects modul alapú ábra"),
        height=600, 
        width=800,
    )
)

fig.show()

***Az ábrák adatait natív python dictionary-ként is definiálhatjuk (megfelelő mezőkkel)***

In [None]:
dict_of_fig = dict({
    "data": [{"type": "bar",
              "x": [1, 2, 3],
              "y": [1, 3, 2]}],
    "layout": {"title": {"text": "Python dictionary alapú ábra definíció"}}
})

fig = go.Figure(dict_of_fig)

fig.show()

### **1.3 Sublots**
Ha több diagramot szeretnénk megjeleníteni egy ábrán belül

In [None]:
from plotly.subplots import make_subplots

# elrendezés meghatározása
fig_grp = make_subplots(rows=1, cols=2, subplot_titles=["első ábra", "második ábra"])

# trace-ek hozzáadása a megfelelő figure-höz
fig_grp.add_trace(go.Scatter(y=[4, 2, 1], mode="lines", name="sublot 1"), row=1, col=1)
fig_grp.add_trace(go.Bar(y=[2, 1, 3], name="subplot 2"), row=1, col=2)


fig_grp.show()

### **1.4. Plotly IO**
Csak kifejezetten az ábrázolásért felelős könyvtár, dictionary-ként megfogalmazott diagramok esetén érdemes használni

In [None]:
import plotly.io as pio

figd = dict({
     "data": [{"type": "bar",
               "x": [1, 2, 3],
               "y": [1, 3, 2],
               "marker":{"color":"green"}
              }],
     "layout": {"title": {"text": "Megfelelő tartalmú python dictionary ábrázolása plotly io modullal"}}
})

pio.show(figd)

## **2. Alapvető ábrák**

### **2.1. Scatterplot**
**Pontdiagram:** két mennyiség közötti összefüggés ábrázolása

In [None]:
import plotly.express as px

# X és Y adathalmazok megadása (lista-szerű objektumok)
x_data = [0, 1, 2, 3, 4]
y_data = [0, 1, 4, 9, 16]


fig = px.scatter(x=x_data, y=y_data)
fig.show()

**Plotly használata pandas dataframe-kkel**

*Minta adathalmaz betöltése*

Plotly tartalmaz néhány, az adatelemzésben elterjedt minta adathalmazt a funkciók kipróbálásához

Iris gyakorló adathalmaz
https://en.wikipedia.org/wiki/Iris_flower_data_set

In [None]:
# adathalmaz betöltése
df=px.data.iris()
df

In [None]:
# pandas dataframe használata plotly express-szel
# 1. (data_frame) paraméterként a dataframe megadása, majd x és y esetében az oszlopok nevére kell hivatkoznni
fig = px.scatter(df, x="sepal_width", y="sepal_length")
fig

***X és Y adatok mellett egyéb mennyiségeket is meg lehet jeleníteni az ábra egyéb jellemzőivel***

In [None]:
# pl. faj hozzárendelése a jelölők színéhez és formájához
fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species", symbol="species")
fig.show()

In [None]:
# folytonos jellemző (szirom hosszúság) hozzárendelése a jelölők színéhez
fig = px.scatter(df, x="sepal_width", y="sepal_length", color="petal_length", symbol="species")

# egyik jelmagyarázat áthelyezése az átfedés elkerülésére
fig.update_layout(
    legend=dict(
        orientation="h",
        y=-0.2
    )
)
fig.show()

In [None]:
# jelölők méretéhez való hozzárendelés
fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species",
                 size='petal_length')
fig.show()

***Alábrák generálása kategorikus változók szerint***

plotly automatikusan képes több ábrára szétbontani az eredményeket, és egymás mellett/alatt ábrázolni őket kategorikus változó értékei alapján

In [None]:
# egymás mellé
fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species",
                facet_col="species")
fig.show()

In [None]:
# egymás alá
fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species",
                facet_row="species")
fig.show()

Két paramétert lehet kombinálni, egyszerre több kategorikus jellemző szerint válogatni

***További információk hozzáadása ábrázolás nélkül***

*hover_data* paraméter segítégével megadhatunk **további** olyan mezőket, melyek az egeret az adatpontra húzva jelennek meg

In [None]:
# jelölők méretéhez való hozzárendelés
fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species",
                 size='petal_length', hover_data=["petal_width"])
fig.show()

In [None]:
# Kategorikus változó pont diagramban

fig = px.scatter(df , y="species", x="sepal_width")
fig.update_traces(marker_size=5)
fig.show()

***Tűrésmezők hozzáadása adatpontokhoz***

Lehetőségünk van hibahatárokat, intervallumokat hozzárendelni az egyes adatpontokhoz (X és Y irányban egyaránt)

In [None]:
# hiba oszlop generálása az illusztrációhoz
df["e"] = df["sepal_width"]/50

# hibák ábrázolása (error_x, error_y paraméterek)
fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species",
                 error_x="e", error_y="e")
fig.show()

Aszimmetrikus (pozitív és negatív irányban eltérő) hibák hozzáadása

In [None]:
# poz. és neg. hiba oszlopok létrehozása az illusztrációhoz
df["e_plus"] = df["sepal_width"]/25
df["e_minus"] = df["sepal_width"]/40

# aszimmetrikus intervallumok Y tengelyhez 
fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species",
                 error_y="e_plus", error_y_minus="e_minus")
fig.show()

### **2.2. Lineplot**
**Vonaldiagram**

Másik adathalmaz használata: *Gapminder World*

(Gapminder egy svéd adatgyűjtő és -vizuáló nonprofit szervezet, globális népességügyi statisztikák gyűjtésével foglalkozik)

https://www.gapminder.org/

Országok népességét, GPD/fő és születéskori várható élettartamét tartalmazza 1952-2007 között, 5 éves felbontásban

In [None]:
px.data.gapminder()

In [None]:
# adathalmaz leszűrése csak Botswana adataira
df = px.data.gapminder().query("country=='Botswana'")
df

In [None]:
fig = px.line(df, x="year", y="lifeExp", title='Botswana várható élettartam')
fig.show()

***Logaritmikus skála***

Pont- és vonaldiagramnál van lehetőség mindkét tengelyt logaritmikus skálára helyezni (*log_x* és *log_y* paraméterek)

In [None]:
fig = px.line(df, x="year", y="gdpPercap", title='Logaritmikus skála példa', log_y=True)
fig.show()

***Több vonal egy diagramon***

In [None]:
# több országot tartalmazó kontinens
df = px.data.gapminder().query("continent=='Oceania'")
df

In [None]:
# élettartam országonként gyűjtve
fig = px.line(df, x="year", y="lifeExp", color='country')
fig.show()

 ***!! Fontos, hogy a vonalak az egyes felvitt adatponok között kerülnek behúzásra, és nem történik X tengely szerinti sorrendezés. Ez a felhasználó felelőssége***

In [None]:
df = pd.DataFrame(dict(
    x = [1, 3, 2, 4],
    y = [1, 2, 3, 4]
))
fig = px.line(df, x="x", y="y", title="Rendezetlen jellemző")
fig.show()

df = df.sort_values(by="x")
fig = px.line(df, x="x", y="y", title="Rendezett jellemző")
fig.show()

In [None]:
# példa rendezetlen adatsorra
df = px.data.gapminder().query("year == 2007")

px.line(df, x="gdpPercap", y="lifeExp", hover_data=["country"])

In [None]:
# dataframe rendezése X tengely mennyisége szerint
df = df.sort_values(by="gdpPercap")
px.line(df, x="gdpPercap", y="lifeExp", hover_data=["country"])

In [None]:
df = px.data.gapminder().query("country in ['Canada', 'Botswana']")
df

In [None]:
# szöveg illesztése adatpontokhoz

fig = px.line(df, x="lifeExp", y="gdpPercap", color="country", text="year")

fig.update_traces(textposition="bottom right")

fig.show()

***Hibaintervallumok hozzáadása***

Intervallumok hozzáadása vonaldiagram esetén nem egyszerű, ugyanis a korábbi módszer csak az adatpontoknál ábrázolja a hibákat

In [None]:
df['e'] = df['gdpPercap']/10
fig = px.line(df, x="lifeExp", y="gdpPercap", color="country", error_y="e", markers = True)
fig.show()

***Megoldási módszer:*** Alsó és felső intervallumok kiszámítása, és ábrázolása vonalakként

In [None]:
# alsó és felső határok létrehozása új oszlopként

df = px.data.gapminder().query("country == 'Canada'")
df["upper"] = df["gdpPercap"] + df['gdpPercap']/10
df["lower"] = df['gdpPercap'] - df['gdpPercap']/10

# több oszlopban lévő értékek ábrázolása manuálisan, graph objects segítségével
fig = go.Figure([
    go.Scatter(            # graph object modulban Scatter objektum paraméterei között szerepel a vonal diagram
        x=df["year"],
        y=df["gdpPercap"],
        line=go.scatter.Line(color='rgb(0,100,80)'),
        mode='lines'
    ),
     go.Scatter(            # felső határ
        x=df["year"],
        y=df["upper"],
        line=go.scatter.Line(color='rgba(0,100,80,0.25)', dash="dash"),     # szaggatott vonal
        mode='lines',
    ),
     go.Scatter(            # alsó határ
        x=df["year"],
        y=df["lower"],
        line=go.scatter.Line(color='rgba(0,100,80, 0.3)', dash="dot"),      # pontozott vonal
        mode='lines',
        fill='tonexty',                # kitöltés ('tonexty' érték az előző elemként definiált trace-hez tölt ki) 
        fillcolor='rgba(0,0,255,0.2)',
    )
])

fig

*Másik módszer több oszlop egy diagramban való ábrázolására*

In [None]:
import numpy as np
import pandas as pd

# példa dataframe létrehozása
x = np.arange(1,100)
y1 = np.sqrt(x)
y2 = np.log(x)

df = pd.DataFrame({ "x": x, "y1": y1, "y2": y2})
df

In [None]:
# dataframe "leolvasztása" kiválasztott oszlop szerint
df = df.melt('x')
df

Új oszlopok jönnek létre (variable és value), előbbiben a régi oszlopok mint kategorikus változók jöttek létre.

In [None]:
fig = px.line(df, x="x", y="value", color="variable", markers = False)
fig.show()

### **2.3 Barplot**
**Oszlopdiagram**

In [None]:
data_canada = px.data.gapminder().query("country == 'Canada'")
fig = px.bar(data_canada, x='year', y='pop')
fig.show()

***Több kategória ábrázolása***

In [None]:
df = px.data.gapminder().query("continent == 'Oceania'")

df["year"] = df["year"].astype(str)           # évszám átalakítása, hogy plotly kategóriaként kezelje (ne aggregálja)

# alapeset: kategóriák összesítve ("relative")
fig = px.bar(df, x='year', y='pop',
             hover_data=['lifeExp', 'gdpPercap'], color='country',
             labels={'pop':'population of Canada'}, height=400)
fig.show()

In [None]:
# Kategóriák egymás mellé
fig = px.histogram(df, x="year", y="pop",
             color='country', barmode='group',
             height=400)
fig.show()

In [None]:
# kategóriák átfedése
fig = px.histogram(df, x="year", y="pop",
             color='country', barmode='overlay',
             height=400)
fig.show()

***Értékek szövegezése***

In [None]:
fig = px.bar(df,
             x='year',
             y='pop',
             hover_data=['lifeExp', 'gdpPercap'], 
             color='country',
             text="pop",       # szöveg kiválasztása (dataframe oszlop)
             text_auto=".3s",  # szöveg formázása
             height=400)
fig.show()

### **2.4. Pie chart**
**Kördiagram**

In [None]:
# Európára szűrés
df = px.data.gapminder().query("year == 2007").query("continent == 'Europe'")

# kis országok kiszűrése
df.loc[df['pop'] < 2.e6, 'country'] = 'Other countries' # Represent only large countries

fig = px.pie(df, values='pop', names='country', title='Population of European continent')
fig.show()

*Feliratok eltüntetése*

In [None]:
fig = fig.update_traces(textinfo='none')
fig

*Százalékok kijelzése egér rávitelekor*

In [None]:
# közvetlenül az objektum módosítása
fig["data"][0]["hovertemplate"] = "country=%{label}<br>pop=%{value}<br>percent=%{percent}<extra></extra>"
fig

***Színek testreszabása (összes diagram esetén)***

In [None]:
# első opció: színek megadása listaként
df = px.data.gapminder().query("year==2007")
fig = px.pie(df, values='pop', names='continent', color_discrete_sequence=["red","blue", "grey","green","cyan"])
fig.show()

Színek megadása listaként:
 * *legalább* akkora lista kell, ahány kategória
 * színek a kategóriák sorrendje alapján rendelődnek hozzá (itt betűrend)
 * színek jelölése CSS színkódok alapján:
     * szöveggel (lehetséges opciók: https://developer.mozilla.org/en-US/docs/Web/CSS/Reference/Values/named-color)
     * rgb kóddal: 'rgb(128,231,17)'
     * rgb alfa csatornával: 'rgba((128,231,17,0.17)'
     * RGB hexadecimálisan: '#15CAF3'


*plotly tartalmaz előre definiált színhalmazokat, ezeket is lehet alkalmazni*

In [None]:
# színek megadása beépített plotly listákkal
df = px.data.gapminder().query("year==2007")
fig = px.pie(df, values='pop', names='continent', color_discrete_sequence=px.colors.sequential.RdBu)
fig.show()

In [None]:
px.colors.sequential.RdBu

***Másik út: színek hozzárendelése a konkrét kategóriához***

In [None]:
# hozzárendelés (map) megadása dictionary-ként
fig = px.pie(df, values='pop', names='continent', color="continent",
             color_discrete_map={'Asia':'lightcyan',
                                 'Africa':'cyan',
                                 'Americas':'royalblue',
                                 'Oceania': 'turquoise',
                                 'Europe':'darkblue'})
fig.show()

## **3. Eloszlások ábrázolása**

### **3.1 Histogram**
Hisztogram

In [None]:
df = px.data.gapminder().query("year==2007")
px.histogram(df,x="gdpPercap")

***Csoportok számának manuális beállítása***

A plotly automatikusan kiválaszt egy csoport számot, de lehetséges a manuális beállítás is

In [None]:
px.histogram(df,x="gdpPercap",nbins=50)

***Szöveg illesztése oszlopokra***

In [None]:
px.histogram(df,x="gdpPercap",nbins=25, text_auto="%.3s")

***Hisztogram kategorikus változókkal***

Ha a *px.histogram* függvényt kategorikus változókra használjuk, oszlopdiagramot kapunk.

In [None]:
px.histogram(df,x="continent")

***Hisztogram normalizálása***

Alapesetben a diagram y tengelye az adott tartományba eső rekordok számát adja meg. Ezt lehetséges több módszer szerint normalizálni.

In [None]:
# 1.opció: százalékos megjelenítés
px.histogram(df,x="gdpPercap",histnorm="percent")

In [None]:
# 2.opció: csoportba esés valószínűségének megjelenítése
px.histogram(df,x="gdpPercap",histnorm="probability")

In [None]:
# 3.opció: sűrűség megjelenítés (csoportba eső rekordok száma osztva a csoport méretével)
px.histogram(df,x="gdpPercap",histnorm="density")

In [None]:
# 4.opció:valószínűségi sűrűség megjelenítés (csoportba esés valószínűsége osztva a csoport méretével)
# Empirikus valószínűségi sűrűségfüggvény közelítése
px.histogram(df,x="gdpPercap",histnorm="probability density")

***Több hisztogram egy ábrán***

Lehetséges több hisztogramot rajzolni egy ábrára, pl. színek szerint kiválogatva

In [None]:
# 2002 és 2007 adatok kigyűjtése
df = px.data.gapminder().query("year >= 2002")

fig = px.histogram(df, x="gdpPercap", color="year", histnorm='percent')
fig.show()

### ***3.2. Boxplot***
Jellemzők fontos statisztikáit egy ábrába sűrítő diagram, gyakran használják első lépésként vizuális elemzéskor

In [None]:
import plotly.express as px
df = px.data.gapminder().query("year== 2007")
fig = px.box(df, y="gdpPercap")
fig.show()

#### Boxplot értelmezése

* "Doboz" határai egyértelműen definiáltak:
    * Alsó és felső határ: első és harmadik kvartilis (Q1, Q3)
    * Belső vonal, második kvartilis (Q2), vagyis a medián
* "Bajuszok" határai több szempont alapján is megadhatók:
    * Minimum-maximum (pl. tőzsdei gyertyadiagramoknál használják)
    * **IQR alapú**: (Inter Quartile Range) *IQR = Q3 - Q1* <br> Ebben az esetben az alsó határ *Q1 - k * IQR*, felső határ *Q3 + k * IQR*, a "bajuszok" pedig a legutolsó, még a határon belüli adatpontokig érnek <br> k megválasztása önkényes, gyakorlatban legtöbbször 1,5. <br> plotly boxplot ezeket a határokat használja
* Külső pontok: Outlier minták mutatása 

***Több kategória egy ábrán***

Korábbiakhoz hasonlóan van lehetőség kategorikus változók szerint válogatni az értékeket

In [None]:
# például x tengely kontinens szerint
fig = px.box(df, x="continent", y="gdpPercap")
fig.show()

In [None]:
# több kategória egyszerre (kontinens és év)
df = px.data.gapminder().query("year >= 1997")

px.box(df, y="gdpPercap", x="continent", color="year")

In [None]:
# transzponáltként is lehet ábrázolni (vízszintes box)

px.box(df, x="gdpPercap", y="continent", color="year")

### **3.3 Strip plot**
Adatpontok ábrázolása egyenes mentén, eloszlásra lehet belőle következtetni

In [None]:
# Paraméterezés hasonló, mint boxplot esetén
px.strip(df, y="gdpPercap", x="continent", color="year")

In [None]:
# transzponált
px.strip(df, x="gdpPercap", y="continent", color="year")

### **3.4. KDE plots**

KDE - Kernel Density Estimation

Véges minták alapján próbáljuk meg becsülni a valószínűségi sűrűségfüggvényt

Alapja a normalizált hisztogram, ennek értékeiből következtetünk különböző kernelekkel (ablakozó függvényekkel) a teljes eloszlásfüggvényre

Kernel példák:
* Uniform (egyenértékű) kernel
* Háromszög kernel
* Gauss kernel
* Parabolikus
* Cosinus
* ...

https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition

*KDE plotlyban:*

Plotly express nem tudja, egy másik modulra van szükségünk (*plotly.figure_factory*)

In [None]:
import plotly.figure_factory as ff

# demonstráció az iris adathalmazon
df = px.data.iris()

# paraméterezés másként: nekünk kell kiválogatni az értékeket listaszerű objektumokba (list vagy numpy array)
# ezeket még egy listába kell gyűjteni (több eloszlás egy ábrán)
# Kötelező címkéket adni

ff.create_distplot([df["petal_length"].values], group_labels=["Szirom hossz"])

Ha az ábra nem megfelelő, plotly-n belül korlátozott paraméterezési lehetőségünk van:

A hisztogram tartományainak beállítása

In [None]:
# ez esetben a csoportok száma helyett azok méretét kell megadni
fig = ff.create_distplot([df["petal_length"].values], group_labels=["szirom hossz"],bin_size=0.25)
fig

Ha ezek után sem tűnik jobbnak, manuálisan kell létrehozni a KDE görbét, hogy paraméterezni tudjuk a kerneleket (típus, sávszélesség).

Erre plotly-n belül nincs lehetőség egyéb python könyvtárakat (pl. *scipy*) kell igénybe venni.

***Több eloszlás egy ábrán***

Lehetőség van egy ábrán több eloszlást is vizsgálni, azonban a korábbiaktól eltérő a paraméterezés

In [None]:
# példa: szirmok hosszának szétválogatása faj szerint

# manuális (pandas szintű) szétválogatás
dists = []
gr_labels = []
for gr in df.groupby("species"):
    dists.append(gr[1]["petal_length"].values)
    gr_labels.append(gr[0])


fig = ff.create_distplot(dists, group_labels=gr_labels,bin_size=0.25)
fig

***Normális görbe illesztése***

KDE görbék mellett van lehetőség, hogy a plotly normális eloszlást követő görbét próbáljon meg illeszteni a mintaeloszlásra

In [None]:
fig = ff.create_distplot(dists, group_labels=gr_labels,bin_size=0.25, curve_type="normal")   # alapértelmezett: 'kde'
fig

### **3.5. ECDF plot**
*Empirical Cumulative Distribution Function* - empirikus eloszlásfüggvény

Hasonlóan a KDE ábrákhoz, ez esetben a valószínűségi eloszlásfüggvényt becsüljük a mintákból


In [None]:
df = px.data.gapminder().query("year == 2007")
fig = px.ecdf(df, x="gdpPercap")
fig.show()

***Inverz eloszlás függvény***

In [None]:
fig = px.ecdf(df, x="gdpPercap", ecdfmode="reversed")
fig.show()

***Több ECDF egy ábrán***

In [None]:
fig = px.ecdf(df, x="gdpPercap", color="continent")
fig.show()

### **3.6. Violin plot**
Boxplothoz hasonló, de részletesebben mutatja az eloszlás.

Két KDE fv.-t fordít egymással szembe, és ábrázolja tengely mentén


In [None]:
# iris adathalmazon prezentálás
df = px.data.iris()
fig = px.violin(df, y="sepal_length")
fig.show()

In [None]:
# transzponálás, több kategória
fig = px.violin(df, x="sepal_length",
                y="species",
                color="species"
               )
fig.show()

### **3.7. Statisztikai ábrák kombinálása**

Gyakorlatban nagyon sokszor szokták az eloszlást jellemző grafikonokat együtt ábrázolni (boxplot, violin plot, strip)

In [None]:
# strip plot megjelenítése box plot mellett
fig = px.box(df,
             y="sepal_length",
             x="species",
             color="species",
             points='all',    # or outliers
               )
fig.show()

In [None]:
# strip plot és boxplot megjelenítése violin plot mellett
fig = px.violin(df,
                y="sepal_length",
                x="species",
                color="species",
                points='all',
                box=True
               )
fig.show()

### **3.8. Marginal plots**
ECDF és hisztogram mellé el szoktuk helyezni további statisztikai ábrákat a gyors vagy további értelmezéshez

In [None]:
# hisztogram mellé boxplot
df = px.data.iris()
fig = px.histogram(df, x="petal_length", marginal="box", color="species")
fig.show()

In [None]:
# hisztogram mellé violin
df = px.data.iris()
fig = px.histogram(df, x="sepal_width", marginal="violin", color="species")
fig.show()

***Strip plot helyett rug plot***

Hasonló, azonban az adatpontokat vonallal jelöli pontok helyett

In [None]:
# hisztogram mellé rug plot
df = px.data.iris()
fig = px.histogram(df, x="petal_length", marginal="rug", color="species")
fig.show()

In [None]:
# ECDF mellé hisztogram
fig = px.ecdf(df, x="petal_length", color="species", marginal="histogram")
fig.show()

In [None]:
import plotly.express as px
df = px.data.tips()
fig = px.ecdf(df, x="total_bill", color="sex", markers=False, lines=True, marginal="violin")
fig.show()

## **4. Jellemzők közötti összefüggések vizsgálata**

### **4.1 Heatmap - 2D histogram**
Két dimenzió szerinti hisztogram: tengelyek a két kategória értékei, számosság a szín alapján

In [None]:
df = px.data.gapminder().query("pop > 1e7")     # 10m feletti lakosú országok kigyűjtése
df = df.sort_values(by="year")                  # sorrendezés év szerint
df["year"] = df["year"].astype(str)             # év átalakítása aggregáció elkerülése végett

fig = px.density_heatmap(df, x="year", y="continent")
fig.show()

***Marginal plot hozzáadása az egyes tengelyekhez***

In [None]:
fig = px.density_heatmap(df, x="year", y="continent", marginal_x="histogram", marginal_y="histogram")
fig.show()

*Értékek megjelenítése*

In [None]:
fig = px.density_heatmap(df, x="year", y="continent", text_auto=True)
fig.show()

***Heatmap felosztása további kategóriák szerint***

In [None]:
df = px.data.gapminder().query("year >= 2002")
px.density_heatmap(df, y="continent", x="gdpPercap", facet_col="year") # facet_row

### **4.2 Parallel Categories**

Kategorikus változók egymás közötti elosztása

Kategóriák közötti összefüggéseket lehet észrevenni

In [None]:
# Másik adathalmaz használata (több kategórikus változóval)
# Éttermi vendégek borravaló-adási szokásait gyűjti össze különböző paraméterek alapján
df = px.data.tips()
df

Sok kategórikus változó: nem, dohányzó-e, hét napja, napszak, asztal mérete (**!!**)

In [None]:
pd.DataFrame.iteritems = pd.DataFrame.items
fig = px.parallel_categories(df)

fig.show()

***Testreszabás***:
* Melyik kategóriák között vizsgáljunk, és milyen sorrendben
* Valamelyik kategória szín alapján


In [None]:
fig = px.parallel_categories(df, dimensions=['sex', 'smoker', 'day'],
                color="size", color_continuous_scale=px.colors.sequential.Inferno,
                labels={'sex':'Guest sex', 'smoker':'Smokers at the table', 'day':'Day of week'})
fig.show()

### **4.3. Scatterplot matrix**
Egy dataframe összes jellemzőjét összepárosítja, és ábrázolja páronként az összefüggéseket.

Összesítés egy nagy ábrában


In [None]:
df = px.data.gapminder()
fig = px.scatter_matrix(df)
fig.show()

***Scatter matrix értelmezése***
* főátlóban lévő elemek mindig egyenesen (változók önmagukkal párosítva)
* főátlóra szimmetrikusan egymás transzponáltjai jelennek meg (x és y tengelyek cserélve)

Részletek nem láthatók azonban arra nagyon hasznos, hogy észrevegyünk valamit, és azt megvizsgáljuk részletesebben

Jó kiindulópont ötletgyűjtéshez az elemzéshez, összefüggések kereséséhez

***Scatter mátrix testreszabása***

Ha nem szeretnénk az összes jellemzőt vizsgálni, van lehetőség kiválogatni csak néhány jellemzőt.

További kategóriákat jelezhetünk másként az ábrán (pl. szín)


In [None]:
fig = px.scatter_matrix(df,
    dimensions=[ "gdpPercap", "pop", "year"],
    color="continent")
fig.show()

## **5. Ábrák konfigurálása**
Az alábbiakban felsorolásként néhány példa a különböző konfigurálási lehetőségekre

In [None]:
# Címadás
df = px.data.iris()
fig = px.scatter(df, x="sepal_length", y="sepal_width", color="species",
                title="Automatic Labels Based on Data Frame Column Names")
fig.show()

In [None]:
# Jellemzők megjelenítési nevének módosítása

df = px.data.iris()
fig = px.scatter(df, x="sepal_length", y="sepal_width", color="species",
                 labels={
                     "sepal_length": "Sepal Length (cm)",
                     "sepal_width": "Sepal Width (cm)",
                     "species": "Species of Iris"
                 },
                title="Manually Specified Labels")
fig.show()

In [None]:
# Szövegek paramétereinek módosítása

df = px.data.iris()
fig = px.scatter(df, x="sepal_length", y="sepal_width", color="species",
                title="Playing with Fonts")
fig.update_layout(
    font_family="Courier New",
    font_color="blue",
    title_font_family="Times New Roman",
    title_font_color="red",
    legend_title_font_color="green"
)
fig.update_xaxes(title_font_family="Arial")
fig.show()

In [None]:
# Méret állítása, háttér módosítása, határok állítása

fig = px.scatter(df, x="sepal_length", y="sepal_width", facet_col="species",
                 width=800, height=400, title = "Setting graph size")

fig.update_layout(
    margin=dict(l=20, r=20, t=40, b=20),
    paper_bgcolor="LightSteelBlue",
)

fig.show()

In [None]:
# Tengely feliratok módosítása

fig = px.scatter(df, x="sepal_width", y="sepal_length", facet_col="species")
fig.update_xaxes(title_font=dict(size=18, family='Courier', color='crimson'))
fig.update_yaxes(title_font=dict(size=8, family='Helvetica', color='turquoise'))

fig.show()

In [None]:
# tengelyek felbontásának állítása
fig = px.scatter(df, x="sepal_width", y="sepal_length", facet_col="species")

fig.update_yaxes(tick0=0.125, dtick=0.5)

fig.show()

In [None]:
# értékjelölők manuális megadása
fig = px.scatter(df, x="sepal_width", y="sepal_length", facet_col="species")

fig.update_yaxes(tickvals=[5.1, 5.9, 6.3, 7.5])

fig.show()

In [None]:
# értékjelölők további testre szabása
fig = px.scatter(df, x="sepal_width", y="sepal_length", facet_col="species")

fig.update_xaxes(ticks="outside", tickwidth=2, tickcolor='crimson', ticklen=10, ticklabelstep=2)
fig.update_yaxes(tickangle=45, tickfont=dict(family='Rockwell', color='crimson', size=14))

fig.show()

In [None]:
# aljelölők

df = px.data.tips()
fig = px.scatter(df, x="total_bill", y="tip", color="sex")


fig.update_xaxes(minor=dict(ticklen=6, tickcolor="black", showgrid=True))
fig.update_yaxes(minor_ticks="inside")

fig.show()

In [None]:
# tengely határok beállítása
fig = px.scatter(df, x="sepal_width", y="sepal_length", facet_col="species")

fig.update_xaxes(range=[1.5, 4.5])
fig.update_yaxes(range=[3, 9])

fig.show()

In [None]:
# kategorikus változók manuál sorrendezése
df = px.data.tips()
fig = px.bar(df, x="day", y="total_bill", color="smoker", barmode="group", facet_col="sex",
             category_orders={"day": ["Thur", "Fri", "Sat", "Sun"],
                              "smoker": ["Yes", "No"],
                              "sex": ["Male", "Female"]})
fig.show()

In [None]:
# jelmagyarázat állítása
df = px.data.gapminder().query("year==2007")
fig = px.scatter(df, x="gdpPercap", y="lifeExp", color="continent",
    size="pop", size_max=45, log_x=True)


fig.update_layout(legend=dict(
    orientation="h",
    yanchor="bottom",
    y=1.02,
    xanchor="right",
    x=1
))

fig.show()

In [None]:
# adatpontok paramétereinek módosítása
# interaktív választási lehetőségek megadása

df = px.data.iris()
fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species")

fig.update_traces(marker=dict(size=12,
                              symbol='diamond',
                              line=dict(width=2,
                                        color='DarkSlateGrey')),
                  selector=dict(mode='markers'))      # jelmagyarázatnál kattintva eltűntik/megjelenik adott kategória
fig.show()

In [None]:
# feliratok pozíciójának állítása

df = px.data.gapminder().query("year==2007 and continent=='Americas'")

fig = px.scatter(df, x="gdpPercap", y="lifeExp", text="country", log_x=True)

fig.update_traces(textposition='top center')

fig.update_layout(
    height=800,
    title_text='GDP and Life Expectancy (Americas, 2007)'
)

fig.show()

In [None]:
df = px.data.gapminder(year=2007)
fig = px.bar(df, x='continent', y='pop', color="lifeExp", text='country',
             title="Default behavior: some text is tiny")
fig.update_traces(textposition='inside')
fig.show()