# Základy vizualizace - v pandas a pro pandas

Jeden obrázek (či graf) někdy dokáže říci více než tisíc slov. U (explorativní) datové analýzy to platí dvojnásob (A jako umí být manipulativní článek o tisíci slovech, o to manipulativnější umí být "vhodně" připravený graf).

V této lekci si ukážeme, jak z dat, která už umíš načíst a se kterými provádíš mnohé aritmetické operace, vykreslíš některé základní typy grafů (sloupcový, spojnicový a bodový).

## Rozmanitý svět vizualizačních knihoven v Pythonu

Zatímco ohledně knihovny pro běžné zpracování tabulkových dat panuje shoda a při zkoumání malých až středně velkých dat nepříliš exotického typu téměř vždy analytici běžně sahají po `pandas`, knihoven pro vizualizaci dat existuje nepřeberné množství - každá má svoje výhody i nevýhody. My si během lekcí EDA zmíníme tyto tři (a budeme se soustředit především na to, jak je použít společně s pandas):

- `matplotlib` - Toto je asi nejrozšířenější a v mnoha ohledech nejflexibilnější knihovna. Představuje výchozí volbu, pokud potřebuješ dobře vyhlížející statické grafy, které budou fungovat skoro všude. Značná flexibilita je vyvážena někdy ne zcela intuitivními jmény funkcí a argumentů. Pandas ji využívá interně (takže s trochou snahy můžeš předstírat, že o její existenci nevíš). Viz https://matplotlib.org/.

- `seaborn` - Cílem této knihovny je pomoci zejména se statistickými grafy. Staví na matplotlibu, ale překrývá ho "lidskou" tváří. My s ním budeme pracovat při vizualizaci složitějších vztahů mezi více proměnnými. Viz https://seaborn.pydata.org/.

- `plotly` (a zejména její podmnožina `plotly.express`) - Po této knihovně zejména sáhneš, budeš-li chtít do své vizualizace vložit interaktivitu. Ta se samozřejmě obtížně tiskne na papír, ale zejména při práci v Jupyter notebooku umožní vše zkoumat výrazně rychleji. Viz https://plot.ly/python/.

Pro zájemce o bližší vysvětlení doporučujeme podívat se na (již poněkud starší) video od J. Vanderplase: Python Visualizations' Landscape (https://www.youtube.com/watch?v=FytuB8nFHPQ), které shrnuje základní vlastnosti jednotlivých knihoven.


In [None]:
%matplotlib inline

# Co to má znamenat!?

Jestli ses dosud tvářil/a, že nevíš o existenci matplotlibu, teď už nemůžeš :-). Tato mysteriózní řádka (ve skutečnosti "IPython magic command") říká, že všechny grafy se automaticky vykreslí přímo do notebooku (to vůbec není samozřejmé a lekcdy to ani nechceme - třeba když chceme grafy ukládat rovnou do souboru nebo interaktivně mimo notebook).

Více viz https://ipython.readthedocs.io/en/stable/interactive/magics.html#magic-matplotlib.


## Příprava - zdroj dat

Nejdříve si načteme nám již známá data se zeměmi světa. Přidáme k tomu i tabulku s vývojem některých ukazatelů v čase pro Českou republiku (a hned se na ně podíváme).

In [None]:
import pandas as pd

# TODO: opravit podle toho, jak to bude

# Světová data
url = "https://raw.githubusercontent.com/janpipek/data-pro-pyladies/master/data/countries.csv"
countries = pd.read_csv(url).set_index("name")

# Česká data
url = "https://raw.githubusercontent.com/janpipek/data-pro-pyladies/master/data/cze.csv"
czech = pd.read_csv(url)
czech

## Sloupcový graf (bar plot)

Úplně nejjednodušší graf, který můžeš vytvořit, je **sloupcový**. Vedle sebe postupně zobrazíš sloupečky vysoké podle vlastnosti, která tě zajímá. Ukazuje hodnoty jedné proměnné, aniž by je jakýmkoliv způsobem statisticky zpracovával nebo porovnával s proměnnou jinou.

V `pandas` se k funkcím pro kreslení grafů přistupuje pomocí tzv. **accessoru** `.plot`. To je hybridní objekt, který lze volat jako metodu (`Series.plot()` - použije výchozí typ grafu), anebo lze pomocí další tečky odkazovat na jeho vlastní metody, které kreslí různé typy grafů. Z "pedagogických důvodů" (které bývají leckdy nepochopitelné) chceme začít od sloupcového grafu, který výchozí není, a tak voláme `Series.plot.bar()`.

In [None]:
countries["life_expectancy"].plot.bar()

Uf, to nevypadá úplně nejpřehledněji. Zkusme totéž, jen pro země Evropské Unie (kterých bylo v době psaní materiálu i zahájení kurzu stále ještě 28).

In [None]:
eu_countries = countries.query("is_eu")     # Filtrování -> výsledek je opět DataFrame
eu_countries["life_expectancy"].plot.bar();

To se neporovnává úplně snadno - dožívají se lidé více ve Spojeném Království nebo v Německu? Co kdybychom (opakování z minula) hodnoty seřadili a teprve pak zobrazili?

In [None]:
eu_countries["life_expectancy"].sort_values(ascending=False).plot.bar();

A vlastně musíme kroutit hlavou, když chceme najit svoji (nebo někoho jiného domovinu). Můžeme zkusit horizontální sloupcový graf, `.plot.barh`:

In [None]:
eu_countries["life_expectancy"].sort_values(ascending=False).plot.barh();

Funkce pro kreslení grafů nabízejí spoustu parametrů, které nejsou úplně dobře zdokumentované a jsou dost úzce svázány s tím, jak funguje knihovna `matplotlib`. Budeme si je postupně ukazovat, když nám přijdou vhod. Náš graf by se nám hodilo trošku zvětšit na výšku. Také se hodnoty od sebe příliš neliší a nastavení vlastního rozsahu na ose x by pomohlo rozdíly zvýraznit. Plus si přidáme trošku formátování.

- `figsize` specifikuje velikost grafu jako n-tici (tuple) velikosti v palcích v pořadí (šířka, výška). Při volbě ideální hodnoty si prostě v notebooku zaexperimentuj.
- `xlim` specifikuje rozsah hodnot na ose x v podobně ntice (minimum, maximum)
- `color` specifikuje barvu: může jít o název či o hexadecimální RGB zápis
- `edgecolor` říká, jakou barvou mají být sloupce ohraničeny
- `title` nastavuje titulek celého grafu

In [None]:
eu_countries["life_expectancy"].sort_values().plot.barh(
    figsize=(6, 8),
    xlim=(75, 85),
    color="yellow",
    edgecolor="#888888",   # střední šeď
    title="Očekávaná doba dožití (roky)"
);

💡 Začínat sloupcové (ale i mnohé další) grafy jinde než u nuly ti pomůže všimnout si i nepatrných rozdílů, a proto v explorativní fázi je to určitě dobrý nápad. Ovšem při prezentaci výsledků mohou zvýrazněné rozdíly mást publikum a budit dojem, že nějaký efekt je výrazně silnější než ve skutečnosti. Manipulační efekt je tím silnější, čím méně intuitivní jsou prezentovaná data. V tomto případě by asi málokdo uvěřil, že ve Španělsku žijí lidé šedesátkrát déle než v Lotyšsku, protože to neodpovídá běžnému očekávání, ale i tak na první pohled situace vypadá velice dramaticky (necháváme ti na posouzení, jestli rozdíl mezi 75 a 83, neboli cca 10 % je obrovský či nikoliv). Novináři takto matou poměrně často - ať už úmyslně, nebo omylem.

V grafu ovšem můžeme velice snadno zobrazit více veličin, pokud jej nevytváříme skrze `Series`, ale `DataFrame`. Stačí místo jednoho sloupce dodat sloupců více (například výběrem z `DataFrame`) a pro každý řádek se nám zobrazí více sloupečků pod sebou.

V našem případě se podíváme na to, kolika let se dožívají muži a ženy zvlášť. Zvolíme genderově stereotypní barvy (ono je to někdy přehlednější), ale ty si je samozřejmě můžeš upravit podle libosti.

In [None]:
eu_countries.sort_values("life_expectancy")[["life_expectancy_male", "life_expectancy_female"]].plot.barh(
    figsize=(8, 10),
    xlim=(68, 88),               # rozsah osy
    color=["blue", "red"],       # dvě různé barvy pro dva sloupce
    edgecolor="#888888",         # střední šeď
    title="Očekávaná doba dožití (roky)"
);

**Úkol:** Zkus si nakreslit sloupcový graf některé z dalších charakteristik ("sloupců") zemí (ať už evropských, nebo filtrováním přes nějaký region) a zamysli se nad tím, jakou výpovědní hodnotu takový graf má (někdy prachbídnou).

## Bodový graf (scatter plot)

Bodový graf je nejjednodušším způsobem, jak porovnat dvě různé veličiny. V soustavě souřadníc, jak se používá v matematice, každému řádku odpovídá jeden bod (nakreslený jako symbol, nejčastěji kolečko), hodnoty dvou sloupců pak kódují souřadnici `x` a `y`. To se odráží i ve způsobu, jak bodový graf v `pandas` vytváříme.

Zavoláme metodu `plot.scatter` naší tabulky (poznámka: bodový graf nelze jednoduše vytvořit ze `Series`) a dodáme jí coby argumenty `x` a `y` jména sloupců, která se pro souřadnice mají použít:

In [None]:
# Souvislost mezi pitím a střední dobou života
countries.plot.scatter(
    x="life_expectancy",
    y="alcohol_adults");

💡 O kauzalitách, korelacích a souvislostech mezi veličinami si budeme povídat jindy, ale taky se nemůžeš ubránit dojmu, že čím více se někde pije, tím déle se tam žije?

I bez matematické rigoróznosti ovšem asi poznáme, kde bude zakopaný pes. Zkusme si obarvit jednotlivé regiony světa různými (stereotypními?) barvami. Naučíme se u toho šikovnou funkci `map`, která hodnoty v `Series` nahradí podle slovníku od->do (a vrátí novou instanci `Series`). Sloupec `world_4region` obsahuje přesně 4 různé oblasti ("kontinenty"), tak nám bude stačit velice jednoduchý slovník.

Ukážeme si několik dalších argumentů (jež jsou vlastně spíše argumenty použité v knihovně `matplotlib`, a tak nemůžeme jednoduše použít jméno sloupce :-( ):
- `s` vyjadřuje druhou mocninu velikosti symbolu v bodech (může být jedna hodnota nebo sloupec/pole hodnot)
- `marker` značí tvar symbolu, většinou pomocí jednoho písmene, viz [seznam možností](https://matplotlib.org/3.1.1/api/markers_api.html)
- `alpha` vyjadřuje neprůhlednost symbolu (0 = naprosto průhledný a není vidět, 1 = neprůhledný, intenzivní, schovává vše "za" ním). Hodí se, když máme velké množství symbolů v grafu a chceme jim dovolit, aby se překrývaly.

In [None]:
# Souvislost mezi pitím a střední dobou života
import numpy as np

barvy_kontinentu = {
    "europe": "blue",
    "asia": "yellow",
    "africa": "black",
    "americas": "red"
}
barva = countries["world_4region"].map(barvy_kontinentu)  
# barva obsahuje sloupec plný barev

countries.plot.scatter(
    figsize=(7, 7),
    x="life_expectancy",
    y="alcohol_adults",
    marker="h",        # Tvar symbolu: šestiúhelník - (h)exagon
    color=barva,       # Bohužel nejde použít jen jméno sloupce, musíme dát celé "pole" hodnot      
    s=countries["population"] / 1e6,   # Velikost symbolu (na druhou) podle populace
    edgecolor="black", # Barva okraje
    alpha=0.5          # Poloprůhledné symboly
);

A tak to vlastně vypadá, že v Asii se obecně pije málo, v Americe tak středně, v Africe se lidé dožívají menšího věku, ale na první pohled v těchto skupinách zemí nevidíme žádný trend. Jediný kontinent, který se vymyká, je Evropa, kde se jak hodně pije, tak dlouho žije, ale obojí je nejspíš důsledkem moderního způsobu života. No a při bližším pohledu se naopak zdá, že v rámci Evropy větší pití znamená kratší život. 

Často se stane, že jsou hodnoty obtížně souměřitelné. Například co do rozlohy či počtu obyvatelstva se na světě vyskytují země miniaturní a naopak gigantické, kde rozdíly činí několik řádů:

In [None]:
countries.plot.scatter(
    x="area",
    y="population",
    figsize=(6,6)
)           
# Tady úmyslně není středník

No nic moc - odděleně vidíme cca 7 až 20 bodů a zbytek splývá v jednu velikou "kaňku". V takovém případě se hodí opustit běžné, **lineární měřítko**. Místo něj použijeme **logaritmické měřítko**.

To bohužel nejde udělat v `pandas` přímo, a tak se budeme chtě nechtě (ale určitě chtě, protože jsme zvídaví!) dotknout objektů knihovny `matplotlib`. Všimni se, že volání `plot` nám vrátilo jakýsi `matplotlib.axes._subplots.AxesSubplot`. To je třída reprezentující samotný graf, která má další metody, umožňující graf dále upravit. Pro změnu měřítka se používají funkce `set_xscale` a `set_yscale`:

In [None]:
ax = countries.plot.scatter(
    x="area",
    y="population",
    color="black",
    alpha=0.5,
    figsize=(6, 6)
)   
# ax obsahuje objekt "grafu", přesněji instanci třídy `AxesSubplot`

# Pomocí metod objektu `AxesSubplot` nastavíme měřítko obou os na logaritmické
ax.set_xscale("log")
ax.set_yscale("log")

**Úkol:** Vyzkoušej si zobrazení některých dalších dvojic veličin. Které z nich ukazují zajímavé výsledky?

## Spojnicový graf (line plot)

Tento druh grafu má smysl zejména tehdy, pokud se nějaká proměnná vyvíjí spojitě v závislosti na proměnné jiné. Časové řady jsou pro to skvělým příkladem (ať už pro vztah mezi časem a veličinou, anebo dvěma veličinami, které se obě vyvíjí ve stejném čase).

Spojnicový graf vytvoříš pomocí funkce `plot.line`. Shodou okolností je to také výchozí typ grafů pro `pandas`, a tak vlastně postačí `plot` zavolat jako metodu. Parametry má podobné jako `scatter` (bodový graf).

Pojďme se například podívat na vývoj očekávané doby života v Česku, jak se vyvíjela s časem od začátku 80. let:

In [None]:
czech.plot.line(x="year", y="life_expectancy")

Samozřejmě můžeme opět vykreslit více sloupců.

In [None]:
czech.plot(x="year", y=["life_expectancy_female", "life_expectancy_male"])

Pro čárové grafy existuje několik zajímavých argumentů:

- `lw` udává tloušťku čáry v bodech
- `style` je styl čáry: "-" je plná, ":" tečkovaná, "--" přerušovaná, "-." čerchovaná
- `markersize` je velikost symbolu, který může volitelně čáru doprovázet

In [None]:
czech.plot.line(
    x="year",
    y=["bmi_men", "bmi_women"],
    lw=1,
    style="--",
    marker="o",       # Přidáme kulaté body pro hodnoty z tabulky
    markersize=3);

Moc smysl čárový graf používat v případě, že na sobě dvě proměnné nejsou přímo závislé, nebo se nevyvíjí společně. Zkusme například nakreslit čárový graf vztahu mezi pitím alkoholu a dobou života v jednotlivých zemích:

In [None]:
countries.plot.line(x="life_expectancy", y="alcohol_adults")

Dostali jsme čáranici, ze které nelze vyčíst vůbec nic. Můžeš namítnout, že hodnoty nejsou seřazené, a že by situace byla lepší, kdybychom třeba země seřadili podle očekávané doby dožití. No pojďme to zkusit:

In [None]:
sorted_countries = countries.sort_values("life_expectancy")
sorted_countries.plot.line(x="life_expectancy", y="alcohol_adults")
sorted_countries[["life_expectancy", "alcohol_adults"]]

Dává to smysl? Čára sice nelítá napříč celým grafem, "jen" zdola nahoru, ale i tak je to nesmysl, protože žádné "přirozené" uspořádání zemí neexistuje a nemá smysl se ho snažit lámáním přes koleno sestavit. V tomto případě byl bodový graf mnohem lepší volbou.

## Bonus: Jak kreslit pomocí jiných knihoven?

A to je ze základů vizualizace vlastně všechno, další typy grafů si ukážeme jindy.

Pokud ti to ještě nestačilo, ještě si ukážeme, jak by se bodový graf vztahu mezi očekávanou délkou života a množstvím vypitého čistého alkoholu vytvořil ve třech jiných vizualizačních knihovnách. Nebudeme to však již příliš komentovat.

### Bonus 1: "čistý" matplotlib

Protože výchozí kreslení grafů v `pandas` staví na knihovně `matplotlib` a jen jednotlivé funkce obaluje a zpříjemňuje práci se sloupci, budou parametry funkcí povětšinou podobné (hlavní rozdíl je v tom, že neberou názvy sloupců, musíš předat sloupec jako takový).

In [None]:
import matplotlib.pyplot as plt

fig, ax = plt.subplots(figsize=(7,7))

# TODO: změnit
ax.scatter(
    countries["life_expectancy"],
    countries["alcohol_adults"],
    s=countries["population"] / 1e6,
    color=countries["world_4region"].map({"europe": "blue", "asia": "yellow", "africa": "black", "americas": "red"}),
    edgecolor="black"
);

# Popisky os musíme doplnit ručně
ax.set_xlabel("alcohol_adults")
ax.set_ylabel("life_expectancy");

Galerie ukázkových příkladů `matplotlib` je nepřeberná: https://matplotlib.org/3.1.1/gallery/index.html

### Bonus 2: seaborn

Seaborn je vhodný především pro složitější statistické grafy. Ale obsahuje též vlastní funkce, které obalují volání `matplotlib`u.

In [None]:
import seaborn as sns

fig, ax = plt.subplots(figsize=(8,8))

sns.scatterplot(
    data=countries,          # Pracuje s DataFrame
    x="life_expectancy",     # Rozumí názvům sloupců :-)
    y="alcohol_adults",
    size="population",       # Velikost podle sloupce (nepříliš vhodná)
    hue="world_4region",     # Umí přiřadit barvičky podle nějaké kategorie
    marker="h"
);

Mnoho ukázkových vizualací najdeš na stránkách samotného projektu: https://seaborn.pydata.org/examples/index.html

### Bonus 3: plotly.(express)

`plotly` se vymyká, protože umožňuje přímo do notebooku zobrazit interaktivní grafy, ve kterých jde libovolně zoomovat, navíc při najetí na nějaký bod ukazují užitečné doplňují tooltipy. Od verze 4.0 navíc pomocí velice elegantně designovaných funkcí v integrovaném balíčku `plotly.express`.

In [None]:
import plotly.express as px

px.scatter(
    countries.reset_index(),
    x="life_expectancy",
    y="alcohol_adults",
    size="population",
    color="world_4region",
    hover_name="name"
)

A co by řekl/a na mapu světa se zeměmi vybarvenými podle očekávané délky života?

In [None]:
px.choropleth(countries.reset_index(), locations="iso", color="life_expectancy", hover_name="name")

Mnoho ukázek, včetně několika se zeměmi světa, najdeš na stránkách projektu: https://plot.ly/python/plotly-express/