# Datový notebook

Je ideálním způsobem jak si interaktivní formou předzpracovat data, než kód vložíte do aplikace.

Načteme data o počtech obyvatel v ČR a já pak ukážu, jak se s nimi pracuje.

In [4]:
# Tato buňka importuje knihovny. Každý skript toto na začátku dělá, můžete si jich klidně nevšímat.
import pyecharts
import polars as pl

In [5]:
pl.read_csv('scitani.csv').select(
        'idhod', 'hodnota', 'stapro_kod', 'stapro_txt', 'datum', 'rok', 'vuzemi_kod'
    ).rename({
        'idhod': 'ID',
        'vuzemi_kod': 'obec_id'
}).write_csv('scitani_obyvatel.csv')


## Načtení dat

Pythonem umíme načítat data ze souborů v různých formátech, přes síť, z databáze, úplně odevšaď.

Zde budeme pro jednoduchost používat CSV soubory. Co to je CSV zjistíte velmi rychle, když si ho otevřete.

In [6]:
df = pl.read_csv('scitani_obyvatel.csv') # načte data do proměné df(zkráceně dataframe - obvyklý název)
df # tohle hezky zobrazí, co v té proměnné je

ID,hodnota,stapro_kod,stapro_txt,datum,rok,obec_id
i64,i64,i64,str,str,i64,i64
808433980,1148,2406,"""Počet obyvatel s trvalým nebo …","""2011-03-26""",2011,594881
808433981,659,2406,"""Počet obyvatel s trvalým nebo …","""2011-03-26""",2011,594890
808433982,621,2406,"""Počet obyvatel s trvalým nebo …","""2011-03-26""",2011,594911
808433983,1340,2406,"""Počet obyvatel s trvalým nebo …","""2011-03-26""",2011,594920
808433985,533,2406,"""Počet obyvatel s trvalým nebo …","""2011-03-26""",2011,594946
…,…,…,…,…,…,…
742374420,106,2409,"""Počet domů""","""1890-12-31""",1890,549746
742379026,82,2409,"""Počet domů""","""1890-12-31""",1890,552267
742379040,55,2409,"""Počet domů""","""1890-12-31""",1890,552194
742379054,61,2409,"""Počet domů""","""1890-12-31""",1890,547018


## Filtry, selecty

Základní analýza dat vyžaduje znát jenom pár věcí.

Je tady spoustu různých sloupečků, a nás jich zajímá jen pár.

Když chci vybrat jen nějaké sloupce, použiju `.select`.

In [7]:
ktere_chci_sloupecky = ['ID', 'hodnota', 'stapro_kod', 'stapro_txt']
df_par_sloupcu = df.select(ktere_chci_sloupecky)
df_par_sloupcu

ID,hodnota,stapro_kod,stapro_txt
i64,i64,i64,str
808433980,1148,2406,"""Počet obyvatel s trvalým nebo …"
808433981,659,2406,"""Počet obyvatel s trvalým nebo …"
808433982,621,2406,"""Počet obyvatel s trvalým nebo …"
808433983,1340,2406,"""Počet obyvatel s trvalým nebo …"
808433985,533,2406,"""Počet obyvatel s trvalým nebo …"
…,…,…,…
742374420,106,2409,"""Počet domů"""
742379026,82,2409,"""Počet domů"""
742379040,55,2409,"""Počet domů"""
742379054,61,2409,"""Počet domů"""


Vidíme zde, že tu jsou různá data. Některé řádky jsou data o počtech obyvatel, jiné o počtu domů etc.

Mně by teď zajímal pouze počet obyvatel, a zbytek řádků zahodím.

Na vybírání  `.filter`.

In [8]:
# vidím, že počet obyvatel má kód 2406, takže si vyberu jen řádky, které mají tento kód.
ktere_chci_radky = pl.col('stapro_kod') == 2406
df_vybrane_radky = df_par_sloupcu.filter(ktere_chci_radky) # mnou zadaná podmínka se ověří pro každý řádek, nevyhovující řádky se zahodí
df_vybrane_radky

ID,hodnota,stapro_kod,stapro_txt
i64,i64,i64,str
808433980,1148,2406,"""Počet obyvatel s trvalým nebo …"
808433981,659,2406,"""Počet obyvatel s trvalým nebo …"
808433982,621,2406,"""Počet obyvatel s trvalým nebo …"
808433983,1340,2406,"""Počet obyvatel s trvalým nebo …"
808433985,533,2406,"""Počet obyvatel s trvalým nebo …"
…,…,…,…
741872565,958,2406,"""Počet obyvatel s trvalým nebo …"
741872579,1491,2406,"""Počet obyvatel s trvalým nebo …"
741872593,556,2406,"""Počet obyvatel s trvalým nebo …"
741872607,2271,2406,"""Počet obyvatel s trvalým nebo …"


Krása.

Na těchto odfiltrovaných datech se dá najít suma(popřípadě minumum, maximum, medián apod.) všech hodnot v nějakém sloupci. Tomu se obecně říká agregace dat.

Kdybych třeba pro kontrolu chtěl celkový počet obyvatel, mohu to nejjednodušeji udělat takto.

In [9]:
df_vybrane_radky.select('hodnota').sum()

hodnota
i64
134178028


To je víc, než bychom čekali. Když se toto stane, dobrý start je prostě se do dat podívat a zkusit vytušit, co je špatně.

Jistě si všimnete, že je v datech údaj "rok". Tím se to asi vysvětluje. V tomto dataframu už ten údaj nemám, protože jsem ho zahodil.
Jeden způsob, jak ho dostat, je znova zopakovat celý postup, jen si přidat řádek, odfiltrovat nejnovější rok a dostat správné číslo.

(všimněte si jak je to docela komplikované, v praxi to bývá ještě horší)

In [10]:
df.filter(
    pl.col('stapro_kod') == 2406
    ).select(
        ['ID', 'hodnota', 'rok', 'stapro_kod', 'stapro_txt']
    ).filter(
        pl.col("rok") == pl.max("rok")
    ).sum().select('hodnota')

hodnota
i64
10488891


To už dává smysl.

## Joiny, agregace

Jsou 2 mírně pokročilé koncepty, které jsou ale extrémně schopné.

Předchozí funguje, ale je to hodně kódu, to samé jde jednoduššeji, aniž bych cokoli dělal opakovaně.

Vyhledám si pro každý řádek všechny řádky z původního dataframu se stejným id, a dostanu společně všechny informace z obou dataframů.

In [11]:
df_zpetne_vybrane = df_vybrane_radky.join(df, on='ID', how='left')
df_zpetne_vybrane

ID,hodnota,stapro_kod,stapro_txt,hodnota_right,stapro_kod_right,stapro_txt_right,datum,rok,obec_id
i64,i64,i64,str,i64,i64,str,str,i64,i64
808433980,1148,2406,"""Počet obyvatel s trvalým nebo …",1148,2406,"""Počet obyvatel s trvalým nebo …","""2011-03-26""",2011,594881
808433981,659,2406,"""Počet obyvatel s trvalým nebo …",659,2406,"""Počet obyvatel s trvalým nebo …","""2011-03-26""",2011,594890
808433982,621,2406,"""Počet obyvatel s trvalým nebo …",621,2406,"""Počet obyvatel s trvalým nebo …","""2011-03-26""",2011,594911
808433983,1340,2406,"""Počet obyvatel s trvalým nebo …",1340,2406,"""Počet obyvatel s trvalým nebo …","""2011-03-26""",2011,594920
808433985,533,2406,"""Počet obyvatel s trvalým nebo …",533,2406,"""Počet obyvatel s trvalým nebo …","""2011-03-26""",2011,594946
…,…,…,…,…,…,…,…,…,…
741872565,958,2406,"""Počet obyvatel s trvalým nebo …",958,2406,"""Počet obyvatel s trvalým nebo …","""1890-12-31""",1890,569666
741872579,1491,2406,"""Počet obyvatel s trvalým nebo …",1491,2406,"""Počet obyvatel s trvalým nebo …","""1890-12-31""",1890,599409
741872593,556,2406,"""Počet obyvatel s trvalým nebo …",556,2406,"""Počet obyvatel s trvalým nebo …","""1890-12-31""",1890,568511
741872607,2271,2406,"""Počet obyvatel s trvalým nebo …",2271,2406,"""Počet obyvatel s trvalým nebo …","""1890-12-31""",1890,599468


To je hromada informací. Ale spojovaná tabulka nemusí být ta původní, klidně si vezmu jen ty 2 sloupce, které mě zajímají.

In [12]:
df_co_spojuji = df.select('ID', 'rok', 'obec_id')
df_zpetne_vybrane = df_vybrane_radky.join(df_co_spojuji, on='ID', how='left')
df_zpetne_vybrane

ID,hodnota,stapro_kod,stapro_txt,rok,obec_id
i64,i64,i64,str,i64,i64
808433980,1148,2406,"""Počet obyvatel s trvalým nebo …",2011,594881
808433981,659,2406,"""Počet obyvatel s trvalým nebo …",2011,594890
808433982,621,2406,"""Počet obyvatel s trvalým nebo …",2011,594911
808433983,1340,2406,"""Počet obyvatel s trvalým nebo …",2011,594920
808433985,533,2406,"""Počet obyvatel s trvalým nebo …",2011,594946
…,…,…,…,…,…
741872565,958,2406,"""Počet obyvatel s trvalým nebo …",1890,569666
741872579,1491,2406,"""Počet obyvatel s trvalým nebo …",1890,599409
741872593,556,2406,"""Počet obyvatel s trvalým nebo …",1890,568511
741872607,2271,2406,"""Počet obyvatel s trvalým nebo …",1890,599468


Vlastně můžu spojit úplně cokoli, klidně úplně jinou tabulku, pokud tam budou nějaký sloupec společný.

In [13]:
df_ciselnik_mist = pl.read_csv('ciselnik.csv')
df_s_mistem = df_zpetne_vybrane.join(df_ciselnik_mist, on='obec_id', how='left')
df_s_mistem

ID,hodnota,stapro_kod,stapro_txt,rok,obec_id,obec_name,orp_id,orp_name,okres_id,okres_name,kraj_id,kraj_name
i64,i64,i64,str,i64,i64,str,i64,str,i64,str,i64,str
808433980,1148,2406,"""Počet obyvatel s trvalým nebo …",2011,594881,"""Šatov""",6220,"""Znojmo""",3713,"""Znojmo""",116,"""Jihomoravský kraj"""
808433981,659,2406,"""Počet obyvatel s trvalým nebo …",2011,594890,"""Štítary""",6220,"""Znojmo""",3713,"""Znojmo""",116,"""Jihomoravský kraj"""
808433982,621,2406,"""Počet obyvatel s trvalým nebo …",2011,594911,"""Šumná""",6220,"""Znojmo""",3713,"""Znojmo""",116,"""Jihomoravský kraj"""
808433983,1340,2406,"""Počet obyvatel s trvalým nebo …",2011,594920,"""Tasovice""",6220,"""Znojmo""",3713,"""Znojmo""",116,"""Jihomoravský kraj"""
808433985,533,2406,"""Počet obyvatel s trvalým nebo …",2011,594946,"""Těšetice""",6220,"""Znojmo""",3713,"""Znojmo""",116,"""Jihomoravský kraj"""
…,…,…,…,…,…,…,…,…,…,…,…,…
741872565,958,2406,"""Počet obyvatel s trvalým nebo …",1890,569666,"""Hladké Životice""",8115,"""Nový Jičín""",3804,"""Nový Jičín""",132,"""Moravskoslezský kraj"""
741872579,1491,2406,"""Počet obyvatel s trvalým nebo …",1890,599409,"""Hodslavice""",8115,"""Nový Jičín""",3804,"""Nový Jičín""",132,"""Moravskoslezský kraj"""
741872593,556,2406,"""Počet obyvatel s trvalým nebo …",1890,568511,"""Hostašovice""",8115,"""Nový Jičín""",3804,"""Nový Jičín""",132,"""Moravskoslezský kraj"""
741872607,2271,2406,"""Počet obyvatel s trvalým nebo …",1890,599468,"""Jeseník nad Odrou""",8115,"""Nový Jičín""",3804,"""Nový Jičín""",132,"""Moravskoslezský kraj"""


BOOM! Najednou mám u každého řádku kód obce, kraje, orp a okresu. Na základě toho si můžu data třeba nakreslit do mapy.

[Tady je UKÁZKA JAK SE TO DĚLÁ](https://github.com/MFVS/AVD3)

### Ukázka zručného zacházení s agregacemi

Před agregací můžu nastavit, že chci data seskupit podle roku.

In [14]:
mala_agregace = df_zpetne_vybrane.group_by('rok').agg(
    pl.sum('hodnota')
)

In [15]:
mala_agregace.sort('rok')

rok,hodnota
i64,i64
1869,7565463
1880,8223227
1890,8666456
1900,9374028
1910,10076727
…,…
1970,9807697
1980,10291927
1991,10302215
2001,10230060


Mám počty obyvatel, rovnou za každý rok

Stejně jednoduše jde seskupit podle města...

In [16]:
velka_agregace = df_s_mistem.group_by('rok', 'obec_id').agg(pl.col('hodnota').sum(), pl.col('obec_name').first())
velka_agregace

rok,obec_id,hodnota,obec_name
i64,i64,i64,str
2011,560278,217,"""Mutěnice"""
1869,579696,1804,"""Strážné"""
1970,562181,223,"""Křenovice"""
1900,533629,1003,"""Radim"""
1970,576166,317,"""Bystré"""
…,…,…,…
1890,553212,360,"""Janoušov"""
1900,584703,746,"""Němčičky"""
1880,533823,397,"""Veletov"""
2011,598844,207,"""Vlastec"""


A z nich vybrat údaje pro ústí

In [17]:
zaznamy_pro_usti = velka_agregace.filter(pl.col('obec_name') == 'Ústí nad Labem')
id_obce_usti = zaznamy_pro_usti.select('obec_id').unique().to_series().to_list()
id_obce_usti

[554804]

In [18]:
agregace_usti = velka_agregace.filter(pl.col('obec_id').is_in(id_obce_usti)).sort('rok')
agregace_usti

rok,obec_id,hodnota,obec_name
i64,i64,i64,str
1869,554804,20284,"""Ústí nad Labem"""
1880,554804,27834,"""Ústí nad Labem"""
1890,554804,40796,"""Ústí nad Labem"""
1900,554804,57330,"""Ústí nad Labem"""
1910,554804,68313,"""Ústí nad Labem"""
…,…,…,…
1970,554804,79544,"""Ústí nad Labem"""
1980,554804,89272,"""Ústí nad Labem"""
1991,554804,98178,"""Ústí nad Labem"""
2001,554804,95436,"""Ústí nad Labem"""


> K ZAMYŠLENÍ: Představte si, kolik by tohle bylo práce pouze s použitím `select`, `filter` a `sum`.

## Vizualizace dat

Nejdůležitější aspekt analýzy dat je způsob jejich prezentace.

Často použité knihovny pro tento účel jsou `plotly`, `folium`, `matplotlib`, a my zde použijeme `pyecharts`, protože se mi líbí.

Zde je [dokumentace](https://gallery.pyecharts.org/#/README_EN?id=project-introduction).

In [39]:
import pyecharts as pe
from pyecharts import options as opts
import numpy as np

In [56]:

theme = pe.globals.ThemeType.CHALK
bar = pe.charts.Bar(init_opts=opts.InitOpts(width="900px", height="500px", theme=theme, bg_color="#FFFFFF", ))
usti_x = agregace_usti.select("rok").to_pandas().values.flatten().tolist()
celkem_y = mala_agregace.select("hodnota").to_pandas().values.flatten().tolist()
usti_y = agregace_usti.select("hodnota").to_pandas().values.flatten().tolist()
c = (
    bar
    .add_xaxis(usti_x)
    .add_yaxis("Počet obyvatel", celkem_y, stack="stack1")
    .add_yaxis("Počet obyvatel Ústí", usti_y, stack="stack2")
    .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
    .set_global_opts(
        title_opts=opts.TitleOpts(title="Počty obyvatel v grafech"),
        yaxis_opts=opts.AxisOpts(
            type_="log",
            name="y",
            splitline_opts=opts.SplitLineOpts(is_show=True),
            is_scale=True,
        ),
    )
)

c.render_notebook()