In [1]:
import os
import datetime
import warnings
import polars as pl
import pandas as pd
import altair as alt

from src.najdi_rok import najdi_rok
from src.pocet_stran import pocet_stran
from src.bez_bordelu import bez_bordelu
from src.alt_friendly import alt_friendly
from src.hezke_jmeno import hezke_jmeno
from src.kristi_promin import kristi_promin
from src.zjisti_vazbu import zjisti_vazbu

pl.Config(tbl_rows=100)
alt.data_transformers.disable_max_rows()
alt.themes.register('irozhlas', kristi_promin)
alt.themes.enable('irozhlas')
warnings.filterwarnings('ignore')

In [3]:
uplne_vsechno = pl.read_parquet(os.path.join("data/cnb_sloupce","008.parquet"))

In [5]:
len(uplne_vsechno)

1250624

In [7]:
df = pl.read_parquet(os.path.join("data","cnb_vyber.parquet"))
df = df.with_columns(pl.col('008').map_elements(najdi_rok, return_dtype=int).alias('rok'))
df = df.with_columns(pl.col('300_a').map_elements(pocet_stran, return_dtype=int).alias('pocet_stran'))

In [8]:
rocni_pocty = df.filter(pl.col('rok').is_between(1900, 2023)).group_by('rok').len().sort('rok').rename({'len':'knih'}).with_columns(pl.col("rok").map_elements(lambda x: datetime.date(year=int(x), month=1, day=1), return_dtype=pl.Date).cast(pl.Datetime))
rocni_pocty

rok,knih
datetime[μs],u32
1900-01-01 00:00:00,1357
1901-01-01 00:00:00,1808
1902-01-01 00:00:00,2036
1903-01-01 00:00:00,1971
1904-01-01 00:00:00,1898
1905-01-01 00:00:00,1810
1906-01-01 00:00:00,2240
1907-01-01 00:00:00,2075
1908-01-01 00:00:00,2338
1909-01-01 00:00:00,2245


In [386]:
rocni_strany = df.filter(pl.col('rok').is_between(1900, 2023)).group_by('rok').agg(pl.col("pocet_stran").sum()).sort('rok').rename({'pocet_stran':'stran'}).with_columns(pl.col("rok").map_elements(lambda x: datetime.date(year=int(x), month=1, day=1), return_dtype=pl.Date).cast(pl.Datetime))
rocni_strany

rok,stran
datetime[μs],i64
1900-01-01 00:00:00,168497
1901-01-01 00:00:00,223129
1902-01-01 00:00:00,273839
1903-01-01 00:00:00,235230
1904-01-01 00:00:00,219023
…,…
2019-01-01 00:00:00,2631970
2020-01-01 00:00:00,2400757
2021-01-01 00:00:00,2504773
2022-01-01 00:00:00,2619766


In [387]:
novinky = df.filter(pl.col('rok').is_between(1900, 2023)).filter(pl.col('pocet_stran') >= 50).sort('rok').unique(subset=["245_a","100_a"])
novinky = novinky.group_by('rok').len().with_columns(pl.col("rok").map_elements(lambda x: datetime.date(year=int(x), month=1, day=1), return_dtype=pl.Date).cast(pl.Datetime))
novinky = novinky.sort('rok').rename({'len':'novinky'})

In [388]:
celkem_vyslo = df.filter(pl.col('rok').is_between(1900, 2023)).filter(pl.col('pocet_stran') >= 50).group_by('rok').agg(pl.col('008').unique().len()).rename({'008':'celkem_vyslo'}).sort('rok')

In [389]:
nepuvodni = df.filter(pl.col('rok').is_between(1900, 2023)).filter(pl.col('pocet_stran') >= 50).explode('041_h').filter(pl.col('041_h') != 'cze').group_by('rok').agg(pl.col('008').unique().len()).rename({'008':'preklady'}).sort('rok')
nepuvodni

rok,preklady
i64,u32
1900,174
1901,218
1902,232
1903,225
1904,216
…,…
2019,3210
2020,2692
2021,2740
2022,2906


In [390]:
preklady = celkem_vyslo.join(nepuvodni, on='rok', how='left')
preklady = preklady.with_columns((pl.col('preklady') / pl.col('celkem_vyslo')).alias('podíl překladů'))
preklady = preklady.select(pl.col(['rok','podíl překladů']))
preklady = preklady.with_columns(pl.col("rok").map_elements(lambda x: datetime.date(year=int(x), month=1, day=1), return_dtype=pl.Date).cast(pl.Datetime))
preklady

rok,podíl překladů
datetime[μs],f64
1900-01-01 00:00:00,0.2265625
1901-01-01 00:00:00,0.280206
1902-01-01 00:00:00,0.265143
1903-01-01 00:00:00,0.260116
1904-01-01 00:00:00,0.265356
…,…
2019-01-01 00:00:00,0.365022
2020-01-01 00:00:00,0.333333
2021-01-01 00:00:00,0.341093
2022-01-01 00:00:00,0.35504


In [391]:
do_grafu = rocni_pocty.join(rocni_strany, on="rok", how="left")
do_grafu = do_grafu.join(novinky, on="rok", how="left")
do_grafu = do_grafu.with_columns((pl.col("stran") / (60 * 8 * 365.25)).alias("let čtení"))
do_grafu = do_grafu.join(preklady, on='rok', how='left')
do_grafu = do_grafu.melt(id_vars="rok", value_vars=['knih','stran','let čtení','novinky','podíl překladů'])
do_grafu = do_grafu.filter(pl.col('variable').is_in(['knih','novinky','podíl překladů']))
do_grafu = do_grafu.with_columns(pl.col('variable').replace_strict({'knih': 'všechny publikace', 'novinky': 'novinky nad 50 stran', 'podíl překladů':'podíl překladů'}))
do_grafu

  do_grafu = do_grafu.melt(id_vars="rok", value_vars=['knih','stran','let čtení','novinky','podíl překladů'])


rok,variable,value
datetime[μs],str,f64
1900-01-01 00:00:00,"""všechny publikace""",1355.0
1901-01-01 00:00:00,"""všechny publikace""",1810.0
1902-01-01 00:00:00,"""všechny publikace""",2034.0
1903-01-01 00:00:00,"""všechny publikace""",1972.0
1904-01-01 00:00:00,"""všechny publikace""",1896.0
…,…,…
2019-01-01 00:00:00,"""podíl překladů""",0.365022
2020-01-01 00:00:00,"""podíl překladů""",0.333333
2021-01-01 00:00:00,"""podíl překladů""",0.341093
2022-01-01 00:00:00,"""podíl překladů""",0.35504


In [392]:
do_grafu

rok,variable,value
datetime[μs],str,f64
1900-01-01 00:00:00,"""všechny publikace""",1355.0
1901-01-01 00:00:00,"""všechny publikace""",1810.0
1902-01-01 00:00:00,"""všechny publikace""",2034.0
1903-01-01 00:00:00,"""všechny publikace""",1972.0
1904-01-01 00:00:00,"""všechny publikace""",1896.0
…,…,…
2019-01-01 00:00:00,"""podíl překladů""",0.365022
2020-01-01 00:00:00,"""podíl překladů""",0.333333
2021-01-01 00:00:00,"""podíl překladů""",0.341093
2022-01-01 00:00:00,"""podíl překladů""",0.35504


In [393]:
def irozhlas_conf():

    return {
        "config" : {
             "title": {'font': "Noticia Text",
                      'fontSize': 14,
                      'anchor': 'start',
                       'fontWeight': 'bolder',
                    'subtitleFont': 'Noticia Text',
                       'subtitleLineHeight': 18,
                      'subtitleFontSize': 12,
                       'subtitleFontWeight': 'normal',
                      'subtitlePadding': 10,
                       'dy': -12,
                      },
             "axis": {
                "labelFont": "Asap",
                "titleFont": "Asap",
                 "fontWeight": "lighter",
                "titleFontWeight": "lighter",
                "labelFontSize": 10,
                "titleFontSize": 10,
                'labelPadding': 2,
                 'titlePadding': 10
            },
            "legend": {
                "labelFont": "Asap",
                "labelFontWeight": "normal",
                "titleFont": "Asap",
                "titleFontWeight": "normal",
                "labelFontSize": 10,
                "titleFontSize": 10
            }
        }
    }

alt.themes.register('irozhlas', irozhlas_conf)
alt.themes.enable('irozhlas')

ThemeRegistry.enable('irozhlas')

In [394]:
titulek = "Vývoj knižní produkce na českém území"
podtitulek = ["Celkové počty záznamů v České národní bibliografii.","Vedle klasických knih může jít i o katalogy výstav apod."] #,"Angličtina a francouzština (téměř) zmizely jen během 2. světové války,","kdy dominovaly překlady z němčiny. Po osvobození raketově narostl podíl ruštiny."]
kredit = "zdroj dat: Česká národní bibliografie · vizualizace: iROZHLAS.cz · 2025"

In [395]:
def ceska_cisla(value):
    if abs(value) >= 1_000_000:
        return f"{value/1_000_000:.0f} mil."
    elif abs(value) >= 1_000:
        return f"{value/1_000:.0f} tis."
    else:
        return str(int(value))

In [396]:
ceska_cisla(1000)

'1 tis.'

In [419]:
graf_i = alt.Chart(do_grafu.filter(pl.col("variable") == "všechny publikace").to_pandas(), title={'text': titulek}, width=300, height=100).mark_area(size=2).encode(
    alt.X("rok:T", 
          title=None,
          axis=alt.Axis(domainOpacity=0, tickColor='#DCDDD6')
    ),
    alt.Y('value:Q', 
          axis=alt.Axis(
              orient='right', 
              domainOpacity=0, 
              tickColor='#DCDDD6',
              format='s', 
          ), 
          title=None,
          scale=alt.Scale(zero=True)
    ),
    alt.Color("variable:N", 
              scale=alt.Scale(range=['#81A9D5']),
              title=None, 
              legend=None
    ))

graf_ii = alt.Chart(do_grafu.filter(pl.col("variable") == "novinky nad 50 stran").to_pandas(), title={'text': "Novinky nad 50 stran"}, width=300, height=100).mark_area(size=2).encode(
    alt.X("rok:T", 
          title=None,
          axis=alt.Axis(domainOpacity=0, tickColor='#DCDDD6')
    ),
    alt.Y('value:Q', 
          axis=alt.Axis(
              orient='right', 
              domainOpacity=0, 
              tickColor='#DCDDD6',
              format='s',  # Default format for first two facets,
          ), 
          title=None,
          scale=alt.Scale(zero=True)
    ),
    alt.Color("variable:N", 
              scale=alt.Scale(range=['#70871E']),
              title=None, 
              legend=None
    ))

graf_iii = alt.Chart(do_grafu.filter(pl.col("variable") == "podíl překladů").to_pandas(), title={'text': "Podíl překladů z cizích jazyků"}, width=300, height=100).mark_area(size=2).encode(
    alt.X("rok:T", 
          title=None,
          axis=alt.Axis(domainOpacity=0, tickColor='#DCDDD6')
    ),
    alt.Y('value:Q', 
          axis=alt.Axis(
              orient='right', 
              domainOpacity=0, 
              tickColor='#DCDDD6',
              format=' .0%',
                            labelExpr="replace(datum.label, '%', ' %')"  # Adds space before %

          ), 
          title=None,
          scale=alt.Scale(zero=True)
),
    alt.Color("variable:N", 
              scale=alt.Scale(range=['#DB842F']),
              title=None, 
              legend=None
    ))

graf_produkce = alt.vconcat(graf_i, graf_ii, graf_iii).resolve_scale(color='independent',y="independent").configure_view(stroke='transparent')
graf_produkce

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


In [398]:
def me_to_neurazi(zaklad_grafu, soubor, kredity):

    os.makedirs("grafy", exist_ok=True)
    
    credits = pl.DataFrame({'text': [kredity]})
    credits = alt.Chart(credits.to_pandas(), width=300).encode(text=alt.Text('text:N')).mark_text(fontSize=10,font="Asap", baseline='line-bottom')
    combined_chart = alt.vconcat(zaklad_grafu, credits)

    combined_chart.save(os.path.join("grafy",f"{soubor}.svg"))
    combined_chart.save(os.path.join("grafy",f"{soubor}.png"), ppi=400)
    
    return combined_chart

In [399]:
me_to_neurazi(graf_produkce, 'produkce', "zdroj dat: Česká národní bibliografie · vizualizace: iROZHLAS.cz · 2025")

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
