In [122]:
import os
import datetime
import warnings
import polars as pl
import pandas as pd
import altair as alt

from src.najdi_rok import najdi_rok
from src.pocet_stran import pocet_stran
from src.bez_bordelu import bez_bordelu
from src.alt_friendly import alt_friendly
from src.hezke_jmeno import hezke_jmeno
from src.kristi_promin import kristi_promin

pl.Config(tbl_rows=100)
alt.data_transformers.disable_max_rows()
alt.themes.register('irozhlas', kristi_promin)
alt.themes.enable('irozhlas')
warnings.filterwarnings('ignore')

In [123]:
df = pl.read_parquet(os.path.join("data/cnb_sloupce","100.parquet"))
df = df.join(pl.read_parquet(os.path.join("data/cnb_sloupce","leader.parquet")), left_on="001", right_on="001", how="left")
df = df.join(pl.read_parquet(os.path.join("data/cnb_sloupce","008.parquet")), left_on="001", right_on="001", how="left")
df = df.to_pandas()
df = df[df["leader"].str[6].isin(["a", "t"])]
df = df[~df["leader"].str[7].isin(["b", "i", "s", " "])]
df = df[(df["008"].str[15:17] == "xr") & (df["008"].str[35:38] == "cze")]
df = pl.from_pandas(df)
df = df.join(pl.read_parquet(os.path.join("data/cnb_sloupce","020.parquet")), left_on="001", right_on="001", how="left")
df = df.join(pl.read_parquet(os.path.join("data/cnb_sloupce","022.parquet")), left_on="001", right_on="001", how="left")
df = df.join(pl.read_parquet(os.path.join("data/cnb_sloupce","245.parquet")), left_on="001", right_on="001", how="left")
df = df.join(pl.read_parquet(os.path.join("data/cnb_sloupce","300.parquet")), left_on="001", right_on="001", how="left")
df = df.join(pl.read_parquet(os.path.join("data/cnb_sloupce","655.parquet")), left_on="001", right_on="001", how="left")
df = df.join(pl.read_parquet(os.path.join("data/cnb_sloupce","700.parquet")), left_on="001", right_on="001", how="left")
df = df.explode("022_a").filter(pl.col("022_a").is_null())
df = df.with_columns(pl.col('008').map_elements(najdi_rok, return_dtype=int).alias('rok'))
df = df.with_columns(pl.col('300_a').map_elements(pocet_stran, return_dtype=int).alias('stran'))
df = df.with_columns(pl.col('245_a').map_elements(bez_bordelu, return_dtype=str))
df = df.explode('245_p').with_columns(pl.col('245_p').map_elements(bez_bordelu, return_dtype=str))
print(len(df))
df = df.filter(pl.col("rok") >= 1800)

df = df.filter((~pl.col("245_h").str.contains("grafika")) | pl.col("245_h").is_null()).unique(subset=["008","100_a","245_a","245_p"], keep="first")
print(len(df))

716107
705240


In [124]:
aut = pl.read_parquet(os.path.join("data","aut_vyber.parquet"))
cesi = aut.explode("370_c").filter(pl.col("370_c").str.contains("Česk")).explode("100_7").select(pl.col("100_7")).to_series().to_list()
len(cesi)

363993

In [125]:
vek = pl.read_parquet(os.path.join("data","narozeni-umrti-gender.parquet"))
df = df.join(vek, on="100_7", how="left").with_columns((pl.col("rok") - pl.col("narozeni")).alias("vek"))

In [126]:
df_700 = pl.read_parquet(os.path.join("data","podil_lidi_s_pauzou.parquet")).with_columns(pl.col("rok").map_elements(lambda x: x.year)).filter(pl.col("rok").is_between(1900,2000))

In [127]:
alt.Chart(alt_friendly(df_700)).mark_line().encode(alt.X("rok:T"), alt.Y("podil_cechu_ill_10"))

In [128]:
alt.Chart(alt_friendly(df_700)).mark_line().encode(alt.X("rok:T"), alt.Y("podil_cechu_trl_10"))

## Autorstvo s pauzou a končící autorstvo

In [399]:
df_100 = pl.read_parquet(os.path.join("data","podil_autorstva_s_pauzou.parquet")).with_columns(pl.col("rok").map_elements(lambda x: x.year)).filter(pl.col("rok").is_between(1900,2000)).with_columns(pl.col("podil_cechu_15").map_elements(lambda x: round(x, 3)))
df_koncici = pl.read_parquet(os.path.join('data','podily_koncicich_lidi_cs.parquet'))

In [653]:
graf_pauzy = alt.Chart(
    alt_friendly(df_100), width=300,
    title=alt.Title("…a jak velká se odmlčela na 15 a více let")
).mark_area(color='#E09DA3'
).encode(alt.X(
    "rok:T", title=None, axis=alt.Axis(domainOpacity=0, tickColor='#DCDDD6')
), alt.Y(
    "podil_cechu_15:Q", title=None, 
    axis=alt.Axis(domainOpacity=0, tickColor='#DCDDD6', labelExpr="datum.label * 100 + ' %'", orient='right', tickCount=3),
    scale=alt.Scale(domain=[0,0.4])
))
                    
rule1 = alt.Chart(alt.Data(values=[{'rok': '1948-02-25'}])).mark_rule(
    color='#81A9D5',
    strokeDash=[4, 4]  # Optional: makes the line dashed
).encode(
    x='rok:T'
)

rule2 = alt.Chart(alt.Data(values=[{'rok': '1968-08-21'}])).mark_rule(
    color='#81A9D5',
    strokeDash=[4, 4]  # Optional: makes the line dashed
).encode(
    x='rok:T'
)

# Add text annotation
text1 = alt.Chart(alt.Data(values=[{'rok': '1948-02-25', 'y': 0.3}])).mark_text(
    # angle=270,  # Rotates text vertically
    align='right',
    baseline='middle',
    dy=15,# Slight horizontal offset from the line
    dx=-8,
    text=['komunistický','převrat'],
    font='Asap'
).encode(
    x='rok:T',
    y=alt.value(0)  # Places text at bottom of chart
)


# Add text annotation
text2 = alt.Chart(alt.Data(values=[{'rok': '1968-08-21', 'y': 0.3}])).mark_text(
    # angle=270,  # Rotates text vertically
    align='left',
    baseline='middle',
    dy=15,# Slight horizontal offset from the line
    dx=8,
    text=['srpnová','okupace'],
    font='Asap'
).encode(
    x='rok:T',
    y=alt.value(0)  # Places text at bottom of chart
)

graf_pauzy_graf_komb = graf_pauzy + rule1 + text1 + rule2 + text2
graf_pauzy_graf_komb

In [647]:
graf_konce = alt.Chart(
    alt_friendly(df_koncici.filter(pl.col("rok").is_between(1900,2000))
                ), width=300,
                 title=alt.Title(["Jak velká část žijících českých","autorů zcela přestala publikovat…"])
).mark_area(color='#E09DA3'
).encode(
    alt.X("rok:T", title=None, axis=alt.Axis(domainOpacity=0, tickColor='#DCDDD6')),
    alt.Y("podil_aut:Q", title=None, axis=alt.Axis(domainOpacity=0, tickColor='#DCDDD6', tickCount=3, labelExpr="datum.label * 100 + ' %'", orient='right')))
graf_konce

rule1 = alt.Chart(alt.Data(values=[{'rok': '1948-02-25'}])).mark_rule(
    color='#81A9D5',
    strokeDash=[4, 4]  # Optional: makes the line dashed
).encode(
    x='rok:T'
)

rule2 = alt.Chart(alt.Data(values=[{'rok': '1989-11-17'}])).mark_rule(
    color='#81A9D5',
    strokeDash=[4, 4]  # Optional: makes the line dashed
).encode(
    x='rok:T'
)

# Add text annotation
text1 = alt.Chart(alt.Data(values=[{'rok': '1948-02-25', 'y': 0.3}])).mark_text(
    # angle=270,  # Rotates text vertically
    align='right',
    baseline='middle',
    dy=15,# Slight horizontal offset from the line
    dx=-8,
    text=['komunistický','převrat'],
    font='Asap'
).encode(
    x='rok:T',
    y=alt.value(0)  # Places text at bottom of chart
)


# Add text annotation
text2 = alt.Chart(alt.Data(values=[{'rok': '1989-11-17', 'y': 0.3}])).mark_text(
    # angle=270,  # Rotates text vertically
    align='right',
    baseline='middle',
    dy=15,# Slight horizontal offset from the line
    dx=-8,
    text=['sametová','revoluce'],
    font='Asap'
).encode(
    x='rok:T',
    y=alt.value(0)  # Places text at bottom of chart
)

graf_konce_komb = graf_konce + rule1 + rule2 + text1 + text2

graf_konce_komb

In [655]:
alt.vconcat(graf_konce_komb, graf_pauzy_graf_komb).configure_view(stroke='transparent').resolve_scale(y='shared').configure_axisX(grid=False, domain=False)

In [135]:
alt.Chart(alt_friendly(df_koncici.filter(pl.col("rok").is_between(1900,2000))), width=300).mark_line().encode(alt.X("rok:T"), alt.Y("podil_ill:Q"))

In [136]:
alt.Chart(alt_friendly(df_koncici.filter(pl.col("rok").is_between(1900,2000))), width=300).mark_line().encode(alt.X("rok:T"), alt.Y("podil_trl:Q"))

In [137]:
df_koncici_autorstvo = pl.read_parquet(os.path.join('data','podily_konciciho_autorstva_cs.parquet'))
df_koncici_autorstvo.columns

['rok', 'skoncilo', 'celkem', 'podil']

In [138]:
smytec = alt.Chart(
    alt_friendly(df_koncici_autorstvo.filter(pl.col("rok").is_between(1900,2000))), width=300, title=alt.Title(["Jak velká část českých autorů vyšla naposledy…"])
).mark_area().encode(
    alt.X("rok:T", title=None, axis=alt.Axis(domainOpacity=0, tickColor='#DCDDD6')), 
    alt.Y("podil:Q", title=None, axis=alt.Axis(orient='right', domainOpacity=0, tickColor='#DCDDD6', labelExpr="datum.label * 100 + ' %'"))
)

pauza15 = alt.Chart(
    alt_friendly(df_100), width=300, title=alt.Title('…a jak velká část se odmlčela na 15 a více let')
).mark_area().encode(
    alt.X("rok:T", title=None, axis=alt.Axis(domainOpacity=0, tickColor='#DCDDD6')), 
    alt.Y("podil_cechu_15", title=None, axis=alt.Axis(orient='right', domainOpacity=0, tickColor='#DCDDD6', labelExpr="datum.label * 100 + ' %'"), 
          scale=alt.Scale(domain=[0,0.2]))
)

alt.vconcat(smytec, pauza15).configure_view(stroke='transparent').resolve_scale(color='independent',x="shared",y='shared')

## Kdo zmizel

In [140]:
pred_unorem = set(df.filter(pl.col("rok") <= 1948).select(pl.col("100_7")).to_series().to_list())
po_revoluci = set(df.filter(pl.col("rok") >= 1988).select(pl.col("100_7")).to_series().to_list())
v_sedesatkach = set(df.filter(pl.col("rok").is_between(1960,1969)).select(pl.col("100_7")).to_series().to_list())
behem_socialismu = set(df.filter(pl.col("rok").is_between(1949,1987)).select(pl.col("100_7")).to_series().to_list())
behem_padesatek = set(df.filter(pl.col("rok").is_between(1949,1959)).select(pl.col("100_7")).to_series().to_list())
pred_normalizaci = set(df.filter(pl.col("rok").is_between(1966,1970)).select(pl.col("100_7")).to_series().to_list())
po_normalizaci = set(df.filter(pl.col("rok").is_between(1990,1994)).select(pl.col("100_7")).to_series().to_list())
behem_normalizace = set(df.filter(pl.col("rok").is_between(1972,1988)).select(pl.col("100_7")).to_series().to_list())

znormalizovani = pred_normalizaci.intersection(po_normalizaci).difference(behem_normalizace)
zunorovani = pred_unorem.intersection(po_revoluci).difference(behem_socialismu)

In [141]:
len(znormalizovani)

533

In [142]:
len(df.filter(pl.col("100_7").is_in(set(cesi).intersection(znormalizovani))).unique(subset=['100_7']))

419

In [143]:
df = df.with_columns(pl.col("100_a").map_elements(hezke_jmeno).alias("jmeno"))

In [218]:
df.columns

['100_ind1',
 '100_a',
 '100_7',
 '100_4',
 '100_d',
 '100_q',
 '100_c',
 '100_b',
 '100_e',
 '001',
 'leader',
 '008',
 '020_q',
 '020_c',
 '020_a',
 '020_z',
 '022_a',
 '022_y',
 '022_z',
 '022_ind1',
 '022_l',
 '245_ind1',
 '245_ind2',
 '245_a',
 '245_b',
 '245_c',
 '245_n',
 '245_p',
 '245_h',
 '245_f',
 '245_s',
 '300_a',
 '300_b',
 '300_c',
 '300_e',
 '300_f',
 '300_3',
 '655_ind2',
 '655_a',
 '655_7',
 '655_2',
 '655_ind1',
 '655_x',
 '655_z',
 '655_y',
 '700_ind1',
 '700_a',
 '700_4',
 '700_d',
 '700_7',
 '700_t',
 '700_q',
 '700_l',
 '700_ind2',
 '700_c',
 '700_b',
 '700_i',
 '700_m',
 '700_n',
 '700_k',
 '700_r',
 '700_p',
 '700_o',
 '700_s',
 '700_j',
 '700_6',
 '700_x',
 '700_e',
 '700_f',
 '700_5',
 '700_g',
 'rok',
 'stran',
 'narozeni',
 'umrti',
 'gender',
 'vek',
 'jmeno']

In [735]:
kolik = 25
znormalizovani_top_domaci = df.filter((pl.col('umrti') >= 1969) | (pl.col('umrti').is_null())).filter(pl.col("100_7").is_in(cesi)).filter(pl.col("rok").is_between(1965,1994)).filter(pl.col("100_7").is_in(znormalizovani)).group_by(["jmeno",'100_7']).len().sort(by='len',descending=True).head(kolik).select(pl.col("100_7")).to_series().to_list()
znormalizovani_top_domaci_razeni = df.filter((pl.col('umrti') >= 1969) | (pl.col('umrti').is_null())).filter(pl.col("100_7").is_in(cesi)).filter(pl.col("rok").is_between(1965,1994)).filter(pl.col("100_7").is_in(znormalizovani)).group_by(["jmeno",'100_7']).len().sort(by='len',descending=True).head(kolik).select(pl.col("jmeno")).to_series().to_list()
znormalizovani_top_zahranicni = df.filter((pl.col('umrti') >= 1969) | (pl.col('umrti').is_null())).filter(~pl.col("100_7").is_in(cesi)).filter(pl.col("rok").is_between(1965,1994)).filter(pl.col("100_7").is_in(znormalizovani)).group_by(["jmeno",'100_7']).len().sort(by='len',descending=True).head(kolik).select(pl.col("100_7")).to_series().to_list()
znormalizovani_top_zahranicni_razeni = df.filter((pl.col('umrti') >= 1969) | (pl.col('umrti').is_null())).filter(~pl.col("100_7").is_in(cesi)).filter(pl.col("rok").is_between(1965,1994)).filter(pl.col("100_7").is_in(znormalizovani)).group_by(["jmeno",'100_7']).len().sort(by='len',descending=True).head(kolik).select(pl.col("jmeno")).to_series().to_list()
znormalizovani_top_domaci_razeni

['Josef Škvorecký',
 'Ivan Klíma',
 'Václav Havel',
 'Karel Kaplan',
 'Anna Sedlmayerová',
 'Vladimír Škutina',
 'Jan Vladislav',
 'Karel Šiktanc',
 'Václav Černý',
 'Ivan Diviš',
 'Jan Procházka',
 'Milan Kundera',
 'Eva Kantůrková',
 'Jan Patočka',
 'Václav Renč',
 'Arnošt Lustig',
 'Karel Pecka',
 'Adolf Melezinek',
 'Ludvík Vaculík',
 'Zdeněk Kalista',
 'Stanislav Sohr',
 'František Kautman',
 'Václav Klaus',
 'Jena Javůrková',
 'Karel Mácha']

In [146]:
df.filter(pl.col("100_7").is_in(cesi)).filter(pl.col("rok").is_between(1966,1994)).filter(pl.col("100_7").is_in(znormalizovani)).group_by(["jmeno",'100_7']).agg(pl.col("stran").sum()).sort(by='stran',descending=True)

jmeno,100_7,stran
str,str,i64
"""Josef Škvorecký""","""jk01130413""",9738
"""Václav Havel""","""jk01040240""",5192
"""Karel Kaplan""","""jk01052903""",4970
"""Václav Černý""","""jk01021636""",4653
"""Eva Kantůrková""","""jk01052883""",4506
"""Arnošt Lustig""","""jk01072683""",4495
"""Felix Háj""","""jk01033019""",4469
"""Anna Sedlmayerová""","""jk01110583""",4294
"""Jan Procházka""","""jk01101145""",3696
"""Jan Vladislav""","""jk01150006""",3575


In [147]:
# kolik = 20
# znormalizovani_top_domaci = df.filter(pl.col("100_7").is_in(cesi)).filter(pl.col("rok").is_between(1966,1994)).filter(pl.col("100_7").is_in(znormalizovani)).group_by(["jmeno",'100_7']).agg(pl.col("stran").sum()).sort(by='stran',descending=True).head(kolik).select(pl.col("100_7")).to_series().to_list()
# znormalizovani_top_domaci_razeni = df.filter(pl.col("100_7").is_in(cesi)).filter(pl.col("rok").is_between(1966,1994)).filter(pl.col("100_7").is_in(znormalizovani)).group_by(["jmeno",'100_7']).agg(pl.col("stran").sum()).sort(by='stran',descending=True).head(kolik).select(pl.col("jmeno")).to_series().to_list()
# znormalizovani_top_zahranicni = df.filter(~pl.col("100_7").is_in(cesi)).filter(pl.col("rok").is_between(1966,1994)).filter(pl.col("100_7").is_in(znormalizovani)).group_by(["jmeno",'100_7']).agg(pl.col("stran").sum()).sort(by='stran',descending=True).head(kolik).select(pl.col("100_7")).to_series().to_list()
# znormalizovani_top_zahranicni_razeni = df.filter(~pl.col("100_7").is_in(cesi)).filter(pl.col("rok").is_between(1966,1994)).filter(pl.col("100_7").is_in(znormalizovani)).group_by(["jmeno",'100_7']).agg(pl.col("stran").sum()).sort(by='stran',descending=True).head(kolik).select(pl.col("jmeno")).to_series().to_list()

In [254]:
znormalizovani_top_domaci

['jk01130413',
 'jk01040240',
 'jk01060513',
 'jk01130395',
 'jk01052903',
 'jk01110583',
 'jk01150006',
 'jk01021636',
 'jk01122896',
 'jk01091914',
 'jk01052883',
 'jk01101145',
 'jk01092241',
 'jk01022321',
 'jk01072683',
 'jn19990218045',
 'jk01102340',
 'jk01053268',
 'jk01052690',
 'jk01120290',
 'jk01081112',
 'jk01141068',
 'xx0020417',
 'jk01070894',
 'jk01062995']

In [274]:
znormalizovani_top_domaci_razeni

['Josef Škvorecký',
 'Václav Havel',
 'Ivan Klíma',
 'Anna Sedlmayerová',
 'Karel Kaplan',
 'Vladimír Škutina',
 'Jan Vladislav',
 'Václav Černý',
 'Karel Šiktanc',
 'Jan Procházka',
 'Ivan Diviš',
 'Milan Kundera',
 'Eva Kantůrková',
 'Jan Patočka',
 'Václav Renč',
 'Adolf Melezinek',
 'Arnošt Lustig',
 'Karel Pecka',
 'Stanislav Sohr',
 'Zdeněk Kalista',
 'František Kautman',
 'Václav Klaus',
 'Ludvík Vaculík',
 'Karel Mácha',
 'Jena Javůrková']

Načteme data vygenerovaná sešitem 174_zahranicni_vydani.ipynb.

In [725]:
dografu2 = pl.read_parquet(os.path.join('data','zahranicni_knihy_10_zakazanych_autoru.parquet')).select(pl.col(['jmeno','titul','rok'])).with_columns(pl.lit('zahranici').alias('kde')).filter(pl.col("rok").is_between(1930,2000)).filter(pl.col("jmeno").is_in(znormalizovani_top_domaci_razeni))

In [737]:
dografu1 = df.filter(pl.col("rok").is_between(1930,2000)).filter(pl.col("100_7").is_in(znormalizovani_top_domaci)).select(pl.col(['jmeno','245_a','rok'])).rename({'245_a':'titul'}).with_columns(pl.lit('domaci').alias('kde'))

In [739]:
dografu2

jmeno,titul,rok,kde
str,str,i64,str
"""Karel Kaplan""","""Die politischen Prozesse in de…",1986,"""zahranici"""
"""Karel Kaplan""","""Poválečné Československo :""",1985,"""zahranici"""
"""Karel Kaplan""","""Staat und Kirche in der Tschec…",1990,"""zahranici"""
"""Karel Kaplan""","""Das verhängnisvolle Bündnis :""",1984,"""zahranici"""
"""Milan Kundera""","""Amori ridicoli :""",1973,"""zahranici"""
"""Milan Kundera""","""A lét elviselhetetlen könnyűsé…",1994,"""zahranici"""
"""Milan Kundera""","""Avskedvalsen /""",1978,"""zahranici"""
"""Milan Kundera""","""Avskjedsvalsen :""",1978,"""zahranici"""
"""Milan Kundera""","""Das Buch den lächerlichen Lieb…",1987,"""zahranici"""
"""Milan Kundera""","""Immortality /""",1992,"""zahranici"""


In [741]:
dografu1

jmeno,titul,rok,kde
str,str,i64,str
"""Karel Mácha""","""Revoluční humanismus St.K. Neu…",1954,"""domaci"""
"""Stanislav Sohr""","""Breviář""",1995,"""domaci"""
"""Eva Kantůrková""","""Památník""",1995,"""domaci"""
"""Arnošt Lustig""","""Hořká vůně mandlí""",1968,"""domaci"""
"""Václav Havel""","""Protokoly""",1966,"""domaci"""
"""Jan Procházka""","""Rok života""",1956,"""domaci"""
"""Anna Sedlmayerová""","""Čtyři detektivky""",1970,"""domaci"""
"""Vladimír Škutina""","""Rodič v síti""",1991,"""domaci"""
"""Josef Škvorecký""","""Podivný pán z Providence a jin…",1999,"""domaci"""
"""Zdeněk Kalista""","""Čechové, kteří tvořili dějiny …",1939,"""domaci"""


In [799]:
dografu = pl.concat([dografu1, dografu2])

dografu = dografu.join(
    df.filter(
        pl.col("rok").is_between(1930,2000)
    ).filter(
        pl.col("100_7").is_in(znormalizovani_top_domaci)
    ).group_by('jmeno').agg(pl.col('umrti').max()), on='jmeno',how='left'
)

dografu = dografu.with_columns(pl.when(pl.col('umrti') >= 2001).then(None).otherwise(pl.col('umrti')).alias("umrti")).with_columns(pl.col('umrti').map_elements(lambda x: datetime.date(year=int(x), month=1, day=1), return_dtype=pl.Date).cast(pl.Datetime))

In [801]:
dografu

jmeno,titul,rok,kde,umrti
str,str,i64,str,datetime[μs]
"""Karel Mácha""","""Revoluční humanismus St.K. Neu…",1954,"""domaci""",
"""Stanislav Sohr""","""Breviář""",1995,"""domaci""",2000-01-01 00:00:00
"""Eva Kantůrková""","""Památník""",1995,"""domaci""",
"""Arnošt Lustig""","""Hořká vůně mandlí""",1968,"""domaci""",
"""Václav Havel""","""Protokoly""",1966,"""domaci""",
"""Jan Procházka""","""Rok života""",1956,"""domaci""",1971-01-01 00:00:00
"""Anna Sedlmayerová""","""Čtyři detektivky""",1970,"""domaci""",1995-01-01 00:00:00
"""Vladimír Škutina""","""Rodič v síti""",1991,"""domaci""",1995-01-01 00:00:00
"""Josef Škvorecký""","""Podivný pán z Providence a jin…",1999,"""domaci""",
"""Zdeněk Kalista""","""Čechové, kteří tvořili dějiny …",1939,"""domaci""",1982-01-01 00:00:00


In [312]:
norm_dom = alt.Chart(alt_friendly(dografu), title=alt.TitleParams(["Normalizační průrva českou literaturou"], subtitle=["Autoři a autorky žijící v době srpnové okupace, kterým toho vyšlo nejvíc","v druhé půlce 60. let a první půlce 90. let a zároveň nic mezi lety 1973 a 1987.","Žluté tečky jsou knihy vydané během normalizace v zahraničí."]), width=300).mark_circle() \
        .encode(
            x=alt.X("rok:T", title=None, axis=alt.Axis(domainOpacity=0, tickColor='#DCDDD6')), 
            y=alt.Y("jmeno:N", sort=znormalizovani_top_domaci_razeni, title=None, axis=alt.Axis(orient='left', domainOpacity=0, tickColor='#DCDDD6')), 
            yOffset=alt.YOffset("jitter:Q", scale=alt.Scale(range=[3, 15])),
            size=alt.condition(
                alt.datum.kde == 'domaci',
                alt.value(8),  # Size for domestic authors
                alt.value(5)   # Half size for foreign authors
            ),
            color=alt.condition(
                alt.datum.kde == 'domaci',
                alt.Color('domaci:N', 
                         scale=alt.Scale(range=['#D6534B', '#445B78', '#DB842F', '#70871E']), 
                         sort=znormalizovani_top_domaci_razeni,
                         legend=None),
                alt.value('#EED801') # '#81A9D5')  # Gray color for zahranici
            )).transform_calculate(jitter="sqrt(-2*log(random()))*cos(2*PI*random())")

# norm_zahr = alt.Chart(alt_friendly(df.filter(pl.col("rok").is_between(1930,2000)).filter(pl.col("100_7").is_in(znormalizovani_top_zahranicni))), title=alt.TitleParams("…a překladovou literaturou", subtitle="Zahraniční autoři vybraní podle stejného klíče, bez vydání mimo ČR."), width=300).mark_circle(size=8) \
#       .encode(
#            x=alt.X("rok:T", title=None, axis=alt.Axis(domainOpacity=0, tickColor='#DCDDD6')), 
#            y=alt.Y("jmeno:N", sort=znormalizovani_top_zahranicni_razeni, title=None, axis=alt.Axis(orient='left', domainOpacity=0, tickColor='#DCDDD6')), 
#            yOffset=alt.YOffset("jitter:Q", scale=alt.Scale(range=[3, 15])), 
#            color=alt.Color('jmeno:N', scale=alt.Scale(range=['#D6534B']), #, '#445B78', '#DB842F', '#70871E']), 
#                            sort=znormalizovani_top_zahranicni_razeni).legend(None)) \
#        .transform_calculate(jitter="sqrt(-2*log(random()))*cos(2*PI*random())")

# alt.vconcat(norm_dom, norm_zahr).configure_view(stroke='transparent').resolve_scale(color='independent',x="shared")

norm_dom.configure_view(stroke='transparent').resolve_scale(color='independent',x="shared")

In [721]:
dografu

jmeno,titul,rok,umrti,kde
str,str,i64,i64,str
"""Karel Mácha""","""Revoluční humanismus St.K. Neu…",1954,,"""domaci"""
"""Stanislav Sohr""","""Breviář""",1995,2000,"""domaci"""
"""Eva Kantůrková""","""Památník""",1995,,"""domaci"""
"""Arnošt Lustig""","""Hořká vůně mandlí""",1968,2011,"""domaci"""
"""Václav Havel""","""Protokoly""",1966,2011,"""domaci"""
"""Jan Procházka""","""Rok života""",1956,1971,"""domaci"""
"""Anna Sedlmayerová""","""Čtyři detektivky""",1970,1995,"""domaci"""
"""Vladimír Škutina""","""Rodič v síti""",1991,1995,"""domaci"""
"""Josef Škvorecký""","""Podivný pán z Providence a jin…",1999,2012,"""domaci"""
"""Zdeněk Kalista""","""Čechové, kteří tvořili dějiny …",1939,1982,"""domaci"""


In [817]:
# First create the base chart parameters
base = alt.Chart(alt_friendly(dografu), 
    title=alt.TitleParams(
        ["Normalizační průrva českou literaturou"], 
        subtitle=[f"{kolik} autorů a autorek žijících v době srpnové okupace, kterým toho vyšlo nejvíc",
                 "v druhé půlce 60. let a první půlce 90. let a zároveň nic mezi lety 1973 a 1987.",
                 "Modré tečky jsou knihy vydané v zahraničí."]
    ), width=300)

# Create the yellow dots layer (foreign publications)
foreign = base.mark_circle().encode(
    x=alt.X("rok:T", title=None, axis=alt.Axis(domainOpacity=0, tickColor='#DCDDD6')),
    y=alt.Y("jmeno:N", sort=znormalizovani_top_domaci_razeni, title=None, 
            axis=alt.Axis(orient='left', domainOpacity=0, tickColor='#DCDDD6')),
    yOffset=alt.YOffset("jitter:Q", scale=alt.Scale(range=[3, 15])),
    size=alt.value(5),
    color=alt.value('#81A9D5')
).transform_filter(
    alt.datum.kde == 'zahranici'
).transform_calculate(
    jitter="sqrt(-2*log(random()))*cos(2*PI*random())"
)

# Create the domestic publications layer
domestic = base.mark_circle().encode(
    x=alt.X("rok:T", title=None, axis=alt.Axis(domainOpacity=0, tickColor='#DCDDD6')),
    y=alt.Y("jmeno:N", sort=znormalizovani_top_domaci_razeni, title=None, 
            axis=alt.Axis(orient='left', domainOpacity=0, tickColor='#DCDDD6')),
    yOffset=alt.YOffset("jitter:Q", scale=alt.Scale(range=[3, 15])),
    size=alt.value(8),
    color=alt.Color('domaci:N', 
                   scale=alt.Scale(range=['#D6534B']), 
                   sort=znormalizovani_top_domaci_razeni,
                   legend=None)
).transform_filter(
    alt.datum.kde == 'domaci'
).transform_calculate(
    jitter="sqrt(-2*log(random()))*cos(2*PI*random())"
)

kdy_umreli = base.mark_tick(
    color='black',  # optional: you can specify color
    thickness=1.75,
    height=9
).encode(
    x=alt.X('umrti:T', title=None),
    y=alt.Y("jmeno:N", sort=znormalizovani_top_domaci_razeni, title=None, 
            axis=alt.Axis(orient='left', domainOpacity=0, tickColor='#DCDDD6'))
)

# Layer the charts with foreign (yellow) on bottom and domestic on top
norm_dom = alt.layer(foreign, domestic, kdy_umreli).configure_view(stroke='transparent').resolve_scale(color='independent',x="shared")

norm_dom

In [755]:
kdy_umreli

In [288]:
znormalizovani_top_zahranicni_razeni

['Erich von Däniken',
 'Ladislav Mňačko',
 'Peter Ferdinand Drucker',
 'Simone de Beauvoir',
 'Jean-Paul Sartre',
 'Erich Fromm',
 'Rochdi Goulli',
 'Max Frisch',
 'Jean Genet',
 'Ladislav Grosman',
 'Eugène Ionesco',
 'Clifford D. Simak',
 'Peter Weiss',
 'Richmal Crompton',
 'Poul Anderson',
 'Marguerite Duras',
 'Günter Grass',
 'John Knittel',
 'Jan Blahoslav Čapek',
 'Nathalie Sarraute',
 'Karl Jaspers',
 'Michel Quoist',
 'Cornelius Ryan',
 'Gertrud von Le Fort',
 'Wolfgang Ott']

## Stopky

In [158]:
nechceme = ['jn19990210621']
df = df.filter(~pl.col('100_7').is_in(nechceme))

In [159]:
def nevysli_po(rok, obdobi, nasobek):
    vysli_pred = df.filter(pl.col("rok").is_between(rok-obdobi,rok)).group_by('100_7').len().filter(pl.col('len') > 3).select(pl.col("100_7")).to_series().to_list()
    vysli_po = set(df.filter(pl.col("rok") > rok).select(pl.col("100_7")).to_series().to_list())
    ukonceni = [v for v in vysli_pred if v not in vysli_po]
    print(f"Filtru vyhovuje {len(ukonceni)} lidí.")
    return df.filter(pl.col("100_7").is_in(ukonceni)).filter(pl.col("rok").is_between(rok-(obdobi * nasobek),rok)).group_by(["jmeno","100_7"]).len().sort(by="len",descending=True).head(100)

In [320]:
sedesatosm = nevysli_po(1993, 2, 20).head(3)
sedesatosm

Filtru vyhovuje 75 lidí.


jmeno,100_7,len
str,str,u32
"""Jiří Kašpar""","""jk01053180""",34
"""Josef Kubalík""","""jk01070249""",31
"""Vladimír Klevis""","""jk01060437""",30


In [322]:
tricetosm = nevysli_po(1938, 2, 20).head(3)
tricetosm

Filtru vyhovuje 78 lidí.


jmeno,100_7,len
str,str,u32
"""Josef Skružný""","""jk01111617""",114
"""Augustin Matolín""","""jk01080750""",97
"""Richard Fischer""","""jk01031292""",72


In [324]:
ctyricetosm = nevysli_po(1948, 2, 20).head(3)
ctyricetosm

Filtru vyhovuje 145 lidí.


jmeno,100_7,len
str,str,u32
"""Quido Maria Vyskočil""","""jk01151235""",149
"""František Pulec""","""jk01101720""",75
"""Josef Křenek""","""jk01070044""",72


In [326]:
osmnact = nevysli_po(1918, 2, 20).head(3)
osmnact

Filtru vyhovuje 8 lidí.


jmeno,100_7,len
str,str,u32
"""Josef Flekáček""","""jk01031426""",26
"""Václav Simandl""","""jk01111320""",10
"""Josef Bubeníček""","""jk01020080""",9


In [328]:
ctyricetosm = nevysli_po(1948, 2, 20).head(3)
ctyricetosm

Filtru vyhovuje 145 lidí.


jmeno,100_7,len
str,str,u32
"""Quido Maria Vyskočil""","""jk01151235""",149
"""František Pulec""","""jk01101720""",75
"""Josef Křenek""","""jk01070044""",72


In [330]:
nevysli_po(1968, 2, 20).head(3)

Filtru vyhovuje 24 lidí.


jmeno,100_7,len
str,str,u32
"""Antonín Václavovič""","""jk01141051""",24
"""Miluše Nohejlová""","""jx20040805028""",23
"""Jitka Voříšková""","""jx20040721068""",22


In [332]:
osmdesatdevet = nevysli_po(1989, 2, 20).head(3)
osmdesatdevet

Filtru vyhovuje 81 lidí.


jmeno,100_7,len
str,str,u32
"""František Buriánek""","""jk01020403""",68
"""Marta Chytilová""","""jk01050494""",62
"""František Egermayer""","""jk01030317""",61


In [167]:
df = df.with_columns(pl.col("jmeno").replace({"Ladislav Riedl Německobrodský": "L. R. Německobrodský"}))

In [334]:
#fertig = pl.concat([osmnact, ctyricetosm, osmdesatdevet])

fertig_18_kdo = osmnact.select(pl.col('100_7')).to_series().to_list()
fertig_18_razeni = osmnact.select(pl.col('jmeno')).to_series().to_list()
fertig_18_do_grafu = df.filter(pl.col('100_7').is_in(fertig_18_kdo))

fertig_48_kdo = ctyricetosm.select(pl.col('100_7')).to_series().to_list()
fertig_48_razeni = ctyricetosm.select(pl.col('jmeno')).to_series().to_list()
fertig_48_do_grafu = df.filter(pl.col('100_7').is_in(fertig_48_kdo))

fertig_89_kdo = osmdesatdevet.select(pl.col('100_7')).to_series().to_list()
fertig_89_razeni = osmdesatdevet.select(pl.col('jmeno')).to_series().to_list()
fertig_89_do_grafu = df.filter(pl.col('100_7').is_in(fertig_89_kdo))

In [169]:
fertig_48_razeni

['Quido Maria Vyskočil', 'Ladislav Riedl Německobrodský', 'František Pulec']

In [336]:
fertig_18_graf = alt.Chart(alt_friendly(fertig_18_do_grafu.filter(pl.col('rok').is_between(1900,2000))), title=alt.TitleParams(["Čeští autoři, kteří přestali vycházet","po vyhlášení Československa…"], 
)).mark_circle(size=8) \
        .encode(
            x=alt.X("rok:T", title=None, axis=alt.Axis(domainOpacity=0, tickColor='#DCDDD6'), scale=alt.Scale(domain=[{'year': 1900},{'year':2000}])), 
            y=alt.Y("jmeno:N", sort=fertig_18_razeni, title=None, axis=alt.Axis(orient='left', domainOpacity=0, tickColor='#DCDDD6')), 
            yOffset=alt.YOffset("jitter:Q", scale=alt.Scale(range=[3, 15])), 
            color=alt.Color('jmeno:N', scale=alt.Scale(range=['#D6534B', '#445B78', '#DB842F', '#70871E']), 
                            sort=fertig_18_razeni).legend(None)).transform_calculate(jitter="sqrt(-2*log(random()))*cos(2*PI*random())")

fertig_48_graf = alt.Chart(alt_friendly(fertig_48_do_grafu.filter(pl.col('rok').is_between(1900,2000))), title=alt.TitleParams(["…po únorovém převratu…"], 
)).mark_circle(size=8) \
        .encode(
            x=alt.X("rok:T", title=None, axis=alt.Axis(domainOpacity=0, tickColor='#DCDDD6'), scale=alt.Scale(domain=[{'year': 1900},{'year':2000}])), 
            y=alt.Y("jmeno:N", sort=fertig_48_razeni, title=None, axis=alt.Axis(orient='left', domainOpacity=0, tickColor='#DCDDD6')), 
            yOffset=alt.YOffset("jitter:Q", scale=alt.Scale(range=[3, 15])), 
            color=alt.Color('jmeno:N', scale=alt.Scale(range=['#D6534B', '#445B78', '#DB842F', '#70871E']), 
                            sort=fertig_48_razeni).legend(None)).transform_calculate(jitter="sqrt(-2*log(random()))*cos(2*PI*random())")

fertig_89_graf = alt.Chart(alt_friendly(fertig_89_do_grafu.filter(pl.col('rok').is_between(1900,2000))), title=alt.TitleParams(["…a po revoluci"], 
)).mark_circle(size=8) \
        .encode(
            x=alt.X("rok:T", title=None, axis=alt.Axis(domainOpacity=0, tickColor='#DCDDD6'), scale=alt.Scale(domain=[{'year': 1900},{'year':2000}])), 
            y=alt.Y("jmeno:N", sort=fertig_89_razeni, title=None, axis=alt.Axis(orient='left', domainOpacity=0, tickColor='#DCDDD6')), 
            yOffset=alt.YOffset("jitter:Q", scale=alt.Scale(range=[3, 15])), 
            color=alt.Color('jmeno:N', scale=alt.Scale(range=['#D6534B', '#445B78', '#DB842F', '#70871E']), 
                            sort=fertig_89_razeni).legend(None)).transform_calculate(jitter="sqrt(-2*log(random()))*cos(2*PI*random())")

alt.vconcat(fertig_18_graf, fertig_48_graf, fertig_89_graf).resolve_axis(x="shared").configure_view(stroke='transparent')