In [1]:
import os
import polars as pl
import altair as alt

In [2]:
pl.Config.set_tbl_rows(150)
pl.Config.set_fmt_str_lengths(150)
pl.Config.set_tbl_width_chars(200)

polars.config.Config

In [3]:
slouceni = {
    "1969_cnr":"1969_fs_cnr",
    "1969_fs":"1969_fs_cnr",
    "1971_cnr":"1971_fs_cnr",
    "1971_fs":"1971_fs_cnr",
    "1976_cnr":"1976_fs_cnr",
    "1976_fs":"1976_fs_cnr",
    "1981_cnr":"1981_fs_cnr",
    "1981_fs":"1981_fs_cnr",
    "1986_cnr":"1986_fs_cnr",
    "1986_fs":"1986_fs_cnr",
    "1990_cnr":"1990_fs_cnr",
    "1990_fs":"1990_fs_cnr",
    "1992_cnr":"1992_fs_cnr",
    "1992_fs":"1992_fs_cnr",
}

In [4]:
df = pl.read_parquet(
    "data/projevy.parquet"
).filter(
    pl.col('datum').dt.year() >= 1918
).drop_nulls(
    subset=['datum']
).filter(
    pl.col("komora").is_in(["ps","cnr","ns","fs"])
).filter(
    ~pl.col("komora_komplet").str.contains('Senát')
).filter(
    ~pl.col("komora_komplet").str.contains('Senát')
).with_columns(
    (pl.col('obdobi').cast(str) + pl.lit('_') + pl.col('komora')).alias('komora_pekna')
).with_columns(
    pl.col('komora_pekna').replace(slouceni)
)

In [5]:
df.select(pl.col("komora_pekna")).unique().sort(by="komora_pekna")

komora_pekna
str
"""1918_ns"""
"""1920_ps"""
"""1925_ps"""
"""1929_ps"""
"""1935_ps"""
"""1948_ns"""
"""1954_ns"""
"""1960_ns"""
"""1964_ns"""
"""1968_cnr"""


In [6]:
df.select(pl.col('komora_komplet')).unique().to_series().to_list()

['NS RČS 1929-1935, Poslanecká sněmovna',
 'Národní shromáždění československé / Poslanecká sněmovna1920 – 1925, Poslanecká sněmovna',
 'Česká národní rada 1992 – 1992',
 'Česká národní rada 1990 – 1992',
 'NS RČS 1948-1954',
 'Parlament České republiky, Poslanecká sněmovna 2013 – 2017',
 'ČNR 1971-1976',
 'PČR, PS 2021-...',
 'NS RČS 1964-1968',
 'NS RČS 1935-1938, Poslanecká sněmovna',
 'PČR, PS 2002-2006',
 'Parlament České republiky, Poslanecká sněmovna 1996 – 1998',
 'Česká národní rada 1986 – 1990',
 'Federální shromáždění ČSFR, 1992 – 1992 Sněmovna lidu',
 'PČR, PS 1998-2002',
 'Federální shromáždění ČSSR, 1981 – 1986 Sněmovna lidu',
 'Federální shromáždění ČSSR, 1986 – 1990 Sněmovna národů',
 'Federální shromáždění ČSSR, 1981 – 1986 Sněmovna národů',
 'Federální shromáždění ČSSR, 1986 – 1990 Sněmovna lidu',
 'FS ČSSR 1976-1980',
 'Federální shromáždění ČSSR, 1986 – 1990 Společné schůze SL a SN',
 'PČR, PS 2006-2010',
 'Národní shromáždění československé / Poslanecká sněmovna192

In [7]:
df.sample()

mluvci,soubor,mluvci_id,text,poradi,komora,obdobi,schuze,cast,datum,komora_komplet,schuze_komplet,prepsano,autorizovano,mluvci_jisty,komora_pekna
str,str,str,str,i32,str,i32,i32,i32,date,str,str,bool,bool,bool,str
"""Ministr průmyslu a obchodu ČR Miroslav Grégr""","""1998ps_stenprot_024schuz_s024243.htm""","""/sqw/p.sqw?P=459""","""Vážený pane předsedající, vážené paní poslankyně, vážení páni poslanci, dovolte, abych vám poděkoval za činorodou spolupráci a za schválení tří po sob…",19,"""ps""",1998,24,243,2000-04-12,"""Parlament České republiky, Poslanecká sněmovna 1998 – 2002""","""24. schůze""",True,True,True,"""1998_ps"""


In [8]:
def spocitej_slova(retezec):
    slova = retezec.split(' ')
    slova = [x for x in slova if len(x) > 0]
    return len(slova)

In [9]:
df_agg = df.group_by("komora_pekna").agg(
    pl.col("text").str.concat(" ").alias("text_merged")
).with_columns(
    pl.col('text_merged').map_elements(spocitej_slova, return_dtype=pl.Int64).alias('slov')
).sort(
    by='komora_pekna'
)

df_agg

  pl.col("text").str.concat(" ").alias("text_merged")


komora_pekna,text_merged,slov
str,str,i64
"""1918_ns""","""Předseda: Dr. Kramář. Zapisovatel: Člen N. S. Luděk Pik; pak větší počet členů N. S. Z kanceláře sněmovní: JUDr. Jaroslav Haasz, tajemník sněm., zástu…",2493774
"""1920_ps""","""Zástupcové vlády: ministerský předseda Tusar; ministři: dr. Dérer, dr. Engliš, Habrman, Hotowetz, Johanis, dr. Meissner, Prášek, Sonntág, Staněk, Stří…",8739981
"""1925_ps""","""Zástupci vlády: min. předseda dr Švehla; ministři Bechyně, dr Dolanský, inž. Dvořáček, dr Engliš, dr Hodža, dr Kállay, Mlčoch, dr Nosek, dr Srdínko, S…",6606822
"""1929_ps""","""Začátek schůze v 11 hod. 28 min. dopol. Zástupci vlády: min. předseda Udržal; ministři Bechyně, dr Beneš, Bradáč, dr Czech, dr Dérer, inž. Dostálek, d…",8229753
"""1935_ps""","""Členové vlády: předseda vlády Malypetr; ministři Bechyně, dr Beneš, dr Czech, dr Černý, dr Dérer, inž. Dostálek, dr Franke, dr Hodža, dr Krčmář, Machn…",3159927
"""1948_ns""","""Členové vlády: předseda vlády Gottwald; náměstkové předsedy vlády Široký, Laušman, Zápotocký; ministři dr Clementis, dr Čepička, dr Dolanský, Erban, Ď…",1867671
"""1954_ns""","""Předseda Fierlinger. Místopředsedové Valo, Hodinová-Spurná, dr Polanský, A. Fiala, Žiak. Předseda vlády Široký, první tajemník ÚV KSČ Novotný, první n…",1025516
"""1960_ns""","""President republiky a první tajemník ÚV KSČ Antonín Novotný. Členové užšího předsednictva Il. volebního období Fierlinger, Valo, Hodinová-Spurná, dr. …",904510
"""1964_ns""","""President republiky a první tajemník ÚV KSČ Antonín Novotný. Předseda Národního shromáždění III. volebního období Fierlinger. Nově zvolený předseda Ná…",1534760
"""1968_cnr""","""I. schůze ČNR 10. 7. 1968 (Schůze zahájena v 19.07 hod.) Vážená Česká národní rado, vážené soudružky a soudruzi, vážení hosté! Podle § 5 ústavního zák…",142318


In [10]:
os.makedirs("data/snemovny_slova", exist_ok=True)

In [11]:
df_agg.write_parquet(os.path.join("data/snemovny_slova","snemovny_slova.parquet"))