In [1]:
import polars as pl
import altair as alt

In [2]:
pl.Config.set_tbl_rows(150)
pl.Config.set_fmt_str_lengths(150)
pl.Config.set_tbl_width_chars(200)

polars.config.Config

In [3]:
df = pl.scan_parquet(
    "data/projevy.parquet"
).filter(
    pl.col('datum').dt.year() >= 1993
).filter(
    pl.col("komora_komplet").str.contains('Poslanecká') | pl.col('komora_komplet').str.contains('PČR, PS')
).with_columns(
    pl.col('mluvci_id').str.split('/sqw/detail.sqw?id=').alias('id')
).with_columns(
    pl.when(pl.col('id').len() > 2).then(pl.col('id').list.slice(1)).alias('id')
).explode(
    "id"
).with_columns(
    pl.col("text").str.count_matches(" ").alias("pocet_slov") # tady budou zlobit dvojité mezery, pohlídat při čištění
).sort(
    by="datum"
).with_columns(
    pl.when(pl.col("soubor") == "1996ps_stenprot_006schuz_s006024.htm").then(pl.lit(2006)).otherwise(pl.col('obdobi')).alias('obdobi')
).with_columns(
    pl.col("text").str.split("(").list.slice(1).list.eval(
        pl.element().str.split(')').list.first()
    ).list.eval(
        pl.element().str.to_lowercase().str.strip_chars(), parallel=True
    ).alias("poznamky_text")
).with_columns(
    pl.col("mluvci").str.split("(").list.slice(1).list.eval(
        pl.element().str.split(')').list.first()
    ).list.eval(
        pl.element().str.to_lowercase().str.strip_chars(), parallel=True
    ).alias("poznamky_mluvci")
).drop_nulls(
    subset=['datum']
).collect()

In [4]:
df.sample(10)

mluvci,soubor,mluvci_id,text,poradi,komora,obdobi,schuze,cast,datum,komora_komplet,schuze_komplet,prepsano,autorizovano,mluvci_jisty,id,pocet_slov,poznamky_text,poznamky_mluvci
str,str,str,str,i32,str,i32,i32,i32,date,str,str,bool,bool,bool,str,u32,list[str],list[str]
"""Místopředseda PSP Karel Havlíček""","""2021ps_stenprot_119schuz_s119369.htm""","""/sqw/detail.sqw?id=6621""","""Stanovisko pana ministra? (Ministr: Souhlas.) Zahajuji hlasování. Kdo je pro? Kdo je proti? Hlasování číslo 386, přihlášeno bylo 162, pro bylo 162, pr…",8,"""ps""",2021,119,369,2024-12-11,"""PČR, PS 2021-...""","""119. schůze""",True,True,True,"""6621""",24,"[""ministr: souhlas.""]",[]
"""Poslanec Josef Janeček""","""1998ps_stenprot_032schuz_s032077.htm""","""/sqw/p.sqw?P=480""","""Já bych navázal jenom na to, co tady řekl kolega Štrait - totiž že ani při minulém zákonu, tj. při tom, kdy byli odškodňováni příslušníci zahraničních…",9,"""ps""",1998,32,77,2001-01-25,"""Parlament České republiky, Poslanecká sněmovna 1998 – 2002""","""32. schůze""",True,True,True,,93,[],[]
"""Místopředsedkyně PSP Vlasta Parkanová""","""2010ps_stenprot_009schuz_s009056.htm""","""/sqw/detail.sqw?id=340""","""Přistoupíme k dalšímu bodu našeho programu. Tím je bod číslo 137. Návrh na zkrácení zákonné lhůty pro projednání sněmovního tisku 115 ve výborech Posl…",1,"""ps""",2010,9,56,2010-12-08,"""Parlament České republiky, Poslanecká sněmovna 2010 – 2013""","""9. schůze""",True,True,False,"""340""",36,[],[]
"""Poslanec Marek Benda""","""2017ps_stenprot_012schuz_s012267.htm""","""/sqw/detail.sqw?id=4""","""Vážený pane místopředsedo, vážené dámy, vážení pánové, já jenom dvě krátké reakce. První je na pana kolegu Bláhu. Pokládám se za tradičního politika, …",4,"""ps""",2017,12,267,2018-04-20,"""Parlament České republiky, Poslanecká sněmovna 2017 – 2021""","""12. schůze""",True,True,True,"""4""",228,"[""smích a potlesk vpravo"", ""potlesk poslanců ods.""]",[]
"""Poslanec Jan Vidím""","""2002ps_stenprot_035schuz_s035009.htm""","""/sqw/detail.sqw?id=280""","""Děkuji pěkně. Pane předsedo, v rámci faktické poznámky chci přednést procedurální návrh, kterým navrhuji sloučit rozpravu u tisků 682 a 683.""",5,"""ps""",2002,35,9,2004-09-21,"""Parlament České republiky, Poslanecká sněmovna 2002 – 2006""","""35. schůze""",True,True,True,"""280""",20,[],[]
"""Místopředseda PSP Jan Kasal""","""2002ps_stenprot_027schuz_s027027.htm""","""/sqw/detail.sqw?id=64""","""Rozhodneme v hlasování pořadové číslo 44. Kdo je pro, ať zvedne ruku a stiskne tlačítko ""ano"". Kdo je proti tomuto návrhu? Hlasování skončilo. Ze 192 …",3,"""ps""",2002,27,27,2004-02-10,"""Parlament České republiky, Poslanecká sněmovna 2002 – 2006""","""27. schůze""",True,True,True,"""64""",186,"[""zákon o rybářství""]",[]
"""Poslanec Miroslav Opálka""","""2010ps_stenprot_045schuz_s045042.htm""","""/sqw/detail.sqw?id=5322""","""Jde tedy o to, kdo má tento rozdíl hradit. Zda stát z jiných prostředků, když snížením příjmů zapříčiňuje reálný propad, anebo se na tom mají podílet …",1,"""ps""",2010,45,42,2012-09-05,"""Parlament České republiky, Poslanecká sněmovna 2010 – 2013""","""45. schůze""",True,True,False,"""5322""",117,"[""potlesk poslanců čssd a ksčm.""]",[]
"""Poslanec Zdeněk Švrček""","""1998ps_stenprot_039schuz_s039385.htm""","""/sqw/p.sqw?P=587""","""Správně, nejsem diplomat.""",11,"""ps""",1998,39,385,2001-10-31,"""Parlament České republiky, Poslanecká sněmovna 1998 – 2002""","""39. schůze""",True,True,True,,2,[],[]
"""Místopředseda PSP Vojtěch Filip""","""2006ps_stenprot_075schuz_s075122.htm""","""/sqw/detail.sqw?id=303""","""Děkuji panu místopředsedovi. Slova se ujme ministr životního prostředí Jan Dusík, poté se přihlásil pan poslanec Martin Bursík. Prosím, pane ministře,…",3,"""ps""",2006,75,122,2010-03-12,"""Parlament České republiky, Poslanecká sněmovna 2006 – 2010""","""75. schůze""",True,True,True,"""303""",22,[],[]
"""Místopředsedkyně PSP Miroslava Němcová""","""2006ps_stenprot_079schuz_s079009.htm""","""/sqw/detail.sqw?id=401""","""Děkuji. Nyní tedy pan kolega Lubomír Zaorálek má slovo.""",1,"""ps""",2006,79,9,2010-05-18,"""Parlament České republiky, Poslanecká sněmovna 2006 – 2010""","""79. schůze""",True,True,True,"""401""",8,[],[]


In [5]:
df.group_by("pocet_slov").len().sort(by="pocet_slov")

pocet_slov,len
u32,u32
0,1353
1,7804
2,3233
3,4402
4,9248
5,7185
6,7198
7,7759
8,8472
9,9250


In [6]:
df.select(pl.col("pocet_slov")).median()

pocet_slov
f64
45.0


In [7]:
df.select(pl.col("pocet_slov")).quantile(0.25)

pocet_slov
f64
18.0


In [8]:
slov_po_roce = df.group_by_dynamic(index_column='datum',every='1y').agg(pl.col('pocet_slov').sum())

In [9]:
len(df)

585161

In [10]:
df.columns

['mluvci',
 'soubor',
 'mluvci_id',
 'text',
 'poradi',
 'komora',
 'obdobi',
 'schuze',
 'cast',
 'datum',
 'komora_komplet',
 'schuze_komplet',
 'prepsano',
 'autorizovano',
 'mluvci_jisty',
 'id',
 'pocet_slov',
 'poznamky_text',
 'poznamky_mluvci']

In [11]:
def zavorka(retezec, doslova=True, frejm=df, epocha="datum"):

    frejm = frejm.with_columns(
        (pl.col('komora').cast(str) + pl.lit('-') + pl.col('obdobi').cast(str) + pl.lit('-') + pl.col('schuze').cast(str) + pl.lit('-') + pl.col('cast').cast(str) + pl.lit('-') + pl.col('poradi').cast(str)).alias('id')
    )

    prislusne_projevy = frejm.explode("poznamky_text").explode("poznamky_mluvci").filter(
            pl.col('poznamky_text').str.contains(retezec, literal=doslova) 
        |
            pl.col('poznamky_mluvci').str.contains(retezec, literal=doslova)
        ).unique(
        subset=['datum','cast','poradi']
        ).sort(by='datum')
    
    if epocha == "datum":
        
        projevu_celkem = frejm.sort(by='datum').group_by_dynamic(index_column='datum',every='1y').agg(pl.col("id").unique().len())
        
        prislusne_projevy = prislusne_projevy.group_by_dynamic(
            index_column='datum',every='1y'
        ).agg(
            pl.col("id").unique().len()
        )

    elif epocha == "obdobi":

        projevu_celkem = frejm.group_by("obdobi").agg(pl.col("id").unique().len())
        prislusne_projevy = prislusne_projevy.group_by(
            "obdobi"
        ).agg(
            pl.col("id").unique().len()
        )

    return prislusne_projevy.join(
        projevu_celkem, how="right",on=epocha
    ).with_columns(
        (pl.col("id") / pl.col("id_right")).alias("podil")
    ).sort(by=epocha)

In [12]:
zavorka('smích',epocha='datum')

id,datum,id_right,podil
u32,date,u32,f64
38,1993-01-01,9366,0.004057
21,1994-01-01,7771,0.002702
37,1995-01-01,9237,0.004006
53,1996-01-01,9568,0.005539
48,1997-01-01,16632,0.002886
54,1998-01-01,11816,0.00457
91,1999-01-01,20885,0.004357
79,2000-01-01,24941,0.003167
84,2001-01-01,20971,0.004006
65,2002-01-01,16715,0.003889


In [13]:
'; '.join(df.explode("poznamky_text").group_by(
    "poznamky_text"
).len(
).sort(
    by='len',
    descending=True
).head(500).filter(pl.col('poznamky_text').is_not_null()).select(pl.col('poznamky_text')).to_series().to_list())

'potlesk.; ?; ano.; souhlas.; nesouhlasné.; nesouhlas.; potlesk zprava.; hluk v sále.; ministr: nesouhlas.; slibuji.; nesrozumitelné; předsedající: čas.; smích v sále.; ministr: souhlas.; potlesk poslanců čssd.; potlesk poslanců ods.; potlesk zleva.; upozornění na čas; potlesk poslanců ksčm.; potlesk v části sálu.; souhlasné.; potlesk části poslanců.; předsedající upozorňuje na čas.; 14.40 hodin; 14.50 hodin; ne.; 15.20 hodin; 15.10 hodin; 15.00 hodin; 15.40 hodin; upozornění na čas.; 15.30 hodin; 15.50 hodin; velký hluk v sále.; ministr nedoporučuje.; v sále je velký hluk.; 16.10 hodin; smích.; potlesk z lavic ano.; potlesk poslanců ano.; 16.20 hodin; neutrální.; 17.10 hodin; 16.00 hodin; 17.20 hodin; pobavení v sále.; 16.40 hodin; 17.30 hodin; 16.30 hodin; 10.20 hodin; 10.10 hodin; 11.00 hodin; 10.50 hodin; 17.50 hodin; 16.50 hodin; 11.40 hodin; 11.10 hodin; 11.20 hodin; 11.30 hodin; 14.30 hodin; 17.40 hodin; 10.40 hodin; 10.30 hodin; 11.50 hodin; jednání zahájeno v 9.00 hodin.; 18.0

In [14]:
def graf_vyvoje(slovo, epocha="datum"):
    if epocha == "datum":
        osa_x = 'datum:T'
    elif epocha == "obdobi":
        osa_x = "obdobi:N"
    return alt.Chart(
        zavorka(slovo,epocha=epocha).to_pandas(),
        width = 800
    ).mark_bar(
    ).encode(
        alt.X(osa_x),
        alt.Y("podil:Q")
    )

In [15]:
graf_vyvoje("smích",epocha="datum")

In [16]:
graf_vyvoje("hluk",epocha="obdobi")

In [17]:
graf_vyvoje("bučení",epocha="obdobi")

In [18]:
graf_vyvoje("smích",epocha="obdobi")

In [19]:
graf_vyvoje("potlesk",epocha="obdobi")

In [20]:
alt.Chart(
    zavorka("smích").to_pandas(),
    width = 800
).mark_bar(
).encode(
    alt.X('datum:T'),
    alt.Y('podil:Q')
)

In [21]:
alt.Chart(
    zavorka("výkřiky").to_pandas(),
    width = 800
).mark_bar(
).encode(
    alt.X('datum:T'),
    alt.Y('podil:Q')
)

In [22]:
df.filter(pl.col("text").str.contains("[Bb]učení"))

mluvci,soubor,mluvci_id,text,poradi,komora,obdobi,schuze,cast,datum,komora_komplet,schuze_komplet,prepsano,autorizovano,mluvci_jisty,id,pocet_slov,poznamky_text,poznamky_mluvci
str,str,str,str,i32,str,i32,i32,i32,date,str,str,bool,bool,bool,str,u32,list[str],list[str]
"""Ministr zdravotnictví ČR David Rath""","""2002ps_stenprot_055schuz_s055136.htm""","""http://wtd.vlada.cz/scripts/detail.php?id=9214""","""Děkuji. Je to myslím docela zase signifikantní a typické, když názor vyslovený těmi, kterých se to bytostně týká, tedy lékaři zaměstnanci a zdravotním…",15,"""ps""",2002,55,136,2006-04-21,"""Parlament České republiky, Poslanecká sněmovna 2002 – 2006""","""55. schůze""",True,True,True,,201,[],[]
"""Poslanec David Rath""","""2006ps_stenprot_027schuz_s027049.htm""","""/sqw/detail.sqw?id=5406""","""Dámy a pánové, pane předsedající, já bych prosil, abyste poučil o slušném chování poslance ODS, aby zde nebučeli. Nejsou, jak jsou zvyklí, v chlívě. Z…",3,"""ps""",2006,27,49,2008-01-30,"""Parlament České republiky, Poslanecká sněmovna 2006 – 2010""","""27. schůze""",True,True,True,"""5406""",426,[],[]
"""Místopředseda PSP Vojtěch Pikal""","""2017ps_stenprot_040schuz_s040102.htm""","""/sqw/detail.sqw?id=6531""","""Děkuji za slovo. Protože nemáme tu britskou tradici, tak tady neprobíhalo během předchozích projevů bučení a podobně, místo toho všeobecný nezájem pří…",7,"""ps""",2017,40,102,2020-01-23,"""Parlament České republiky, Poslanecká sněmovna 2017 – 2021""","""40. schůze""",True,True,True,"""6531""",272,"[""potlesk poslanců pirátů.""]",[]
"""Předsedkyně PSP Markéta Pekarová Adamová""","""2021ps_stenprot_005schuz_s005019.htm""","""/sqw/detail.sqw?id=6147""","""Vzhledem k tomu, že program schůze nebyl schválen a nikdo další se s přednostním právem nehlásí, tak já tuto 5. schůzi Poslanecké sněmovny končím. (Po…",2,"""ps""",2021,5,19,2021-12-15,"""PČR, PS 2021-...""","""5. schůze""",True,True,True,"""6147""",77,"[""poslanci tlučou do lavic, ozývá se bučení a volání."", ""schůze skončila ve 12.14 hodin.""]",[]
"""Místopředseda PSP Jan Skopeček""","""2021ps_stenprot_009schuz_s009170.htm""","""/sqw/detail.sqw?id=6418""","""Děkuji za slovo. Vážené kolegyně, vážení kolegové, prostřednictvím paní předsedající bych chtěl reagovat na pana předsedu Okamuru. Jsem přesvědčen, že…",3,"""ps""",2021,9,170,2022-02-18,"""PČR, PS 2021-...""","""9. schůze""",True,True,True,"""6418""",119,"[""bučení v lavicích spd."", ""potlesk z řad koalice.""]",[]
"""Poslanec Jakub Michálek""","""2021ps_stenprot_055schuz_s055007.htm""","""/sqw/detail.sqw?id=6477""","""Děkuji za slovo. Vážená paní předsedkyně, vážené kolegyně, vážení kolegové, pojďme prosím nechat v rozpravě vystoupit i ministry, například tady pana …",9,"""ps""",2021,55,7,2023-02-28,"""PČR, PS 2021-...""","""55. schůze""",True,True,True,"""6477""",148,"[""nesouhlas a bučení poslanců ano.""]",[]


In [23]:
alt.Chart(
    zavorka("bučen").to_pandas(),
    width = 250
).mark_bar(
).encode(
    alt.X('datum:T'),
    alt.Y('podil:Q')
)

In [24]:
df.filter(pl.col("text").str.contains("(Buče",literal=True))

mluvci,soubor,mluvci_id,text,poradi,komora,obdobi,schuze,cast,datum,komora_komplet,schuze_komplet,prepsano,autorizovano,mluvci_jisty,id,pocet_slov,poznamky_text,poznamky_mluvci
str,str,str,str,i32,str,i32,i32,i32,date,str,str,bool,bool,bool,str,u32,list[str],list[str]
"""Místopředseda PSP Jan Skopeček""","""2021ps_stenprot_009schuz_s009170.htm""","""/sqw/detail.sqw?id=6418""","""Děkuji za slovo. Vážené kolegyně, vážení kolegové, prostřednictvím paní předsedající bych chtěl reagovat na pana předsedu Okamuru. Jsem přesvědčen, že…",3,"""ps""",2021,9,170,2022-02-18,"""PČR, PS 2021-...""","""9. schůze""",True,True,True,"""6418""",119,"[""bučení v lavicích spd."", ""potlesk z řad koalice.""]",[]


In [25]:
alt.Chart(
    zavorka("posmě[cš]",doslova=False).to_pandas(),
    width = 250
).mark_bar(
).encode(
    alt.X('datum:T'),
    alt.Y('podil:Q')
)

In [26]:
df.filter(
    pl.col("datum").dt.year().is_between(1940,1970)
).filter(
    pl.col("text").str.contains("(Smích",literal=True)
)

mluvci,soubor,mluvci_id,text,poradi,komora,obdobi,schuze,cast,datum,komora_komplet,schuze_komplet,prepsano,autorizovano,mluvci_jisty,id,pocet_slov,poznamky_text,poznamky_mluvci
str,str,str,str,i32,str,i32,i32,i32,date,str,str,bool,bool,bool,str,u32,list[str],list[str]


In [27]:
alt.Chart(
    pl.concat([zavorka("smích"), zavorka("potlesk"), zavorka("křik")]).to_pandas(),
    width = 500, height = 100
).mark_bar(
).encode(
    alt.X('datum:T', axis=alt.Axis(title=None)),
    alt.Y('podil:Q', axis=alt.Axis(title=None)),
    alt.Row('co:N')
)

In [28]:
alt.Chart(
    pl.concat([zavorka("potlesk zleva"), zavorka("potlesk zprava")]).to_pandas(),
    width = 500, height = 100
).mark_bar(
).encode(
    alt.X('datum:T', axis=alt.Axis(title=None)),
    alt.Y('podil:Q', axis=alt.Axis(title=None)),
    alt.Row('co:N')
)

In [29]:
def obrat(cislo):
    if cislo >= 1:
        return cislo
    if cislo < 1:
        return -(1/cislo)

In [30]:
obrat(0.1)

-10.0

In [31]:
pravolevo = zavorka(
    "(potlesk zleva|potlesk na levici|potlesk z levé|potlesk vlevo)",doslova=False
).with_columns(
    pl.col("podil").alias("zleva")
).select(
    pl.col(['datum','zleva'])
).join(
    zavorka(
        "(potlesk zprava|potlesk na pravici|potlesk z pravé|potlesk vpravo)", doslova=False
    ).with_columns(
        pl.col("podil").alias("zprava")
    ).select(
        pl.col(['datum','zprava'])
    ), on="datum", how="full"
).with_columns(
    (pl.col('zprava') / pl.col('zleva')).map_elements(obrat, return_dtype=pl.Float32).alias('pravo-levo')
).filter(
    pl.col('datum').dt.year() >= 1993
)
pravolevo

datum,zleva,datum_right,zprava,pravo-levo
date,f64,date,f64,f32
1993-01-01,,1993-01-01,,
1994-01-01,,1994-01-01,,
1995-01-01,0.000325,1995-01-01,0.000108,-3.0
1996-01-01,0.000314,1996-01-01,0.000627,2.0
1997-01-01,0.001022,1997-01-01,0.000241,-4.25
1998-01-01,0.0011,1998-01-01,0.000508,-2.166667
1999-01-01,0.001724,1999-01-01,0.002059,1.194444
2000-01-01,0.000882,2000-01-01,0.001002,1.136364
2001-01-01,0.000286,2001-01-01,0.000715,2.5
2002-01-01,0.000359,2002-01-01,0.001197,3.333333


## Po 9 letech se víc tleská zleva!

In [33]:
alt.Chart(
    pravolevo.to_pandas(),
    title=["„Potlesk zprava“ (> 0) a „potlesk zleva“ (< 0)","ve stenozáznamech PS PSP ČR"]
).mark_bar().encode(alt.Y('datum:T'),alt.X('pravo-levo:Q',axis=alt.Axis(title="<– víc se tleská zleva | víc se tleská zprava ->")))

In [34]:
pravolevo_obdobi = zavorka(
    "(potlesk zleva|potlesk na levici|potlesk z levé|potlesk vlevo)", epocha="obdobi",doslova=False
).with_columns(
    pl.col("podil").alias("zleva")
).select(
    pl.col(['obdobi','zleva'])
).join(
    zavorka(
        "(potlesk zprava|potlesk na pravici|potlesk z pravé|potlesk vpravo)", epocha="obdobi", doslova=False
    ).with_columns(
        pl.col("podil").alias("zprava")
    ).select(
        pl.col(['obdobi','zprava'])
    ), on="obdobi", how="full"
).with_columns(
    (pl.col('zprava') / pl.col('zleva')).map_elements(obrat, return_dtype=pl.Float32).alias('pravo-levo')
)
pravolevo_obdobi

obdobi,zleva,obdobi_right,zprava,pravo-levo
i32,f64,i32,f64,f32
1993,0.0001,1993,3.3e-05,-3.0
1996,0.000877,1996,0.000455,-1.928571
1998,0.000905,1998,0.001128,1.246575
2002,0.000791,2002,0.003274,4.138462
2006,0.005086,2006,0.004946,-1.028169
2010,0.012582,2010,0.006162,-2.041958
2013,0.00415,2013,0.011317,2.727011
2017,0.001177,2017,0.007105,6.037383
2021,0.005042,2021,0.004077,-1.236686


In [35]:
alt.Chart(
    pravolevo_obdobi.to_pandas(),
    title=["„Potlesk zprava“ (> 0) a „potlesk zleva“ (< 0)","ve stenozáznamech PS PSP ČR"]
).mark_bar().encode(alt.Y('obdobi:N'),alt.X('pravo-levo:Q',axis=alt.Axis(title="<– víc se tleská zleva | víc se tleská zprava ->")))

## Počkat: kdo sedí vpravo, a kdo vlevo?

In [37]:
len(df.filter(
    (pl.col("obdobi") == 2021) & (pl.col('mluvci').str.contains('Andrej Babiš'))
).explode('poznamky_text').filter(pl.col('poznamky_text').str.contains(("(?i)potlesk zprava"))))

5

In [38]:
len(df.filter(
    (pl.col("obdobi") == 2021) & (pl.col('mluvci').str.contains('Andrej Babiš'))
).explode('poznamky_text').filter(pl.col('poznamky_text').str.contains(("(?i)potlesk zleva"))))

28

In [39]:
len(df.filter(
    (pl.col("obdobi") == 2021) & (pl.col('mluvci').str.contains('Petr Fiala'))
).explode('poznamky_text').filter(pl.col('poznamky_text').str.contains(("(?i)potlesk zprava"))))

8

In [40]:
len(df.filter(
    (pl.col("obdobi") == 2021) & (pl.col('mluvci').str.contains('Petr Fiala'))
).explode('poznamky_text').filter(pl.col('poznamky_text').str.contains(("(?i)potlesk zleva"))))

0

In [41]:
len(df.filter(
    (pl.col("obdobi") == 2021) & (pl.col('mluvci').str.contains('Tomio Okamura'))
).explode('poznamky_text').filter(pl.col('poznamky_text').str.contains(("(?i)potlesk zprava"))))

2

In [42]:
len(df.filter(
    (pl.col("obdobi") == 2021) & (pl.col('mluvci').str.contains('Tomio Okamura'))
).explode('poznamky_text').filter(pl.col('poznamky_text').str.contains(("(?i)potlesk zleva"))))

10

In [43]:
len(df.filter(
    (pl.col('mluvci').str.contains('Grebeníček'))
).explode('poznamky_text').filter(pl.col('poznamky_text').str.contains(("(?i)potlesk zleva"))))

13

In [44]:
len(df.filter(
    (pl.col('mluvci').str.contains('Grebeníček'))
).explode('poznamky_text').filter(pl.col('poznamky_text').str.contains(("(?i)potlesk zprava"))))

0

In [45]:
len(df.filter(
    (pl.col('mluvci').str.contains('Miroslav Sládek'))
).explode('poznamky_text').filter(pl.col('poznamky_text').str.contains(("(?i)potlesk zleva"))))

0

In [46]:
len(df.filter(
    (pl.col('mluvci').str.contains('Miroslav Sládek'))
).explode('poznamky_text').filter(pl.col('poznamky_text').str.contains(("(?i)potlesk zprava"))))

9

In [47]:
len(df.filter(
    (pl.col('mluvci').str.contains('Bohuslav Sobotka'))
).explode('poznamky_text').filter(pl.col('poznamky_text').str.contains(("(?i)potlesk zleva"))))

47

In [48]:
len(df.filter(
    (pl.col('mluvci').str.contains('Bohuslav Sobotka'))
).explode('poznamky_text').filter(pl.col('poznamky_text').str.contains(("(?i)potlesk zprava"))))

0

In [49]:
alt.Chart(
    pl.concat([zavorka("pobavení"), zavorka("veselost"), zavorka("veselí")]).to_pandas(),
    width = 500, height = 100
).mark_bar(
).encode(
    alt.X('datum:T', axis=alt.Axis(title=None)),
    alt.Y('podil:Q', axis=alt.Axis(title=None)),
    alt.Row('co:N')
)

In [50]:
alt.Chart(
    pl.concat([zavorka("\(Hluk"), zavorka("\(Ticho")]).to_pandas(),
    width = 500, height = 100
).mark_bar(
).encode(
    alt.X('datum:T', axis=alt.Axis(title=None)),
    alt.Y('podil:Q', axis=alt.Axis(title=None)),
    alt.Row('co:N')
)

  pl.concat([zavorka("\(Hluk"), zavorka("\(Ticho")]).to_pandas(),
  pl.concat([zavorka("\(Hluk"), zavorka("\(Ticho")]).to_pandas(),


In [51]:
alt.Chart(
    pl.concat([zavorka("(Smích", doslova=True), zavorka("(Veselí", doslova=True), zavorka("(Pobavení", doslova=True)]).to_pandas(),
    width = 500, height = 100
).mark_bar(
).encode(
    alt.X('datum:T', axis=alt.Axis(title=None)),
    alt.Y('podil:Q', axis=alt.Axis(title=None)),
    alt.Row('co:N')
)

In [52]:
alt.Chart(
    df.group_by_dynamic(index_column='datum',every='1y').agg(pl.col('text').unique().len()).to_pandas(),
    width = 500, height = 100
).mark_bar(
).encode(
    alt.X('datum:T', axis=alt.Axis(title=None)),
    alt.Y('text:Q', axis=alt.Axis(title=None)),
)

In [53]:
df.group_by_dynamic(index_column='datum',every='1y').agg(pl.col('text').unique().len())

datum,text
date,u32
1993-01-01,9337
1994-01-01,7730
1995-01-01,9219
1996-01-01,9345
1997-01-01,16367
1998-01-01,11729
1999-01-01,20383
2000-01-01,23721
2001-01-01,20242
2002-01-01,16173


In [56]:
zebricek_potlesku = df.filter(
    pl.col("obdobi") == 2021
).explode(
    "poznamky_text"
).filter(
    pl.col("poznamky_text").str.contains("potlesk")
).group_by(
    "mluvci"
).len(
).sort(
    by="len",descending=True
)

zebricek_potlesku

mluvci,len
str,u32
"""Poslankyně Alena Schillerová""",592
"""Poslanec Andrej Babiš""",393
"""Poslanec Tomio Okamura""",199
"""Místopředseda PSP Karel Havlíček""",179
"""Poslanec Radek Vondráček""",147
"""Poslanec Patrik Nacher""",142
"""Poslanec Radim Fiala""",138
"""Poslankyně Berenika Peštová""",131
"""Poslanec Robert Králíček""",112
"""Poslanec Aleš Juchelka""",103


In [90]:
df.filter(
    pl.col("obdobi") == 2010
).explode(
    "poznamky_text"
).filter(
    pl.col("poznamky_text").str.contains("smích") 
    | 
    pl.col("poznamky_text").str.contains("pobavení") 
    | 
    pl.col("poznamky_text").str.contains("veselí") 
    | 
    (~pl.col("poznamky_text").str.contains("smíchem"))
).group_by(
    "mluvci"
).len(
).sort(
    by="len",descending=True
)

mluvci,len
str,u32
"""Místopředseda PSP Lubomír Zaorálek""",1868
"""Předsedkyně PSP Miroslava Němcová""",1844
"""Místopředsedkyně PSP Vlasta Parkanová""",531
"""Místopředsedkyně PSP Kateřina Klasnová""",476
"""Místopředseda PSP Jiří Oliva""",394
"""Poslanec Bohuslav Sobotka""",292
"""Ministr financí ČR Miroslav Kalousek""",251
"""Poslanec Jeroným Tejc""",220
"""Poslanec David Rath""",188
"""Předseda vlády ČR Petr Nečas""",185


In [58]:
zebricek_smichu = df.filter(
    pl.col("obdobi") == 2021
).explode(
    "poznamky_text"
).filter(
    pl.col("poznamky_text").str.contains("smích") 
    | 
    pl.col("poznamky_text").str.contains("pobavení") 
    | 
    pl.col("poznamky_text").str.contains("veselí") 
    | 
    (~pl.col("poznamky_text").str.contains("smíchem"))
).group_by(
    "mluvci"
).len(
).sort(
    by="len",descending=True
)

zebricek_smichu

mluvci,len
str,u32
"""Poslanec Andrej Babiš""",2352
"""Místopředseda PSP Karel Havlíček""",1617
"""Místopředsedkyně PSP Věra Kovářová""",1575
"""Předsedkyně PSP Markéta Pekarová Adamová""",1534
"""Místopředseda PSP Jan Bartošek""",1474
"""Místopředsedkyně PSP Olga Richterová""",1439
"""Místopředseda PSP Jan Skopeček""",1318
"""Poslankyně Alena Schillerová""",1078
"""Místopředseda PSP Aleš Juchelka""",1038
"""Poslanec Tomio Okamura""",1037


In [60]:
zebricek_slov = df.filter(
    pl.col("obdobi") == 2021
).group_by(
    "mluvci"
).agg(
    pl.col("pocet_slov").sum()
)

zebricek_slov

mluvci,pocet_slov
str,u32
"""Poslanec Petr Fiala""",1043
"""Místopředsedkyně PSP Věra Kovářová""",300975
"""Poslanec Petr Gazdík""",522
"""Poslanec Karel Tureček""",28239
"""Místopředseda PSP Aleš Juchelka""",188070
"""Poslanec Marian Jurečka""",2450
"""Poslanec Jan Richter""",27752
"""Ministr průmyslu a obchodu ČR Jozef Síkela""",66623
"""Poslanec Jiří Carbol""",2049
"""Poslanec Hubert Lang""",259071


In [61]:
zebricek_smichu.join(
    zebricek_slov, how="right", on="mluvci"
).with_columns(
    (pl.col("len") / pl.col("pocet_slov")).alias("podil")
).drop_nulls(
).sort(
    by="podil",descending=True
)

len,mluvci,pocet_slov,podil
u32,str,u32,f64
1,"""Místopředseda PSP Tomio Okamura""",4,0.25
197,"""Poslanec Petr Fiala""",1043,0.188878
3,"""Poslanec Josef Váňa""",122,0.02459
348,"""Poslanec Josef Bernard""",23192,0.015005
6,"""Veřejný ochránce práv Stanislav Křeček""",769,0.007802
9,"""Markéta Pekarová Adamová""",1252,0.007188
3,"""Senátor Ladislav Václavec""",532,0.005639
20,"""Předsedající Radek Vondráček""",3591,0.005569
1038,"""Místopředseda PSP Aleš Juchelka""",188070,0.005519
1575,"""Místopředsedkyně PSP Věra Kovářová""",300975,0.005233


In [62]:
zebricek_smichu.join(
    zebricek_slov, how="right", on="mluvci"
).with_columns(
    (pl.col("len") / pl.col("pocet_slov")).alias("podil")
).drop_nulls(
).filter(
    pl.col("pocet_slov") > 10000
).sort(
    by="podil",descending=True
)

len,mluvci,pocet_slov,podil
u32,str,u32,f64
348,"""Poslanec Josef Bernard""",23192,0.015005
1038,"""Místopředseda PSP Aleš Juchelka""",188070,0.005519
1575,"""Místopředsedkyně PSP Věra Kovářová""",300975,0.005233
1318,"""Místopředseda PSP Jan Skopeček""",261270,0.005045
1534,"""Předsedkyně PSP Markéta Pekarová Adamová""",305106,0.005028
1474,"""Místopředseda PSP Jan Bartošek""",313308,0.004705
1439,"""Místopředsedkyně PSP Olga Richterová""",384269,0.003745
100,"""Poslanec Jaroslav Foldyna""",28874,0.003463
45,"""Poslanec Vít Vomáčka""",13931,0.00323
1617,"""Místopředseda PSP Karel Havlíček""",518570,0.003118


In [63]:
df.filter(pl.col("mluvci").str.contains("Ivan Bartoš")).select(pl.col("pocet_slov").sum())

pocet_slov
u32
347395


In [64]:
df.filter(pl.col("mluvci").str.contains("Ivan Bartoš")).explode("poznamky_text").filter(pl.col("poznamky_text").str.contains("směj"))

mluvci,soubor,mluvci_id,text,poradi,komora,obdobi,schuze,cast,datum,komora_komplet,schuze_komplet,prepsano,autorizovano,mluvci_jisty,id,pocet_slov,poznamky_text,poznamky_mluvci
str,str,str,str,i32,str,i32,i32,i32,date,str,str,bool,bool,bool,str,u32,str,list[str]
"""Místopředseda vlády a ministr pro místní rozvoj ČR Ivan Bartoš""","""2021ps_stenprot_019schuz_s019175.htm""","""https://www.vlada.cz/cz/clenove-vlady/ivan-bartos-191704/""","""(Směje se.) Já jsem rád, že to takhle řešíme. Tak uděláme analýzu, které nejdůležitější legislativy kdy šly v předchozím volebním období poslaneckým n…",2,"""ps""",2021,19,175,2022-05-11,"""PČR, PS 2021-...""","""19. schůze""",True,True,True,,91,"""směje se.""",[]


In [65]:
zebricek_smichu.join(
    zebricek_slov, how="right", on="mluvci"
).with_columns(
    (pl.col("len") / pl.col("pocet_slov")).alias("podil")
).filter(
    pl.col("len").is_null()
).sort(
    by="pocet_slov",descending=True
)

len,mluvci,pocet_slov,podil
u32,str,u32,f64
,"""Poslanec Petr Vrána""",5392,
,"""Poslankyně Pavla Pivoňka Vaňková""",3077,
,"""Předseda Národní rozpočtové rady Mojmír Hampl""",1055,
,"""Poslankyně Martina Lisová""",1025,
,"""Senátor Josef Bazala""",887,
,"""Senátor Stanislav Balík""",815,
,"""Senátor Lumír Kantor""",630,
,"""Senátor Jan Grulich""",611,
,"""Senátor Jan Paparega""",602,
,"""Senátor Zdeněk Hraba""",568,


In [66]:
zebricek_potlesku.join(
    zebricek_slov, how="right", on="mluvci"
).with_columns(
    (pl.col("len") / pl.col("pocet_slov")).alias("podil")
).filter(
    pl.col("len").is_null()
).sort(
    by="pocet_slov",descending=True
)

len,mluvci,pocet_slov,podil
u32,str,u32,f64
,"""Poslanec Josef Kott""",53022,
,"""Ministr školství, mládeže a tělovýchovy ČR Mikuláš Bek""",49888,
,"""Poslanec David Štolpa""",17001,
,"""Ministr průmyslu a obchodu ČR Lukáš Vlček""",16854,
,"""Ministr pro místní rozvoj ČR Petr Kulhánek""",15043,
,"""Poslanec Matěj Ondřej Havel""",13488,
,"""Ministr školství, mládeže a tělovýchovy ČR Vladimír Balaš""",12668,
,"""Poslanec Petr Bendl""",12321,
,"""Poslanec Michael Rataj""",10725,
,"""Poslankyně Pavla Golasowská""",9536,


In [67]:
zebricek_potlesku.join(
    zebricek_slov, how="right", on="mluvci"
).with_columns(
    (pl.col("len") / pl.col("pocet_slov")).alias("podil")
).drop_nulls(
).filter(
    pl.col("pocet_slov") > 31000
).sort(
    by="podil",descending=True
)

len,mluvci,pocet_slov,podil
u32,str,u32,f64
112,"""Poslanec Robert Králíček""",79673,0.001406
38,"""Poslankyně Renata Oulehlová""",31971,0.001189
592,"""Poslankyně Alena Schillerová""",511438,0.001158
33,"""Poslanec Milan Feranec""",34981,0.000943
44,"""Poslanec Marek Benda""",49888,0.000882
29,"""Poslanec Tomáš Kohoutek""",34246,0.000847
23,"""Ministr spravedlnosti ČR Pavel Blažek""",36491,0.00063
41,"""Poslanec Kamal Farhan""",67206,0.00061
147,"""Poslanec Radek Vondráček""",245689,0.000598
53,"""Poslanec Richard Brabec""",90254,0.000587


In [68]:
df.filter(pl.col("mluvci").str.contains("Robert Králíček")).explode("poznamky_text").filter(pl.col("poznamky_text").str.contains("potlesk")).group_by("text").len().sort(by="len")

text,len
str,u32
"""Vážený pane předsedající, kolegyně, kolegové, já bych chtěl také reagovat na pana Jakoba. Co bude dál? Co bude dál, pane poslanče Jakobe, prostřednict…",1
"""Vážená paní místopředsedkyně, kolegyně, kolegové, já budu velmi krátký a stručný, budu reagovat na pana poslance Berkiho. Pane poslanče, prostřednictv…",1
"""Já bych také začal řečnickou otázkou, jestli by pan Bauer prosadil zákon bez podpory tehdejší koalice, a to je právě ten rozdíl. Vy jste byl, pane min…",1
"""No, tak pojďme to posunout do dalšího levelu, paní místopředsedkyně Richterová, prostřednictvím paní místopředsedkyně. Vy jste tu ukázala to, že v něk…",1
"""Vážená paní místopředsedkyně, kolegyně, kolegové, no, já začnu tím nacherovským ""já jsem mluvit nechtěl"", ale na váženého kolegu pana Kaňkovského musí…",1
"""Dobré ráno. Jak říkal kolega Nacher, já jsem vystupovat už nechtěl, nicméně pan Výborný mě neustále provokuje. Tak já vám řeknu, jak ta digitalizace z…",1
"""Dobré ráno. No on mi pan Jurečka utekl. Mě to mrzí, já jsem chtěl reagovat na něj. Mně se líbí, jak on vždycky plamenně říká, jak jsme něco my osm let…",1
"""Pokud už nebyla vláda schopna vetovat pakt jako celek, měla aspoň vyjednat výjimku z relokační povinnosti. Velkou příležitost k tomu měla, byla předse…",1
"""Dobrý večer, vážená paní místopředsedkyně, kolegyně, kolegové. Já jsem si připravil zhruba na hodinku asi exkurz do historie EET a digitalizace. Takže…",1
"""Digitální a informační agentura si už na příští rok, kdy vynaloží 40 milionů na eDokladovku, taktéž rozpočtuje 15 milionů už na evropskou digitální pe…",1


In [88]:
df.filter(pl.col("mluvci").str.contains("Josef Váňa"))

mluvci,soubor,mluvci_id,text,poradi,komora,obdobi,schuze,cast,datum,komora_komplet,schuze_komplet,prepsano,autorizovano,mluvci_jisty,id,pocet_slov,poznamky_text,poznamky_mluvci
str,str,str,str,i32,str,i32,i32,i32,date,str,str,bool,bool,bool,str,u32,list[str],list[str]
"""Poslanec Josef Váňa""","""2021ps_stenprot_117schuz_s117088.htm""","""/sqw/detail.sqw?id=6946""","""Děkuji za slovo, paní předsedající. Dobrý den, kolegyně, kolegové, já bych se chtěl zeptat: ti, co navrhli tady tohle, kam jste zařadili koňaře? (Smíc…",6,"""ps""",2021,117,88,2024-11-08,"""PČR, PS 2021-...""","""117. schůze""",True,True,True,"""6946""",113,"[""smích v sále."", ""potlesk vlevo."", ""potlesk vlevo.""]",[]
"""Poslanec Josef Váňa""","""2021ps_stenprot_127schuz_s127021.htm""","""/sqw/detail.sqw?id=6946""","""Na sjetině mám pro, ale jsem proti, a zpochybňuji hlasování.""",4,"""ps""",2021,127,21,2025-01-21,"""PČR, PS 2021-...""","""127. schůze""",True,True,True,"""6946""",9,[],[]


In [69]:
df.filter(pl.col("mluvci").str.contains("Josef Váňa")).explode("poznamky_text").filter(pl.col("poznamky_text").str.contains("potlesk")).group_by("text").len().sort(by="len")

text,len
str,u32
"""Děkuji za slovo, paní předsedající. Dobrý den, kolegyně, kolegové, já bych se chtěl zeptat: ti, co navrhli tady tohle, kam jste zařadili koňaře? (Smíc…",2


In [86]:
df.filter(pl.col("mluvci").str.contains("Josef Váňa")).head(1).select(pl.col("soubor")).item()

'2021ps_stenprot_117schuz_s117088.htm'

In [84]:
df.filter(pl.col("mluvci").str.contains("Josef Váňa")).head(1).select(pl.col("text")).item()

'Děkuji za slovo, paní předsedající. Dobrý den, kolegyně, kolegové, já bych se chtěl zeptat: ti, co navrhli tady tohle, kam jste zařadili koňaře? (Smích v sále.) Prosím vás, tady tohle je povolání, které může dělat jenom blázen, to znamená soboty, neděle, dvanáct hodin denně. A řeknu vám hroznou skutečnost - dneska v šedesáti neznám jediného člověka, který by pracoval u koní, a nebyl invalidní důchodce nebo neměl zdravotní problémy. (Potlesk vlevo.) Moje paní má 57 let, a když jsem přišel domů a řekl jsem jí, že půjde za deset let do důchodu, tak mě málem vyhnala z baráku. Je to hrozné, ale prostě mně se ta vaše důchodová reforma vůbec nelíbí. Děkuji. (Potlesk vlevo.)'