In [1]:
import json
import time
import re
import urllib
from datetime import date
import polars as pl
import numpy as np
import textdistance as td
import requests
from bs4 import BeautifulSoup
import nltk
from nltk.stem.cistem import Cistem
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /home/tobias/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [2]:
schema={
    'id': pl.Utf8,
    'abstract': pl.Utf8,
    'beratungsstand': pl.Utf8,
    'vorgangstyp': pl.Utf8,
    'gesta': pl.Utf8,
    'archiv': pl.Utf8,
    'sachgebiet': pl.List(pl.Utf8),
    'typ': pl.Utf8,
    'wahlperiode': pl.UInt64,
    'zustimmungsbeduerftigkeit': pl.List(pl.Utf8),
    'initiative': pl.List(pl.Utf8),
    'deskriptor': pl.List(pl.Struct([
        pl.Field('fundstelle', pl.Boolean),
        pl.Field('name', pl.Utf8),
        pl.Field('typ', pl.Utf8),
    ])),
    'aktualisiert': pl.Utf8,
    'titel': pl.Utf8,
    'datum': pl.Utf8,
    'verkuendung': pl.List(pl.Struct([
        pl.Field('verkuendungsdatum', pl.Utf8)
    ]))
}
df_vorgang = pl.DataFrame(json.load(open('vorgang.json', encoding='utf-8')), schema=schema)
df_gesetze = df_vorgang.filter(pl.col('vorgangstyp') == 'Gesetzgebung')
pl.Config(fmt_str_lengths=100)
df_gesetze['beratungsstand'].unique()

beratungsstand
str
"""1. Durchgang im Bundesrat abgeschlossen"""
"""Zusammengeführt mit... (siehe Vorgangsablauf)"""
"""Verabschiedet"""
"""Für erledigt erklärt"""
"""Überwiesen"""
"""Verkündet"""
"""Den Ausschüssen zugewiesen"""
"""Im Vermittlungsverfahren"""
"""Noch nicht beraten"""
"""Zurückgezogen"""


In [3]:
df_vorgangspos = pl.read_json('vorgangsposition.json')
df_vorgangspos = df_vorgangspos.with_columns(
   pl.col("datum").str.to_date(format="%Y-%m-%d")
)
df_vorgangspos_gesetzgebung = df_vorgangspos.filter((pl.col('vorgangstyp') == 'Gesetzgebung') & (pl.col('typ') == 'Vorgangsposition'))
df_vorgang_duration = df_vorgangspos_gesetzgebung.group_by(['vorgang_id']).agg([
    pl.col('datum').min().alias('vorgang_start'), 
])

In [4]:
df_gesetze.head()

id,abstract,beratungsstand,vorgangstyp,gesta,archiv,sachgebiet,typ,wahlperiode,zustimmungsbeduerftigkeit,initiative,deskriptor,aktualisiert,titel,datum,verkuendung
str,str,str,str,str,str,list[str],str,u64,list[str],list[str],list[struct[3]],str,str,str,list[struct[1]]
"""314435""","""Verbesserung des Schutzes von Vollstreckungsbeamten und gleichgestellten Personen sowie von Hilfskr…","""Dem Bundesrat zugeleitet - Noch nicht beraten""","""Gesetzgebung""","""C108""",,"[""Innere Sicherheit"", ""Recht""]","""Vorgang""",20,"[""Nein, laut Gesetzesantrag (Drs 343/34)""]","[""Hessen""]","[{false,""Behinderung von Rettungskräften"",""Freier Deskriptor""}, {false,""Bundeswehrangehöriger"",""Sachbegriffe""}, … {true,""Widerstand gegen die Staatsgewalt"",""Sachbegriffe""}]","""2024-07-30T11:45:46+02:00""","""Gesetz zum Schutz von Vollstreckungsbeamten und ihnen gleichgestellten Personen""","""2024-07-25""",
"""312310""",,"""Dem Bundestag zugeleitet - Noch nicht beraten""","""Gesetzgebung""","""O003""",,"[""Kultur""]","""Vorgang""",20,"[""Ja, laut Gesetzentwurf (Drs 239/24)""]","[""Bundesregierung""]","[{false,""Ausfuhr"",""Sachbegriffe""}, {false,""Beauftragter der Bundesregierung für Kultur und Medien"",""Institutionen""}, … {false,""Zuständigkeit"",""Sachbegriffe""}]","""2024-07-25T10:34:11+02:00""","""Erstes Gesetz zur Änderung des Kulturgutschutzgesetzes (KGSGÄndG)""","""2024-07-24""",
"""312306""","""<strong>Anpassung an aktuelle Entwicklungen bei Elektromobilität, Stromspeicherung, Stromerzeugung …","""Dem Bundestag zugeleitet - Noch nicht beraten""","""Gesetzgebung""","""D059""",,"[""Energie"", ""Öffentliche Finanzen, Steuern und Abgaben""]","""Vorgang""",20,"[""Nein, laut Gesetzentwurf (Drs 232/24)""]","[""Bundesregierung""]","[{false,""Bürokratie"",""Sachbegriffe""}, {false,""Elektrizitätserzeugung"",""Sachbegriffe""}, … {false,""Verordnung der EU"",""Sachbegriffe""}]","""2024-07-25T10:56:09+02:00""","""Gesetz zur Modernisierung und zum Bürokratieabbau im Strom- und Energiesteuerrecht""","""2024-07-24""",
"""312280""",,"""Dem Bundestag zugeleitet - Noch nicht beraten""","""Gesetzgebung""","""B070""",,"[""Innere Sicherheit"", ""Medien, Kommunikation und Informationstechnik"", ""Staat und Verwaltung""]","""Vorgang""",20,"[""Ja, laut Gesetzentwurf (Drs 236/24)""]","[""Bundesregierung""]","[{false,""Abgeordneter"",""Sachbegriffe""}, {false,""Auskunfterteilung"",""Sachbegriffe""}, … {false,""Zweite Bundesmeldedatenübermittlungsverordnung"",""Rechtsmaterialien""}]","""2024-07-24T15:43:02+02:00""","""Drittes Gesetz zur Änderung des Bundesmeldegesetzes (3. BMGÄndG)""","""2024-07-24""",
"""314138""",,"""Dem Bundesrat zugeleitet - Noch nicht beraten""","""Gesetzgebung""","""G029""",,"[""Soziale Sicherung""]","""Vorgang""",20,"[""Ja, laut Gesetzesantrag (Drs 333/24)""]","[""Bayern""]","[{false,""Bundesmittel"",""Sachbegriffe""}, {false,""Energiepreis"",""Sachbegriffe""}, … {false,""Verpflegung"",""Sachbegriffe""}]","""2024-07-23T16:47:34+02:00""","""... Gesetz zur Änderung des Zwölften Buches Sozialgesetzbuch""","""2024-07-17""",


In [5]:
df_gesetze = df_gesetze.join(df_vorgang_duration.select(['vorgang_id', 'vorgang_start']), left_on='id', right_on='vorgang_id', how='left')

In [6]:
#df_vorgang_docs = df_vorgangspos.filter(pl.col('dokumentart') == 'Drucksache').group_by('vorgang_id').agg(pl.col('fundstelle').struct.field("dokumentnummer").explode())
#df_gesetze = df_gesetze.join(df_vorgang_docs.select(['vorgang_id', 'dokumentnummer']), left_on='id', right_on='vorgang_id', how='left')

In [7]:
today = date.today()
df_gesetze = df_gesetze.with_columns(
    pl.when(pl.col('beratungsstand') == 'Verkündet').then(
        pl.col('verkuendung').list.eval(pl.col('').struct.field('verkuendungsdatum').str.to_date(format="%Y-%m-%d")).list.min()
    ).when(pl.col('beratungsstand') == 'Abgelehnt').then(
        pl.col('datum').str.to_date(format="%Y-%m-%d")
    ).otherwise(today).alias('vorgang_end')
)
df_gesetze = df_gesetze.with_columns((pl.col('vorgang_end') - pl.col('vorgang_start')).dt.total_days().alias('vorgangsdauer'))

In [8]:
reg_frag = ['Fraktion BÜNDNIS 90/DIE GRÜNEN', 'Fraktion der FDP', 'Fraktion der SPD']

def fix_initiative(x):
    return pl.when(x.list.set_intersection(reg_frag).len == len(reg_frag)).then(
        x.list.set_difference(reg_frag)
    ).otherwise(x)

df_gesetze = df_gesetze.with_columns(pl.when(pl.col('initiative').list.set_intersection(reg_frag).list.len() == len(reg_frag)).then(
        pl.col('initiative').list.set_difference(reg_frag).list.concat(pl.Series(['Bundesregierung']))
    ).otherwise(pl.col('initiative')).alias('initiative'))

In [9]:
df_gesetze = df_gesetze.with_columns(pl.col('deskriptor').list.eval(pl.element().struct.field('name')).alias('keywords'))

In [10]:
df_gesetze.select(pl.col("*").exclude("abstract", "vorgangstyp", "gesta", "archiv", "typ", "deskriptor")).write_json('gesetze.json', row_oriented=True)

In [11]:
df_gesetze_public = df_gesetze.filter(pl.col('beratungsstand') == 'Verkündet')
bins = [7, 14, 30, 60, 120, 240, 365]
duration_bin = np.digitize(df_gesetze_public.select('vorgangsdauer').to_series(), bins, right=True)
df_gesetze_public.select('vorgangsdauer').to_series().hist(bins)

break_point,category,vorgangsdauer_count
f64,cat,u32
7.0,"""(-inf, 7.0]""",1
14.0,"""(7.0, 14.0]""",3
30.0,"""(14.0, 30.0]""",20
60.0,"""(30.0, 60.0]""",24
120.0,"""(60.0, 120.0]""",75
240.0,"""(120.0, 240.0]""",127
365.0,"""(240.0, 365.0]""",15
inf,"""(365.0, inf]""",4


In [12]:
df_gesetze_public_bins = df_gesetze_public.with_columns(pl.from_numpy(duration_bin, schema=['duration_bin']))
df_gesetze_public_bins.filter(pl.col('duration_bin') == pl.col('duration_bin').min())

id,abstract,beratungsstand,vorgangstyp,gesta,archiv,sachgebiet,typ,wahlperiode,zustimmungsbeduerftigkeit,initiative,deskriptor,aktualisiert,titel,datum,verkuendung,vorgang_start,vorgang_end,vorgangsdauer,keywords,duration_bin
str,str,str,str,str,str,list[str],str,u64,list[str],list[str],list[struct[3]],str,str,str,list[struct[1]],date,date,i64,list[str],i64
"""283063""","""Impfpflicht gegen COVID-19 bzw. Nachweis über Genesung oder Kontraindikation für Beschäftigte besti…","""Verkündet""","""Gesetzgebung""","""M002""","""XX/2""","[""Gesundheit""]","""Vorgang""",20,"[""Ja, laut Gesetzentwurf (Drs 20/188)"", ""Ja, laut Verkündung (BGBl I)""]","[""Bundesregierung""]","[{false,""Apotheker"",""Sachbegriffe""}, {false,""Arbeitnehmer-Entsendegesetz"",""Rechtsmaterialien""}, … {false,""Zahnarzt"",""Sachbegriffe""}]","""2022-07-26T19:57:25+02:00""","""Gesetz zur Stärkung der Impfprävention gegen COVID-19 und zur Änderung weiterer Vorschriften im Zus…","""2021-12-10""","[{""2021-12-11""}]",2021-12-06,2021-12-11,5,"[""Apotheker"", ""Arbeitnehmer-Entsendegesetz"", … ""Zahnarzt""]",0


In [13]:
df_gesetze_public_bins.filter(pl.col('duration_bin') == pl.col('duration_bin').max())

id,abstract,beratungsstand,vorgangstyp,gesta,archiv,sachgebiet,typ,wahlperiode,zustimmungsbeduerftigkeit,initiative,deskriptor,aktualisiert,titel,datum,verkuendung,vorgang_start,vorgang_end,vorgangsdauer,keywords,duration_bin
str,str,str,str,str,str,list[str],str,u64,list[str],list[str],list[struct[3]],str,str,str,list[struct[1]],date,date,i64,list[str],i64
"""300155""","""Erweiterung und Flexibilisierung des Einsatzes von Videokonferenztechnik in der Zivilgerichtsbarkei…","""Verkündet""","""Gesetzgebung""","""C055""","""XX/260""","[""Medien, Kommunikation und Informationstechnik"", ""Recht""]","""Vorgang""",20,"[""Nein, laut Gesetzentwurf (Drs 228/23)"", ""Nein, laut Verkündung (BGBl I)""]","[""Bundesregierung""]","[{false,""Abgabenordnung"",""Rechtsmaterialien""}, {false,""Arbeitsgerichtsbarkeit"",""Sachbegriffe""}, … {false,""Zivilprozessordnung"",""Rechtsmaterialien""}]","""2024-07-26T13:48:33+02:00""","""Gesetz zur Förderung des Einsatzes von Videokonferenztechnik in der Zivilgerichtsbarkeit und den Fa…","""2024-06-14""","[{""2024-07-18""}]",2023-05-26,2024-07-18,419,"[""Abgabenordnung"", ""Arbeitsgerichtsbarkeit"", … ""Zivilprozessordnung""]",7
"""300144""","""Weiterentwicklung nutzerfreundlicher digitaler Services der Verwaltung: Bereitstellung zentrale Bas…","""Verkündet""","""Gesetzgebung""","""B039""","""XX/264""","[""Medien, Kommunikation und Informationstechnik"", ""Staat und Verwaltung""]","""Vorgang""",20,"[""Ja, laut Gesetzentwurf (Drs 226/23)"", ""Ja, laut Verkündung (BGBl I)""]","[""Bundesregierung""]","[{false,""Abgabenordnung"",""Rechtsmaterialien""}, {false,""Barrierefreiheit"",""Sachbegriffe""}, … {false,""Öffentliche Verwaltung"",""Sachbegriffe""}]","""2024-07-26T13:49:51+02:00""","""Gesetz zur Änderung des Onlinezugangsgesetzes sowie weiterer Vorschriften zur Digitalisierung der V…","""2024-06-14""","[{""2024-07-23""}]",2023-05-26,2024-07-23,424,"[""Abgabenordnung"", ""Barrierefreiheit"", … ""Öffentliche Verwaltung""]",7
"""299229""","""Ausschöpfung der Potenziale im Bereich Immissionsschutzrecht zwecks Treibhausgasneutralität im Jahr…","""Verkündet""","""Gesetzgebung""","""N016""","""XX/255""","[""Energie"", ""Umwelt""]","""Vorgang""",20,"[""Ja, laut Gesetzentwurf (Drs 201/23)"", ""Ja, laut Verkündung (BGBl I)""]","[""Bundesregierung""]","[{false,""Baumaßnahme"",""Sachbegriffe""}, {false,""Bausanierung"",""Sachbegriffe""}, … {false,""Windenergieanlage"",""Sachbegriffe""}]","""2024-07-26T13:46:18+02:00""","""Gesetz zur Verbesserung des Klimaschutzes beim Immissionsschutz, zur Beschleunigung immissionsschut…","""2024-06-14""","[{""2024-07-08""}]",2023-05-05,2024-07-08,430,"[""Baumaßnahme"", ""Bausanierung"", … ""Windenergieanlage""]",7
"""297317""",,"""Verkündet""","""Gesetzgebung""","""XB002""","""XX/225""","[""Europapolitik und Europäische Union""]","""Vorgang""",20,"[""Ja, laut Gesetzentwurf (Drs 104/23)"", ""Ja, laut Verkündung (BGBl II)""]","[""Bundesregierung""]","[{false,""Europawahl"",""Sachbegriffe""}, {false,""Europäisches Parlament"",""Institutionen""}, {false,""Sperrklausel"",""Sachbegriffe""}]","""2024-03-13T16:36:41+01:00""","""Gesetz zu dem Beschluss (EU, Euratom) 2018/994 des Rates der Europäischen Union vom 13. Juli 2018 z…","""2023-07-07""","[{""2024-03-13""}]",2023-03-10,2024-03-13,369,"[""Europawahl"", ""Europäisches Parlament"", ""Sperrklausel""]",7


In [14]:
def map_gesetze(tokens):
    overlap = df_gesetze.with_columns(pl.col('titel.stem').map_elements(lambda x: td.lcsstr.normalized_similarity(tokens, x)).alias('similarity')).select(['titel', 'titel.stem', 'id', 'similarity'])
    overlap_ = overlap.sort('similarity', descending=True)
    overlap = overlap_.filter(pl.col('similarity') > 0.5)
    if overlap.shape[0] == 0:
        print(f'Warning: Count not find any Gesetze with similarity > 0.5: {tokens}')
        print(overlap_.head())
        return None
    if overlap.shape[0] > 1:
        if overlap.row(1, named=True)['similarity'] * 2 > overlap.row(0, named=True)['similarity'] and overlap.row(0, named=True)['similarity'] != 1:
            print(f'Error: could not map gesetz: {tokens}')
            print(overlap.head())
            return None
    #print(tokens)
    #print(overlap.head())
    return overlap.row(0, named=True)

bad_words = [
    'beratung',
    'gebrach',
    'entwurf',
    'eine'
]
stopwords_german = stopwords.words('german')
def rm_stop_words(txt):
    words = txt.split()
    words = list(filter(lambda x: x not in stopwords_german, words))
    return ' '.join(words)
    
def pre_process(txt):
    txt = txt.split('eingebrach', 1)[1]
    txt = ' '.join(txt.split())
    txt = re.sub(r'[a-z]\)\(', '', txt)
    txt = re.sub(r'des von (der|den) .*(fraktio|bundesregierung)', '', txt)
    txt = re.sub(r'^–', '', txt)
    for word in bad_words:
        txt = txt.replace(word, '', 1)
    return rm_stop_words(txt)

stemmer = Cistem()
def stem(txt):
    words = []
    for word in txt.split():
        words.append(stemmer.segment(word)[0])
    return ' '.join(words)

def map_top_gesetze(soup):
    tagesordnung = {}
    for conf in soup.find_all('div', {'class': 'bt-conference-title'}):
        sitzung = conf.text.strip()
        print(sitzung)
        top_l = []
        for thema in conf.parent.parent.find_all('td', {'data-th': 'Thema'}):
            if thema.p:
                for top in str(thema.p).split('<br/><br/>'):
                    top = BeautifulSoup(top, 'lxml')
                    vorgang_id = None
                    for a in top.find_all('a'):
                        drucksache = df_vorgangspos.filter((pl.col('dokumentart') == 'Drucksache') & (pl.col('fundstelle').struct.field("drucksachetyp") == 'Gesetzentwurf') & (pl.col('fundstelle').struct.field("pdf_url") == a['href']))
                        if drucksache.shape[0] == 0:
                            continue
                        if drucksache.shape[0] == 1:
                            vorgang_id_new = drucksache.row(0, named=True)['vorgang_id']
                            if vorgang_id and vorgang_id != vorgang_id_new:
                                raise RuntimeError('vorgang id missmatch')
                            vorgang_id = vorgang_id_new
                        if drucksache.shape[0] > 1:
                            print(drucksache)
                            raise RuntimeError('Found multiple vorgang ids for document')
                    if vorgang_id:
                        gesetz = df_gesetze.filter(pl.col('id') == vorgang_id).row(0, named=True)
                        print('* ' + gesetz['titel'])
                        top_l.append(gesetz)
                    else:
                        txt_ = top.get_text(' ')
                        for txt in txt_.split('Drucksache'):
                            if 'gesetz' in txt.lower() and 'entwurf' in txt.lower():
                                txt = stem(txt)
                                txt = pre_process(txt)
                                gesetz = map_gesetze(txt)
                                if gesetz is not None:
                                    print('* ' + gesetz['titel'])
                                    top_l.append(gesetz)
        print()
        tagesordnung[sitzung] = top_l
    return tagesordnung

def get_tagesordnung_gesetze(kw):
    res = requests.get('https://www.bundestag.de/apps/plenar/plenar/conferenceweekDetail.form', {'year': 2024, 'week': kw, 'limit': 10})
    time.sleep(0.3)
    soup = BeautifulSoup(res.text, 'lxml')
    return map_top_gesetze(soup)

In [15]:
df_gesetze = df_gesetze.with_columns(pl.col('titel').map_elements(stem).map_elements(rm_stop_words).alias('titel.stem'))

In [16]:
#df_vorgangspos.filter((pl.col('dokumentart') == 'Drucksache')).select(pl.col('fundstelle').struct.field("pdf_url"))
#df_vorgangspos.filter(pl.col('fundstelle').struct.field("pdf_url").eq('https://dserver.bundestag.de/btd/20/106/2010664.pdf'))

In [17]:
res = requests.get('https://www.bundestag.de/tagesordnung')
soup = BeautifulSoup(res.text, 'lxml')
div = soup.find('div', {'class': 'bt-module-row bt-module-row-sitzungsablauf'})
url = urllib.parse.urlparse(div['data-dataloader-url'])
week = int(urllib.parse.parse_qs(url.query)['week'][0])

top = {}
for prev in range(1, 10):
    tagesordnung = get_tagesordnung_gesetze(week - prev)
    if tagesordnung:
        top.update(tagesordnung)
        break
top.update(get_tagesordnung_gesetze(week))
for prev in range(1, 10):
    tagesordnung = get_tagesordnung_gesetze(week + prev)
    if tagesordnung:
        top.update(tagesordnung)
        break

10. September 2024 (183. Sitzung)
Error: could not map gesetz: gesetz feststellung bundeshaushaltspla haushaltsjahr 2025 (haushaltsgesetz 2025 – hg 2025)
shape: (3, 4)
┌─────────────────────────────────────────┬──────────────────────────────────┬────────┬────────────┐
│ titel                                   ┆ titel.stem                       ┆ id     ┆ similarity │
│ ---                                     ┆ ---                              ┆ ---    ┆ ---        │
│ str                                     ┆ str                              ┆ str    ┆ f64        │
╞═════════════════════════════════════════╪══════════════════════════════════╪════════╪════════════╡
│ Gesetz über die Feststellung des        ┆ gesetz feststellung              ┆ 302729 ┆ 0.622222   │
│ Bundeshaushaltsplans für das            ┆ bundeshaushaltspla haushaltsjahr ┆        ┆            │
│ Haushaltsjahr 2024 (Haushaltsgesetz 20… ┆ 2024 (haushaltsgesetz 2024 - hg  ┆        ┆            │
│                       

In [18]:
json.dump({day: [gesetz['id'] for gesetz in value] for day, value in top.items()}, open('tagesordnung.json', 'wt'))

In [19]:
pre_process(stem('Erste Beratung des von der CDU/CSU-Fraktion eingebrachten Gesetzentwurfs zur rechtssicheren Einführung '))

'gesetz rechtssich einführung'

In [20]:
pre_process(stem(' – Zweite und dritte Beratung des von der Bundesregierung eingebrachten Entwurfs eines Gesetzes zur Durchführung'))

'gesetz durchführung'

In [21]:
pre_process(stem('a) Zweite und dritte Beratung des von der Bundesregierung eingebrachten Entwurfs eines Zweiten Gesetzes zur Änderung des Umweltstatistikgesetzes  '))

'zweit gesetz änderung umweltstatistikgesetz'