# Daten bearbeiten

In [17]:
import pandas as pd
import numpy as np
import datetime as dt

In [62]:
df = pd.read_parquet("2023-03-25_gesamt_ocr_rhein_neckar.parquet")
df = df.rename(columns={'doc_typ': 'doc_typ_old'})

## Dokumenten-Typ berabeiten

In [None]:
doc_typ = df['doc_typ'].unique()
df_doc_typ = pd.DataFrame(doc_typ)
df_doc_typ.to_csv('doc_typ.csv')

In [None]:
doc_typ_2 = df[(pd.isnull(df['doc_typ_old']) == True) | (df['doc_typ_old'] == "Sitzungsunterlagen und Beschlüsse")]
doc_typ_2.to_csv('doc_typ_2.csv')

In [64]:
doc_typ_reclass = pd.read_excel("doc_typ_reclass.xlsx")
doc_typ_2_reclass = pd.read_excel("doc_typ_2_reclass.xlsx")

In [65]:
df = df.merge(doc_typ_reclass, on='doc_typ_old', how="left")
df = df.merge(doc_typ_2_reclass, left_index=True, right_on='index', how='left')
df['doc_typ'] = df['doc_typ_x'].combine_first(df['doc_typ_y'])
df.drop(['doc_typ_old','doc_typ_x','doc_typ_y', 'doc_name_y' ,'id', 'index'], axis=1, inplace=True)

In [72]:
df['doc_typ'] = df['doc_typ'].astype('category')
df.to_parquet("2023-04-03_gesamt_rhein_neckar.parquet")

In [12]:
df['doc_typ'].value_counts()

Vorlage             26793
Anhang Vorlage      25528
Beschluss            4738
Niederschrift        4690
Anhang Sitzung       1644
Bekanntmachung       1598
Anfrage              1117
Antrag                881
Anhang Beschluss      777
Name: doc_typ, dtype: int64

## Mobilitätsbezug (ja/nein)

In [76]:
bag_of_words = ["verkehr", "mobilität", 
                "miv","automobil", "pkw", "personenkraftw", "kfz", "kraftfahrzeug", "lkw", "motorrad",
                "stvo", "höchstgeschwindigkeit","führerschein",
                "modal split", "umweltverbund",
                "tankstelle", "ladesäule",
                "ampel", "lsa", "lichtsignalanlage",
                # "stau", "cargo", "logistik",
                "fahrrad", "radverkehr", "schutzstreifen", "radfahr", "abstellanlage", "lastenrad",
                "zu fuß", "fußgäng", "gehweg", "zufußgehen",
                "öpnv", "bus", "bahn", "tram", "haltestelle",
                "car", "bike" ,"roller", "scooter", "sharing",
                "parken", "parkpl", "stellpl", "parkhaus", "garage",
                ]

In [77]:
df['verkehrsbezug'] = df['content'].str.contains('|'.join(bag_of_words), case=False)

In [16]:
df['verkehrsbezug'].value_counts()

False    41090
True     28041
Name: verkehrsbezug, dtype: Int64

In [80]:
df.to_parquet("2023-04-03_gesamt_rhein_neckar.parquet")

## Beschlussstatus

In [86]:
import re

In [14]:
pd.notnull(df['status']).value_counts()

False    52812
True     16605
Name: status, dtype: int64

In [83]:
status = df['status'].unique()
df_status = pd.DataFrame(status)
df_status.to_excel('status.xlsx')

In [96]:
status_list = [r"Beschluss:\s*(\d+\s[-(),\w]+\s*)*",
               "abgelehnt",
               "abgesetzt",
               r"mehrheitlich(?:[^\wäöüÄÖÜß'-]+[\wäöüÄÖÜß'-]+){0,5}"
               "Absetzung von der Tagesordnung",
               "einstimmig(?:[^\wäöüÄÖÜß'-]+[\wäöüÄÖÜß'-]+){0,5}",
               r"mehrheitlich(?:[^\wäöüÄÖÜß'-]+[\wäöüÄÖÜß'-]+){0,5}",
               r"keine Einigung(?:[^\wäöüÄÖÜß'-]+[\wäöüÄÖÜß'-]+){0,5}",
               "ohne Abstimmung",
               "nicht in der Tagesordnung aufgenommen",
               "teilweise",
               "Vertagung",
               "vertagt"
               "zur Kenntnis genommen",
               r"zurückgestellt(?:[^\wäöüÄÖÜß'-]+[\wäöüÄÖÜß'-]+){0,5}",
               "zurückgewiesen",
               r"Zurückweisung(?:[^\wäöüÄÖÜß'-]+[\wäöüÄÖÜß'-]+){0,5}",
               "offen"

               ]

status_re = r"(Beschluss(?:[^\wäöüÄÖÜß'-]+[\wäöüÄÖÜß'-]+){0,50})"

In [112]:
no_status = df[pd.isnull(df['status']) == True]

In [120]:
df = df.reset_index()

In [122]:
no_status_filtered = no_status[no_status['doc_typ'] == ('Beschluss' or'Vorlage' or'Antrag'or'Anfrage') ]

In [129]:
df.drop('status_extract', axis=1, inplace=True)

In [132]:
status_extract_all = no_status_filtered['content'].str.extractall(status_re, flags=re.IGNORECASE)

In [126]:
df_status_extract = df[pd.notnull(df['status_extract']) == True]

In [127]:
status_extract_all.to_csv("status_extract_all.csv")

In [128]:
df['content'][23106]

'S T A D T  L A M P E R T H E I M  \nLampertheim, den 24.09.2007 \n \n \n \nB E S C H L U S S  N r .   \n \nder Sitzung der Stadtverordnetenversammlung der Stadt Lampertheim \n \nvom Freitag, den 14.09.2007 um 19:03 Uhr \n \nim Sitzungssaal des Stadthauses, Römerstraße 102, 68623 Lampertheim \n \nEs waren anwesend: \nStass, Brigitte - Stadtverordnetenvorsteherin  \nBauer, Lothar - Stadtverordneter \n \nBerg, Karl-Heinz - Stadtverordneter  \nBittner, Thomas - Stadtverordneter  \nBlepp, Dieter - Stadtverordneter \n \nBrechenser, Dieter - Stadtverordneter \n \nBuschmann, Irma - Stadtverordnete  \nEbert, Rita - Stadtverordnete  \nGalvagno, Nunzio - Stadtverordneter \n \nGötz, Fritz - Stadtverordneter \n \nHahn, Hans - Stadtverordneter \n \nHartmann, Sabine - Stadtverordnete  \nHofmann, Werner - Stadtverordneter \n \nHorstfeld, Karl-Heinz - Stellvertretender Stadtverordnetenvorsteher \n \nHummel, Helmut - Stadtverordneter  \nJacobi, Michael - Stadtverordneter  \nKirsch, Walter - Stadtverord

## Allgemeine Informationen über Datensatz

In [2]:
df = pd.read_parquet("2023-04-03_gesamt_rhein_neckar.parquet")

In [3]:
df['kommune'] = df["kommune"].cat.rename_categories({"Kreis_Heilbronn": "Kreis Heilbronn",
                          "Rhein_Neckar_Kreis": "Rhein-Neckar-Kreis",
                          "Bad Duerkheim": "Bad Dürkheim",
                          })

In [4]:
df = df[df["date"] < "2022-12-31"]

In [5]:
df['date_print'] = df['date'].dt.strftime('%d.%m.%Y')

In [26]:
df_date = pd.crosstab(index=df['kommune'], columns='Aggregat', values=df['date'], aggfunc=[min,max])

In [28]:
df_date['duration'] = (df_date['max'] - df_date['min']).datetime.days

AttributeError: 'DataFrame' object has no attribute 'dt'

In [18]:
df_date['duration'] = (df_date['max'] - df_date['min']).dt.days

TypeError: unsupported operand type(s) for -: 'str' and 'str'

In [15]:
df.groupby(['kommune']).agg({'date_print': [min, max]}).to_latex("../../latex/Tables/Kommunen_Datum_Min_Max.tex", 
                caption="Zeitspanne der erhobenen Daten",
                label="tab:zeitspanne_daten",
                column_format="lcc"
                )

Unnamed: 0_level_0,date_print,date_print
Unnamed: 0_level_1,min,max
kommune,Unnamed: 1_level_2,Unnamed: 2_level_2
Bad Dürkheim,01.03.2011,31.08.2010
Bad Friedrichshall,01.02.2022,31.05.2022
Bad Rappenau,01.03.2018,31.01.2019
Bensheim,01.02.2014,17.12.2020
Frankenthal,01.02.2006,31.08.2011
Hassloch,01.07.2020,31.10.2018
Heppenheim,01.12.2022,31.10.2016
Hockenheim,10.07.2019,31.03.2021
Homburg,02.04.2020,31.03.2022
Kreis Bad Dürkheim,01.10.2008,31.10.2012


In [11]:
df['doc_typ'].value_counts()

Vorlage             26793
Anhang Vorlage      25528
Beschluss            4738
Niederschrift        4690
Anhang Sitzung       1644
Bekanntmachung       1598
Anfrage              1117
Antrag                881
Anhang Beschluss      777
Name: doc_typ, dtype: int64

In [None]:
df['doc_typ'].value_counts().to_latex("../../latex/Tables/dokumententypen.tex", 
                caption="Dokumententypen des gesamten Datensatzes",
                label="tab:dokumententypen",
                column_format="lr"
                )

In [15]:
df['verkehrsbezug'] = df['verkehrsbezug'].astype('boolean')

In [17]:
df.to_parquet('2023-05-22_gesamtdaten_bis_2022')

In [3]:
df = pd.read_parquet('2023-05-22_gesamtdaten_bis_2022')

In [18]:
pd.isnull(df['content']).value_counts()

False    69131
True       286
Name: content, dtype: int64

In [19]:
df.head()

Unnamed: 0_level_0,content,date,doc_name_x,file_urls,gremium,kommunale_ebene,kommune,pdf_name,rel_path_to_file,sitzung_nr,status,top_name,top_nr,vorlage_nr,ocr,doc_typ,verkehrsbezug,date_print
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
15814.0,\n \n \nBeschlußvorlage \nöffentlich \n \nFac...,2007-02-13,Vorlage,https://sessionnet.krz.de/bad-duerkheim/bi/get...,Stadtrat,Stadt,Bad Dürkheim,2007-02-13_Bad_Duerkheim_60212.pdf,Dateien/Kommunen/Bad_Duerkheim/2007-02-13_Bad_...,60212.0,,Tätigkeitsbericht der Agenda 21,2.0,20070019/1.1,False,Vorlage,True,13.02.2007
15815.0,\n \n \nBeschlußvorlage \nnicht öffentlich \n...,2007-02-13,Vorlage,https://sessionnet.krz.de/bad-duerkheim/bi/get...,Stadtrat,Stadt,Bad Dürkheim,2007-02-13_Bad_Duerkheim_60204.pdf,Dateien/Kommunen/Bad_Duerkheim/2007-02-13_Bad_...,60204.0,,Prüfung der Stadtkasse hier: Unterrichtung übe...,3.0,20070018/1.7,False,Vorlage,False,13.02.2007
21130.0,Unvermutete überörtliche Prüfung der Stadtkass...,2007-02-13,Auszug aus Bericht Kassenprüfung,https://sessionnet.krz.de/bad-duerkheim/bi/get...,Stadtrat,Stadt,Bad Dürkheim,2007-02-13_Bad_Duerkheim_60220.pdf,Dateien/Kommunen/Bad_Duerkheim/2007-02-13_Bad_...,60220.0,,Prüfung der Stadtkasse hier: Unterrichtung übe...,3.0,20070018/1.7,True,Anhang Vorlage,True,13.02.2007
15816.0,\n \n \nBeschlußvorlage \nnichtöffentlich \n ...,2007-02-13,Vorlage,https://sessionnet.krz.de/bad-duerkheim/bi/get...,Stadtrat,Stadt,Bad Dürkheim,2007-02-13_Bad_Duerkheim_60195.pdf,Dateien/Kommunen/Bad_Duerkheim/2007-02-13_Bad_...,60195.0,,Neubesetzung städtischer Ausschüsse,5.0,20070014/FB1,False,Vorlage,False,13.02.2007
28204.0,"""REPUBLIKANER R EP\n\nStadtratsfraktion Bad Dü...",2007-02-13,Schreiben der REP-Stadtratsfraktion vom 10.01....,https://sessionnet.krz.de/bad-duerkheim/bi/get...,Stadtrat,Stadt,Bad Dürkheim,2007-02-13_Bad_Duerkheim_60213.pdf,Dateien/Kommunen/Bad_Duerkheim/2007-02-13_Bad_...,60213.0,,Neubesetzung städtischer Ausschüsse,5.0,20070014/FB1,True,Anhang Vorlage,False,13.02.2007


In [4]:
# Wenn es keinen Inhalt gibt, dann auslassen
df = df[df['content'].notna()]

In [21]:
pd.isnull(df['content']).value_counts()

False    69131
Name: content, dtype: int64

In [6]:
pd.crosstab(index=df['kommune'], columns=df['doc_typ']).to_latex("../../latex/Tables/Kommunen_Dokumententypen.tex", 
                caption="Dokumententyp je Kommune",
                label="tab:kommune dokumententypen",
                )

  pd.crosstab(index=df['kommune'], columns=df['doc_typ']).to_latex("../../latex/Tables/Kommunen_Dokumententypen.tex",


In [12]:
pd.crosstab(index=df['kommune'], columns='Count')

col_0,Count
kommune,Unnamed: 1_level_1
Bad Dürkheim,1817
Bad Friedrichshall,2401
Bad Rappenau,1402
Bensheim,56
Frankenthal,7368
Hassloch,2716
Heppenheim,2660
Hockenheim,1746
Homburg,1006
Kreis Bad Dürkheim,1626


In [13]:
pd.crosstab(index=df['kommune'], columns='Count').to_latex("../../latex/Tables/Kommunen_Anzahl_Dokumente.tex", 
                caption="Anzahl der Dokumente pro Kommune",
                label="tab:kommunen_anzahl_dokumente",
                )

  pd.crosstab(index=df['kommune'], columns='Count').to_latex("../../latex/Tables/Kommunen_Anzahl_Dokumente.tex",


In [10]:
pd.crosstab(index=df['kommune'], columns="Aggregat", values=df['verkehrsbezug'], aggfunc=[sum])

Unnamed: 0_level_0,sum
col_0,Aggregat
kommune,Unnamed: 1_level_2
Bad Dürkheim,897
Bad Friedrichshall,768
Bad Rappenau,568
Bensheim,56
Frankenthal,2799
Hassloch,1068
Heppenheim,1337
Hockenheim,846
Homburg,149
Kreis Bad Dürkheim,683


In [11]:
pd.crosstab(index=df['kommune'], columns="Aggregat", values=df['verkehrsbezug'], aggfunc=[sum]).to_latex("../../latex/Tables/Kommunen_Dokumente_Verkehrsbezug.tex", 
                caption="Anzahl der Dokumente mit Verkehrsbezug pro Kommune",
                label="tab:kommunen_anzahl_dokumente_verkehr",
                )

  pd.crosstab(index=df['kommune'], columns="Aggregat", values=df['verkehrsbezug'], aggfunc=[sum]).to_latex("../../latex/Tables/Kommunen_Dokumente_Verkehrsbezug.tex",
