# Einleitung

Im Rahmen der Projektdokumentation wurden bereits das Thema, die verwendenten Datensätze, die Leitfragen und weitere Aspekte beschrieben.

In diesem Notebook wird die Durchführung des Extract-Transform-Load (ETL) Prozess beschrieben. Um eine Trennung zwischen der Projektdokumentation und diesem Notebook zu ermöglichen, wurde entschieden in der Dokumentation die Erstellung der Datenbank, sowie die Auswahl, Elimination, Vereinheitlichung und Normalisierung von Entitäten und Attributen in den Vordergrund zu stellen.

In diesem Notebook wird dann entsprechend der teschnische ETL-Prozess dokumentiert. Dieser umfasst die Extraktion der Daten aus den Datein, die Transformation der Daten entsprechend dem gegebenen Datenbankschema und die finale Vereinigung der Daten in einer Datenbank bzw. SQL-Code, welcher die Erstellung einer entsprechenden Datenbank ermöglicht.

Das Notebook untergliedert sich dabei in die Hauptdatensätze: Unfälle, Baustellen und Verkehrsaufkommen, wobei pro Hauptdatensatz jeweils der ETL-Prozess beschrieben und dokumentiert wird.

Der letzte Punkt ist dann die Erstellung und Extraktion der Datenbank.

Zusätzlich befindet sich in diesem Dokument ein Anhang in welchem Wetterdaten dokumentiert sind, welche aus genannten Gründen in der Projektdokumnetation kein Teil der Datenbank sind, aber dennoch dokumentiert sind.

## Vorbereitungen Pfade und Packages

In [109]:
#########################
# Packages installieren #
#########################

!pip install PyPDF2
!pip install camelot-py

!pip install -q mysql-connector-python
!pip install -q SQLAlchemy
!apt-get -y -qq install mysql-server



In [110]:
########################
# Google Drive mounten #
########################

from google.colab import drive
drive.mount('/content/drive')

# NUR dir_path ÄNDERN
dir_path = "/content/drive/MyDrive/Business Intelligence/Projekt_Unfaelle"

data_path = dir_path+"/data"
temp_path = dir_path+"/temp_data"

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [111]:
########################
# Packages importieren #
########################

import json                                                                                                 # Auslesen von JSON-Dateien
from datetime import datetime, timedelta                                                                    # Zeitobjekte erstellen und verarbeiten
from PyPDF2 import PdfReader                                                                                # Einlesen von PDF mit unstrukturierter Tabelle (meint, dass die Tabelle ist nicht als solche identifiziertbar ist von Python)
import camelot                                                                                              # Einlesen von PDFs mit strukturierter Tabelle
import re                                                                                                   # Libary für Regex-Funktionalitäten (wichtig für unstrukturierte Tabellen)
import pandas as pd                                                                                         # Pandas Libary
import numpy as np                                                                                          # Numpy Libary
import mysql.connector                                                                                      # Konnektor für Ausführung einer Datenbank
from sqlalchemy import TEXT, BLOB
import os                                                                                                   # Ausführung von Bash-Funktionen via Python, notwendig für Datenbank-Exporte
import glob                                                                                                 # Package, zum Auslesen von Dateien mit bestimmten Endungen (vorrangig für Daten zur Verkehrslage)
from shapely.geometry import LineString, MultiLineString, GeometryCollection, Point, Polygon, MultiPolygon, shape   # (Re-)Konstruktion von Koordinaten als geometrische Objekte
from shapely.wkt import loads                                                                               # Geometrieobjekte, welche als well-known-text gespeicher sind wieder als Geoemtrieobjekte einlesen
import folium                                                                                               # ermöglichst Kartendarstellung in Python
from pyproj import Transformer                                                                              # Koordinaten vereinfachen
import unicodedata                                                                                          # Auslesen von Umlauten, URL-Konvertierungen usw.

## Datenbankschema

In [112]:
from IPython.display import Image
Image(filename =f'{dir_path}/resources/ERM_Unfaelle.png')

Output hidden; open in https://colab.research.google.com to view.

# Unfälle

## Stammdaten

### Laden

In [113]:
####################
# Datensätze laden #
####################

df_unfaelle_2018 = pd.read_csv(data_path+'/Unfaelle/Unfaelle_2018_Datensatz.csv', sep=';', encoding='ISO-8859-1') # Endocing-Fehler, deswegen hier spezifisches Encoding mittels ISO-8859-1
df_unfaelle_2019 = pd.read_csv(data_path+'/Unfaelle/Unfaelle_2019_Datensatz.csv', sep=';', encoding='ISO-8859-1') # Endocing-Fehler, deswegen hier spezifisches Encoding mittels ISO-8859-1
df_unfaelle_2020 = pd.read_csv(data_path+'/Unfaelle/Unfaelle_2020_Datensatz.csv', sep=';')
df_unfaelle_2021 = pd.read_csv(data_path+'/Unfaelle/Unfaelle_2021_Datensatz.csv', sep=';')

# Dataframes in Liste packen, für showcolumns()
df_unfaelle_list = [df_unfaelle_2018, df_unfaelle_2019, df_unfaelle_2020, df_unfaelle_2021]

In [114]:
###################################
# Attribute anzeigen / abgleichen #
###################################

def showAttributes(dfList):
  """Columns von mehreren Dataframes abgleichen (vor allem sinnvoll bei homogeneren Dataframes)"""

  for item in dfList:             # Iteration durch alle columns
    print(item.columns.format())  # Ausgabe als Stringobjekt

In [115]:
showAttributes(df_unfaelle_list)

['OBJECTID', 'LAND', 'BEZ', 'LOR', 'STRASSE', 'LOR_ab_2021', 'UJAHR', 'UMONAT', 'USTUNDE', 'UWOCHENTAG', 'UKATEGORIE', 'UART', 'UTYP1', 'ULICHTVERH', 'IstRad', 'IstPKW', 'IstFuss', 'IstKrad', 'IstGkfz', 'IstSonstig', 'STRZUSTAND', 'LINREFX', 'LINREFY', 'XGCSWGS84', 'YGCSWGS84']
['OBJECTID', 'LAND', 'BEZ', 'LOR', 'STRASSE', 'UJAHR', 'UMONAT', 'USTUNDE', 'UWOCHENTAG', 'UKATEGORIE', 'UART', 'UTYP1', 'ULICHTVERH', 'IstRad', 'IstPKW', 'IstFuss', 'IstKrad', 'IstGkfz', 'IstSonstige', 'USTRZUSTAND', 'LINREFX', 'LINREFY', 'XGCSWGS84', 'YGCSWGS84']
['OBJECTID', 'LAND', 'BEZ', 'LOR', 'LOR_ab_2021', 'UJAHR', 'UMONAT', 'USTUNDE', 'UWOCHENTAG', 'UKATEGORIE', 'UART', 'UTYP1', 'ULICHTVERH', 'IstRad', 'IstPKW', 'IstFuss', 'IstKrad', 'IstGkfz', 'IstSonstige', 'USTRZUSTAND', 'LINREFX', 'LINREFY', 'XGCSWGS84', 'YGCSWGS84']
['OBJECTID', 'LAND', 'BEZ', 'LOR_ab_2021', 'UJAHR', 'UMONAT', 'USTUNDE', 'UWOCHENTAG', 'UKATEGORIE', 'UART', 'UTYP1', 'ULICHTVERH', 'IstRad', 'IstPKW', 'IstFuss', 'IstKrad', 'IstGkfz', 

### Transformation in einheitliches Format


In [116]:
##################################################
# Anpassung und Vereinheitlichung der Dataframes #
##################################################

def dropAndRenameDF(df: pd.DataFrame):
  # Anpassung und Vereinheitlichung der Dataframes für Unfälle

  # Löschung von nicht benötigten Columns
  df = df.drop(['OBJECTID', 'LAND', 'BEZ', 'LINREFX', 'LINREFY', 'STRASSE'], axis= 1, errors= 'ignore')

  # Vereinfachung der Benennungen
  df = df.rename(columns={'XGCSWGS84': 'X-Koordinate',
                          'YGCSWGS84': 'Y-Koordinate',
                          'UJAHR': 'Jahr',
                          'UMONAT': 'Monat',
                          'USTUNDE': 'Stunde',
                          'UWOCHENTAG': 'Wochentag',
                          'UKATEGORIE': 'Unfallkategorie_ID_FK',
                          'UART': 'Unfallart_ID_FK',
                          'UTYP1': 'Unfalltyp_ID_FK',
                          'ULICHTVERH': 'Lichtverhaeltnisse_ID_FK',
                          'STRZUSTAND': 'Strassenzustand_ID_FK',    # inkonsistente Bennennung
                          'USTRZUSTAND': 'Strassenzustand_ID_FK',
                          'IstSonstig': 'IstSonstige'})             # inkonsistente Benennung in Datensatz 2018

  # LOR Bennenung vereinheitlichen und löschen
  if 'LOR_ab_2021' in df.columns:
    df = df.drop(['LOR', 'STRASSE'], axis=1, errors= 'ignore')
    df = df.rename(columns={'LOR_ab_2021': 'Planungsraum_ID_FK'})

  if 'LOR' in df.columns:
    df = df.rename(columns={'LOR': 'Planungsraum_ID_FK'})

  return df

In [117]:
# Methodenaufrufe und Speicherung der Rückgabe
df_unfaelle_2018 = dropAndRenameDF(df_unfaelle_2018)
df_unfaelle_2019 = dropAndRenameDF(df_unfaelle_2019)
df_unfaelle_2020 = dropAndRenameDF(df_unfaelle_2020)
df_unfaelle_2021 = dropAndRenameDF(df_unfaelle_2021)

# Dataframes in Liste packen, für showcolumns()
df_unfaelle_list = [df_unfaelle_2018, df_unfaelle_2019, df_unfaelle_2020, df_unfaelle_2021]

In [118]:
showAttributes(df_unfaelle_list)

['Planungsraum_ID_FK', 'Jahr', 'Monat', 'Stunde', 'Wochentag', 'Unfallkategorie_ID_FK', 'Unfallart_ID_FK', 'Unfalltyp_ID_FK', 'Lichtverhaeltnisse_ID_FK', 'IstRad', 'IstPKW', 'IstFuss', 'IstKrad', 'IstGkfz', 'IstSonstige', 'Strassenzustand_ID_FK', 'X-Koordinate', 'Y-Koordinate']
['Planungsraum_ID_FK', 'Jahr', 'Monat', 'Stunde', 'Wochentag', 'Unfallkategorie_ID_FK', 'Unfallart_ID_FK', 'Unfalltyp_ID_FK', 'Lichtverhaeltnisse_ID_FK', 'IstRad', 'IstPKW', 'IstFuss', 'IstKrad', 'IstGkfz', 'IstSonstige', 'Strassenzustand_ID_FK', 'X-Koordinate', 'Y-Koordinate']
['Planungsraum_ID_FK', 'Jahr', 'Monat', 'Stunde', 'Wochentag', 'Unfallkategorie_ID_FK', 'Unfallart_ID_FK', 'Unfalltyp_ID_FK', 'Lichtverhaeltnisse_ID_FK', 'IstRad', 'IstPKW', 'IstFuss', 'IstKrad', 'IstGkfz', 'IstSonstige', 'Strassenzustand_ID_FK', 'X-Koordinate', 'Y-Koordinate']
['Planungsraum_ID_FK', 'Jahr', 'Monat', 'Stunde', 'Wochentag', 'Unfallkategorie_ID_FK', 'Unfallart_ID_FK', 'Unfalltyp_ID_FK', 'Lichtverhaeltnisse_ID_FK', 'IstRad',

### Zusammenführung in einen Dataframe

In [119]:
################################################
# Dataframes zu einem Dataframe zusammenführen #
################################################

df_unfaelle             = pd.concat([df_unfaelle_2018, df_unfaelle_2019, df_unfaelle_2020, df_unfaelle_2021])   # geänderte Dataframes zusammenführen
df_unfaelle.index       = [x for x in range(1, len(df_unfaelle.values)+1)]                                      # Index erstellen
df_unfaelle.index.name  = 'Unfall_ID'                                                                           # Name Index ändern

df_unfaelle

Unnamed: 0_level_0,Planungsraum_ID_FK,Jahr,Monat,Stunde,Wochentag,Unfallkategorie_ID_FK,Unfallart_ID_FK,Unfalltyp_ID_FK,Lichtverhaeltnisse_ID_FK,IstRad,IstPKW,IstFuss,IstKrad,IstGkfz,IstSonstige,Strassenzustand_ID_FK,X-Koordinate,Y-Koordinate
Unfall_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
1,2500729.0,2018,1,15,4,3,6,4,0,0,1,1,0,0,0,1,134750178,5251359681
2,12500824.0,2018,1,11,2,3,2,6,0,0,1,0,0,0,0,0,1329102205,5258725906
3,2400520.0,2018,1,9,3,3,6,4,0,0,1,1,0,0,0,0,1342057818,5252601854
4,7200308.0,2018,1,17,2,3,6,7,2,0,1,1,0,0,0,0,1334828776,5248184447
5,3200206.0,2018,1,15,4,3,6,7,1,1,0,1,0,0,0,1,1340322797,5258347154
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
50115,4300414.0,2021,3,16,4,3,6,2,0,0,1,1,0,0,0,1,1329634478,5251100814
50116,4400726.0,2021,1,1,6,3,9,1,2,0,1,0,0,0,0,0,1328949592,5249381321
50117,2400520.0,2021,1,20,1,3,3,6,2,0,1,0,0,0,0,1,1342309463,5252753402
50118,7300619.0,2021,1,14,7,3,2,6,0,0,1,0,0,0,0,1,1335925879,5247436651


### Typecasting

Eigentlich ist das Typecasting erst kurz vor der Erstellung der Datenbank notwendig und vorgehesen, da aber in den nächsten Schritten einige Daten aus den Stammdaten extrahiert werden, wird bereits hier das Typecasting durchgeführt.

In [120]:
###############################
# Vobereitung für Typecasting #
###############################
# Beim Typcasting wurden Probleme festgestellt, die mit folgenden Code behoben werden
#
# Probleme: IstSonstige als String eingelesen, Vorbereitung auf Boolean-Casting
#           Strassenzustand als String erkannt, wegen Wert 'Hellersdofer Promenade'
#           LOR enhielten leere Werte, somit Typecasting auf int nicht möglich
#           Koordianten haben falsches Dezimaltrennzeichen, Umwandlung von ',' auf '.'

def convertIstSonstige(value):
    """String von Spalte 'IstSonstige' in einen boolean-konformen String umwandeln"""

    # String-Values in Zahlen übersetzen und zurückgeben
    if value in ['Ja', '1']:
        return 1
    elif value in ['Nein', '0', '']:
        return 0
    else:
        return 0

df_unfaelle['IstSonstige']            = df_unfaelle['IstSonstige'].apply(convertIstSonstige)                              # Konvertierung klassischer String in boolean-konformen String
df_unfaelle['Strassenzustand_ID_FK']  = df_unfaelle['Strassenzustand_ID_FK'].replace('Hellersdorfer Promenade', np.nan)   # Fehlerbehebung Strassenzustand
df_unfaelle.loc[:, 'X-Koordinate']    = df_unfaelle['X-Koordinate'].str.replace(',', '.')                                 # Fehlerbehebung Koordinate
df_unfaelle.loc[:, 'Y-Koordinate']    = df_unfaelle['Y-Koordinate'].str.replace(',', '.')                                 # Fehlerbehebung Koordinate
df_unfaelle.dropna(inplace=True)                                                                                          # Fehlerbehung LOR und Strassenzustand

df_unfaelle.dtypes    # Anzeigen aktuelle Datentypen

Planungsraum_ID_FK          float64
Jahr                          int64
Monat                         int64
Stunde                        int64
Wochentag                     int64
Unfallkategorie_ID_FK         int64
Unfallart_ID_FK               int64
Unfalltyp_ID_FK               int64
Lichtverhaeltnisse_ID_FK      int64
IstRad                        int64
IstPKW                        int64
IstFuss                       int64
IstKrad                       int64
IstGkfz                       int64
IstSonstige                   int64
Strassenzustand_ID_FK        object
X-Koordinate                 object
Y-Koordinate                 object
dtype: object

In [121]:
#####################
# Datentypen casten #
#####################
# Wichtig für die spätere Integration in die Datenbank
# wird an dieser Stelle aber bereits vollzogen, da später einige Werte noch angepasst werden und dies ohne den richtigen Datentyp nicht funktioniert

df_unfaelle = df_unfaelle.astype({
    'Planungsraum_ID_FK': 'int64',        # ID, deswegen so groß wie möglich
    'Jahr': 'int32',                      # in diesem Fall auf 4 begrenzt, aber erweiterbarkeit
    'Monat': 'int8',                      # fix von 1 bis 12
    'Stunde': 'int8',                     # fix von 0 bis 23
    'Wochentag': 'int8',
    'Unfallkategorie_ID_FK': 'int16',     # nicht fix, aber mehr als 32768 Einträge unwahrscheinlich
    'Unfallart_ID_FK': 'int16',
    'Unfalltyp_ID_FK': 'int16',
    'Lichtverhaeltnisse_ID_FK': 'int16',
    'IstRad':'boolean',
    'IstPKW':'boolean',
    'IstFuss': 'boolean',                 # Werte 0 und 1 --> boolean
    'IstKrad': 'boolean',
    'IstGkfz': 'boolean',
    'IstSonstige': 'boolean',
    'Strassenzustand_ID_FK': 'int16',
    'X-Koordinate': 'float64',            # Koordinaten sind Gleitkommazahlen
    'Y-Koordinate': 'float64'             # Koordinaten sind Gleitkommazahlen
})

df_unfaelle.dtypes                        # Anzeigen Datentypen

Planungsraum_ID_FK            int64
Jahr                          int32
Monat                          int8
Stunde                         int8
Wochentag                      int8
Unfallkategorie_ID_FK         int16
Unfallart_ID_FK               int16
Unfalltyp_ID_FK               int16
Lichtverhaeltnisse_ID_FK      int16
IstRad                      boolean
IstPKW                      boolean
IstFuss                     boolean
IstKrad                     boolean
IstGkfz                     boolean
IstSonstige                 boolean
Strassenzustand_ID_FK         int16
X-Koordinate                float64
Y-Koordinate                float64
dtype: object

## Dimensionen

### Dimensionen aus Stammdaten

Wie in der Projektdokumentation beschrieben, sind nicht alle Attribute in den Stammdaten auch tatsächliche Fakten zu verstehen. Es wurde entschieden die Zeit und die Unfallbeiligten als seperate Dimensionen zu erfassen.

Diese werden nachfolgend extrahiert und transformiert.

#### Unfallbeteiligte
ist hier die erste Tabelle, da diese einfach aus dem bisher erstellt DF Unfaelle erstellt werden kann.

In [122]:
############################################
# Extraktion Unfallbeteiligte aus 'Fakten' #
############################################

# Liste der Unfallbeteiligten
extract_list = ['IstRad', 'IstPKW', 'IstFuss', 'IstKrad', 'IstGkfz', 'IstSonstige']

df_unfallbeteiligte = df_unfaelle[extract_list]       # Extraktion der Spalten aus Stammdaten
df_unfaelle = df_unfaelle.drop(extract_list, axis=1)  # Löschen der Spalten aus Stammdaten

df_unfallbeteiligte

Unnamed: 0_level_0,IstRad,IstPKW,IstFuss,IstKrad,IstGkfz,IstSonstige
Unfall_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,False,True,True,False,False,False
2,False,True,False,False,False,False
3,False,True,True,False,False,False
4,False,True,True,False,False,False
5,True,False,True,False,False,False
...,...,...,...,...,...,...
50115,False,True,True,False,False,False
50116,False,True,False,False,False,False
50117,False,True,False,False,False,False
50118,False,True,False,False,False,False


In [123]:
##############################################
# Extraktion Unfallbeteiligte als Kategorien #
##############################################

# Colums entsprechen den Unfallbeteiligten
beteiligte_list = df_unfallbeteiligte.columns

# Dataframe aus dieser Liste der Unfallbeteiligten erstellen
df_unfallbeteiligte_kategorien = pd.DataFrame(columns=['Unfallbeteiligte'], data=beteiligte_list, index=range(1,len(beteiligte_list)+1))

df_unfallbeteiligte_kategorien['Unfallbeteiligte'] = df_unfallbeteiligte_kategorien['Unfallbeteiligte'].str.replace('Ist', '')            # 'Ist'-String entfernen
df_unfallbeteiligte_kategorien.index.name = 'Unfallbeteiligten_ID'                                                                        # Indexnamen ändern

df_unfallbeteiligte_kategorien                                                                                                            # finalen Dataframe anzeigen

Unnamed: 0_level_0,Unfallbeteiligte
Unfallbeteiligten_ID,Unnamed: 1_level_1
1,Rad
2,PKW
3,Fuss
4,Krad
5,Gkfz
6,Sonstige


In [124]:
############################################################
# Erstellung Relationstabelle von Unfällen und Beteiligten #
############################################################
# Es handelt sich bei den Unfällen und den Beteiligten um eine m-n-Relation
# Aufgrund dessen Erstellung einer Relationstabelle, welche jeweils die Unfall-ID und die IDs  der beteiligten enthält

# Erstelle einer leeren Liste für Verknüpfungsdaten
relation_data = []

# Schleife iteriert über alle Zeilen
for index, row in df_unfallbeteiligte.iterrows():
    # Schleife iteriert über alle Spaltenwerte der Zeilen
    for column, value in row.items():
        if value:  # Boolean-Werte, wenn dieser True, dann Ausführung
            beteiligtenID = df_unfallbeteiligte_kategorien.loc[df_unfallbeteiligte_kategorien['Unfallbeteiligte'] == column.replace('Ist', '')].index[0]  # Prüfung aktueller Unfallbeteiligter mit Kategorie und Rückgabe des Index aus Kategorie
            relation_data.append({'Unfall_ID_FK_in_Unfallbeteiligten': index, 'Unfallbeteiligten_ID_FK': beteiligtenID})  # Daten in die Liste einfügen

# Erstellung der Relationstabelle aus der gesammelten Liste
df_unfaelle_unfallbeteiligte_relation = pd.DataFrame(relation_data, columns=['Unfall_ID_FK_in_Unfallbeteiligten', 'Unfallbeteiligten_ID_FK'])

# Neuen Index festlegen
df_unfaelle_unfallbeteiligte_relation.index = [x for x in range(1, len(df_unfaelle_unfallbeteiligte_relation.values)+1)]
df_unfaelle_unfallbeteiligte_relation.index.name = 'Unfallbeteiligung_ID'

df_unfaelle_unfallbeteiligte_relation  # DataFrame ausgeben

Unnamed: 0_level_0,Unfall_ID_FK_in_Unfallbeteiligten,Unfallbeteiligten_ID_FK
Unfallbeteiligung_ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1,2
2,1,3
3,2,2
4,3,2
5,3,3
...,...,...
77985,50115,3
77986,50116,2
77987,50117,2
77988,50118,2


#### Zeit

Um die Zeitdimension korrekt abzubilden, kann diese nicht wie die Unfallbeteiligten, einfach aus den Stammdaten extrahiert werden. Wie im Datenbankschema zu sehen, wird diese Dimension als Verknüpfung zwischen Unfällen und dem Verkehrsaufkommen genutzt.

Um das Verkehrsaufkommen auch unabhängig von den Verkehrsunfällen nach der Zeit filtern zu können, wurde entschieden eine Zeitdimension zu erstellen, welche alle Zeitwerte vom 1.1.2018 bis zum 1.1.2022 enhält.

Wichtig zu beachten ist dabei, dass in der Zeitdimension nur das Jahr, der Monat, die Stunden und die Wochentage betrachtet werden, da dies durch die Stammdaten von df_unfaelle so gegeben ist.

<br>

**Vorgehen:**

Es wird zunächst die Dimensionstabelle Zeit erstellt, wobei jedes Datentupel enizigartig durch die Kombination aus Jahr, Monat, Stunde und Wochentag ist.

Anschließend werden die Stammdaten df_unfaelle nach den gleichen einzigartigen Kombinationen aus diesen Werten durchsucht und dann durch die ID ersetzt

In [125]:
###########################
# Zeitdimension erstellen #
###########################

# Beginn und Enddatum festlegen -> Unfalldaten von 2018 bis einschließlich 2021
start_date = datetime(2018, 1, 1)
end_date = datetime(2022, 1, 1)

# Liste der Wochentage
wochentage = ['Montag', 'Dienstag', 'Mittwoch', 'Donnerstag', 'Freitag', 'Samstag', 'Sonntag']

# Liste zur Speicherung der Daten -> Datenrundlage DataFrame
data = []

# Durchlaufen der Daten und Hinzufügen zum DataFrame
current_date = start_date

while current_date < end_date:
    for monat in range(1, 13):
        for stunde in range(24):
            for tag, wochentag in enumerate(wochentage):

                # Füge das Datum, den Monat, die Stunde und den Wochentag hinzu
                data.append({
                    'Jahr': current_date.year,
                    'Monat': monat,
                    'Stunde': stunde,
                    'Wochentag': wochentag
                })
    # Gehe zum nächsten Jahr
    current_date = current_date.replace(year=current_date.year + 1)

# DataFrame erstellen
df_zeit = pd.DataFrame(data)

# Index erstellen
df_zeit.index       = [x for x in range(1, len(df_zeit.values)+1)]
df_zeit.index.name  = 'Zeit_ID'

# Anzeigen des sortierten DataFrames
df_zeit

Unnamed: 0_level_0,Jahr,Monat,Stunde,Wochentag
Zeit_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2018,1,0,Montag
2,2018,1,0,Dienstag
3,2018,1,0,Mittwoch
4,2018,1,0,Donnerstag
5,2018,1,0,Freitag
...,...,...,...,...
8060,2021,12,23,Mittwoch
8061,2021,12,23,Donnerstag
8062,2021,12,23,Freitag
8063,2021,12,23,Samstag


In [126]:
###################################################
# Wochentag-IDs in Unfalle mit Klarnamen ersetzen #
###################################################
# Hinweis: Reihenfolge wurde aus Metadaten übernommen

df_unfaelle['Wochentag'] = df_unfaelle['Wochentag'].replace({1: 'Sonntag',
                                                             2: 'Montag',
                                                             3: 'Dienstag',
                                                             4: 'Mittwoch',
                                                             5: 'Donnerstag',
                                                             6: 'Freitag',
                                                             7: 'Samstag'})
df_unfaelle

Unnamed: 0_level_0,Planungsraum_ID_FK,Jahr,Monat,Stunde,Wochentag,Unfallkategorie_ID_FK,Unfallart_ID_FK,Unfalltyp_ID_FK,Lichtverhaeltnisse_ID_FK,Strassenzustand_ID_FK,X-Koordinate,Y-Koordinate
Unfall_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,2500729,2018,1,15,Mittwoch,3,6,4,0,1,13.475018,52.513597
2,12500824,2018,1,11,Montag,3,2,6,0,0,13.291022,52.587259
3,2400520,2018,1,9,Dienstag,3,6,4,0,0,13.420578,52.526019
4,7200308,2018,1,17,Montag,3,6,7,2,0,13.348288,52.481844
5,3200206,2018,1,15,Mittwoch,3,6,7,1,1,13.403228,52.583472
...,...,...,...,...,...,...,...,...,...,...,...,...
50115,4300414,2021,3,16,Mittwoch,3,6,2,0,1,13.296345,52.511008
50116,4400726,2021,1,1,Freitag,3,9,1,2,0,13.289496,52.493813
50117,2400520,2021,1,20,Sonntag,3,3,6,2,1,13.423095,52.527534
50118,7300619,2021,1,14,Samstag,3,2,6,0,1,13.359259,52.474367


In [127]:
##################################################
# Zeitangaben in Unfaelle durch Zeit_ID ersetzen #
##################################################

# Sicherstellen, dass 'Zeit_ID' in df_zeit als eine Spalte vorliegt
df_zeit = df_zeit.reset_index()

# Erzeuge eine eindeutige Schlüsselspalte in beiden DataFrames
df_unfaelle['temp_key'] = df_unfaelle['Jahr'].astype(str) + '-' + df_unfaelle['Monat'].astype(str) + '-' + df_unfaelle['Stunde'].astype(str) + '-' + df_unfaelle['Wochentag']
df_zeit['temp_key'] = df_zeit['Jahr'].astype(str) + '-' + df_zeit['Monat'].astype(str) + '-' + df_zeit['Stunde'].astype(str) + '-' + df_zeit['Wochentag']

# Erstelle ein Mapping von temp_key zu Zeit_ID
temp_key_to_zeit_id = df_zeit.set_index('temp_key')['Zeit_ID'].to_dict()

# Ordne jeder Zeile in df_unfaelle die entsprechende Zeit_ID zu
df_unfaelle['Zeit_ID_FK_in_Unfaelle'] = df_unfaelle['temp_key'].map(temp_key_to_zeit_id)

# Lösche die temporären und nicht mehr benötigten Spalten
df_unfaelle = df_unfaelle.drop(['Jahr', 'Monat', 'Stunde', 'Wochentag', 'temp_key'], axis=1)

df_unfaelle  # Ausgabe DataFrame

Unnamed: 0_level_0,Planungsraum_ID_FK,Unfallkategorie_ID_FK,Unfallart_ID_FK,Unfalltyp_ID_FK,Lichtverhaeltnisse_ID_FK,Strassenzustand_ID_FK,X-Koordinate,Y-Koordinate,Zeit_ID_FK_in_Unfaelle
Unfall_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,2500729,3,6,4,0,1,13.475018,52.513597,108
2,12500824,3,2,6,0,0,13.291022,52.587259,78
3,2400520,3,6,4,0,0,13.420578,52.526019,65
4,7200308,3,6,7,2,0,13.348288,52.481844,120
5,3200206,3,6,7,1,1,13.403228,52.583472,108
...,...,...,...,...,...,...,...,...,...
50115,4300414,3,6,2,0,1,13.296345,52.511008,6499
50116,4400726,3,9,1,2,0,13.289496,52.493813,6060
50117,2400520,3,3,6,2,1,13.423095,52.527534,6195
50118,7300619,3,2,6,0,1,13.359259,52.474367,6152


### Dimensionen aus Metadaten

In den Stammdaten df_unfaelle befinden sich viele IDs, welche nicht aus den Stammdaten allein aufgelöst werden können. Zusätzlichen zu den Stammdaten wurde auch ein Metadatendokument begelegt, welche die IDs in entsprechende Werte aufgelöst.

Im folgenden die entsprechenden Werte aus den Metadaten ausgelesen und in Dataframes eingelesen.


In [128]:
##############################
# Metadaten Unfälle auslesen #
##############################

# Metadaten auslesen
metadaten_unfaelle      = camelot.read_pdf(data_path+'/Unfaelle/Unfaelle_Metadaten.pdf', flavor="stream", pages='1-2', table_areas=['0,800,600,0'])

# Extraktion und Zusammenführen beider Tabellenseiten
df_metadaten_unfaelle_1 = metadaten_unfaelle[0].df                                    # Tabellenteil auf der ersten Seite
df_metadaten_unfaelle_2 = metadaten_unfaelle[1].df                                    # Tabellenteil auf der zweiten Seite
df_metadaten_unfaelle = pd.concat([df_metadaten_unfaelle_1, df_metadaten_unfaelle_2]) # Zusammenführen beider Tabellenteile

df_metadaten_unfaelle     # Dataframe anzeigen

Unnamed: 0,0,1,2
0,Datensatzbeschreibung,,
1,OpenData Portal Berlin Statistik der Straßen...,,
2,Spaltenname,Inhalt,Bemerkung
3,OBJECTID,Laufende Nummer des Unfalls,pro Unfall ein Datensatz
4,LAND,Bundesland,LOR-Schlüsselsystematik
...,...,...,...
33,B,eruhend auf dem Unfallatlas der Statistischen ...,
34,Unfallatlas | Kartenanwendung (statistikportal...,,
35,W,eitere Erläuterungen zu der Statistik der Stra...,
36,Straßenverkehr (statistik-berlin-brandenburg.de),,


In [129]:
#######################
# Anpassung Dataframe #
#######################

df_metadaten_unfaelle.columns = ['Spaltenname', 'Inhalt', 'Bemerkung']                            # Spalten umbennenen, ensprechend ursprünglicher Bennenung in PDF
df_metadaten_unfaelle = df_metadaten_unfaelle.drop(['Bemerkung'], axis=1)                         # Bemerkungen werden für Dimensionstabellen nicht benötigt´

df_metadaten_unfaelle['Spaltenname'] = df_metadaten_unfaelle['Spaltenname'].replace('', np.nan)   # beim Einlesen der PDF sind augenscheinlich leere Werte übernommen worden,
df_metadaten_unfaelle.fillna(method='ffill', inplace=True)                                        # welche von Python aber nicht als leer erkannt werden, hier dann korrigiert
                                                                                                  # und durch übergelagerte Werte ersetzt
df_metadaten_unfaelle     # Dataframe anzeigen

Unnamed: 0,Spaltenname,Inhalt
0,Datensatzbeschreibung,
1,OpenData Portal Berlin Statistik der Straßen...,
2,Spaltenname,Inhalt
3,OBJECTID,Laufende Nummer des Unfalls
4,LAND,Bundesland
...,...,...
33,B,eruhend auf dem Unfallatlas der Statistischen ...
34,Unfallatlas | Kartenanwendung (statistikportal...,
35,W,eitere Erläuterungen zu der Statistik der Stra...
36,Straßenverkehr (statistik-berlin-brandenburg.de),


#### Unfallart

In [138]:
#####################################
# Auslesen Unfall-Art aus Metadaten #
#####################################

df_unfallart = df_metadaten_unfaelle[df_metadaten_unfaelle['Spaltenname'] == 'UART']
df_unfallart

Unnamed: 0,Spaltenname,Inhalt
25,UART,Unfallart
26,UART,1 = Zusammenstoß mit anfahrendem/anhaltendem/
27,UART,ruhendem Fahrzeug
28,UART,2 = Zusammenstoß mit vorausfahrendem/wartendem
29,UART,Fahrzeug
30,UART,3 = Zusammenstoß mit seitlich in gleicher Rich...
31,UART,fahrendem Fahrzeug
32,UART,4 = Zusammenstoß mit entgegenkommendem
33,UART,Fahrzeug
34,UART,5 = Zusammenstoß mit einbiegendem/ kreuzendem


In [139]:
###########################################
# Löschung von nicht benötigten Tabellen  #
###########################################

df_unfallart = df_unfallart.drop(['Spaltenname'], axis=1)     # Spalten 'Spaltenname' löschen, da hier nicht mehr benötigte Keys enthalten
df_unfallart = df_unfallart.drop(df_unfallart.index[:1])      # erste Zeile löschen, da hier nicht benötigte Infomartation 'Unfallart', beim Auslesen mit übernommen

df_unfallart    # Dataframe anzeigen

Unnamed: 0,Inhalt
26,1 = Zusammenstoß mit anfahrendem/anhaltendem/
27,ruhendem Fahrzeug
28,2 = Zusammenstoß mit vorausfahrendem/wartendem
29,Fahrzeug
30,3 = Zusammenstoß mit seitlich in gleicher Rich...
31,fahrendem Fahrzeug
32,4 = Zusammenstoß mit entgegenkommendem
33,Fahrzeug
34,5 = Zusammenstoß mit einbiegendem/ kreuzendem
35,Fahrzeug


In [140]:
##############################################
# Abgeschnittene Zeile wieder zusammenführen #
##############################################
# Leider sind beim Auslesen der PDf einige Werte in die nächste Zeile gerutscht z.B. ruhendem Fahrzeug, Fahrzeug usw
# Blick in die Metadaten zeigt, dass diese jeweils zu dem vorherigen Wert gehören
# Diese werden mit foglendem Code wieder zusammengeführt

# Speicherung des kleinsten Index
index = df_unfallart.index.min()

# Liste für die neuen Tabellenwerte
new_column = []

# Schleife vom kleinsten bis größten Index
while index <= df_unfallart.index.max():

  current = df_unfallart.loc[index, 'Inhalt']     # Auslesen aktuelle Zeile
  new_value = current                             # Zwischenspeicherung

  # Prüfung ob aktueller Wert eine Zahl oder '=' enthält
  # Prüfung ob aktueller Index kleiner als alle Indzies (sonst Exception)
  if any(char.isdigit() or char == '=' for char in current) and (index < df_unfallart.index.max() - 1):

    next_value = df_unfallart.loc[index + 1, 'Inhalt']  # Speicherung des auf aktuellen Index folgenden Wert

    # Prüfung ob im nächsten Wert eine Zahl oder '=' enthält
    if not any(char.isdigit() or char == '=' for char in next_value):

      new_value += ' ' + next_value   # Zusammführen von aktuellen mit nächsten Wert
      index += 1                      # Index um 1 erhöhen

  new_column.append(new_value)    # neuen Wert zu Ergebnisliste hinzufügen
  index += 1                      # Index um 1 erhöhen

df_unfallart = pd.DataFrame(data=new_column, columns=['Unfallart'])   # Neuen Dataframe erstellen mit den neu generierten Spalten

df_unfallart    # Dataframe anzeigen

Unnamed: 0,Unfallart
0,1 = Zusammenstoß mit anfahrendem/anhaltendem/ ...
1,2 = Zusammenstoß mit vorausfahrendem/wartendem...
2,3 = Zusammenstoß mit seitlich in gleicher Rich...
3,4 = Zusammenstoß mit entgegenkommendem Fahrzeug
4,5 = Zusammenstoß mit einbiegendem/ kreuzendem ...
5,6 = Zusammenstoß zwischen Fahrzeug und Fußgänger
6,7 = Aufprall auf Fahrbahnhindernis
7,8 = Abkommen von Fahrbahn nach rechts
8,9 = Abkommen von Fahrbahn nach links
9,0 = Unfall anderer Art


In [141]:
######################
# Dataframe anpassen #
######################

# Wert vom letzten  Index, an Stelle vom ersten Index, um Reihenfolge einzuhalten
last_row = df_unfallart.iloc[-1]                                                              # letzte Reihe von Dataframe
df_unfallart = pd.concat([last_row.to_frame().T, df_unfallart.iloc[:-1]], ignore_index=True)  # einfügen an erster Stelle

# Indizes aus Unfallart entfernen
df_unfallart['Unfallart'] = df_unfallart['Unfallart'] .str.split('=', expand=True)[1]         # alles vor '=' entfernen

# neuen Index erstellen
df_unfallart.index       = [x for x in range(1, len(df_unfallart.values)+1)]    # Index erstellen
df_unfallart.index.name  = 'Unfallart_ID'                                       # Name Index ändern

df_unfallart  # Dataframe anzeigen

Unnamed: 0_level_0,Unfallart
Unfallart_ID,Unnamed: 1_level_1
1,Unfall anderer Art
2,Zusammenstoß mit anfahrendem/anhaltendem/ ruh...
3,Zusammenstoß mit vorausfahrendem/wartendem Fa...
4,Zusammenstoß mit seitlich in gleicher Richtun...
5,Zusammenstoß mit entgegenkommendem Fahrzeug
6,Zusammenstoß mit einbiegendem/ kreuzendem Fah...
7,Zusammenstoß zwischen Fahrzeug und Fußgänger
8,Aufprall auf Fahrbahnhindernis
9,Abkommen von Fahrbahn nach rechts
10,Abkommen von Fahrbahn nach links


In [142]:
##################################
# Indizes in Stammdaten anpassen #
##################################

# Alle Indizes Unfallart_ID_FK um 1 erhöhen
df_unfaelle['Unfallart_ID_FK']         = df_unfaelle['Unfallart_ID_FK'].apply(lambda x: x+1)
df_unfaelle['Unfallart_ID_FK'].describe()

count    50113.000000
mean         4.530880
std          2.172748
min          1.000000
25%          3.000000
50%          6.000000
75%          6.000000
max         10.000000
Name: Unfallart_ID_FK, dtype: float64

Problem: einige Dataframes haben 0 als ersten Indexwert. An sich stellt dies  kein Problem dar, aber '1' ist als erster Index besser geeignet, weshalb alle Elemente um den Wert von +1 erhöht werden.

In [136]:
# Verwendung von Lambda-Expressions ->
df_unfaelle['Lichtverhaeltnisse_ID_FK'] = df_unfaelle['Lichtverhaeltnisse_ID_FK'].apply(lambda x: x+1)    # Alle Werte von Lichtverhältnisse um den Wert 1 erhöhen
df_unfaelle['Strassenzustand_ID_FK']    = df_unfaelle['Strassenzustand_ID_FK'].apply(lambda x: x+1)       # Alle Werte von Strassenzustand um den Wert 1 erhöhen

df_unfaelle[['Unfallkategorie_ID_FK','Unfalltyp_ID_FK','Lichtverhaeltnisse_ID_FK', 'Strassenzustand_ID_FK']].min()    # minimale Werte der transformierten Spalten anzeigen um Funktionalität zu prüfen

Unfallkategorie_ID_FK       1
Unfalltyp_ID_FK             1
Lichtverhaeltnisse_ID_FK    1
Strassenzustand_ID_FK       1
dtype: int64

In [137]:
df_unfaelle[['Planungsraum_ID_FK','Unfallkategorie_ID_FK','Unfalltyp_ID_FK','Lichtverhaeltnisse_ID_FK', 'Strassenzustand_ID_FK']].describe()

Unnamed: 0,Planungsraum_ID_FK,Unfallkategorie_ID_FK,Unfalltyp_ID_FK,Lichtverhaeltnisse_ID_FK,Strassenzustand_ID_FK
count,50113.0,50113.0,50113.0,50113.0,50113.0
mean,5706762.0,2.843254,3.882805,1.445972,1.23435
std,3497724.0,0.37176,1.915327,0.797055,0.437318
min,1011101.0,1.0,1.0,1.0,1.0
25%,2500728.0,3.0,2.0,1.0,1.0
50%,5100209.0,3.0,3.0,1.0,1.0
75%,8200725.0,3.0,6.0,2.0,1.0
max,12601240.0,3.0,7.0,3.0,3.0


#### Unfallkategorie

In [130]:
###########################################
# Auslesen Unfall-Kategorie aus Metadaten #
###########################################

df_unfallkategorie = df_metadaten_unfaelle[df_metadaten_unfaelle['Spaltenname'] == 'UKATEGORIE']
df_unfallkategorie

Unnamed: 0,Spaltenname,Inhalt
21,UKATEGORIE,Unfallkategorie
22,UKATEGORIE,1 = Unfall mit Getöteten
23,UKATEGORIE,2 = Unfall mit Schwerverletzten
24,UKATEGORIE,3 = Unfall mit Leichtverletzten


#### Unfalltyp

In [131]:
#####################################
# Auslesen Unfall-Typ aus Metadaten #
#####################################

df_unfalltyp = df_metadaten_unfaelle[df_metadaten_unfaelle['Spaltenname'] == 'UTYP1']
df_unfalltyp

Unnamed: 0,Spaltenname,Inhalt
41,UTYP1,Unfalltyp
42,UTYP1,1 = Fahrunfall
43,UTYP1,2 = Abbiegeunfall
44,UTYP1,3 = Einbiegen / Kreuzen-Unfall
45,UTYP1,4 = Überschreiten-Unfall
46,UTYP1,5 = Unfall durch ruhenden Verkehr
47,UTYP1,6 = Unfall im Längsverkehr
48,UTYP1,7 = sonstiger Unfall


#### Lichtverhältnisse

In [132]:
############################################
# Auslesen Lichtverhältnisse aus Metadaten #
############################################

df_lichtverhaeltnisse = df_metadaten_unfaelle[df_metadaten_unfaelle['Spaltenname'] == 'ULICHTVERH']
df_lichtverhaeltnisse

Unnamed: 0,Spaltenname,Inhalt
49,ULICHTVERH,Lichtverhältnisse:
50,ULICHTVERH,0 = Tageslicht
51,ULICHTVERH,1 = Dämmerung
52,ULICHTVERH,2 = Dunkelheit


#### Strassenzustand

In [133]:
#########################################
# Auslesen Straßenzustand aus Metadaten #
#########################################

df_strassenzustand = df_metadaten_unfaelle[df_metadaten_unfaelle['Spaltenname'] == 'USTRZUSTAND']
df_strassenzustand

Unnamed: 0,Spaltenname,Inhalt
22,USTRZUSTAND,Straßenzustand:
23,USTRZUSTAND,0 = trocken
24,USTRZUSTAND,1 = nass/feucht/schlüpfrig
25,USTRZUSTAND,2 = winterglatt


Wie zu sehen sind die Dataframes noch nicht wirklich Datenbankkonform, da unteranderem Werte noch nicht atomar vorliegen und allgemein noch nicht benötigte Werte in den Dataframes vorhanden sind.

Dies wird nun korrigiert

#### Transformation

In [134]:
###########################
# Anpassen der Dataframes #
###########################

def dropAndRenameDF(df: pd.DataFrame, indexName: str, columnName: str):

    # DROP
    df = df.drop(['Spaltenname'], axis=1)
    df['Inhalt'] = df['Inhalt'].str.split('=', expand=True)[1]
    df = df.drop(df.index[:1])

    # RENAME column with values
    df = df.rename(columns={'Inhalt': columnName})

    # NEW INDEX
    df.index       = [x for x in range(1, len(df.values)+1)]
    df.index.name  = indexName

    return df

In [135]:
df_unfallkategorie    = dropAndRenameDF(df_unfallkategorie,'Unfallkategorie_ID' ,'Unfallkategorie')
df_unfalltyp          = dropAndRenameDF(df_unfalltyp, 'Unfalltyp_ID' ,'Unfalltyp')
df_lichtverhaeltnisse = dropAndRenameDF(df_lichtverhaeltnisse,'Lichtverhaeltnisse_ID' ,'Lichtverhaeltnisse')
df_strassenzustand    = dropAndRenameDF(df_strassenzustand,'Strassenzustand_ID', 'Strassenzustand')

#### Lebensorientierte Räume (LOR)


##### Auslesen der Rohdaten für LORs

In [143]:
################
# PDF einlesen #
################

def importLORPDF(file_path):
  """Einlesen PDF, spezifisch Seite 3, da dort die benötigten LOR-Informationen stehen"""

  file = PdfReader(file_path)
  text = file.pages[3].extract_text()

  # Löschung von ungewollten Strings aus, welche bei Analyse der PDF mit übernommen wurden
  to_delete = ["Schlüssel", "Name", "Prognoseräume Bezirksregionen Planungsraum Bezirk- und nsverzeichnis der lebensweltlich orientierten Räume",
               "Prognoseräume", "Bezirkregionen", "Planungsraum", "Bezirk", "- und nsverzeichnis der lebensweltlich orientierten Räume",
               "sregionen"]
  for entry in to_delete:
      text = text.replace(entry, "")

  return text

In [144]:
#################################
# Auftrennen von IDs und Werten #
#################################

def extractKeyValues(input_string: str):
  """LOR-ID und LOR-Werte aus  Gesamt-String trennen"""

  # Aufteilung des Strings in ID (numerische Werte) und Values (Bezeichnungen) durch Regex-Pattern
  pattern = r'(\d+)\s(.*?)(?=\s\d{3,}|\Z)'

  # IDs und Werte aus dem String extrahieren
  matches = re.findall(pattern, input_string, re.DOTALL)

  # Ergebnislisten für key (LOR-ID) und value (LOR-Werte)
  key = []
  values = []

  # Schleife über alle matches
  for match in matches:
    key.append(match[0])                      # hinzufügen erster Wert (ID) zu ID-Liste
    value = re.sub(r'^\d+\n', '', match[1])   # Extrahieren von IDs und Werten und Entfernen von '\n', hinzufügen vom zweiten Wert
    value = value.replace('\n', '')           # 'neue Zeile' aus String löschen
    values.append(value)                      # neuen Wert hinzufügen

  return key, values

In [145]:
###############################################################
# LOR in Bezirk, Prognoseraum, Bezirksregion und Planungsraum #
###############################################################

def analyzeLOR(key, value):
  """IDs und Werte aufteilen nach Bezirk (erste 2 Stellen der ID),
                                  Prognoseraum (erste 4 Stellen der ID),
                                  Bezirksregion (erste 6 Stellen der ID),
                                  Planungsraum (vollständige ID)"""

  # Definition der jeweiligen Ergebnislisten
  bezirk = []
  prognoseraum = []
  bezirksregion = []
  planungsraum = []

  # Schleife von 0 bis Länge der Key_Liste
  for i in range(0, len(key)):

    if len(key[i]) == 2:
      bezirk.append((key[i], value[i]))

    elif len(key[i]) == 4:
      prognoseraum.append((key[i], value[i]))

    elif len(key[i]) == 6:
      bezirksregion.append((key[i], value[i]))

    elif len(key[i]) >= 8:
      planungsraum.append((key[i], value[i]))

  return bezirk, prognoseraum, bezirksregion, planungsraum

In [146]:
#########################################
# Aufruf der vorher definierten Methode #
#########################################

# Alle Dateien mit der Endung '.pdf' auslesen und in Liste speichern
pdfs = [datei for datei in os.listdir(data_path+'/LOR') if datei.endswith(".pdf")]

# Definition von Zwischenspeicherliste
all_keys    = []
all_values  = []

# Schleife über alle Pdf-Datei in der Liste 'pdfs'
for pdf in pdfs:

  temp_pdf = importLORPDF(data_path+'/LOR/'+pdf)  # Pdf einlesen
  key, value = extractKeyValues(temp_pdf)         # LOR-ID und LOR-Werte dieser PDF speichern

  all_keys.extend(key)        # Keys der einzelnen PDF, zur Liste aller Keys der PDFs hinzufügen
  all_values.extend(value)    # Values der einzelnen PDF, zur Liste aller Values der PDFs hinzufügen

bezirk, prognoseraum, bezirksregion, planungsraum = analyzeLOR(all_keys, all_values)  # Analyse der all_keys, all_values per analyzeLOR() um eine Liste für jeden Raum zu erhalten

In [147]:
########################
# Dataframes erstellen #
########################

df_bezirk = pd.DataFrame(data=bezirk, columns=['Bezirk_ID', 'Bezirk'])    # Dataframe erstellen
df_bezirk.set_index('Bezirk_ID', inplace= True)                           # Neuen Index aus Spalte 'Bezirk_ID' erstellen

df_prognoseraum   = pd.DataFrame(data=prognoseraum, columns=['Prognoseraum_ID', 'Prognoseraum'])
df_bezirksregion  = pd.DataFrame(data=bezirksregion, columns=['Bezirksregion_ID', 'Bezirksregion'])
df_planungsraum   = pd.DataFrame(data=planungsraum, columns=['Planungsraum_ID', 'Planungsraum'])

In [148]:
######################################################
# Dataframe für erstellen und Verknüpfung hinzufügen #
######################################################

def addLORRelation(df: pd.DataFrame, df_index_column: str, foreign_index_column: str,id_splitter: int):

  index_column = df[f'''{df_index_column}''']
  list_id       = []

  for id in index_column:
    list_id.append(id[:id_splitter])

  df.insert(len(df.columns), column=f'''{foreign_index_column}_FK''', value= list_id)
  df.set_index(df_index_column, inplace= True)

  return df

In [149]:
df_prognoseraum   = addLORRelation(df_prognoseraum, 'Prognoseraum_ID', 'Bezirk_ID',2)
df_bezirksregion  = addLORRelation(df_bezirksregion, 'Bezirksregion_ID', 'Prognoseraum_ID', 4)
df_planungsraum   = addLORRelation(df_planungsraum, 'Planungsraum_ID','Bezirksregion_ID', 6)

In [150]:
df_planungsraum

Unnamed: 0_level_0,Planungsraum,Bezirksregion_ID_FK
Planungsraum_ID,Unnamed: 1_level_1,Unnamed: 2_level_1
01100101,Stülerstraße,011001
01100102,Großer Tiergarten,011001
01100103,Lützowstraße,011001
01100104,Körnerstraße,011001
01100205,Wilhelmstraße,011002
...,...,...
11401137,Erieseering,114011
11501238,Rummelsburg,115012
11501339,Karlshorst West,115013
11501340,Karlshorst Nord,115013


In [151]:
#######################
# Dataframes anpassen #
#######################
# Leider konnten nicht alle Werte durch das Regex korrekt erfasst werden, weshalb diese hier noch einmal explizit angepasst werden

for index, row in df_prognoseraum.iterrows():

  if row['Prognoseraum'] == 'Lichtenber g Nord ':
    df_prognoseraum.at[index, 'Prognoseraum'] = 'Lichtenberg Nord'

  elif row['Prognoseraum'] == ' Fennpfuhl ':
    df_prognoseraum.at[index, 'Prognoseraum'] = 'Fennpfuhl'

##### LOR-Koordinaten

In [152]:
##########################################################
# Koordinaten in einheitliches Koordinatenformat bringen #
##########################################################
# Lieder Koordinaten in unterschiedlichen Dateiformanten
# Werden hier vor dem einlesen in einheitliches Format transformiert

def transformJSON(path_in: str, path_out: str, df: pd.DataFrame, value_column: str, LORID: str, LORNAME: str):

    # GeoJSON-Daten einlesen
    with open(path_in, 'r') as f:
        data = json.load(f)

    # Koordinatensystem definieren
    original_crs = "EPSG:32633"       # Ursprung: UTM
    target_crs = "EPSG:4326"          # Ziel:     WGS84 (dezimale Darstellung)

    # Transformater erstellen
    transformer = Transformer.from_crs(original_crs, target_crs)

    for feature in data['features']:

        # Entschlüsselung des Namens
        for index, row in df.iterrows():

          if index == feature['properties'][LORID]:

              feature['properties'][LORNAME] = row[value_column]

        # Überprüfung des Koordinatenformats
        if 'Bezirk' in df.columns:
            continue  # Überspringe die Transformation, wenn bereits im Zielkoordinatensystem

        if feature['geometry']['type'] == 'Polygon':

            # Einzelnes Polygon
            coords = feature['geometry']['coordinates'][0]  # Koordinaten des ersten Rings
            new_coords = [transformer.transform(x, y) for x, y in coords]  # Transformation der Koordinaten
            new_coords = [(y, x) for x, y in new_coords]  # Änderung der Reihenfolge
            feature['geometry']['coordinates'][0] = new_coords

        elif feature['geometry']['type'] == 'MultiPolygon':
            # Multipolygon
            for polygon_coords in feature['geometry']['coordinates']:
                for ring_coords in polygon_coords:
                    new_coords = [transformer.transform(x, y) for x, y in ring_coords]  # Transformation der Koordinaten
                    new_coords = [(y, x) for x, y in new_coords]  # Änderung der Reihenfolge
                    ring_coords[:] = new_coords

    # GeoJSON mit den konvertierten Koordinaten speichern
    with open(path_out, 'w', encoding= 'utf-8') as f:
        json.dump(data, f, ensure_ascii=False)

In [153]:
transformJSON(data_path+'/LOR/coordinates/bezirke.geojson',       data_path+'/LOR/coordinates/wgs84/bezirke_wgs84.geojson',       df_bezirk,        'Bezirk',         'Gemeinde_schluessel',  'Gemeinde_name')
transformJSON(data_path+'/LOR/coordinates/prognoseraum.geojson',  data_path+'/LOR/coordinates/wgs84/prognoseraum_wgs84.geojson',  df_prognoseraum,  'Prognoseraum',   'PGR_ID',               'PGR_NAME')
transformJSON(data_path+'/LOR/coordinates/bezirksregion.geojson', data_path+'/LOR/coordinates/wgs84/bezirksregion_wgs84.geojson', df_bezirksregion, 'Bezirksregion',  'BZR_ID',               'BZR_NAME')
transformJSON(data_path+'/LOR/coordinates/planungsraum.geojson',  data_path+'/LOR/coordinates/wgs84/planungsraum_wgs84.geojson',  df_planungsraum,  'Planungsraum',   'PLR_ID',               'PLR_NAME')

In [154]:
##################################
# Koordinaten aus Datei auslesen #
##################################
# Hinweis: um eine geeignete Kartendarstellung in Power BI zu ermöglichen, werden Koordinaten benötigt

def readJSON(path: str):
  """JSON-Dateien auslesen und als JSON-Objekt zurückgeben"""

  with open(path, 'r') as file:
    output = json.load(file)

  return output

In [155]:
# Methodenaufruf
planungsraum_geo    = readJSON(data_path+'/LOR/coordinates/wgs84/planungsraum_wgs84.geojson')

##### Stammdaten für Datenbank vorbereiten
Bei der Erstellung der Fremdschlüsselbeziehungen in der Datenbank ist aufgefallen, dass für die Planungsraum_ID keine Beziehung erstellt werden kann. Eine nähere Analyse des Problems zeigte auf, dass alle Teildatensätze von df_unfall ein LOR_ab_2021 Attribute haben, bis auf den Datensatz von 2019.

Durch bespielhafte Suchen konnte festgestellt werden, dass im Datensatz nur die LORs von vor 2021 enhalten waren, weshalb ein Mapping auf die nach 2021 nicht möglich ist.

Um dem Problem entgegen zu wirken, wurden die betroffenen IDs, welhce keinen Eintrag im df_Planungsraum haben anhand ihrer Strassekennung identifiziert und anschließend die alte LOR durch die neue erstetzt. Dies traf aber leider auch nicht auf alle betroffenen Datentupel zu....

Sollte die Strasse nicht im df_planungsraum gefunden werden, dann wurden die Koordinaten von dem Unfall ausgelesen und mit den Polygonen der Planungsräumen abgeglichen. Wenn ein Punkt in dem Polygon liegt, dann wird die alte LOR durch die LOR ersetzt.

Durch dieses Vorgehen konnten manuelle Anpassungen an den Rohdaten, eine Elimination des Datensatz, als auch eine Verzerrung der Daten vermieden werden.

In [156]:
#####################################
# Koordinaten in Dataframe einfügen #
#####################################

def addCOORDINATES(jsonfile: dict, df: pd.DataFrame, LORID: str):
    """Koordinaten den entsprechenden LORs über Index zuweisen"""

    # Neue Spalte 'Koordinaten' im DataFrame erstellen
    df['Koordinaten'] = None

    # Indizes des DataFrames in eine Liste von Strings konvertieren
    index = [str(num) for num in df.index]

    # Iteration über alle Features im GeoJSON
    for obj in jsonfile['features']:
        # ID des Objekts aus den Eigenschaften extrahieren
        id = obj['properties'][LORID]

        # Anpassung der Bezirks-IDs, falls erforderlich
        if 'Bezirk' in df.columns:
            id = id[1:]

        # Iteration über alle Indizes im DataFrame
        for i in index:
            if i == id:
                coordinates = obj['geometry']['coordinates']  # Koordinaten des Objekts aus dem GeoJSON extrahieren

                if obj['geometry']['type'] == 'Polygon':
                    # Nur die äußere Kontur verwenden, um ein Polygon zu erstellen
                    polygon = Polygon(coordinates[0])
                    df.at[i, 'Koordinaten'] = polygon
                    print("Polygon Koordinaten eingefügt:", coordinates[0])  # Debugging-Ausgabe

                elif obj['geometry']['type'] == 'MultiPolygon':
                    # Erstellen von MultiPolygonen
                    polygons = []
                    for polygon_coords in coordinates:
                        poly_coords = []
                        for coord in polygon_coords[0]:
                            # Koordinaten im richtigen Format extrahieren (lat, lon)
                            lat, lon = coord[0], coord[1]
                            poly_coords.append((lat, lon))
                        poly = Polygon(poly_coords)
                        polygons.append(poly)
                    multipolygon = MultiPolygon(polygons)
                    df.at[i, 'Koordinaten'] = multipolygon

                else:
                    print("Unbekannter Geometrietyp:", obj['geometry']['type'])
                    continue

    return df

In [157]:
# Methodenaufruf
df_planungsraum   = addCOORDINATES(planungsraum_geo, df_planungsraum, 'PLR_ID')
df_planungsraum

Unnamed: 0_level_0,Planungsraum,Bezirksregion_ID_FK,Koordinaten
Planungsraum_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
01100101,Stülerstraße,011001,MULTIPOLYGON (((13.349232392565362 52.50307265...
01100102,Großer Tiergarten,011001,MULTIPOLYGON (((13.376862123511701 52.51963690...
01100103,Lützowstraße,011001,MULTIPOLYGON (((13.349232392565362 52.50307265...
01100104,Körnerstraße,011001,MULTIPOLYGON (((13.369528193946069 52.49886975...
01100205,Wilhelmstraße,011002,MULTIPOLYGON (((13.37650010845128 52.516016209...
...,...,...,...
11401137,Erieseering,114011,MULTIPOLYGON (((13.513517161270201 52.50530382...
11501238,Rummelsburg,115012,MULTIPOLYGON (((13.475496114573351 52.50188275...
11501339,Karlshorst West,115013,MULTIPOLYGON (((13.505977325763633 52.49113207...
11501340,Karlshorst Nord,115013,MULTIPOLYGON (((13.552597157047254 52.47365228...


In [158]:
#############################################################################################
# Anzeigen von Indizes, welche in df_unfaelle, aber nicht in df_planungsraum enthalten sind #
#############################################################################################

# Überprüfen, ob für jeden Eintrag in df_unfaelle ein korrelierender Eintrag in df_planungsraum existiert
test = df_unfaelle['Planungsraum_ID_FK'].isin(df_planungsraum.index).all()

# Anzeigen von Indizes, welche in df_unfaelle, aber nicht in df_planungsraum enthalten sind
missing_ids = df_unfaelle[~df_unfaelle['Planungsraum_ID_FK'].isin(df_planungsraum.index)]['Planungsraum_ID_FK']

print("Unfall-IDs ohne korrelierende Einträge in df_planungsraum:")
print(missing_ids)

Unfall-IDs ohne korrelierende Einträge in df_planungsraum:
Unfall_ID
1         2500729
2        12500824
3         2400520
4         7200308
5         3200206
           ...   
50115     4300414
50116     4400726
50117     2400520
50118     7300619
50119    12400723
Name: Planungsraum_ID_FK, Length: 50113, dtype: int64


In [159]:
###############################################################################
# Transformation von nicht vorhandenen IDs von df_unfaelle in df_planungsraum #
###############################################################################

# Iteration über die Zeilen des DataFrames df_unfaelle
for index, row in df_unfaelle.iterrows():

    # Erstellen eines Punktes mit den Koordinaten aus der aktuellen Zeile von df_unfaelle
    point = Point(row['X-Koordinate'], row['Y-Koordinate'])

    # Überprüfen, ob der Punkt in einem der Polygone der Planungsräume liegt
    for planungsraum_id, planungsraum_multipolygon in df_planungsraum['Koordinaten'].items():

        if planungsraum_multipolygon.contains(point):
            # Ersetzen der Planungsraum_ID_FK durch die entsprechende ID
            df_unfaelle.at[index, 'Planungsraum_ID_FK'] = planungsraum_id
            break  # Beenden der Schleife, wenn der Punkt gefunden wurde

df_unfaelle

Unnamed: 0_level_0,Planungsraum_ID_FK,Unfallkategorie_ID_FK,Unfallart_ID_FK,Unfalltyp_ID_FK,Lichtverhaeltnisse_ID_FK,Strassenzustand_ID_FK,X-Koordinate,Y-Koordinate,Zeit_ID_FK_in_Unfaelle
Unfall_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,02500729,3,7,4,1,2,13.475018,52.513597,108
2,12500824,3,3,6,1,1,13.291022,52.587259,78
3,02400520,3,7,4,1,1,13.420578,52.526019,65
4,07200308,3,7,7,3,1,13.348288,52.481844,120
5,03200206,3,7,7,2,2,13.403228,52.583472,108
...,...,...,...,...,...,...,...,...,...
50115,04300414,3,7,2,1,2,13.296345,52.511008,6499
50116,04400726,3,10,1,3,1,13.289496,52.493813,6060
50117,02400520,3,4,6,3,2,13.423095,52.527534,6195
50118,07300619,3,3,6,1,2,13.359259,52.474367,6152


In [160]:
#############################################################################################
# Anzeigen von Indizes, welche in df_unfaelle, aber nicht in df_planungsraum enthalten sind #
#############################################################################################

# Überprüfen, ob für jeden Eintrag in df_unfaelle ein korrelierender Eintrag in df_planungsraum existiert
test = df_unfaelle['Planungsraum_ID_FK'].isin(df_planungsraum.index).all()

# Anzeigen von Indizes, welche in df_unfaelle, aber nicht in df_planungsraum enthalten sind
missing_ids = df_unfaelle[~df_unfaelle['Planungsraum_ID_FK'].isin(df_planungsraum.index)]['Planungsraum_ID_FK']

print("Unfall-IDs ohne korrelierende Einträge in df_planungsraum:")
print(missing_ids)

Unfall-IDs ohne korrelierende Einträge in df_planungsraum:
Series([], Name: Planungsraum_ID_FK, dtype: object)


In [161]:
#######################
# Dataframes anpassen #
#######################
# Koordinaten werden ab hier nicht mehr im DataFrame bzw. später in der SQL benötigt
# Koordinaten wurden nur zur Überprüfung der IDs benötigt

df_planungsraum = df_planungsraum.drop(['Koordinaten'], axis= 1)

## Dataframes to CSV
Um eine schnellere Codeausführung vor allem bei Änderungen zu ermöglichen werden die erstellen und transformierten Dataframes jweils als CSV-Datei gespeichert.
Der Code wird in einzelnen Zellen aufgerufen, um mehr Flexbilität bei der Ausführung des Speicherbefehls zu haben.

**Unfälle**

In [162]:
df_unfaelle.to_csv(temp_path+'/df_unfaelle.csv')

In [163]:
df_unfallbeteiligte_kategorien.to_csv(temp_path+'/df_unfallbeteiligte_kategorien.csv')

In [164]:
df_unfaelle_unfallbeteiligte_relation.to_csv(temp_path+'/df_unfaelle_unfallbeteiligte_relation.csv')

In [165]:
df_unfallart.to_csv(temp_path+'/df_unfallart.csv')

In [166]:
df_zeit.to_csv(temp_path+'/df_zeit.csv')

In [167]:
df_unfallkategorie.to_csv(temp_path+'/df_unfallkategorie.csv')

In [168]:
df_unfalltyp.to_csv(temp_path+'/df_unfalltyp.csv')

In [169]:
df_lichtverhaeltnisse.to_csv(temp_path+'/df_lichtverhaeltnisse.csv')

In [170]:
df_strassenzustand.to_csv(temp_path+'/df_strassenzustand.csv')

**LOR**

In [171]:
df_bezirk.to_csv(temp_path+'/df_bezirk.csv')

In [172]:
df_prognoseraum.to_csv(temp_path+'/df_prognoseraum.csv')

In [173]:
df_bezirksregion.to_csv(temp_path+'/df_bezirksregion.csv')

In [174]:
df_planungsraum.to_csv(temp_path+'/df_planungsraum.csv')

# Baustellen

## Stammdaten

#### Laden

In [175]:
##########################################################
# Koordinaten aus Datei auslesen und Dataframe erstellen #
##########################################################

# Daten einlesen
data = pd.read_json(data_path+'/Baustellen/baustellen_sperrungen.json')   # Einlesen JSON und Speicherung als Pandas Object
df_baustellen= pd.json_normalize(data['features'])                        # Dataframe erstellen aus Pandas Object, ab Ebene 'features'

# neuen Index erstellen
df_baustellen.index       = [x for x in range(1, len(df_baustellen.values)+1)]  # neuen Index erstellen
df_baustellen.index.name  = 'Baustellen_ID'                                     # Namen von Index ändern

df_baustellen   # Dataframe ausgeben

Unnamed: 0_level_0,type,properties.id,properties.tstore,properties.objectState,properties.subtype,properties.severity,properties.validity.from,properties.validity.to,properties.direction,properties.icon,properties.is_future,properties.street,properties.section,properties.content,geometry.type,geometry.coordinates,geometry.geometries
Baustellen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
1,Feature,2147349726,2024-02-14T10:09:31.458000Z,modified,Störung,keine Sperrung,15.02.2024 17:30,15.02.2024 20:00,Beidseitig,warnung,True,Mercedes-Platz (Friedrichshain),"Bereich Mühlenstr., Stralauer Allee, Warschaue...","Veranstaltung, dichter Verkehr zu erwarten. De...",Point,"[13.44344729778232, 52.505832535615625]",
2,Feature,2147350638,2024-02-14T13:13:37.234000Z,modified,Baustelle,keine Sperrung,15.02.2024 10:00,23.08.2024 17:00,Einseitig,baustelle,True,Sachsendamm (Schöneberg),Richtung Dominicusstraße zwischen Hedwig-Dohm-...,Fahrbahn auf einen Fahrstreifen verengt. Vom V...,GeometryCollection,,"[{'type': 'Point', 'coordinates': [13.35883177..."
3,Feature,2147350636,2024-02-13T10:08:51.440000Z,modified,Baustelle,keine Sperrung,15.02.2024 07:00,11.03.2024 17:00,Einseitig,baustelle,True,Großbeerenstraße (Mariendorf),stadtauswärts zwischen Kitzingstraße und Wilhe...,"Instandsetzungsarbeiten, Fahrbahn auf einen Fa...",GeometryCollection,,"[{'type': 'Point', 'coordinates': [13.37679985..."
4,Feature,2147350640,2024-02-14T09:58:00.977000Z,modified,Baustelle,keine Sperrung,15.02.2024 07:00,01.04.2024 23:59,Beidseitig,baustelle,True,Königstraße (Wannsee),,,GeometryCollection,,"[{'type': 'Point', 'coordinates': [13.15787259..."
5,Feature,LMS-BR_r_LMS-BR_325351_LMS-BR_72,2024-02-14T18:14:34.495000Z,modified,Sperrung,,14.02.2024 19:13,14.02.2024 21:14,,sperrung,,Am Kiesteich (Falkenhagener Feld),Staaken in Richtung Spandau zwischen Im Spekte...,"gesperrt, Verkehrsbehinderung durch Bergungsar...",GeometryCollection,,"[{'type': 'Point', 'coordinates': [13.16255999..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
301,Feature,2147343519,2024-02-02T07:24:07.350000Z,new,Sperrung,Vollsperrung,27.11.2018 09:00,08.07.2024 17:00,Beidseitig,sperrung,,Pankgrafenstraße (Karow),in beiden Richtungen (zwischen Boenkestraße un...,"Brückenarbeiten, Vollsperrung",Point,"[13.468874825468912, 52.61451096018626]",
302,Feature,2147343486,2024-02-02T07:24:07.366000Z,new,Baustelle,keine Sperrung,12.11.2018 15:04,29.02.2024 17:00,Beidseitig,baustelle,,Bismarckstraße (Charlottenburg),Richtung Ernst-Reuter-Platz Höhe Wilmersdorfer...,"Baustelle, Fahrbahn auf drei Fahrstreifen verengt",Point,"[13.30517700155737, 52.5114841045217]",
303,Feature,2147341997,2024-02-02T07:24:07.350000Z,new,Baustelle,keine Sperrung,03.11.2017 12:54,30.06.2024 17:00,Beidseitig,baustelle,,Mehringdamm (Kreuzberg),in beiden Richtungen zwischen Schwiebusser Str...,"Baustelle, Fahrbahnverschwenkung, Fahrstreifen...",Point,"[13.386030261001782, 52.48608119479517]",
304,Feature,AdbNO_r_AdbNO_88_AdB-NO,2024-02-14T18:14:05.930000Z,modified,Gefahr,,02.09.2017 00:00,,Einseitig,warnung,,A100 (Stadtring Berlin),Wedding Richtung Wilmersdorf Dreieck Funkturm ...,"rechter Fahrstreifen gesperrt, vorübergehende ...",GeometryCollection,,"[{'type': 'Point', 'coordinates': [13.28111, 5..."


### Transformation

In [176]:
######################
# Dataframe anpassen #
######################

# Spalten, welche in Liste  angeben sind, löschen
df_baustellen = df_baustellen.drop(['properties.id','type', 'properties.tstore', 'properties.objectState',
                                    'properties.is_future', 'properties.street', 'properties.section',
                                    'geometry.type', 'geometry.coordinates', 'geometry.geometries'], axis=1)

# Spalten umbenennen
df_baustellen = df_baustellen.rename(columns={
    'properties.subtype': 'Baustellenart',
    'properties.severity': 'Baustellentyp',
    'properties.validity.from':  'Beginn',
    'properties.validity.to': 'Ende',
    'properties.direction': 'Seite Sperrung',
    'properties.icon': 'Icon',
    'properties.content': 'Beschreibung'
})

df_baustellen # Dataframe ausgeben

Unnamed: 0_level_0,Baustellenart,Baustellentyp,Beginn,Ende,Seite Sperrung,Icon,Beschreibung
Baustellen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,Störung,keine Sperrung,15.02.2024 17:30,15.02.2024 20:00,Beidseitig,warnung,"Veranstaltung, dichter Verkehr zu erwarten. De..."
2,Baustelle,keine Sperrung,15.02.2024 10:00,23.08.2024 17:00,Einseitig,baustelle,Fahrbahn auf einen Fahrstreifen verengt. Vom V...
3,Baustelle,keine Sperrung,15.02.2024 07:00,11.03.2024 17:00,Einseitig,baustelle,"Instandsetzungsarbeiten, Fahrbahn auf einen Fa..."
4,Baustelle,keine Sperrung,15.02.2024 07:00,01.04.2024 23:59,Beidseitig,baustelle,
5,Sperrung,,14.02.2024 19:13,14.02.2024 21:14,,sperrung,"gesperrt, Verkehrsbehinderung durch Bergungsar..."
...,...,...,...,...,...,...,...
301,Sperrung,Vollsperrung,27.11.2018 09:00,08.07.2024 17:00,Beidseitig,sperrung,"Brückenarbeiten, Vollsperrung"
302,Baustelle,keine Sperrung,12.11.2018 15:04,29.02.2024 17:00,Beidseitig,baustelle,"Baustelle, Fahrbahn auf drei Fahrstreifen verengt"
303,Baustelle,keine Sperrung,03.11.2017 12:54,30.06.2024 17:00,Beidseitig,baustelle,"Baustelle, Fahrbahnverschwenkung, Fahrstreifen..."
304,Gefahr,,02.09.2017 00:00,,Einseitig,warnung,"rechter Fahrstreifen gesperrt, vorübergehende ..."


In [177]:
################################
# Koordinaten nochmal einlesen #
################################
# Koordinaten wurden nicht korrekt eingelesen (siehe erste Codeabschnitt, letzte Spalten)
# hier Koordinaten nochmal eingelesen und direkt als well known text (WKT) konvertiert (erleichtert Verwendung in Power BI)

# JSON-Datei laden
with open(data_path+'/Baustellen/baustellen_sperrungen.json', 'r') as file:
    geometries = json.load(file)

# Liste für WKT-Ausgaben definieren
wkt = []

# alle Geometrien aus JSON-Datei auslesen
for geometry in geometries['features']:

    shapely_geometry = shape(geometry['geometry'])
    wkt.append(shapely_geometry.wkt)

df_baustellen.insert(loc=len(df_baustellen.columns), column='Koordinaten',value= wkt)
df_baustellen

Unnamed: 0_level_0,Baustellenart,Baustellentyp,Beginn,Ende,Seite Sperrung,Icon,Beschreibung,Koordinaten
Baustellen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,Störung,keine Sperrung,15.02.2024 17:30,15.02.2024 20:00,Beidseitig,warnung,"Veranstaltung, dichter Verkehr zu erwarten. De...",POINT (13.44344729778232 52.505832535615625)
2,Baustelle,keine Sperrung,15.02.2024 10:00,23.08.2024 17:00,Einseitig,baustelle,Fahrbahn auf einen Fahrstreifen verengt. Vom V...,GEOMETRYCOLLECTION (POINT (13.358831774611156 ...
3,Baustelle,keine Sperrung,15.02.2024 07:00,11.03.2024 17:00,Einseitig,baustelle,"Instandsetzungsarbeiten, Fahrbahn auf einen Fa...",GEOMETRYCOLLECTION (POINT (13.376799859856225 ...
4,Baustelle,keine Sperrung,15.02.2024 07:00,01.04.2024 23:59,Beidseitig,baustelle,,GEOMETRYCOLLECTION (POINT (13.157872592942146 ...
5,Sperrung,,14.02.2024 19:13,14.02.2024 21:14,,sperrung,"gesperrt, Verkehrsbehinderung durch Bergungsar...",GEOMETRYCOLLECTION (POINT (13.162559999997972 ...
...,...,...,...,...,...,...,...,...
301,Sperrung,Vollsperrung,27.11.2018 09:00,08.07.2024 17:00,Beidseitig,sperrung,"Brückenarbeiten, Vollsperrung",POINT (13.468874825468912 52.61451096018626)
302,Baustelle,keine Sperrung,12.11.2018 15:04,29.02.2024 17:00,Beidseitig,baustelle,"Baustelle, Fahrbahn auf drei Fahrstreifen verengt",POINT (13.30517700155737 52.5114841045217)
303,Baustelle,keine Sperrung,03.11.2017 12:54,30.06.2024 17:00,Beidseitig,baustelle,"Baustelle, Fahrbahnverschwenkung, Fahrstreifen...",POINT (13.386030261001782 52.48608119479517)
304,Gefahr,,02.09.2017 00:00,,Einseitig,warnung,"rechter Fahrstreifen gesperrt, vorübergehende ...","GEOMETRYCOLLECTION (POINT (13.28111 52.50336),..."


In [178]:
#####################################
# Nachträgliche Anpassung Dataframe #
#####################################
# bei Visualisierung festgestellt, dass 7 und 9 keine Baustelle in Berlin sind und somit keine Bewandnis für Projekt haben
# werden hier gelöscht

df_baustellen.drop(7, inplace=True)
df_baustellen.drop(9, inplace=True)

df_baustellen.index       = [x for x in range(1, len(df_baustellen.values)+1)]  # neuen Index erstellen
df_baustellen.index.name  = 'Baustellen_ID'                                     # Namen von Index ändern

df_baustellen

Unnamed: 0_level_0,Baustellenart,Baustellentyp,Beginn,Ende,Seite Sperrung,Icon,Beschreibung,Koordinaten
Baustellen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,Störung,keine Sperrung,15.02.2024 17:30,15.02.2024 20:00,Beidseitig,warnung,"Veranstaltung, dichter Verkehr zu erwarten. De...",POINT (13.44344729778232 52.505832535615625)
2,Baustelle,keine Sperrung,15.02.2024 10:00,23.08.2024 17:00,Einseitig,baustelle,Fahrbahn auf einen Fahrstreifen verengt. Vom V...,GEOMETRYCOLLECTION (POINT (13.358831774611156 ...
3,Baustelle,keine Sperrung,15.02.2024 07:00,11.03.2024 17:00,Einseitig,baustelle,"Instandsetzungsarbeiten, Fahrbahn auf einen Fa...",GEOMETRYCOLLECTION (POINT (13.376799859856225 ...
4,Baustelle,keine Sperrung,15.02.2024 07:00,01.04.2024 23:59,Beidseitig,baustelle,,GEOMETRYCOLLECTION (POINT (13.157872592942146 ...
5,Sperrung,,14.02.2024 19:13,14.02.2024 21:14,,sperrung,"gesperrt, Verkehrsbehinderung durch Bergungsar...",GEOMETRYCOLLECTION (POINT (13.162559999997972 ...
...,...,...,...,...,...,...,...,...
299,Sperrung,Vollsperrung,27.11.2018 09:00,08.07.2024 17:00,Beidseitig,sperrung,"Brückenarbeiten, Vollsperrung",POINT (13.468874825468912 52.61451096018626)
300,Baustelle,keine Sperrung,12.11.2018 15:04,29.02.2024 17:00,Beidseitig,baustelle,"Baustelle, Fahrbahn auf drei Fahrstreifen verengt",POINT (13.30517700155737 52.5114841045217)
301,Baustelle,keine Sperrung,03.11.2017 12:54,30.06.2024 17:00,Beidseitig,baustelle,"Baustelle, Fahrbahnverschwenkung, Fahrstreifen...",POINT (13.386030261001782 52.48608119479517)
302,Gefahr,,02.09.2017 00:00,,Einseitig,warnung,"rechter Fahrstreifen gesperrt, vorübergehende ...","GEOMETRYCOLLECTION (POINT (13.28111 52.50336),..."


## Gefahrenbereiche um Baustellen

Das ein Unfall inmitten einer Baustellen passiert ist eher unwahrscheinlich. Deswegen wurde jeweils um den Punkt einer Baustellen bzw. um den Anfangs- Endpunkt einer Baustellen ein Gefahrenbereich definiert.

Dabei ist die Prämisse: Sobald ein Unfall von den Koordinaten innerhalb dieses definierten Bereiches liegt, ist anzunehmen, dass die Baustellen zu diesem geführt hat.

Sofern es die Daten zu lassen, könnte man auch historisch vergleichen, ob es seit der Baustelle dort zu mehr Unfällen gekommen ist, um eine noch qualifiziertere Aussage zu treffen. Das würde hier aber schon etwas zu weit führen.



In [179]:
#################################################
# Definition des Gefahrenbereichs um Baustellen #
#################################################
# Hinweis: Auf der Karte wird das Polygon oval dargestellt.
# Die Distanz vom Mittelpunkt zu den den einzelnen Punkten, welche fianle das Polygon defnieren sind aber identisch, weshalb nur von einer falschen Darstellung auf der Karte auszugehen ist.

def testPolygon():
    """Karte mit einem Polygon erstellen"""

    # Mittelpunkt und Radius um den Mittelpunkt definieren
    center_point = Point(13.412842, 52.521974)
    radius = 0.001

    polygon = center_point.buffer(radius, resolution=50)                        # Erstelle ein regelmäßiges Polygon mit 50 Seiten um den Mittelpunkt
    m = folium.Map(location=[center_point.y, center_point.x], zoom_start=900)   # Erstelle eine Karte mit dem Mittelpunkt als Zentrum

    folium.GeoJson(polygon.__geo_interface__).add_to(m)                                       # Füge das Polygon zur Karte hinzu
    folium.Marker(location=[center_point.y, center_point.x], popup='Mittelpunkt').add_to(m)   # Füge den Mittelpunkt zur Karte hinzu

    return m

# Karte anzeigen
map = testPolygon()
map

In [180]:
###############################################################################
# Auslesen der ersten und letzten Koordinaten für Definition Gefahrenbereiche #
###############################################################################

# Koordinaten als Liste einlesen
geometry_wkt = df_baustellen['Koordinaten'].to_list()

# Baustellen-IDs als Liste einlesen
baustellen_id = df_baustellen.index.to_list()

# Definition eines neuen temporären mehrdimensionalen Dataframes
columns = pd.MultiIndex.from_product([['Anfangspunkt', 'Endpunkt'], ['X-Koordinate', 'Y-Koordinate']], names=['', ''])  # Spalten erstellen
geometry_temp_list = []  # Eine leere Liste für temporäre Speicherung

# Schleife, welche jedes Geometryobjekt aus der Koordinatenliste ausliest
for geometry in geometry_wkt:

  # Geometryobjekt laden
  geometry = loads(geometry)

  # Prüfung ob Objekttyp 'GeometryCollection'
  if geometry.geom_type == 'GeometryCollection':

      first_line = geometry.geoms[0]                                  # Indizierung beginnt bei 0, nicht bei 1
      first_coordinate = [first_line.xy[0][0], first_line.xy[1][0]]   # Koordinate des ersten LineString-Objekts
      last_coordinate = [first_line.xy[0][-1], first_line.xy[1][-1]]  # Koordinate des letzen LineString-Objekts

  else:

      first_coordinate = [geometry.x, geometry.y]     # Koordinaten des Punktes hinzufügen
      last_coordinate = [geometry.x, geometry.y]      # Ersten und letzten Koordinaten identisch, da nur ein Objekt

  # Ersten und letzten Koordinaten zu temporärer Liste hinzufügen
  geometry_temp_list.append(pd.DataFrame([first_coordinate + last_coordinate], columns=columns))

# Zusammenführen der temporären DataFrames zu einem DataFrame
geometry_temp = pd.concat(geometry_temp_list, ignore_index=True)

# Neuen Index festlegen
geometry_temp.insert(loc=0, column='Baustellen_ID', value=baustellen_id)  # Liste der Baustellen-IDs als Spalte hinzufügen
geometry_temp.set_index('Baustellen_ID', inplace=True)                     # Baustellen-IDs als neuen Index setzen

geometry_temp  # Dataframe anzeigen

Unnamed: 0_level_0,Anfangspunkt,Anfangspunkt,Endpunkt,Endpunkt
Unnamed: 0_level_1,X-Koordinate,Y-Koordinate,X-Koordinate,Y-Koordinate
Baustellen_ID,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,13.443447,52.505833,13.443447,52.505833
2,13.358832,52.475931,13.358832,52.475931
3,13.376800,52.431729,13.376800,52.431729
4,13.157873,52.419350,13.157873,52.419350
5,13.162560,52.548320,13.162560,52.548320
...,...,...,...,...
299,13.468875,52.614511,13.468875,52.614511
300,13.305177,52.511484,13.305177,52.511484
301,13.386030,52.486081,13.386030,52.486081
302,13.281110,52.503360,13.281110,52.503360


In [181]:
#####################################################
# Abgleich Koordinaten Unfall ob in Gefahrenbereich #
#####################################################

def precompute_polygons(construction_sites_df, radius):
    """Berechnet vorab die Polygone für jede Baustelle basierend auf den Start- und Endpunkten."""
    polygons = []
    for _, row in construction_sites_df.iterrows():
        start_point = Point(row['Anfangspunkt']['X-Koordinate'], row['Anfangspunkt']['Y-Koordinate'])
        end_point   = Point(row['Endpunkt']['X-Koordinate'], row['Endpunkt']['Y-Koordinate'])
        # Polygone basierend auf dem Radius um Start- und Endpunkt erstellen
        polygons.append((start_point.buffer(radius), end_point.buffer(radius)))
    return polygons

def checkifpointinPolygon(accidents_df, construction_sites_df):
    """Überprüft, ob ein Unfallpunkt innerhalb des Gefahrenbereichs liegt, der durch Baustellen-Polygone definiert wird."""

    # Radius für den Gefahrenbereich
    radius = 0.001

    # Liste für Ergebnisdaten
    results_list = []

    # Vorab berechnete Polygone für jede Baustelle
    polygons = precompute_polygons(construction_sites_df, radius)

    # Über jeden Unfallpunkt im Unfall-Datenframe iterieren
    for accident_index, accident_row in accidents_df.iterrows():
        accident_point = Point(accident_row['X-Koordinate'], accident_row['Y-Koordinate'])

        # Prüfen, ob der Unfallpunkt innerhalb eines der vorberechneten Polygone liegt
        for construction_index, (polygon_start, polygon_end) in enumerate(polygons):
            if polygon_start.contains(accident_point) or polygon_end.contains(accident_point):
                # Neuen Eintrag als Dictionary erstellen
                new_entry = {'Unfall_ID_FK': accident_index, 'Baustellen_ID_FK': construction_index}
                results_list.append(new_entry)

                print(accident_index)

    # Liste von Dictionaries in einen DataFrame umwandeln
    results_df = pd.DataFrame(results_list)

    return results_df

In [182]:
# Methodenaufruf
df_unfaelle_baustellen_relation = checkifpointinPolygon(df_unfaelle, geometry_temp)                            # Funktionsaufruf, um die Beziehung zwischen Unfällen und Baustellen zu bestimmen

# Neuen Index setzen
df_unfaelle_baustellen_relation.index       = [x for x in range(1, len(df_unfaelle_baustellen_relation.values)+1)]  # Index neu definieren
df_unfaelle_baustellen_relation.index.name  = 'Gefahrenbereich_ID'                                                  # Indexnamen setzen

df_unfaelle_baustellen_relation   # Dataframe anzeigen

4
26
36
36
39
51
51
60
79
86
91
136
174
202
202
210
224
244
253
259
260
261
269
291
297
311
313
329
330
348
358
358
367
373
374
385
390
409
425
432
432
433
438
452
484
488
488
496
513
538
554
565
571
576
578
597
599
599
599
600
608
608
610
615
616
616
616
616
625
625
625
628
634
634
634
634
636
653
662
666
676
676
698
704
708
718
718
718
718
724
724
773
773
777
821
821
823
827
835
836
837
837
850
866
882
885
887
922
937
943
944
958
979
979
979
979
983
1000
1003
1028
1028
1092
1108
1108
1117
1120
1124
1127
1150
1158
1163
1185
1198
1200
1200
1210
1226
1231
1231
1245
1246
1272
1272
1277
1280
1280
1285
1300
1305
1312
1315
1316
1319
1362
1374
1379
1395
1395
1395
1395
1398
1402
1402
1405
1405
1417
1422
1439
1441
1445
1447
1468
1473
1473
1476
1477
1481
1487
1488
1525
1530
1543
1548
1552
1559
1566
1571
1576
1604
1611
1622
1622
1623
1635
1662
1681
1682
1683
1688
1696
1733
1733
1738
1738
1766
1766
1769
1769
1769
1769
1772
1782
1786
1786
1791
1796
1814
1845
1853
1859
1860
1860
1860
1880
1880
1880

Unnamed: 0_level_0,Unfall_ID_FK,Baustellen_ID_FK
Gefahrenbereich_ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,4,171
2,26,275
3,36,256
4,36,257
5,39,169
...,...,...
3155,50088,295
3156,50104,2
3157,50111,287
3158,50114,96


## Transformation Baustellen-Koordinaten für Power BI

In [183]:
###########################################
# Transformation Koordinaten für Power BI #
###########################################

# Extrahiere die Geometrieobjekte aus dem DataFrame und konvertiere sie in eine Liste
geometry_objects = df_baustellen['Koordinaten'].to_list()

# Eine leere Liste für die transformierten Geometriezeichenfolgen erstellen
geometry_strings = []

# Iteriere über jedes Geometrieobjekt
for geometry in geometry_objects:

    geometry = str(geometry)                                                                                                                    # Konvertiere das Geometrieobjekt in eine Zeichenfolge
    geometry = geometry.replace('POINT ', 'POINT').replace('GEOMETRYCOLLECTION ', 'GEOMETRYCOLLECTION').replace('LINESTRING ', 'LINESTRING')    # Entferne Leerzeichen
    geometry_strings.append(geometry)                                                                                                           # Füge transformierte Zeichenfolge zu Liste hinzu


df_baustellen = df_baustellen.drop(['Koordinaten'], axis=1)                                          # Entferne die ursprüngliche Spalte aus DataFrame
df_baustellen.insert(loc=len(df_baustellen.columns), column='Koordinaten', value=geometry_strings)   # Füge transformierten Liste als neue Spalte hinzu

df_baustellen   # Dataframe anzeigen

Unnamed: 0_level_0,Baustellenart,Baustellentyp,Beginn,Ende,Seite Sperrung,Icon,Beschreibung,Koordinaten
Baustellen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,Störung,keine Sperrung,15.02.2024 17:30,15.02.2024 20:00,Beidseitig,warnung,"Veranstaltung, dichter Verkehr zu erwarten. De...",POINT(13.44344729778232 52.505832535615625)
2,Baustelle,keine Sperrung,15.02.2024 10:00,23.08.2024 17:00,Einseitig,baustelle,Fahrbahn auf einen Fahrstreifen verengt. Vom V...,GEOMETRYCOLLECTION(POINT(13.358831774611156 52...
3,Baustelle,keine Sperrung,15.02.2024 07:00,11.03.2024 17:00,Einseitig,baustelle,"Instandsetzungsarbeiten, Fahrbahn auf einen Fa...",GEOMETRYCOLLECTION(POINT(13.376799859856225 52...
4,Baustelle,keine Sperrung,15.02.2024 07:00,01.04.2024 23:59,Beidseitig,baustelle,,GEOMETRYCOLLECTION(POINT(13.157872592942146 52...
5,Sperrung,,14.02.2024 19:13,14.02.2024 21:14,,sperrung,"gesperrt, Verkehrsbehinderung durch Bergungsar...",GEOMETRYCOLLECTION(POINT(13.162559999997972 52...
...,...,...,...,...,...,...,...,...
299,Sperrung,Vollsperrung,27.11.2018 09:00,08.07.2024 17:00,Beidseitig,sperrung,"Brückenarbeiten, Vollsperrung",POINT(13.468874825468912 52.61451096018626)
300,Baustelle,keine Sperrung,12.11.2018 15:04,29.02.2024 17:00,Beidseitig,baustelle,"Baustelle, Fahrbahn auf drei Fahrstreifen verengt",POINT(13.30517700155737 52.5114841045217)
301,Baustelle,keine Sperrung,03.11.2017 12:54,30.06.2024 17:00,Beidseitig,baustelle,"Baustelle, Fahrbahnverschwenkung, Fahrstreifen...",POINT(13.386030261001782 52.48608119479517)
302,Gefahr,,02.09.2017 00:00,,Einseitig,warnung,"rechter Fahrstreifen gesperrt, vorübergehende ...","GEOMETRYCOLLECTION(POINT(13.28111 52.50336), L..."


In [184]:
import json
from shapely.geometry import shape, Point, LineString, MultiPoint, MultiLineString
import numpy as np

# JSON-Datei laden
with open(data_path+'/Baustellen/baustellen_sperrungen.json', 'r') as file:
    geometries = json.load(file)

# Listen für die WKT-Ausgaben definieren
wkt_linestrings = []

# Alle Geometrien aus der JSON-Datei auslesen
for feature in geometries['features']:
    geometry = feature.get('geometry')
    if geometry:
        geometries = geometry.get('geometries', [])

        # Initialisiere leere Listen für Punkte und Linien
        linestrings = []

        #Durchlaufe die Geometrien und trenne sie in Punkte und Linien
        for geom in geometries:

            geom_type = geom.get('type')
            coordinates = geom.get('coordinates', [])

            if geom_type == 'Point':
                linestrings.append(coordinates)

            elif geom_type == 'LineString':

                for coordinate in coordinates:
                    linestrings.append(coordinate)

        line = LineString(linestrings)

        if not line.is_empty:
            wkt_linestrings.append(line.wkt.replace('LINESTRING ', 'LINESTRING'))

wkt_object_count = 0

for index, row in df_baustellen.iterrows():

  if 'GEOMETRYCOLLECTION' in row['Koordinaten']:
    df_baustellen.loc[index,'Koordinaten'] = wkt_linestrings[wkt_object_count]
    wkt_object_count += 1

df_baustellen

Unnamed: 0_level_0,Baustellenart,Baustellentyp,Beginn,Ende,Seite Sperrung,Icon,Beschreibung,Koordinaten
Baustellen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,Störung,keine Sperrung,15.02.2024 17:30,15.02.2024 20:00,Beidseitig,warnung,"Veranstaltung, dichter Verkehr zu erwarten. De...",POINT(13.44344729778232 52.505832535615625)
2,Baustelle,keine Sperrung,15.02.2024 10:00,23.08.2024 17:00,Einseitig,baustelle,Fahrbahn auf einen Fahrstreifen verengt. Vom V...,LINESTRING(13.358831774611156 52.4759305988577...
3,Baustelle,keine Sperrung,15.02.2024 07:00,11.03.2024 17:00,Einseitig,baustelle,"Instandsetzungsarbeiten, Fahrbahn auf einen Fa...",LINESTRING(13.376799859856225 52.4317290212451...
4,Baustelle,keine Sperrung,15.02.2024 07:00,01.04.2024 23:59,Beidseitig,baustelle,,LINESTRING(13.157872592942146 52.4193499571626...
5,Sperrung,,14.02.2024 19:13,14.02.2024 21:14,,sperrung,"gesperrt, Verkehrsbehinderung durch Bergungsar...",LINESTRING(13.162559999997972 52.5483200386627...
...,...,...,...,...,...,...,...,...
299,Sperrung,Vollsperrung,27.11.2018 09:00,08.07.2024 17:00,Beidseitig,sperrung,"Brückenarbeiten, Vollsperrung",POINT(13.468874825468912 52.61451096018626)
300,Baustelle,keine Sperrung,12.11.2018 15:04,29.02.2024 17:00,Beidseitig,baustelle,"Baustelle, Fahrbahn auf drei Fahrstreifen verengt",POINT(13.30517700155737 52.5114841045217)
301,Baustelle,keine Sperrung,03.11.2017 12:54,30.06.2024 17:00,Beidseitig,baustelle,"Baustelle, Fahrbahnverschwenkung, Fahrstreifen...",POINT(13.386030261001782 52.48608119479517)
302,Gefahr,,02.09.2017 00:00,,Einseitig,warnung,"rechter Fahrstreifen gesperrt, vorübergehende ...",LINESTRING(13.557685015297613 52.5616380122451...


## Dataframes to CSV

In [185]:
df_baustellen.to_csv(temp_path+'/df_baustellen.csv')

In [186]:
df_unfaelle_baustellen_relation.to_csv(temp_path+'/df_unfaelle_baustellen_relation.csv')

# Verkehrslage


## Verkehrsdetektoren

### Stammdaten laden

In [187]:
############################
# Daten in Dataframe laden #
############################

df_verkehrsdetektoren_stamm = pd.read_excel(data_path+'/Verkehrslage/Verkehrsdetektion_Stammdaten.xlsx')                    # Laden der Daten aus Excel
df_verkehrsdetektoren_stamm

Unnamed: 0,MQ_KURZNAME,DET_NAME_ALT,DET_NAME_NEU,DET_ID15,MQ_ID15,STRASSE,POSITION,POS_DETAIL,RICHTUNG,SPUR,annotation,LÄNGE (WGS84),BREITE (WGS84),INBETRIEBNAHME,ABBAUDATUM,DEINSTALLIERT,KOMMENTAR
0,TE001,TEU00002_Det0,TE001_Det_HF1,100101010000167,100201010000077,A115,AS Spanische Allee – Brücke,AK Zehlendorf,Südwest,HF_R,Hauptfahrbahn rechte Spur,13.192578,52.433868,2003-02-18,NaT,,
1,TE001,TEU00002_Det1,TE001_Det_HF2,100101010000268,100201010000077,A115,AS Spanische Allee – Brücke,AK Zehlendorf,Südwest,HF_2vR,"Hauptfahrbahn, 2. Spur von rechts",13.192578,52.433868,2003-02-18,NaT,,
2,TE002,TEU00002_Det2,TE002_Det_HF1,100101010000369,100201010000178,A115,AS Spanische Allee – Brücke,AD Funkturm,Nordost,HF_R,Hauptfahrbahn rechte Spur,13.192747,52.433813,2003-02-18,NaT,,
3,TE002,TEU00002_Det3,TE002_Det_HF2,100101010000470,100201010000178,A115,AS Spanische Allee – Brücke,AD Funkturm,Nordost,HF_2vR,"Hauptfahrbahn, 2. Spur von rechts",13.192747,52.433813,2003-02-18,NaT,,
4,TE004,TEU00004_Det0,TE004_Det_HF1,100101010000874,100201010000380,Clayallee,zwischen Scharfestraße und Propst-Süssmilch-We...,Potsdamer Chaussee,Süd,HF_R,Hauptfahrbahn rechte Spur,13.261301,52.436642,2003-02-18,NaT,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
577,TE583,teuscalaS00000DD00384D1,TE583_Det_HF2,100101010097975,100201010055348,Tempelhofer Damm,zwischen Burgemeisterstraße und Friedrich-Wilh...,Nord,Nord,HF_2vR,"Hauptfahrbahn, 2. Spur von rechts",13.384196,52.457440,2018-03-01,NaT,X,
578,TE592,teuscalaS00000DD00391D0,TE592_Det_HF1,100101010099692,100201010056257,Kaiser-Friedrich-Straße,zwischen Schillerstraße und Pestalozzistraße,Süd,Süd,HF_R,Hauptfahrbahn rechte Spur,13.301719,52.509232,2018-04-27,NaT,X,
579,TE592,teuscalaS00000DD00391D1,TE592_Det_HF2,100101010099793,100201010056257,Kaiser-Friedrich-Straße,zwischen Schillerstraße und Pestalozzistraße,Süd,Süd,HF_2vR,"Hauptfahrbahn, 2. Spur von rechts",13.301719,52.509232,2018-04-27,NaT,X,
580,TE593,teuscalaS00000DD00392D0,TE593_Det_HF1,100101010099894,100201010056358,Kaiser-Friedrich-Straße,zwischen Pestalozzistraße und Schillerstraße,Nord,Nord,HF_R,Hauptfahrbahn rechte Spur,13.302183,52.508531,2018-04-27,NaT,X,


In [188]:
######################
# Dataframe anpassen #
######################

# Fehlerhafte Einzelwerte werden ersetzt / geändert

def replacefalsestreet(cur_street, new_street):
  """Falsche Straßennamen (cur_street) werden durch neuen Straßnamen (new_street) ersetzt"""

  index_list = df_verkehrsdetektoren_stamm.loc[df_verkehrsdetektoren_stamm['STRASSE'] == cur_street].index  # Index der aktuellen Straße erhalten

  for index in index_list:
    df_verkehrsdetektoren_stamm.at[index, 'STRASSE'] = new_street # neuen Straßnamen hinzufügen

# Methodenaufruf
replacefalsestreet('Joachimstaler Straße', 'Joachimsthaler Straße')
replacefalsestreet('Ollenhauer Straße', 'Ollenhauerstraße')
replacefalsestreet('Lietzenburger Str', 'Lietzenburger Straße')
replacefalsestreet('Klingelhöfer Straße', 'Klingelhöferstraße')
replacefalsestreet('Brunsbüttler Damm', 'Brunsbütteler Damm')
replacefalsestreet('Müllerstraße (Weddingplatz)', 'Müllerstraße')

# Löschen von nicht benötigten Attributen
df_verkehrsdetektoren_stamm = df_verkehrsdetektoren_stamm.drop(['DET_NAME_ALT', 'DET_NAME_NEU', 'DET_ID15', 'MQ_ID15', 'POSITION', 'POS_DETAIL',
                                                           'RICHTUNG', 'SPUR', 'annotation', 'LÄNGE (WGS84)','BREITE (WGS84)', 'INBETRIEBNAHME',
                                                           'ABBAUDATUM', 'DEINSTALLIERT', 'KOMMENTAR'], axis= 1)

# Spalten Namen anpassen
df_verkehrsdetektoren_stamm = df_verkehrsdetektoren_stamm.rename(columns={'MQ_KURZNAME':'Verkehrsdetektor_ID', 'STRASSE': 'Strasse'})
df_verkehrsdetektoren_stamm = df_verkehrsdetektoren_stamm.drop_duplicates(subset=['Verkehrsdetektor_ID'])                               # Duplikate vorhanden, da teilweise pro Fahrbahn und Fahrtrichtrung mehrere Sensoren

df_verkehrsdetektoren_stamm # Dataframe anzeigen

Unnamed: 0,Verkehrsdetektor_ID,Strasse
0,TE001,A115
2,TE002,A115
4,TE004,Clayallee
6,TE005,Berliner Straße
8,TE006,Teltower Damm
...,...,...
572,TE581,Tempelhofer Damm
574,TE582,Tempelhofer Damm
576,TE583,Tempelhofer Damm
578,TE592,Kaiser-Friedrich-Straße


### Koordinaten laden

In [189]:
########################
# Daten aus JSON laden #
########################

def readJSON(path: str):
  """JSON-Dateien auslesen und als JSON-Objekt zurückgeben"""

  with open(path, 'r') as file:
    output = json.load(file)

  return output

strassen_geo = readJSON(data_path+'/Verkehrslage/Strassen/Strassenabschnitte.geojson')

In [190]:
#####################################################################################
# Straßenkoordinaten mit allen Straßen, wo Verkehrsdektoren vorhanden sind, kombinieren #
#####################################################################################

def getStreetCoordinates(streets, strassen_geo):
    """Alle Koordinaten von einer bestimmten Straße in Berlin erhalten"""

    # Liste, um Daten für den DataFrame zu sammeln
    all_coordinates_data = []

    # Iteriere über jede Straße in der Liste der Straßen mit Verkehrsdektoren
    for street_name in streets:

        # Eine temporäre Liste, um Koordinaten zu speichern
        coordinates = []

        # Iteriere über jedes geometrische Objekt in den Straßendaten
        for obj in strassen_geo['features']:

            # Überprüfe, ob der Straßenname mit dem aktuellen geometrischen Objekt übereinstimmt
            if (street_name == obj['properties']['strassenna']) or (street_name == obj['properties']['str_bez']):

                # Füge die Koordinaten des aktuellen geometrischen Objekts zur Liste hinzu
                for sublist in obj['geometry']['coordinates']:
                    line = LineString(sublist)
                    coordinates.append(line)


        all_coordinates = MultiLineString(coordinates)                                    # Konvertiere die Liste von Linienobjekten in ein MultiLineString-Objekt
        all_coordinates = str(all_coordinates)                                            # Konvertiere das MultiLineString-Objekt in das Well-Known-Text-Format (WKT)
        all_coordinates = all_coordinates.replace('MULTILINESTRING ', 'MULTILINESTRING')  # Entferne Leerzeichen im WKT-Format

        all_coordinates_data.append({'Strasse': street_name, 'Koordinaten': all_coordinates})   # Füge Straßenname und Koordinaten zum Daten-Dictionary hinzu

    return pd.DataFrame(all_coordinates_data)

# Erstelle eine Liste aller Straßen, in denen Verkehrsdektoren vorhanden sind
strassen_verkehrsdetektoren     = df_verkehrsdetektoren_stamm['Strasse'].drop_duplicates().tolist()
df_verkehrsdetektoren_strassen  = getStreetCoordinates(strassen_verkehrsdetektoren, strassen_geo)    # Rufe die Funktion auf, um die Koordinaten für diese Straßen zu erhalten

df_verkehrsdetektoren_strassen  # Dataframe anzeigen

Unnamed: 0,Strasse,Koordinaten
0,A115,MULTILINESTRING((13.196894851809894 52.4176904...
1,Clayallee,MULTILINESTRING((13.260447206563455 52.4350639...
2,Berliner Straße,MULTILINESTRING((13.306542103843816 52.4882921...
3,Teltower Damm,MULTILINESTRING((13.260447206563455 52.4350639...
4,Großbeerenstraße,MULTILINESTRING((13.385338984610096 52.4989646...
...,...,...
134,Leipziger Platz,MULTILINESTRING((13.376703805814136 52.5095081...
135,Katzbachstraße,MULTILINESTRING((13.376597152653456 52.4850418...
136,Boelckestraße,MULTILINESTRING((13.377557492530348 52.4755608...
137,Manteuffelstraße,MULTILINESTRING((13.37547287668994 52.45545441...


### Verkehrsdetektoren, Koordinaten verknüpfen

In [191]:
##############################################
# Verkehrsdetektoren über Strasse verknüpfen #
##############################################

df_verkehrsdetektoren = pd.merge(df_verkehrsdetektoren_stamm, df_verkehrsdetektoren_strassen, on='Strasse', how='left')   # Dataframes zusammenführen
df_verkehrsdetektoren['Verkehrsdetektor_ID'] = df_verkehrsdetektoren['Verkehrsdetektor_ID'].str.replace('TE', '')         # TE löschen
df_verkehrsdetektoren.set_index('Verkehrsdetektor_ID', inplace= True)                                                     # Neuen Index aus Spalte 'Planungsraum_ID' erstellen

df_verkehrsdetektoren   # Dataframe anzeigen

Unnamed: 0_level_0,Strasse,Koordinaten
Verkehrsdetektor_ID,Unnamed: 1_level_1,Unnamed: 2_level_1
001,A115,MULTILINESTRING((13.196894851809894 52.4176904...
002,A115,MULTILINESTRING((13.196894851809894 52.4176904...
004,Clayallee,MULTILINESTRING((13.260447206563455 52.4350639...
005,Berliner Straße,MULTILINESTRING((13.306542103843816 52.4882921...
006,Teltower Damm,MULTILINESTRING((13.260447206563455 52.4350639...
...,...,...
581,Tempelhofer Damm,MULTILINESTRING((13.384248859231208 52.4540182...
582,Tempelhofer Damm,MULTILINESTRING((13.384248859231208 52.4540182...
583,Tempelhofer Damm,MULTILINESTRING((13.384248859231208 52.4540182...
592,Kaiser-Friedrich-Straße,MULTILINESTRING((13.299604018123611 52.5195988...


## Verkehrsaufkommen

### Datensätze laden

In [192]:
####################
# Datensätze laden #
####################

def readcombine(year):
  """Mehrere Datensätze von Verkehrsaufkommen jahresweise zusammenführen """

  # Definiere den Pfad zum Verzeichnis, in dem sich die Dateien befinden, und kombiniere den Pfad mit dem angegebenen Jahr
  path = data_path + f'/Verkehrslage/{year}/'

  # Suche nach allen Dateien mit der Erweiterung .csv.gz im angegebenen Verzeichnis
  files = glob.glob(os.path.join(path, "*.csv.gz"))

  # Initialisiere einen leeren DataFrame
  df = pd.DataFrame()

  # Iteriere über jede gefundene Datei
  for file in files:

    df_df = pd.read_csv(file, sep=';', encoding='ISO-8859-1')   # Lese die CSV-Datei in einen DataFrame ein
    df = pd.concat([df, df_df])                                 # Dataframes zusammenführen

  return df

# Initialisiere einen leeren DataFrame für das Verkehrsaufkommen
df_verkehrsaufkommen = pd.DataFrame()
df_verkehrsaufkommen = pd.concat([readcombine(2018), readcombine(2019), readcombine(2020), readcombine(2021)])  # Kombiniere die Daten aus den Jahren 2018 bis 2021, indem die Funktion 'readcombine' für jedes Jahr aufgerufen wird

df_verkehrsaufkommen    # Dataframe anzeigen

Unnamed: 0,mq_name,tag,stunde,qualitaet,q_kfz_mq_hr,v_kfz_mq_hr,q_pkw_mq_hr,v_pkw_mq_hr,q_lkw_mq_hr,v_lkw_mq_hr
0,TE001,01.02.2018,0,1.0,123,71,90,75,33,59
1,TE001,01.02.2018,1,1.0,82,74,62,76,20,69
2,TE001,01.02.2018,2,1.0,75,71,47,81,28,55
3,TE001,01.02.2018,3,1.0,97,82,56,85,41,77
4,TE001,01.02.2018,4,1.0,204,73,143,76,61,64
...,...,...,...,...,...,...,...,...,...,...
122777,TE559,30.11.2021,19,1.0,259,27,253,27,6,26
122778,TE559,30.11.2021,20,1.0,192,31,191,31,1,32
122779,TE559,30.11.2021,21,1.0,141,30,141,30,0,-1
122780,TE559,30.11.2021,22,1.0,120,32,119,32,1,31


### Transformation in einheitliches Format

In [193]:
######################
# Dataframe anpassen #
######################

# Spalten entfernen
df_verkehrsaufkommen = df_verkehrsaufkommen.drop(['qualitaet'], axis=1)

# Spalten umbenennen entsprechend Datenbankschema
df_verkehrsaufkommen = df_verkehrsaufkommen.rename(columns={'mq_name': 'Verkehrsdetektor_ID_FK',
                                                            'q_kfz_mq_hr': 'Anzahl_KFZ',
                                                            'v_kfz_mq_hr': 'Geschwindigkeit_KFZ',
                                                            'q_pkw_mq_hr': 'Anzahl_PKW',
                                                            'v_pkw_mq_hr': 'Geschwindigkeit_PKW',
                                                            'q_lkw_mq_hr': 'Anzahl_LKW',
                                                            'v_lkw_mq_hr': 'Geschwindigkeit_LKW'})

# Index neu definieren
df_verkehrsaufkommen.index      = [x for x in range(1, len(df_verkehrsaufkommen.values)+1)]
df_verkehrsaufkommen.index.name = 'Verkehrsaufkommen_ID'
df_verkehrsaufkommen

Unnamed: 0_level_0,Verkehrsdetektor_ID_FK,tag,stunde,Anzahl_KFZ,Geschwindigkeit_KFZ,Anzahl_PKW,Geschwindigkeit_PKW,Anzahl_LKW,Geschwindigkeit_LKW
Verkehrsaufkommen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,TE001,01.02.2018,0,123,71,90,75,33,59
2,TE001,01.02.2018,1,82,74,62,76,20,69
3,TE001,01.02.2018,2,75,71,47,81,28,55
4,TE001,01.02.2018,3,97,82,56,85,41,77
5,TE001,01.02.2018,4,204,73,143,76,61,64
...,...,...,...,...,...,...,...,...,...
8385214,TE559,30.11.2021,19,259,27,253,27,6,26
8385215,TE559,30.11.2021,20,192,31,191,31,1,32
8385216,TE559,30.11.2021,21,141,30,141,30,0,-1
8385217,TE559,30.11.2021,22,120,32,119,32,1,31


### Verkehrsaufkommen und Zeitdimension verküpfen

In [194]:
####################################################################
# Zeiten splitten seperate Spalten für Jahr, Monat, Tag, Wochentag #
####################################################################

df_verkehrsaufkommen['tag'] = pd.to_datetime(df_verkehrsaufkommen['tag'], format='%d.%m.%Y')

wochentage = ['Montag', 'Dienstag', 'Mittwoch', 'Donnerstag', 'Freitag', 'Samstag', 'Sonntag']

df_verkehrsaufkommen['Tag']       = df_verkehrsaufkommen['tag'].dt.day
df_verkehrsaufkommen['Monat']     = df_verkehrsaufkommen['tag'].dt.month
df_verkehrsaufkommen['Jahr']      = df_verkehrsaufkommen['tag'].dt.year
df_verkehrsaufkommen['Wochentag'] = [wochentage[dt.weekday()] for dt in df_verkehrsaufkommen['tag']]

df_verkehrsaufkommen = df_verkehrsaufkommen.drop(['tag'], axis=1)
df_verkehrsaufkommen

Unnamed: 0_level_0,Verkehrsdetektor_ID_FK,stunde,Anzahl_KFZ,Geschwindigkeit_KFZ,Anzahl_PKW,Geschwindigkeit_PKW,Anzahl_LKW,Geschwindigkeit_LKW,Tag,Monat,Jahr,Wochentag
Verkehrsaufkommen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,TE001,0,123,71,90,75,33,59,1,2,2018,Donnerstag
2,TE001,1,82,74,62,76,20,69,1,2,2018,Donnerstag
3,TE001,2,75,71,47,81,28,55,1,2,2018,Donnerstag
4,TE001,3,97,82,56,85,41,77,1,2,2018,Donnerstag
5,TE001,4,204,73,143,76,61,64,1,2,2018,Donnerstag
...,...,...,...,...,...,...,...,...,...,...,...,...
8385214,TE559,19,259,27,253,27,6,26,30,11,2021,Dienstag
8385215,TE559,20,192,31,191,31,1,32,30,11,2021,Dienstag
8385216,TE559,21,141,30,141,30,0,-1,30,11,2021,Dienstag
8385217,TE559,22,120,32,119,32,1,31,30,11,2021,Dienstag


In [195]:
###################################################
# Zeiten Verkehrsaufkommen durch Zeit-ID ersetzen #
###################################################

def verkehrsaufkommenzeit(df, df_zeit):
    # Wandelt den Index 'Zeit_ID' in eine Spalte um
    df_zeit = df_zeit.reset_index()

    # Erzeuge eine eindeutige Schlüsselspalte in beiden DataFrames zur Identifikation
    df['temp_key'] = df['Jahr'].astype(str) + '-' + df['Monat'].astype(str) + '-' + df['stunde'].astype(str) + '-' + df['Wochentag'].astype(str)
    df_zeit['temp_key'] = df_zeit['Jahr'].astype(str) + '-' + df_zeit['Monat'].astype(str) + '-' + df_zeit['Stunde'].astype(str) + '-' + df_zeit['Wochentag'].astype(str)

    # Füge den DataFrame df_zeit zu df hinzu, um die Zeit-IDs zu erhalten
    df = df.merge(df_zeit[['temp_key', 'Zeit_ID']], on='temp_key', how='left')

    # Entferne die temporären und unnötigen Spalten
    df.drop(columns=['temp_key'], inplace=True)

    # Benenne die Zeit_ID um
    df.rename(columns={'Zeit_ID': 'Zeit_ID_FK'}, inplace=True)

    return df

In [196]:
# Methodenaufruf für alle Daten von 8.000.000 bis letzte Zeile
df_verkehrsaufkommen = verkehrsaufkommenzeit(df_verkehrsaufkommen, df_zeit)

### Transforamtion für Datenbank

In [197]:
##################################################################################
# DataFrame nach Stunde, Wochentag, Jahr und Monat gruppieren und zusammenfassen #
###############################################################s
df_verkehrsaufkommen = df_verkehrsaufkommen.groupby(['Verkehrsdetektor_ID_FK','stunde', 'Wochentag', 'Jahr', 'Monat']).agg({
    'Anzahl_KFZ':             'mean',
    'Geschwindigkeit_KFZ':    'mean',
    'Anzahl_PKW':             'mean',
    'Geschwindigkeit_PKW':    'mean',
    'Anzahl_LKW':             'mean',
    'Geschwindigkeit_LKW':    'mean',
    'Zeit_ID_FK':             'first'
}).reset_index()

df_verkehrsaufkommen = df_verkehrsaufkommen.drop(['Jahr', 'Monat', 'Wochentag', 'stunde'], axis=1)                        # Zeitangaben in df_unfaelle löschen
df_verkehrsaufkommen['Verkehrsdetektor_ID_FK'] = df_verkehrsaufkommen['Verkehrsdetektor_ID_FK'].str.replace('TE', '')     # TE löschen


df_verkehrsaufkommen.index      = [x for x in range(1, len(df_verkehrsaufkommen.values)+1)]
df_verkehrsaufkommen.index.name = 'Verkehrsaufkommen_ID'

df_verkehrsaufkommen

Unnamed: 0_level_0,Verkehrsdetektor_ID_FK,Anzahl_KFZ,Geschwindigkeit_KFZ,Anzahl_PKW,Geschwindigkeit_PKW,Anzahl_LKW,Geschwindigkeit_LKW,Zeit_ID_FK
Verkehrsaufkommen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,001,115.60,67.40,86.20,76.60,29.20,41.00,2
2,001,117.75,72.25,91.75,74.50,26.00,65.50,170
3,001,145.75,80.25,123.50,84.75,22.25,49.50,338
4,001,156.75,62.50,136.25,60.00,20.50,74.00,506
5,001,203.00,59.40,177.40,60.00,25.60,53.20,674
...,...,...,...,...,...,...,...,...
2014501,593,184.60,38.80,179.20,39.00,5.40,26.00,5376
2014502,593,156.00,37.75,150.75,38.25,5.25,14.50,5544
2014503,593,140.50,19.00,139.50,19.00,1.00,8.50,5712
2014504,593,82.40,20.80,80.40,20.80,2.00,11.00,5880


## Dataframe to CSV

In [198]:
df_verkehrsdetektoren.to_csv(temp_path+'/df_verkehrsdetektoren.csv')

In [199]:
df_verkehrsaufkommen.to_csv(temp_path+'/df_verkehrsaufkommen.csv')

# Datenbank

Die Datenbank wird erstellt, um diese anschließend lokal im Bericht nutzen zu können. Zudem können hier bereits alle relevanten Informationen und Verknüpfungen festgelegt werden und nicht erst im Bericht.

Datenbank wird hier erstellt und anschließend in SQL-Code der Datenbank überführt, um diese dann lokal zu nutzen.

## Datenbank initialisieren

In [200]:
# MySQL-Server starten
!service mysql start

# Einmaliges Setzen des root-Passworts auf dem MySQL Server
!mysql -e "ALTER USER 'root'@'localhost' IDENTIFIED WITH mysql_native_password BY 'root';FLUSH PRIVILEGES;"

 * Starting MySQL database server mysqld
   ...done.


In [201]:
with mysql.connector.connect(user='root', password='root', host='localhost') as con, con.cursor() as cursor:
  # Erstellen der Datenbank "OLTP_DB"
  cursor.execute("DROP DATABASE IF EXISTS Unfaelle_DB")
  cursor.execute("CREATE DATABASE IF NOT EXISTS Unfaelle_DB")
  cursor.execute("USE Unfaelle_DB")

from sqlalchemy import create_engine, text
engine_unfaelle = create_engine('mysql+mysqlconnector://root:root@localhost/Unfaelle_DB', echo=False)

## Datenbank konfigurieren

Wie bereits angesprochen wurden Dataframes, welche auch final in der Datenbank genutzt werden soll, als CSV gespeichert. Diese werden hier nun wieder ausgelesen, um die Datenbank zu konfigurieren.

In [202]:
#####################################
# CSV wieder in Dataframes einlesen #
#####################################

# Unfalldaten
df_unfallbeteiligte_kategorien        = pd.read_csv(temp_path+'/df_unfallbeteiligte_kategorien.csv',        index_col='Unfallbeteiligten_ID')
df_unfaelle_unfallbeteiligte_relation = pd.read_csv(temp_path+'/df_unfaelle_unfallbeteiligte_relation.csv', index_col='Unfallbeteiligung_ID')
df_unfallkategorie                    = pd.read_csv(temp_path+'/df_unfallkategorie.csv',                    index_col='Unfallkategorie_ID')
df_unfalltyp                          = pd.read_csv(temp_path+'/df_unfalltyp.csv',                          index_col='Unfalltyp_ID')
df_lichverhaeltnisse                  = pd.read_csv(temp_path+'/df_lichtverhaeltnisse.csv',                 index_col='Lichtverhaeltnisse_ID')
df_strassenzustand                    = pd.read_csv(temp_path+'/df_strassenzustand.csv',                    index_col='Strassenzustand_ID')
df_unfallart                          = pd.read_csv(temp_path+'/df_unfallart.csv',                          index_col='Unfallart_ID')
df_zeit                               = pd.read_csv(temp_path+'/df_zeit.csv',                               index_col='Zeit_ID')
df_unfaelle                           = pd.read_csv(temp_path+'/df_unfaelle.csv',                           index_col='Unfall_ID')

# LOR
df_bezirk                             = pd.read_csv(temp_path+'/df_bezirk.csv',                             index_col='Bezirk_ID')
df_prognoseraum                       = pd.read_csv(temp_path+'/df_prognoseraum.csv',                       index_col='Prognoseraum_ID')
df_bezirksregion                      = pd.read_csv(temp_path+'/df_bezirksregion.csv',                      index_col='Bezirksregion_ID')
df_planungsraum                       = pd.read_csv(temp_path+'/df_planungsraum.csv',                       index_col='Planungsraum_ID')

# Baustellen
df_baustellen                         = pd.read_csv(temp_path+'/df_baustellen.csv',                         index_col='Baustellen_ID')
df_unfaelle_baustellen_relation       = pd.read_csv(temp_path+'/df_unfaelle_baustellen_relation.csv',       index_col='Gefahrenbereich_ID')

# Verkehrsaufkommen
df_verkehrsdetektoren                 = pd.read_csv(temp_path+'/df_verkehrsdetektoren.csv',                 index_col='Verkehrsdetektor_ID')
df_verkehrsaufkommen                  = pd.read_csv(temp_path+'/df_verkehrsaufkommen.csv',                  index_col='Verkehrsaufkommen_ID')

### Erstellung von Tabellen

In [204]:
def createTable(df: pd.DataFrame, tableName: str):
  """Tabellen in Unfalldatenbank erstellen"""

  # Prüfung ob Spalte Koordinaten in Dataframe
  if any('Koordinaten' in col for col in df.columns):
    df.to_sql(con= engine_unfaelle, name=tableName, index= True, if_exists='replace', dtype={'Koordinaten': TEXT(32000)}, chunksize=200)  # Koordinaten sind sehr lange Textobjekte, deswegen extra Datentyp hierfür definiert
  else:
    df.to_sql(con= engine_unfaelle, name=tableName, index= True, if_exists='replace', chunksize=200)                                      # Tabelle 'normal' zur Datenbank hinzufügen, chunksize auf 200 um große Datensätze einzufügen

In [205]:
# Methodenaufruf
createTable(df_unfaelle_baustellen_relation,        'Unfaelle_in_Baustellen')
createTable(df_baustellen,                          'FACT_Baustellen')

createTable(df_unfaelle_unfallbeteiligte_relation,  'Unfallbeteiligte_bei_Unfall')
createTable(df_unfaelle,                            'FACT_Verkehrsunfaelle')
createTable(df_unfallbeteiligte_kategorien,         'Unfallbeteiligte')
createTable(df_unfallkategorie,                     'Unfallkategorie')
createTable(df_lichverhaeltnisse,                   'Lichtverhaeltnisse')
createTable(df_strassenzustand,                     'Strassenzustand')
createTable(df_unfallart,                           'Unfallart')
createTable(df_unfalltyp,                           'Unfalltyp')

createTable(df_planungsraum,                        'Planungsraum')
createTable(df_bezirksregion,                       'Bezirksregion')
createTable(df_prognoseraum,                        'Prognoseraum')
createTable(df_bezirk,                              'Bezirk')

createTable(df_verkehrsaufkommen,                   'FACT_Verkehrsaufkommen')
createTable(df_verkehrsdetektoren,                  'Verkehrsdetektoren')
createTable(df_zeit,                                'Zeit')

### Beziehungen erstellen

In [206]:
def addPrimaryKeyRelation(tables: list, primarycolumn: list):
    """Primärschlüssel definieren"""

    with mysql.connector.connect(user='root', password='root', host='localhost') as con:
        cursor = con.cursor()
        cursor.execute("USE Unfaelle_DB")

        for item, key in zip(tables, primarycolumn):
            query_table_primary_relations = f"""ALTER TABLE {item} ADD PRIMARY KEY ({key});"""

            try:
                cursor.execute(query_table_primary_relations)
                print(f"Primärschlüssel für Tabelle {item} erfolgreich hinzugefügt.")
            except Exception as e:
                print(f"Fehler beim Hinzufügen des Primärschlüssels für Tabelle {item}: {e}")


In [207]:
# alle Tabellen als Liste
tables  = ['Unfallbeteiligte', 'Unfallbeteiligte_bei_Unfall', 'Unfallkategorie','Unfalltyp','Lichtverhaeltnisse', 'Strassenzustand', 'Unfallart', 'Zeit', 'FACT_Verkehrsunfaelle', 'Bezirk',
           'Prognoseraum', 'Bezirksregion', 'Planungsraum', 'FACT_Baustellen', 'Unfaelle_in_Baustellen', 'Verkehrsdetektoren', 'FACT_Verkehrsaufkommen', 'LOR_Koordinaten']

# alle Primärschlüssel Attribute als Liste, wobei jedes Attribute an selber Position wie dazugehörige Tabelle
keys    = ['Unfallbeteiligten_ID', 'Unfallbeteiligung_ID', 'Unfallkategorie_ID', 'Unfalltyp_ID','Lichtverhaeltnisse_ID', 'Strassenzustand_ID', 'Unfallart_ID', 'Zeit_ID', 'Unfall_ID',
           'Bezirk_ID', 'Prognoseraum_ID', 'Bezirksregion_ID', 'Planungsraum_ID', 'Baustellen_ID', 'Gefahrenbereich_ID', 'Verkehrsdetektor_ID', 'Verkehrsaufkommen_ID', 'Koordinaten_ID']

# Methodenaufruf
addPrimaryKeyRelation(tables, keys)

Primärschlüssel für Tabelle Unfallbeteiligte erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Unfallbeteiligte_bei_Unfall erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Unfallkategorie erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Unfalltyp erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Lichtverhaeltnisse erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Strassenzustand erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Unfallart erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Zeit erfolgreich hinzugefügt.
Primärschlüssel für Tabelle FACT_Verkehrsunfaelle erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Bezirk erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Prognoseraum erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Bezirksregion erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Planungsraum erfolgreich hinzugefügt.
Primärschlüssel für Tabelle FACT_Baustellen erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Unfaelle_in_Baustellen e

In [208]:
############################
# Fremdschlüssel festlegen #
############################

query_table_relations = """
ALTER TABLE `FACT_Verkehrsaufkommen`      ADD CONSTRAINT `Zeit_ID_FK`                 FOREIGN KEY (`Zeit_ID_FK`)                REFERENCES `Zeit`(`Zeit_ID`);
ALTER TABLE `FACT_Verkehrsaufkommen`      ADD CONSTRAINT `Verkehrsdetektor_ID_FK`     FOREIGN KEY (`Verkehrsdetektor_ID_FK`)    REFERENCES `Verkehrsdetektoren`(`Verkehrsdetektor_ID`);

ALTER TABLE `Unfaelle_in_Baustellen`      ADD CONSTRAINT `Unfall_ID_FK`               FOREIGN KEY (`Unfall_ID_FK`)              REFERENCES `FACT_Verkehrsunfaelle`(`Unfall_ID`);
ALTER TABLE `Unfaelle_in_Baustellen`      ADD CONSTRAINT `Baustellen_ID_FK`           FOREIGN KEY (`Baustellen_ID_FK`)          REFERENCES `FACT_Baustellen`(`Baustellen_ID`);

ALTER TABLE `Unfallbeteiligte_bei_Unfall` ADD CONSTRAINT `Unfall_ID_FK_in_Unfallbeteiligten`  FOREIGN KEY (`Unfall_ID_FK_in_Unfallbeteiligten`) REFERENCES `FACT_Verkehrsunfaelle`(`Unfall_ID`);
ALTER TABLE `Unfallbeteiligte_bei_Unfall` ADD CONSTRAINT `Unfallbeteiligten_ID_FK`            FOREIGN KEY (`Unfallbeteiligten_ID_FK`)           REFERENCES `Unfallbeteiligte`(`Unfallbeteiligten_ID`);

ALTER TABLE `Planungsraum`                ADD CONSTRAINT `Bezirksregion_ID_FK`              FOREIGN KEY (`Bezirksregion_ID_FK`)             REFERENCES `Bezirksregion`(`Bezirksregion_ID`);
ALTER TABLE `Bezirksregion`               ADD CONSTRAINT `Prognoseraum_ID_FK`               FOREIGN KEY (`Prognoseraum_ID_FK`)              REFERENCES `Prognoseraum`(`Prognoseraum_ID`);
ALTER TABLE `Prognoseraum`                ADD CONSTRAINT `Bezirk_ID_FK`                     FOREIGN KEY (`Bezirk_ID_FK`)                    REFERENCES `Bezirk`(`Bezirk_ID`);

ALTER TABLE `FACT_Verkehrsunfaelle`       ADD CONSTRAINT `Planungsraum_ID_FK`         FOREIGN KEY (`Planungsraum_ID_FK`)        REFERENCES `Planungsraum`(`Planungsraum_ID`);
ALTER TABLE `FACT_Verkehrsunfaelle`       ADD CONSTRAINT `Unfallkategorie_ID_FK`      FOREIGN KEY (`Unfallkategorie_ID_FK`)     REFERENCES `Unfallkategorie`(`Unfallkategorie_ID`);
ALTER TABLE `FACT_Verkehrsunfaelle`       ADD CONSTRAINT `Unfalltyp_ID_FK`            FOREIGN KEY (`Unfalltyp_ID_FK`)           REFERENCES `Unfalltyp`(`Unfalltyp_ID`);
ALTER TABLE `FACT_Verkehrsunfaelle`       ADD CONSTRAINT `Unfallart_ID_FK`            FOREIGN KEY (`Unfallart_ID_FK`)           REFERENCES `Unfallart`(`Unfallart_ID`);
ALTER TABLE `FACT_Verkehrsunfaelle`       ADD CONSTRAINT `Lichtverhaeltnisse_ID_FK`   FOREIGN KEY (`Lichtverhaeltnisse_ID_FK`)  REFERENCES `Lichtverhaeltnisse`(`Lichtverhaeltnisse_ID`);
ALTER TABLE `FACT_Verkehrsunfaelle`       ADD CONSTRAINT `Strassenzustand_ID_FK`      FOREIGN KEY (`Strassenzustand_ID_FK`)     REFERENCES `Strassenzustand`(`Strassenzustand_ID`);
ALTER TABLE `FACT_Verkehrsunfaelle`       ADD CONSTRAINT `Zeit_ID_FK_in_Unfaelle`     FOREIGN KEY (`Zeit_ID_FK_in_Unfaelle`)    REFERENCES `Zeit`(`Zeit_ID`);
"""

# Aufteilen der Anweisungen in der Zeichenkette
queries = query_table_relations.split(";")

# Verbindung zur Datenbank herstellen und Anweisungen ausführen
with mysql.connector.connect(user='root', password='root', host='localhost') as con:
    cursor = con.cursor()
    cursor.execute("USE Unfaelle_DB")
    for query in queries:
        print(query)
        if query.strip():
            cursor.execute(query)


ALTER TABLE `FACT_Verkehrsaufkommen`      ADD CONSTRAINT `Zeit_ID_FK`                 FOREIGN KEY (`Zeit_ID_FK`)                REFERENCES `Zeit`(`Zeit_ID`)

ALTER TABLE `FACT_Verkehrsaufkommen`      ADD CONSTRAINT `Verkehrsdetektor_ID_FK`     FOREIGN KEY (`Verkehrsdetektor_ID_FK`)    REFERENCES `Verkehrsdetektoren`(`Verkehrsdetektor_ID`)


ALTER TABLE `Unfaelle_in_Baustellen`      ADD CONSTRAINT `Unfall_ID_FK`               FOREIGN KEY (`Unfall_ID_FK`)              REFERENCES `FACT_Verkehrsunfaelle`(`Unfall_ID`)

ALTER TABLE `Unfaelle_in_Baustellen`      ADD CONSTRAINT `Baustellen_ID_FK`           FOREIGN KEY (`Baustellen_ID_FK`)          REFERENCES `FACT_Baustellen`(`Baustellen_ID`)


ALTER TABLE `Unfallbeteiligte_bei_Unfall` ADD CONSTRAINT `Unfall_ID_FK_in_Unfallbeteiligten`  FOREIGN KEY (`Unfall_ID_FK_in_Unfallbeteiligten`) REFERENCES `FACT_Verkehrsunfaelle`(`Unfall_ID`)

ALTER TABLE `Unfallbeteiligte_bei_Unfall` ADD CONSTRAINT `Unfallbeteiligten_ID_FK`            FOREIGN KEY (`Un

## Datenbank exportieren

In [209]:
import subprocess

# MySQL-Verbindungsinformationen
username = 'root'
password = 'root'
database_name = 'Unfaelle_DB'

# Befehl zum Ausführen des mysqldump-Befehls
command = f"mysqldump -u {username} -p{password} {database_name}"

# Ausführen des Befehls und Erfassen der Ausgabe
try:
    # DROP DATABASE IF EXISTS, CREATE DATABASE und USE-Anweisungen manuell hinzufügen
    output = f"DROP DATABASE IF EXISTS {database_name};\nCREATE DATABASE {database_name};\nUSE {database_name};\n" + subprocess.check_output(command, shell=True).decode()

    # Speichern der Ausgabe in eine Datei
    with open(dir_path+'/database/unfaelle_db.sql', 'w') as f:
        f.write(output)

    print("Export erfolgreich!")

except subprocess.CalledProcessError as e:
    print("Export fehlgeschlagen:", e)

Export erfolgreich!


# Anhang

## Wetter



**UPDATE 2024-07-03:** Das Wetter musste leider verworfen werden, da es trotz der sehr guten Datensituation dieser Daten nicht konkret einem Unfall zugeordnet werden kann, da bei den Unfällen kein Tag hinterlegt.
Aus den Wetterdaten könnte maximal eine aggregierte Zahl erstellt werden, was jedoch in unserer Wahrnehmung die Aussagekraft jedoch so stark senkt, sodass eine weitere Verwendung dieser Dimension als unbrauchbar erscheint.

Um den dennoch bereits absolvierten Schritte eine entsprechende Würdigung und Dokumentation zu verleihen werden diese als eine Art Anhang hier aufgeführt.

Bei Verbesserung der Datenlage der Unfalldaten (vor allem durch Ergänzung des Attributs 'Unfalltag') könnte diese Dimension wieder spannend sein. Bei der aktuellen Lage ist diese jedoch nahezu unbrauchbar.




*Quelle:*  https://www.kaggle.com/datasets/mexwell/berlin-hourly-weather-data <br><br>

Der Wetterdatensatz stammt zwar von Kaggle.com, aber ursprünglich vom Deutschen Wetterdienst (DWD), welcher auch die Daten ursprünglich erhoben hat. Es wurde jedoch auf die Daten von Kaggle zurückgegriffen, da diese bereits eine konsistente Benennungsstruktur aufwiesen, im Gegensatz zu denen des DWD.

Inhaltlich handelt es sich aber dennoch um identische Daten.

Auf Kaggle.com wurden mehr Daten angeboten als benötigt, weshalb diese auch vorab explorativ mittels Excel durchsucht wurden. Dabei konnte bereits festgestellt werden, dass einige Dateien keine Daten für den relevanten Zeitraum vom 01.01.2018 bis zum 31.12.2021 aufwießen. Diese wurden folglich nicht verwendet, aber dennoch in einem seperaten Ordner dokumentiert.

Weiterführend wurden auch einige Dateien vollständig außen vor gelassen, da diese nach unserem inhaltlichen Verständnis wenig mit Unfällen zu tun hat, wie z.B. der Luftdruck oder ähnliches.


Hier wurden erstmal alle Daten so genommen, bis auf  welche die nicht den relevanten Zeitraum abgedeckt haben

In [210]:
df_weather_snow             = pd.read_csv(data_path+'/Wetter/berlin_snow.csv', sep=',')
df_weather_precipitation    = pd.read_csv(data_path+'/Wetter/berlin_precipitation.csv', sep=';')
df_weather_temperature      = pd.read_csv(data_path+'/Wetter/berlin_temperature.csv', sep=';')

df_weather_list = [df_weather_snow, df_weather_precipitation, df_weather_temperature]

  df_weather_precipitation    = pd.read_csv(data_path+'/Wetter/berlin_precipitation.csv', sep=';')
  df_weather_temperature      = pd.read_csv(data_path+'/Wetter/berlin_temperature.csv', sep=';')


In [211]:
def showcolumns(dfList):

  for item in dfList:
    print(item.columns.format())

showcolumns(df_weather_list)

['Unnamed: 0', 'STATION', 'NAME', 'LATITUDE', 'LONGITUDE', 'ELEVATION', 'DATE', 'PRCP', 'SNWD', 'TMAX', 'TMIN']
['STATIONS_ID', 'MESS_DATUM', 'QN_8', '  R1', 'RS_IND', 'WRTR', 'eor']
['STATIONS_ID', 'MESS_DATUM', 'QN_9', 'TT_TU', 'RF_TU', 'eor']


In [212]:
def dropunneccessary(df, dateColumn):

  if 'MESS_DATUM' in df.columns:
    df['MESS_DATUM']  = pd.to_datetime(df['MESS_DATUM'], format='%Y%m%d%H', errors= 'coerce')
    df['Stunde']      = df['MESS_DATUM'].dt.hour.values.astype(int)

    df = df.drop(['STATIONS_ID',
                  'eor',
                  'QN_9',
                  'QN_8',
                  'QN_7',
                  'QN_3'], axis= 1, errors= 'ignore')

  # Extra für Snow, weil aus anderer Datenquelle, aber hier entsprechend vereintlicht
  elif 'DATE' in df.columns:
    df['DATE'] = pd.to_datetime(df['DATE'])
    df = df.drop(['Unnamed: 0',
                  'STATION',
                  'NAME',
                  'LATITUDE',
                  'LONGITUDE',
                  'ELEVATION',
                  'TMIN',
                  'TMAX'], axis= 1, errors= 'ignore')

  # Start- und Enddatum entsprechend 'Faktendaten' Unfälle
  start_date = pd.to_datetime('20180101', format='%Y%m%d')
  end_date = pd.to_datetime('20220101', format='%Y%m%d')

  df = df[(df[dateColumn].dt.date >= start_date) & (df[dateColumn].dt.date < end_date)]

  df['Jahr']    = df[dateColumn].dt.year.values.astype(int)
  df['Monat']   = df[dateColumn].dt.month.values.astype(int)
  df['Tag']     = df[dateColumn].dt.day.values.astype(int)

  df = df.drop([dateColumn], axis= 1, errors= 'ignore')

  return df

In [213]:
df_weather_precipitation  = dropunneccessary(df_weather_precipitation, 'MESS_DATUM')
df_weather_snow           = dropunneccessary(df_weather_snow, 'DATE')
df_weather_temperature    = dropunneccessary(df_weather_temperature, 'MESS_DATUM')

df_weather_list = [df_weather_snow, df_weather_precipitation, df_weather_temperature]

  df['Stunde']      = df['MESS_DATUM'].dt.hour.values.astype(int)


TypeError: Cannot compare Timestamp with datetime.date. Use ts == pd.Timestamp(date) or ts.date() == date instead.

In [None]:
showcolumns(df_weather_list)

In [None]:
df_weather = pd.merge(df_weather_precipitation, df_weather_temperature, on=['Jahr', 'Monat','Tag','Stunde'], how='left')
df_weather = pd.merge(df_weather, df_weather_snow, on=['Jahr', 'Monat','Tag'], how='left')
df_weather

In [None]:
df_weather['Datum'] = pd.to_datetime(df_weather[['Jahr', 'Monat', 'Tag']].astype(str).apply('-'.join, axis=1), errors='coerce')
df_weather['Wochentag'] = df_weather['Datum'].dt.day_name()

df_weather

In [None]:
filtered_df = df_weather.query('''Jahr == 2019 & Monat == 4 & Wochentag == 'Tuesday' ''')

import matplotlib.pyplot as plt

fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 8), sharex=True)

ax1.plot(filtered_df['Stunde'], filtered_df['TT_TU'], marker='o', label=f'Temperatur in °C')
ax2.plot(filtered_df['Stunde'], filtered_df['  R1'], marker='o', label=f'Niederschlag in mm')

ax1.set_ylabel('Temperatur')
ax1.set_xlabel('Stunde')
ax1.legend(title='Stunde')

ax2.set_ylabel('Niederschlag')
ax2.set_xlabel('Stunde')
ax2.legend(title='Stunde')

plt.suptitle('Temperatur und Niederschlag im Jahr 2019 und Monat April pro Stunde')
plt.show()

In [None]:
filtered_df = df_verkehrsaufkommen.query('''Jahr == 2019 & Monat == 4 & Wochentag == 'Dienstag' ''')

import matplotlib.pyplot as plt

fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 8), sharex=True)

ax1.plot(filtered_df['stunde'], filtered_df['Geschwindigkeit_KFZ'], marker='o', label=f'Geschwindigkeit')
ax2.plot(filtered_df['stunde'], filtered_df['Anzahl_KFZ'], marker='o', label=f'Anzahl')

ax1.set_ylabel('Geschwindigkeit')
ax1.legend(title='KFZ')

ax2.set_ylabel('Anzahl')
ax2.set_xlabel('Stunde')
ax2.legend(title='KFZ')

plt.suptitle('Geschwindigkeit und Anzahl der Fahrzeuge im Jahr 2019 und Monat April pro Stunde')
plt.show()