# Einleitung

Im Rahmen der Projektdokumentation wurden bereits das Thema, die verwendenten Datensätze, die Leitfragen und weitere Aspekte beschrieben.

In diesem Notebook wird die Durchführung des Extract-Transform-Load (ETL) Prozess beschrieben. Um eine Trennung zwischen der Projektdokumentation und diesem Notebook zu ermöglichen, wurde entschieden in der Dokumentation die Erstellung der Datenbank, sowie die Auswahl, Elimination, Vereinheitlichung und Normalisierung von Entitäten und Attributen in den Vordergrund zu stellen.

In diesem Notebook wird dann entsprechend der teschnische ETL-Prozess dokumentiert. Dieser umfasst die Extraktion der Daten aus den Datein, die Transformation der Daten entsprechend dem gegebenen Datenbankschema und die finale Vereinigung der Daten in einer Datenbank bzw. SQL-Code, welcher die Erstellung einer entsprechenden Datenbank ermöglicht.

Das Notebook untergliedert sich dabei in die Hauptdatensätze: Unfälle, Baustellen und Verkehrsaufkommen, wobei pro Hauptdatensatz jeweils der ETL-Prozess beschrieben und dokumentiert wird.

Der letzte Punkt ist dann die Erstellung und Extraktion der Datenbank.

Zusätzlich befindet sich in diesem Dokument ein Anhang in welchem Wetterdaten dokumentiert sind, welche aus genannten Gründen in der Projektdokumnetation kein Teil der Datenbank sind, aber dennoch dokumentiert sind.

## Packages installieren

In [79]:
#########################
# Packages installieren #
#########################

!pip install PyPDF2
!pip install camelot-py

!pip install -q mysql-connector-python
!pip install -q SQLAlchemy
!apt-get -y -qq install mysql-server



## Google Drive mounten und Pfade erstellen

In [80]:
########################
# Google Drive mounten #
########################

from google.colab import drive
drive.mount('/content/drive')

# NUR dir_path ÄNDERN
dir_path = "/content/drive/MyDrive/Business Intelligence/Projekt_Unfaelle"

data_path = dir_path+"/data"
temp_path = dir_path+"/temp_data"

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## Packages initialisieren

In [81]:
########################
# Packages importieren #
########################

import json                                                                                                         # Auslesen von JSON-Dateien
from datetime import datetime, timedelta                                                                            # Zeitobjekte erstellen und verarbeiten
from PyPDF2 import PdfReader                                                                                        # Einlesen von PDF mit unstrukturierter Tabelle (meint, dass die Tabelle ist nicht als solche identifiziertbar ist von Python)
import camelot                                                                                                      # Einlesen von PDFs mit strukturierter Tabelle
import re                                                                                                           # Libary für Regex-Funktionalitäten (wichtig für unstrukturierte Tabellen)
import pandas as pd                                                                                                 # Pandas Libary
import numpy as np                                                                                                  # Numpy Libary
import mysql.connector                                                                                              # Konnektor für Ausführung einer Datenbank
from sqlalchemy import TEXT, BLOB                                                                                   # komplexe Datentypen für MySQL, um mehr als 256 Zeichen für Textfeler zu haben
import os                                                                                                           # Ausführung von Bash-Funktionen via Python, notwendig für Datenbank-Exporte
import glob                                                                                                         # Package, zum Auslesen von Dateien mit bestimmten Endungen (vorrangig für Daten zur Verkehrslage)
from shapely.geometry import LineString, MultiLineString, GeometryCollection, Point, Polygon, MultiPolygon, shape   # (Re-)Konstruktion von Koordinaten als geometrische Objekte
from shapely.wkt import loads                                                                                       # Geometrieobjekte, welche als well-known-text gespeicher sind wieder als Geoemtrieobjekte einlesen
import folium                                                                                                       # ermöglichst Kartendarstellung in Python
from pyproj import Transformer                                                                                      # Koordinaten vereinfachen
import unicodedata                                                                                                  # Auslesen von Umlauten, URL-Konvertierungen usw.
from collections import defaultdict                                                                                 # Koordinaten kategorisieren

## Datenbankschema

In [82]:
from IPython.display import Image
Image(filename =f'{dir_path}/resources/ERM_Unfaelle.png')

Output hidden; open in https://colab.research.google.com to view.

## Allgemeine Methoden

Allgemeine Methoden ist in Abschnitt in dem Methoden definiert werden, die von mehreren Datensätzen genutzt werden. Diese werden wie die Packages hier allgemein definiert und ausgeführt, um diese übergreifenden im Code nutzen zu können.

In [83]:
class DataProcessor:
    def __init__(self):
        pass

    def load_json(self, file_path):
        """
        JSON-Dateien einlesen

        :param file_path: Pfad des JSON-Files im Google-Drive
        :return: Inhalte JSON FIle
        """

        with open(file_path, 'r') as file:
            return json.load(file)

    def show_attributes(self, dfList):
        """
        Attribute / Spalten mehrer Dataframes ausgeben lassen

        :param dfList: Liste der Dataframes zum auslesen
        :return: none
        """

        for item in dfList:               # Iteration durch alle columns
            print(item.columns.format())  # Ausgabe als Stringobjekt

    def increase_column_index(self, df, column_name, increase_by):
        """
        Erhöht den Index einer Spalte in einem DataFrame um einen bestimmten Wert.

        :param df: DataFrame, dessen Spalteindex erhöht werden soll.
        :param column_name: Name der Spalte, deren Index erhöht werden soll.
        :param increase_by: Wert, um den der Spaltenindex erhöht werden soll.
        :return: Der DataFrame mit erhöhtem Spaltenindex.
        """
        df[column_name] = df[column_name].apply(lambda x: x + increase_by)

        return df

    def set_new_index(self, df: pd.DataFrame, index_name: str):
        """
        Reindizierung und Namen für Index erstellen

        :param df: zu reindizierender Dataframe
        :param index_name: Name des (neuen) Index
        :return: DataFrame mit neuen Indize
        """

        df.index       = [x for x in range(1, len(df.values)+1)]    # Index erstellen
        df.index.name  = index_name                                 # Name Index ändern

        return df

In [84]:
data_processor = DataProcessor()

# Unfälle

## Stammdaten

### Laden

In [237]:
####################
# Datensätze laden #
####################

df_unfaelle_2018 = pd.read_csv(data_path+'/Unfaelle/Unfaelle_2018_Datensatz.csv', sep=';', encoding='ISO-8859-1') # Endocing-Fehler, deswegen hier spezifisches Encoding mittels ISO-8859-1
df_unfaelle_2019 = pd.read_csv(data_path+'/Unfaelle/Unfaelle_2019_Datensatz.csv', sep=';', encoding='ISO-8859-1') # Endocing-Fehler, deswegen hier spezifisches Encoding mittels ISO-8859-1
df_unfaelle_2020 = pd.read_csv(data_path+'/Unfaelle/Unfaelle_2020_Datensatz.csv', sep=';')
df_unfaelle_2021 = pd.read_csv(data_path+'/Unfaelle/Unfaelle_2021_Datensatz.csv', sep=';')

# Dataframes in Liste packen, für showcolumns()
df_unfaelle_list = [df_unfaelle_2018, df_unfaelle_2019, df_unfaelle_2020, df_unfaelle_2021]

In [238]:
data_processor.show_attributes(df_unfaelle_list)

['OBJECTID', 'LAND', 'BEZ', 'LOR', 'STRASSE', 'LOR_ab_2021', 'UJAHR', 'UMONAT', 'USTUNDE', 'UWOCHENTAG', 'UKATEGORIE', 'UART', 'UTYP1', 'ULICHTVERH', 'IstRad', 'IstPKW', 'IstFuss', 'IstKrad', 'IstGkfz', 'IstSonstig', 'STRZUSTAND', 'LINREFX', 'LINREFY', 'XGCSWGS84', 'YGCSWGS84']
['OBJECTID', 'LAND', 'BEZ', 'LOR', 'STRASSE', 'UJAHR', 'UMONAT', 'USTUNDE', 'UWOCHENTAG', 'UKATEGORIE', 'UART', 'UTYP1', 'ULICHTVERH', 'IstRad', 'IstPKW', 'IstFuss', 'IstKrad', 'IstGkfz', 'IstSonstige', 'USTRZUSTAND', 'LINREFX', 'LINREFY', 'XGCSWGS84', 'YGCSWGS84']
['OBJECTID', 'LAND', 'BEZ', 'LOR', 'LOR_ab_2021', 'UJAHR', 'UMONAT', 'USTUNDE', 'UWOCHENTAG', 'UKATEGORIE', 'UART', 'UTYP1', 'ULICHTVERH', 'IstRad', 'IstPKW', 'IstFuss', 'IstKrad', 'IstGkfz', 'IstSonstige', 'USTRZUSTAND', 'LINREFX', 'LINREFY', 'XGCSWGS84', 'YGCSWGS84']
['OBJECTID', 'LAND', 'BEZ', 'LOR_ab_2021', 'UJAHR', 'UMONAT', 'USTUNDE', 'UWOCHENTAG', 'UKATEGORIE', 'UART', 'UTYP1', 'ULICHTVERH', 'IstRad', 'IstPKW', 'IstFuss', 'IstKrad', 'IstGkfz', 

### Transformation in einheitliches Format


In [239]:
##################################################
# Anpassung und Vereinheitlichung der Dataframes #
##################################################

def dropAndRenameDF(df: pd.DataFrame):
  # Anpassung und Vereinheitlichung der Dataframes für Unfälle

  # Löschung von nicht benötigten Columns
  df = df.drop(['OBJECTID', 'LAND', 'BEZ', 'LINREFX', 'LINREFY', 'STRASSE'], axis=1, errors= 'ignore')

  df = df.rename(columns={'XGCSWGS84': 'X-Koordinate',
                          'YGCSWGS84': 'Y-Koordinate',
                          'UJAHR': 'Jahr',
                          'UMONAT': 'Monat',
                          'USTUNDE': 'Stunde',
                          'UWOCHENTAG': 'Wochentag',
                          'UKATEGORIE': 'Unfallkategorie_ID_FK',
                          'UART': 'Unfallart_ID_FK',
                          'UTYP1': 'Unfalltyp_ID_FK',
                          'ULICHTVERH': 'Lichtverhaeltnisse_ID_FK',
                          'STRZUSTAND': 'Strassenzustand_ID_FK',            # inkonsistente Bennennung
                          'USTRZUSTAND': 'Strassenzustand_ID_FK',
                          'IstSonstig': 'IstSonstige'})             # inkonsistente Benennung in Datensatz 2018)

  # LOR Bennenung vereinheitlichen und löschen
  if 'LOR_ab_2021' in df.columns:
    df = df.drop(['LOR', 'STRASSE'], axis=1, errors= 'ignore')
    df = df.rename(columns={'LOR_ab_2021': 'Planungsraum_ID_FK'})

  if 'LOR' in df.columns:
    df = df.rename(columns={'LOR': 'Planungsraum_ID_FK'})

  return df

# Methodenaufrufe und Speicherung der Rückgabe
df_unfaelle_2018 = dropAndRenameDF(df_unfaelle_2018)
df_unfaelle_2019 = dropAndRenameDF(df_unfaelle_2019)
df_unfaelle_2020 = dropAndRenameDF(df_unfaelle_2020)
df_unfaelle_2021 = dropAndRenameDF(df_unfaelle_2021)

# Dataframes in Liste packen, für showcolumns()
df_unfaelle_list = [df_unfaelle_2018, df_unfaelle_2019, df_unfaelle_2020, df_unfaelle_2021]

In [240]:
data_processor.show_attributes(df_unfaelle_list)

['Planungsraum_ID_FK', 'Jahr', 'Monat', 'Stunde', 'Wochentag', 'Unfallkategorie_ID_FK', 'Unfallart_ID_FK', 'Unfalltyp_ID_FK', 'Lichtverhaeltnisse_ID_FK', 'IstRad', 'IstPKW', 'IstFuss', 'IstKrad', 'IstGkfz', 'IstSonstige', 'Strassenzustand_ID_FK', 'X-Koordinate', 'Y-Koordinate']
['Planungsraum_ID_FK', 'Jahr', 'Monat', 'Stunde', 'Wochentag', 'Unfallkategorie_ID_FK', 'Unfallart_ID_FK', 'Unfalltyp_ID_FK', 'Lichtverhaeltnisse_ID_FK', 'IstRad', 'IstPKW', 'IstFuss', 'IstKrad', 'IstGkfz', 'IstSonstige', 'Strassenzustand_ID_FK', 'X-Koordinate', 'Y-Koordinate']
['Planungsraum_ID_FK', 'Jahr', 'Monat', 'Stunde', 'Wochentag', 'Unfallkategorie_ID_FK', 'Unfallart_ID_FK', 'Unfalltyp_ID_FK', 'Lichtverhaeltnisse_ID_FK', 'IstRad', 'IstPKW', 'IstFuss', 'IstKrad', 'IstGkfz', 'IstSonstige', 'Strassenzustand_ID_FK', 'X-Koordinate', 'Y-Koordinate']
['Planungsraum_ID_FK', 'Jahr', 'Monat', 'Stunde', 'Wochentag', 'Unfallkategorie_ID_FK', 'Unfallart_ID_FK', 'Unfalltyp_ID_FK', 'Lichtverhaeltnisse_ID_FK', 'IstRad',

### Zusammenführung in einen Dataframe

In [241]:
################################################
# Dataframes zu einem Dataframe zusammenführen #
################################################

df_unfaelle             = pd.concat([df_unfaelle_2018, df_unfaelle_2019, df_unfaelle_2020, df_unfaelle_2021])   # geänderte Dataframes zusammenführen
df_unfaelle             = data_processor.set_new_index(df_unfaelle, 'Unfall_ID')

df_unfaelle       # Dataframe anzeigen

Unnamed: 0_level_0,Planungsraum_ID_FK,Jahr,Monat,Stunde,Wochentag,Unfallkategorie_ID_FK,Unfallart_ID_FK,Unfalltyp_ID_FK,Lichtverhaeltnisse_ID_FK,IstRad,IstPKW,IstFuss,IstKrad,IstGkfz,IstSonstige,Strassenzustand_ID_FK,X-Koordinate,Y-Koordinate
Unfall_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
1,2500729.0,2018,1,15,4,3,6,4,0,0,1,1,0,0,0,1,134750178,5251359681
2,12500824.0,2018,1,11,2,3,2,6,0,0,1,0,0,0,0,0,1329102205,5258725906
3,2400520.0,2018,1,9,3,3,6,4,0,0,1,1,0,0,0,0,1342057818,5252601854
4,7200308.0,2018,1,17,2,3,6,7,2,0,1,1,0,0,0,0,1334828776,5248184447
5,3200206.0,2018,1,15,4,3,6,7,1,1,0,1,0,0,0,1,1340322797,5258347154
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
50115,4300414.0,2021,3,16,4,3,6,2,0,0,1,1,0,0,0,1,1329634478,5251100814
50116,4400726.0,2021,1,1,6,3,9,1,2,0,1,0,0,0,0,0,1328949592,5249381321
50117,2400520.0,2021,1,20,1,3,3,6,2,0,1,0,0,0,0,1,1342309463,5252753402
50118,7300619.0,2021,1,14,7,3,2,6,0,0,1,0,0,0,0,1,1335925879,5247436651


### Typecasting

Eigentlich ist das Typecasting erst kurz vor der Erstellung der Datenbank notwendig und vorgehesen, da aber in den nächsten Schritten einige Daten aus den Stammdaten extrahiert werden, wird bereits hier das Typecasting durchgeführt.

In [242]:
###############################
# Vobereitung für Typecasting #
###############################
# Beim Typcasting wurden Probleme festgestellt, die mit folgenden Code behoben werden
#
# Probleme: IstSonstige als String eingelesen, Vorbereitung auf Boolean-Casting
#           Strassenzustand als String erkannt, wegen Wert 'Hellersdofer Promenade'
#           LOR enhielten leere Werte, somit Typecasting auf int nicht möglich
#           Koordianten haben falsches Dezimaltrennzeichen, Umwandlung von ',' auf '.'

def convertIstSonstige(value):
    """String von Spalte 'IstSonstige' in einen boolean-konformen String umwandeln"""

    # String-Values in Zahlen übersetzen und zurückgeben
    if value in ['Ja', '1']:
        return 1
    elif value in ['Nein', '0', '']:
        return 0
    else:
        return 0

df_unfaelle['IstSonstige']            = df_unfaelle['IstSonstige'].apply(convertIstSonstige)                              # Konvertierung klassischer String in boolean-konformen String
df_unfaelle['Strassenzustand_ID_FK']  = df_unfaelle['Strassenzustand_ID_FK'].replace('Hellersdorfer Promenade', np.nan)   # Fehlerbehebung Strassenzustand
df_unfaelle.loc[:, 'X-Koordinate']    = df_unfaelle['X-Koordinate'].str.replace(',', '.')                                 # Fehlerbehebung Koordinate
df_unfaelle.loc[:, 'Y-Koordinate']    = df_unfaelle['Y-Koordinate'].str.replace(',', '.')                                 # Fehlerbehebung Koordinate
df_unfaelle.dropna(inplace=True)                                                                                          # Fehlerbehung LOR und Strassenzustand

df_unfaelle = data_processor.set_new_index(df_unfaelle, 'Unfall_ID')

df_unfaelle.dtypes    # Anzeigen aktuelle Datentypen

Planungsraum_ID_FK          float64
Jahr                          int64
Monat                         int64
Stunde                        int64
Wochentag                     int64
Unfallkategorie_ID_FK         int64
Unfallart_ID_FK               int64
Unfalltyp_ID_FK               int64
Lichtverhaeltnisse_ID_FK      int64
IstRad                        int64
IstPKW                        int64
IstFuss                       int64
IstKrad                       int64
IstGkfz                       int64
IstSonstige                   int64
Strassenzustand_ID_FK        object
X-Koordinate                 object
Y-Koordinate                 object
dtype: object

In [243]:
#####################
# Datentypen casten #
#####################
# Wichtig für die spätere Integration in die Datenbank
# wird an dieser Stelle aber bereits vollzogen, da später einige Werte noch angepasst werden und dies ohne den richtigen Datentyp nicht funktioniert

df_unfaelle = df_unfaelle.astype({
    'Planungsraum_ID_FK': 'int64',        # ID, deswegen so groß wie möglich
    'Jahr': 'int32',                      # in diesem Fall auf 4 begrenzt, aber erweiterbarkeit
    'Monat': 'int8',                      # fix von 1 bis 12
    'Stunde': 'int8',                     # fix von 0 bis 23
    'Wochentag': 'int8',
    'Unfallkategorie_ID_FK': 'int16',     # nicht fix, aber mehr als 32768 Einträge unwahrscheinlich
    'Unfallart_ID_FK': 'int16',
    'Unfalltyp_ID_FK': 'int16',
    'Lichtverhaeltnisse_ID_FK': 'int16',
    'IstRad':'boolean',
    'IstPKW':'boolean',
    'IstFuss': 'boolean',                 # Werte 0 und 1 --> boolean
    'IstKrad': 'boolean',
    'IstGkfz': 'boolean',
    'IstSonstige': 'boolean',
    'Strassenzustand_ID_FK': 'int16',
    'X-Koordinate': 'float64',            # Koordinaten sind Gleitkommazahlen
    'Y-Koordinate': 'float64'             # Koordinaten sind Gleitkommazahlen
})

df_unfaelle.dtypes                        # Anzeigen Datentypen

Planungsraum_ID_FK            int64
Jahr                          int32
Monat                          int8
Stunde                         int8
Wochentag                      int8
Unfallkategorie_ID_FK         int16
Unfallart_ID_FK               int16
Unfalltyp_ID_FK               int16
Lichtverhaeltnisse_ID_FK      int16
IstRad                      boolean
IstPKW                      boolean
IstFuss                     boolean
IstKrad                     boolean
IstGkfz                     boolean
IstSonstige                 boolean
Strassenzustand_ID_FK         int16
X-Koordinate                float64
Y-Koordinate                float64
dtype: object

## Dimensionen

### Dimensionen aus Stammdaten

Wie in der Projektdokumentation beschrieben, sind nicht alle Attribute in den Stammdaten auch tatsächliche Fakten zu verstehen. Es wurde entschieden die Zeit und die Unfallbeiligten als seperate Dimensionen zu erfassen.

Diese werden nachfolgend extrahiert und transformiert.

#### Unfallbeteiligte
ist hier die erste Tabelle, da diese einfach aus dem bisher erstellt DF Unfaelle erstellt werden kann.

In [244]:
############################################
# Extraktion Unfallbeteiligte aus 'Fakten' #
############################################

# Liste der zu extrahirenden / löschenden Unfallbeteiligten
extract_list = ['IstRad', 'IstPKW', 'IstFuss', 'IstKrad', 'IstGkfz', 'IstSonstige']

df_unfallbeteiligte = df_unfaelle[extract_list]                         # Extraktion der Spalten aus Stammdaten
df_unfaelle         = df_unfaelle.drop(columns=extract_list, axis=1)    # Löschen der extrahierten Spalten

df_unfallbeteiligte   # Dataframe anzeigen

Unnamed: 0_level_0,IstRad,IstPKW,IstFuss,IstKrad,IstGkfz,IstSonstige
Unfall_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,False,True,True,False,False,False
2,False,True,False,False,False,False
3,False,True,True,False,False,False
4,False,True,True,False,False,False
5,True,False,True,False,False,False
...,...,...,...,...,...,...
50109,False,True,True,False,False,False
50110,False,True,False,False,False,False
50111,False,True,False,False,False,False
50112,False,True,False,False,False,False


In [245]:
##############################################
# Extraktion Unfallbeteiligte als Kategorien #
##############################################

# Colums entsprechen den Unfallbeteiligten
beteiligte_list = df_unfallbeteiligte.columns

# Dataframe aus dieser Liste der Unfallbeteiligten erstellen
df_unfallbeteiligte_kategorien = pd.DataFrame(columns=['Unfallbeteiligten'], data=beteiligte_list)

df_unfallbeteiligte_kategorien['Unfallbeteiligten'] = df_unfallbeteiligte_kategorien['Unfallbeteiligten'].str.replace('Ist', '')  # 'Ist'-String entfernen
df_unfallbeteiligte_kategorien = data_processor.set_new_index(df_unfallbeteiligte_kategorien,'Unfallbeteiligten_ID')              # Indexnamen ändern

df_unfallbeteiligte_kategorien      # finalen Dataframe anzeigen

Unnamed: 0_level_0,Unfallbeteiligten
Unfallbeteiligten_ID,Unnamed: 1_level_1
1,Rad
2,PKW
3,Fuss
4,Krad
5,Gkfz
6,Sonstige


In [246]:
############################################################
# Erstellung Relationstabelle von Unfällen und Beteiligten #
############################################################
# Es handelt sich bei den Unfällen und den Beteiligten um eine m-n-Relation
# Aufgrund dessen Erstellung einer Relationstabelle, welche jeweils die Unfall-ID und die IDs  der beteiligten enthält

# Erstelle einer leeren Liste für Verknüpfungsdaten
relation_data = []

# Schleife iteriert über alle Zeilen
for index, row in df_unfallbeteiligte.iterrows():

    # Schleife iteriert über alle Spaltenwerte der Zeilen
    for column, value in row.items():

        if value:  # Boolean-Werte, wenn dieser True, dann Ausführung
            beteiligtenID = df_unfallbeteiligte_kategorien.loc[df_unfallbeteiligte_kategorien['Unfallbeteiligten'] == column.replace('Ist', '')].index[0]   # Prüfung aktueller Unfallbeteiligter mit Kategorie und Rückgabe des Index aus Kategorie
            relation_data.append({'Unfall_ID_FK_in_Unfallbeteiligten': index, 'Unfallbeteiligten_ID_FK': beteiligtenID})                                    # Daten in die Liste einfügen

# Erstellung der Relationstabelle aus der gesammelten Liste
df_unfaelle_unfallbeteiligte_relation = pd.DataFrame(relation_data, columns=['Unfall_ID_FK_in_Unfallbeteiligten', 'Unfallbeteiligten_ID_FK'])
df_unfaelle_unfallbeteiligte_relation  # DataFrame ausgeben

Unnamed: 0,Unfall_ID_FK_in_Unfallbeteiligten,Unfallbeteiligten_ID_FK
0,1,2
1,1,3
2,2,2
3,3,2
4,3,3
...,...,...
77984,50109,3
77985,50110,2
77986,50111,2
77987,50112,2


#### Zeit

Um die Zeitdimension korrekt abzubilden, kann diese nicht wie die Unfallbeteiligten, einfach aus den Stammdaten extrahiert werden. Wie im Datenbankschema zu sehen, wird diese Dimension als Verknüpfung zwischen Unfällen und dem Verkehrsaufkommen genutzt.

Um das Verkehrsaufkommen auch unabhängig von den Verkehrsunfällen nach der Zeit filtern zu können, wurde entschieden eine Zeitdimension zu erstellen, welche alle Zeitwerte vom 1.1.2018 bis zum 1.1.2022 enhält.

Wichtig zu beachten ist dabei, dass in der Zeitdimension nur das Jahr, der Monat, die Stunden und die Wochentage betrachtet werden, da dies durch die Stammdaten von df_unfaelle so gegeben ist.

<br>

**Vorgehen:**

Es wird zunächst die Dimensionstabelle Zeit erstellt, wobei jedes Datentupel enizigartig durch die Kombination aus Jahr, Monat, Stunde und Wochentag ist.

Anschließend werden die Stammdaten df_unfaelle nach den gleichen einzigartigen Kombinationen aus diesen Werten durchsucht und dann durch die ID ersetzt

In [247]:
###########################
# Zeitdimension erstellen #
###########################

# Beginn und Enddatum festlegen -> Unfalldaten von 2018 bis einschließlich 2021
start_date = datetime(2018, 1, 1)
end_date = datetime(2022, 1, 1)

# Liste der Wochentage
wochentage = ['Montag', 'Dienstag', 'Mittwoch', 'Donnerstag', 'Freitag', 'Samstag', 'Sonntag']

# Liste zur Speicherung der Daten -> Datenrundlage DataFrame
data = []

# Durchlaufen der Daten und Hinzufügen zum DataFrame
current_date = start_date

while current_date < end_date:
    for monat in range(1, 13):
        for stunde in range(24):
            for tag, wochentag in enumerate(wochentage):

                # Füge das Datum, den Monat, die Stunde und den Wochentag hinzu
                data.append({
                    'Jahr': current_date.year,
                    'Monat': monat,
                    'Stunde': stunde,
                    'Wochentag': wochentag
                })
    # Gehe zum nächsten Jahr
    current_date = current_date.replace(year=current_date.year + 1)

# DataFrame erstellen
df_zeit = pd.DataFrame(data)

# Index erstellen
df_zeit.index       = [x for x in range(1, len(df_zeit.values)+1)]
df_zeit.index.name  = 'Zeit_ID'

# Anzeigen des sortierten DataFrames
df_zeit

Unnamed: 0_level_0,Jahr,Monat,Stunde,Wochentag
Zeit_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2018,1,0,Montag
2,2018,1,0,Dienstag
3,2018,1,0,Mittwoch
4,2018,1,0,Donnerstag
5,2018,1,0,Freitag
...,...,...,...,...
8060,2021,12,23,Mittwoch
8061,2021,12,23,Donnerstag
8062,2021,12,23,Freitag
8063,2021,12,23,Samstag


In [248]:
###################################################
# Wochentag-IDs in Unfalle mit Klarnamen ersetzen #
###################################################
# Hinweis: Reihenfolge wurde aus Metadaten übernommen

df_unfaelle['Wochentag'] = df_unfaelle['Wochentag'].replace({1: 'Sonntag',
                                                             2: 'Montag',
                                                             3: 'Dienstag',
                                                             4: 'Mittwoch',
                                                             5: 'Donnerstag',
                                                             6: 'Freitag',
                                                             7: 'Samstag'})
df_unfaelle

Unnamed: 0_level_0,Planungsraum_ID_FK,Jahr,Monat,Stunde,Wochentag,Unfallkategorie_ID_FK,Unfallart_ID_FK,Unfalltyp_ID_FK,Lichtverhaeltnisse_ID_FK,Strassenzustand_ID_FK,X-Koordinate,Y-Koordinate
Unfall_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,2500729,2018,1,15,Mittwoch,3,6,4,0,1,13.475018,52.513597
2,12500824,2018,1,11,Montag,3,2,6,0,0,13.291022,52.587259
3,2400520,2018,1,9,Dienstag,3,6,4,0,0,13.420578,52.526019
4,7200308,2018,1,17,Montag,3,6,7,2,0,13.348288,52.481844
5,3200206,2018,1,15,Mittwoch,3,6,7,1,1,13.403228,52.583472
...,...,...,...,...,...,...,...,...,...,...,...,...
50109,4300414,2021,3,16,Mittwoch,3,6,2,0,1,13.296345,52.511008
50110,4400726,2021,1,1,Freitag,3,9,1,2,0,13.289496,52.493813
50111,2400520,2021,1,20,Sonntag,3,3,6,2,1,13.423095,52.527534
50112,7300619,2021,1,14,Samstag,3,2,6,0,1,13.359259,52.474367


In [249]:
##################################################
# Zeitangaben in Unfaelle durch Zeit_ID ersetzen #
##################################################
# Code in Anlehnung an Hash-Mapping

# Sicherstellen, dass 'Zeit_ID' in df_zeit als eine Spalte vorliegt
df_zeit.reset_index(inplace=True)

# eindeutige Schlüsselspalte erzeugen in beiden DataFrames
df_unfaelle['temp_key'] = df_unfaelle['Jahr'].astype(str) + '-' + df_unfaelle['Monat'].astype(str) + '-' + df_unfaelle['Stunde'].astype(str) + '-' + df_unfaelle['Wochentag']
df_zeit['temp_key']     = df_zeit['Jahr'].astype(str) + '-' + df_zeit['Monat'].astype(str) + '-' + df_zeit['Stunde'].astype(str) + '-' + df_zeit['Wochentag']

# Erstelle ein Mapping von temp_key zu Zeit_ID
temp_key_to_zeit_id = df_zeit.set_index('temp_key')['Zeit_ID'].to_dict()

# Ordne jeder Zeile in df_unfaelle die entsprechende Zeit_ID zu
df_unfaelle['Zeit_ID_FK_in_Unfaelle'] = df_unfaelle['temp_key'].map(temp_key_to_zeit_id)

# Lösche die temporären und nicht mehr benötigten Spalten
df_unfaelle = df_unfaelle.drop(['Jahr', 'Monat', 'Stunde', 'Wochentag', 'temp_key'], axis=1)
df_zeit     = df_zeit.drop(['temp_key'], axis=1)
df_zeit     = df_zeit.set_index('Zeit_ID')

df_unfaelle  # Ausgabe DataFrame

Unnamed: 0_level_0,Planungsraum_ID_FK,Unfallkategorie_ID_FK,Unfallart_ID_FK,Unfalltyp_ID_FK,Lichtverhaeltnisse_ID_FK,Strassenzustand_ID_FK,X-Koordinate,Y-Koordinate,Zeit_ID_FK_in_Unfaelle
Unfall_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,2500729,3,6,4,0,1,13.475018,52.513597,108
2,12500824,3,2,6,0,0,13.291022,52.587259,78
3,2400520,3,6,4,0,0,13.420578,52.526019,65
4,7200308,3,6,7,2,0,13.348288,52.481844,120
5,3200206,3,6,7,1,1,13.403228,52.583472,108
...,...,...,...,...,...,...,...,...,...
50109,4300414,3,6,2,0,1,13.296345,52.511008,6499
50110,4400726,3,9,1,2,0,13.289496,52.493813,6060
50111,2400520,3,3,6,2,1,13.423095,52.527534,6195
50112,7300619,3,2,6,0,1,13.359259,52.474367,6152


### Dimensionen aus Metadaten

In den Stammdaten df_unfaelle befinden sich viele IDs, welche nicht aus den Stammdaten allein aufgelöst werden können. Zusätzlichen zu den Stammdaten wurde auch ein Metadatendokument begelegt, welche die IDs in entsprechende Werte aufgelöst.

Im folgenden die entsprechenden Werte aus den Metadaten ausgelesen und in Dataframes eingelesen.


In [250]:
##############################
# Metadaten Unfälle auslesen #
##############################

# Metadaten auslesen
metadaten_unfaelle      = camelot.read_pdf(data_path+'/Unfaelle/Unfaelle_Metadaten.pdf', flavor="stream", pages='1-2', table_areas=['0,800,600,0'])

# Extraktion und Zusammenführen beider Tabellenseiten
df_metadaten_unfaelle_1 = metadaten_unfaelle[0].df                                      # Tabellenteil auf der ersten Seite
df_metadaten_unfaelle_2 = metadaten_unfaelle[1].df                                      # Tabellenteil auf der zweiten Seite
df_metadaten_unfaelle   = pd.concat([df_metadaten_unfaelle_1, df_metadaten_unfaelle_2]) # Zusammenführen beider Tabellenteile

df_metadaten_unfaelle     # Dataframe anzeigen

Unnamed: 0,0,1,2
0,Datensatzbeschreibung,,
1,OpenData Portal Berlin Statistik der Straßen...,,
2,Spaltenname,Inhalt,Bemerkung
3,OBJECTID,Laufende Nummer des Unfalls,pro Unfall ein Datensatz
4,LAND,Bundesland,LOR-Schlüsselsystematik
...,...,...,...
33,B,eruhend auf dem Unfallatlas der Statistischen ...,
34,Unfallatlas | Kartenanwendung (statistikportal...,,
35,W,eitere Erläuterungen zu der Statistik der Stra...,
36,Straßenverkehr (statistik-berlin-brandenburg.de),,


In [251]:
#######################
# Anpassung Dataframe #
#######################

df_metadaten_unfaelle.columns = ['Spaltenname', 'Inhalt', 'Bemerkung']                            # Spalten umbennenen, ensprechend ursprünglicher Bennenung in PDF
df_metadaten_unfaelle = df_metadaten_unfaelle.drop(['Bemerkung'], axis=1)                         # Bemerkungen werden für Dimensionstabellen nicht benötigt´

df_metadaten_unfaelle['Spaltenname'] = df_metadaten_unfaelle['Spaltenname'].replace('', np.nan)   # beim Einlesen der PDF sind augenscheinlich leere Werte übernommen worden,
df_metadaten_unfaelle.fillna(method='ffill', inplace=True)                                        # welche von Python aber nicht als leer erkannt werden, hier dann korrigiert
                                                                                                  # und durch übergelagerte Werte ersetzt
df_metadaten_unfaelle     # Dataframe anzeigen

Unnamed: 0,Spaltenname,Inhalt
0,Datensatzbeschreibung,
1,OpenData Portal Berlin Statistik der Straßen...,
2,Spaltenname,Inhalt
3,OBJECTID,Laufende Nummer des Unfalls
4,LAND,Bundesland
...,...,...
33,B,eruhend auf dem Unfallatlas der Statistischen ...
34,Unfallatlas | Kartenanwendung (statistikportal...,
35,W,eitere Erläuterungen zu der Statistik der Stra...
36,Straßenverkehr (statistik-berlin-brandenburg.de),


#### Unfallart

In [252]:
#####################################
# Auslesen Unfall-Art aus Metadaten #
#####################################

df_unfallart = df_metadaten_unfaelle[df_metadaten_unfaelle['Spaltenname'] == 'UART']
df_unfallart

Unnamed: 0,Spaltenname,Inhalt
25,UART,Unfallart
26,UART,1 = Zusammenstoß mit anfahrendem/anhaltendem/
27,UART,ruhendem Fahrzeug
28,UART,2 = Zusammenstoß mit vorausfahrendem/wartendem
29,UART,Fahrzeug
30,UART,3 = Zusammenstoß mit seitlich in gleicher Rich...
31,UART,fahrendem Fahrzeug
32,UART,4 = Zusammenstoß mit entgegenkommendem
33,UART,Fahrzeug
34,UART,5 = Zusammenstoß mit einbiegendem/ kreuzendem


In [253]:
###########################################
# Löschung von nicht benötigten Tabellen  #
###########################################

df_unfallart = df_unfallart.drop(['Spaltenname'], axis=1)     # Spalten 'Spaltenname' löschen, da hier nicht mehr benötigte Keys enthalten
df_unfallart = df_unfallart.drop(df_unfallart.index[:1])      # erste Zeile löschen, da hier nicht benötigte Infomartation 'Unfallart', beim Auslesen mit übernommen

df_unfallart    # Dataframe anzeigen

Unnamed: 0,Inhalt
26,1 = Zusammenstoß mit anfahrendem/anhaltendem/
27,ruhendem Fahrzeug
28,2 = Zusammenstoß mit vorausfahrendem/wartendem
29,Fahrzeug
30,3 = Zusammenstoß mit seitlich in gleicher Rich...
31,fahrendem Fahrzeug
32,4 = Zusammenstoß mit entgegenkommendem
33,Fahrzeug
34,5 = Zusammenstoß mit einbiegendem/ kreuzendem
35,Fahrzeug


In [254]:
##############################################
# Abgeschnittene Zeile wieder zusammenführen #
##############################################
# Leider sind beim Auslesen der PDf einige Werte in die nächste Zeile gerutscht z.B. ruhendem Fahrzeug, Fahrzeug usw
# Blick in die Metadaten zeigt, dass diese jeweils zu dem vorherigen Wert gehören
# Diese werden mit foglendem Code wieder zusammengeführt

# Speicherung des kleinsten Index
index = df_unfallart.index.min()

# Liste für die neuen Tabellenwerte
new_column = []

# Schleife vom kleinsten bis größten Index
while index <= df_unfallart.index.max():

  current = df_unfallart.loc[index, 'Inhalt']     # Auslesen aktuelle Zeile
  new_value = current                             # Zwischenspeicherung

  # Prüfung ob aktueller Wert eine Zahl oder '=' enthält
  # Prüfung ob aktueller Index kleiner als alle Indzies (sonst Exception)
  if any(char.isdigit() or char == '=' for char in current) and (index < df_unfallart.index.max() - 1):

    next_value = df_unfallart.loc[index + 1, 'Inhalt']  # Speicherung des auf aktuellen Index folgenden Wert

    # Prüfung ob im nächsten Wert eine Zahl oder '=' enthält
    if not any(char.isdigit() or char == '=' for char in next_value):

      new_value += ' ' + next_value   # Zusammführen von aktuellen mit nächsten Wert
      index += 1                      # Index um 1 erhöhen

  new_column.append(new_value)    # neuen Wert zu Ergebnisliste hinzufügen
  index += 1                      # Index um 1 erhöhen

df_unfallart = pd.DataFrame(data=new_column, columns=['Unfallart'])   # Neuen Dataframe erstellen mit den neu generierten Spalten

df_unfallart    # Dataframe anzeigen

Unnamed: 0,Unfallart
0,1 = Zusammenstoß mit anfahrendem/anhaltendem/ ...
1,2 = Zusammenstoß mit vorausfahrendem/wartendem...
2,3 = Zusammenstoß mit seitlich in gleicher Rich...
3,4 = Zusammenstoß mit entgegenkommendem Fahrzeug
4,5 = Zusammenstoß mit einbiegendem/ kreuzendem ...
5,6 = Zusammenstoß zwischen Fahrzeug und Fußgänger
6,7 = Aufprall auf Fahrbahnhindernis
7,8 = Abkommen von Fahrbahn nach rechts
8,9 = Abkommen von Fahrbahn nach links
9,0 = Unfall anderer Art


In [255]:
######################
# Dataframe anpassen #
######################

# Wert vom letzten  Index, an Stelle vom ersten Index, um Reihenfolge einzuhalten
last_row = df_unfallart.iloc[-1]                                                              # letzte Reihe von Dataframe
df_unfallart = pd.concat([last_row.to_frame().T, df_unfallart.iloc[:-1]], ignore_index=True)  # einfügen an erster Stelle

# Indizes aus Unfallart entfernen
df_unfallart['Unfallart'] = df_unfallart['Unfallart'] .str.split('=', expand=True)[1]         # alles vor '=' entfernen

# neuen Index erstellen
df_unfallart.index       = [x for x in range(1, len(df_unfallart.values)+1)]    # Index erstellen
df_unfallart.index.name  = 'Unfallart_ID'                                       # Name Index ändern

df_unfallart  # Dataframe anzeigen

Unnamed: 0_level_0,Unfallart
Unfallart_ID,Unnamed: 1_level_1
1,Unfall anderer Art
2,Zusammenstoß mit anfahrendem/anhaltendem/ ruh...
3,Zusammenstoß mit vorausfahrendem/wartendem Fa...
4,Zusammenstoß mit seitlich in gleicher Richtun...
5,Zusammenstoß mit entgegenkommendem Fahrzeug
6,Zusammenstoß mit einbiegendem/ kreuzendem Fah...
7,Zusammenstoß zwischen Fahrzeug und Fußgänger
8,Aufprall auf Fahrbahnhindernis
9,Abkommen von Fahrbahn nach rechts
10,Abkommen von Fahrbahn nach links


In [256]:
##################################
# Indizes in Stammdaten anpassen #
##################################

# Alle Indizes Unfallart_ID_FK um 1 erhöhen um df_unfallart zu matchen
df_unfaelle = data_processor.increase_column_index(df_unfaelle, 'Unfallart_ID_FK', 1)
df_unfaelle['Unfallart_ID_FK'].describe()

count    50113.000000
mean         4.530880
std          2.172748
min          1.000000
25%          3.000000
50%          6.000000
75%          6.000000
max         10.000000
Name: Unfallart_ID_FK, dtype: float64

Problem: einige Dataframes haben 0 als ersten Indexwert. An sich stellt dies  kein Problem dar, aber '1' ist als erster Index besser geeignet, weshalb alle Elemente um den Wert von +1 erhöht werden.

#### Unfallkategorie

In [257]:
###########################################
# Auslesen Unfall-Kategorie aus Metadaten #
###########################################

df_unfallkategorie = df_metadaten_unfaelle[df_metadaten_unfaelle['Spaltenname'] == 'UKATEGORIE']
df_unfallkategorie

Unnamed: 0,Spaltenname,Inhalt
21,UKATEGORIE,Unfallkategorie
22,UKATEGORIE,1 = Unfall mit Getöteten
23,UKATEGORIE,2 = Unfall mit Schwerverletzten
24,UKATEGORIE,3 = Unfall mit Leichtverletzten


#### Unfalltyp

In [258]:
#####################################
# Auslesen Unfall-Typ aus Metadaten #
#####################################

df_unfalltyp = df_metadaten_unfaelle[df_metadaten_unfaelle['Spaltenname'] == 'UTYP1']
df_unfalltyp

Unnamed: 0,Spaltenname,Inhalt
41,UTYP1,Unfalltyp
42,UTYP1,1 = Fahrunfall
43,UTYP1,2 = Abbiegeunfall
44,UTYP1,3 = Einbiegen / Kreuzen-Unfall
45,UTYP1,4 = Überschreiten-Unfall
46,UTYP1,5 = Unfall durch ruhenden Verkehr
47,UTYP1,6 = Unfall im Längsverkehr
48,UTYP1,7 = sonstiger Unfall


#### Lichtverhältnisse

In [259]:
############################################
# Auslesen Lichtverhältnisse aus Metadaten #
############################################

df_lichtverhaeltnisse = df_metadaten_unfaelle[df_metadaten_unfaelle['Spaltenname'] == 'ULICHTVERH']
df_lichtverhaeltnisse

Unnamed: 0,Spaltenname,Inhalt
49,ULICHTVERH,Lichtverhältnisse:
50,ULICHTVERH,0 = Tageslicht
51,ULICHTVERH,1 = Dämmerung
52,ULICHTVERH,2 = Dunkelheit


#### Strassenzustand

In [260]:
#########################################
# Auslesen Straßenzustand aus Metadaten #
#########################################

df_strassenzustand = df_metadaten_unfaelle[df_metadaten_unfaelle['Spaltenname'] == 'USTRZUSTAND']
df_strassenzustand

Unnamed: 0,Spaltenname,Inhalt
22,USTRZUSTAND,Straßenzustand:
23,USTRZUSTAND,0 = trocken
24,USTRZUSTAND,1 = nass/feucht/schlüpfrig
25,USTRZUSTAND,2 = winterglatt


Wie zu sehen sind die Dataframes noch nicht wirklich Datenbankkonform, da unteranderem Werte noch nicht atomar vorliegen und allgemein noch nicht benötigte Werte in den Dataframes vorhanden sind.

Dies wird nun korrigiert

#### Transformation

In [261]:
###########################
# Anpassen der Dataframes #
###########################

def dropAndRenameDF(df: pd.DataFrame, indexName: str, columnName: str):

    # DROP
    df = df.drop(['Spaltenname'], axis=1)
    df['Inhalt'] = df['Inhalt'].str.split('=', expand=True)[1]
    df = df.drop(df.index[:1])

    # RENAME column with values
    df = df.rename(columns={'Inhalt': columnName})

    # NEW INDEX
    df = data_processor.set_new_index(df, indexName)

    return df

df_unfallkategorie    = dropAndRenameDF(df_unfallkategorie,'Unfallkategorie_ID' ,'Unfallkategorie')
df_unfalltyp          = dropAndRenameDF(df_unfalltyp, 'Unfalltyp_ID' ,'Unfalltyp')
df_lichtverhaeltnisse = dropAndRenameDF(df_lichtverhaeltnisse,'Lichtverhaeltnisse_ID' ,'Lichtverhaeltnisse')
df_strassenzustand    = dropAndRenameDF(df_strassenzustand,'Strassenzustand_ID', 'Strassenzustand')

df_unfallkategorie    # beispielhafte Ausgabe

Unnamed: 0_level_0,Unfallkategorie
Unfallkategorie_ID,Unnamed: 1_level_1
1,Unfall mit Getöteten
2,Unfall mit Schwerverletzten
3,Unfall mit Leichtverletzten


In [262]:
# Alle Indizes Unfallart_ID_FK um 1 erhöhen um df_unfallart zu matchen
df_unfaelle = data_processor.increase_column_index(df_unfaelle, ['Lichtverhaeltnisse_ID_FK', 'Strassenzustand_ID_FK'], 1)
df_unfaelle[['Unfallkategorie_ID_FK','Unfalltyp_ID_FK','Lichtverhaeltnisse_ID_FK', 'Strassenzustand_ID_FK']].min()                  # minimale Werte der transformierten Spalten anzeigen um Funktionalität zu prüfen

Unfallkategorie_ID_FK       1
Unfalltyp_ID_FK             1
Lichtverhaeltnisse_ID_FK    1
Strassenzustand_ID_FK       1
dtype: int16

#### Lebensorientierte Räume (LOR)

##### Auslesen der Rohdaten für LORs

In [263]:
#####################
# Auslesen von Pdfs #
#####################

def importLORPDF(file_path):
  """Einlesen PDF, spezifisch Seite 3, da dort die benötigten LOR-Informationen stehen"""

  # Pdf einlesen
  file = PdfReader(file_path)
  text = file.pages[3].extract_text()

  # Löschung von ungewollten Strings aus, welche bei Analyse der PDF mit übernommen wurden
  to_delete = ["Schlüssel", "Name", "Prognoseräume Bezirksregionen Planungsraum Bezirk- und nsverzeichnis der lebensweltlich orientierten Räume",
               "Prognoseräume", "Bezirkregionen", "Planungsraum", "Bezirk", "- und nsverzeichnis der lebensweltlich orientierten Räume",
               "sregionen"]

  for entry in to_delete:
      text = text.replace(entry, "")

  return text # Rückgabe


def extractKeyValues(input_string: str):
  """LOR-ID und LOR-Werte aus Gesamt-String trennen"""

  # Aufteilung des Strings in ID (numerische Werte) und Values (Bezeichnungen) durch Regex-Pattern
  pattern = r'(\d+)\s(.*?)(?=\s\d{3,}|\Z)'

  # IDs und Werte aus dem String extrahieren
  matches = re.findall(pattern, input_string, re.DOTALL)

  # Ergebnislisten für key (LOR-ID) und value (LOR-Werte)
  key = []
  values = []

  # Schleife über alle matches
  for match in matches:
    key.append(match[0])                      # hinzufügen erster Wert (ID) zu ID-Liste
    value = re.sub(r'^\d+\n', '', match[1])   # Extrahieren von IDs und Werten und Entfernen von '\n', hinzufügen vom zweiten Wert
    value = value.replace('\n', '')           # 'neue Zeile' aus String löschen
    values.append(value)                      # neuen Wert hinzufügen

  return key, values


def analyzeLOR(key, value):
  """IDs und Werte aufteilen nach Bezirk (erste 2 Stellen der ID), Prognoseraum (erste 4 Stellen der ID), Bezirksregion (erste 6 Stellen der ID), Planungsraum (vollständige ID)"""

  # Definition der jeweiligen Ergebnislisten
  bezirk = []
  prognoseraum = []
  bezirksregion = []
  planungsraum = []

  # Schleife von 0 bis Länge der Key_Liste
  for i in range(0, len(key)):

    if len(key[i]) == 2:
      bezirk.append((key[i], value[i]))

    elif len(key[i]) == 4:
      prognoseraum.append((key[i], value[i]))

    elif len(key[i]) == 6:
      bezirksregion.append((key[i], value[i]))

    elif len(key[i]) >= 8:
      planungsraum.append((key[i], value[i]))

  return bezirk, prognoseraum, bezirksregion, planungsraum


# Aufruf der vorher definierten Methode
# Alle Dateien mit der Endung '.pdf' auslesen und in Liste speichern
pdfs = [datei for datei in os.listdir(data_path+'/LOR') if datei.endswith(".pdf")]

# Definition von Zwischenspeicherliste
all_keys    = []
all_values  = []

# Schleife über alle Pdf-Datei in der Liste 'pdfs'
for pdf in pdfs:

  temp_pdf = importLORPDF(data_path+'/LOR/'+pdf)  # Pdf einlesen
  key, value = extractKeyValues(temp_pdf)         # LOR-ID und LOR-Werte dieser PDF speichern

  all_keys.extend(key)        # Keys der einzelnen PDF, zur Liste aller Keys der PDFs hinzufügen
  all_values.extend(value)    # Values der einzelnen PDF, zur Liste aller Values der PDFs hinzufügen

bezirk, prognoseraum, bezirksregion, planungsraum = analyzeLOR(all_keys, all_values)  # Analyse der all_keys, all_values per analyzeLOR() um eine Liste für jeden Raum zu erhalten

In [264]:
########################
# Dataframes erstellen #
########################

df_bezirk = pd.DataFrame(data=bezirk, columns=['Bezirk_ID', 'Bezirk'])    # Dataframe erstellen
df_bezirk.set_index('Bezirk_ID', inplace= True)                           # Neuen Index aus Spalte 'Bezirk_ID' erstellen

df_prognoseraum   = pd.DataFrame(data=prognoseraum, columns=['Prognoseraum_ID', 'Prognoseraum'])
df_bezirksregion  = pd.DataFrame(data=bezirksregion, columns=['Bezirksregion_ID', 'Bezirksregion'])
df_planungsraum   = pd.DataFrame(data=planungsraum, columns=['Planungsraum_ID', 'Planungsraum'])

df_prognoseraum

Unnamed: 0,Prognoseraum_ID,Prognoseraum
0,110,Zentrum
1,120,Moabit
2,130,Gesundbrunnen
3,140,Wedding
4,210,Kreuzberg Nord
5,220,Kreuzberg Süd
6,230,Kreuzberg Ost
7,240,Friedrichshain West
8,250,Friedrichshain Ost
9,310,Buch


In [265]:
##############################################
# Verknüpfung zwischen Dataframes hinzufügen #
##############################################

def addLORRelation(df: pd.DataFrame, df_index_column: str, foreign_index_column: str,id_splitter: int):

  index_column = df[f'''{df_index_column}''']
  list_id       = []

  for id in index_column:
    list_id.append(id[:id_splitter])

  df.insert(len(df.columns), column=f'''{foreign_index_column}_FK''', value= list_id)
  df.set_index(df_index_column, inplace= True)

  return df

df_prognoseraum   = addLORRelation(df_prognoseraum, 'Prognoseraum_ID', 'Bezirk_ID',2)
df_bezirksregion  = addLORRelation(df_bezirksregion, 'Bezirksregion_ID', 'Prognoseraum_ID', 4)
df_planungsraum   = addLORRelation(df_planungsraum, 'Planungsraum_ID','Bezirksregion_ID', 6)

In [266]:
#######################
# Dataframes anpassen #
#######################
# Leider konnten nicht alle Werte durch das Regex korrekt erfasst werden, weshalb diese hier noch einmal explizit angepasst werden

for index, row in df_prognoseraum.iterrows():

  if row['Prognoseraum'] == 'Lichtenber g Nord ':
    df_prognoseraum.at[index, 'Prognoseraum'] = 'Lichtenberg Nord'

  elif row['Prognoseraum'] == ' Fennpfuhl ':
    df_prognoseraum.at[index, 'Prognoseraum'] = 'Fennpfuhl'

##### LOR-Koordinaten

In [267]:
##########################################################
# Koordinaten in einheitliches Koordinatenformat bringen #
##########################################################
# Lieder Koordinaten in unterschiedlichen Dateiformanten
# Werden hier vor dem einlesen in einheitliches Format transformiert

def transformJSON(path_in: str, path_out: str, df: pd.DataFrame, value_column: str, LORID: str, LORNAME: str):

    # GeoJSON-Daten einlesen
    with open(path_in, 'r') as f:
        data = json.load(f)

    # Koordinatensystem definieren
    original_crs = "EPSG:32633"       # Ursprung: UTM
    target_crs = "EPSG:4326"          # Ziel:     WGS84 (dezimale Darstellung)

    # Transformater erstellen
    transformer = Transformer.from_crs(original_crs, target_crs)

    for feature in data['features']:

        # Entschlüsselung des Namens
        for index, row in df.iterrows():

          if index == feature['properties'][LORID]:

              feature['properties'][LORNAME] = row[value_column]

        # Überprüfung des Koordinatenformats
        if 'Bezirk' in df.columns:
            continue  # Überspringe die Transformation, wenn bereits im Zielkoordinatensystem

        if feature['geometry']['type'] == 'Polygon':

            # Einzelnes Polygon
            coords = feature['geometry']['coordinates'][0]  # Koordinaten des ersten Rings
            new_coords = [transformer.transform(x, y) for x, y in coords]  # Transformation der Koordinaten
            new_coords = [(y, x) for x, y in new_coords]  # Änderung der Reihenfolge
            feature['geometry']['coordinates'][0] = new_coords

        elif feature['geometry']['type'] == 'MultiPolygon':
            # Multipolygon
            for polygon_coords in feature['geometry']['coordinates']:
                for ring_coords in polygon_coords:
                    new_coords = [transformer.transform(x, y) for x, y in ring_coords]  # Transformation der Koordinaten
                    new_coords = [(y, x) for x, y in new_coords]  # Änderung der Reihenfolge
                    ring_coords[:] = new_coords

    # GeoJSON mit den konvertierten Koordinaten speichern
    with open(path_out, 'w', encoding= 'utf-8') as f:
        json.dump(data, f, ensure_ascii=False)

# Methodenaufruf
transformJSON(data_path+'/LOR/coordinates/bezirke.geojson',       data_path+'/LOR/coordinates/wgs84/bezirke_wgs84.geojson',       df_bezirk,        'Bezirk',         'Gemeinde_schluessel',  'Gemeinde_name')
transformJSON(data_path+'/LOR/coordinates/prognoseraum.geojson',  data_path+'/LOR/coordinates/wgs84/prognoseraum_wgs84.geojson',  df_prognoseraum,  'Prognoseraum',   'PGR_ID',               'PGR_NAME')
transformJSON(data_path+'/LOR/coordinates/bezirksregion.geojson', data_path+'/LOR/coordinates/wgs84/bezirksregion_wgs84.geojson', df_bezirksregion, 'Bezirksregion',  'BZR_ID',               'BZR_NAME')
transformJSON(data_path+'/LOR/coordinates/planungsraum.geojson',  data_path+'/LOR/coordinates/wgs84/planungsraum_wgs84.geojson',  df_planungsraum,  'Planungsraum',   'PLR_ID',               'PLR_NAME')

# beispielhaftes Einlesen der erstellten Dateien
planungsraum_geo    = data_processor.load_json(data_path+'/LOR/coordinates/wgs84/planungsraum_wgs84.geojson')

##### Stammdaten für Datenbank vorbereiten
Bei der Erstellung der Fremdschlüsselbeziehungen in der Datenbank ist aufgefallen, dass für die Planungsraum_ID keine Beziehung erstellt werden kann. Eine nähere Analyse des Problems zeigte auf, dass alle Teildatensätze von df_unfall ein LOR_ab_2021 Attribute haben, bis auf den Datensatz von 2019.

Durch bespielhafte Suchen konnte festgestellt werden, dass im Datensatz nur die LORs von vor 2021 enhalten waren, weshalb ein Mapping auf die nach 2021 nicht möglich ist.

Um dem Problem entgegen zu wirken, wurden die betroffenen IDs, welhce keinen Eintrag im df_Planungsraum haben anhand ihrer Strassekennung identifiziert und anschließend die alte LOR durch die neue erstetzt. Dies traf aber leider auch nicht auf alle betroffenen Datentupel zu....

Sollte die Strasse nicht im df_planungsraum gefunden werden, dann wurden die Koordinaten von dem Unfall ausgelesen und mit den Polygonen der Planungsräumen abgeglichen. Wenn ein Punkt in dem Polygon liegt, dann wird die alte LOR durch die LOR ersetzt.

Durch dieses Vorgehen konnten manuelle Anpassungen an den Rohdaten, eine Elimination des Datensatz, als auch eine Verzerrung der Daten vermieden werden.

In [268]:
#####################################
# Koordinaten in Dataframe einfügen #
#####################################

def addCOORDINATES(jsonfile: dict, df: pd.DataFrame, LORID: str):
    """Koordinaten den entsprechenden LORs über Index zuweisen"""

    # Neue Spalte 'Koordinaten' im DataFrame erstellen
    df['Koordinaten'] = None

    # Indizes des DataFrames in eine Liste von Strings konvertieren
    index = [str(num) for num in df.index]

    # Iteration über alle Features im GeoJSON
    for obj in jsonfile['features']:
        # ID des Objekts aus den Eigenschaften extrahieren
        id = obj['properties'][LORID]

        # Anpassung der Bezirks-IDs, falls erforderlich
        if 'Bezirk' in df.columns:
            id = id[1:]

        # Iteration über alle Indizes im DataFrame
        for i in index:
            if i == id:
                coordinates = obj['geometry']['coordinates']  # Koordinaten des Objekts aus dem GeoJSON extrahieren

                if obj['geometry']['type'] == 'Polygon':
                    # Nur die äußere Kontur verwenden, um ein Polygon zu erstellen
                    polygon = Polygon(coordinates[0])
                    df.at[i, 'Koordinaten'] = polygon
                    print("Polygon Koordinaten eingefügt:", coordinates[0])  # Debugging-Ausgabe

                elif obj['geometry']['type'] == 'MultiPolygon':
                    # Erstellen von MultiPolygonen
                    polygons = []
                    for polygon_coords in coordinates:
                        poly_coords = []
                        for coord in polygon_coords[0]:
                            # Koordinaten im richtigen Format extrahieren (lat, lon)
                            lat, lon = coord[0], coord[1]
                            poly_coords.append((lat, lon))
                        poly = Polygon(poly_coords)
                        polygons.append(poly)
                    multipolygon = MultiPolygon(polygons)
                    df.at[i, 'Koordinaten'] = multipolygon

                else:
                    print("Unbekannter Geometrietyp:", obj['geometry']['type'])
                    continue

    return df

# Methodenaufruf
df_planungsraum   = addCOORDINATES(planungsraum_geo, df_planungsraum, 'PLR_ID')
df_planungsraum

Unnamed: 0_level_0,Planungsraum,Bezirksregion_ID_FK,Koordinaten
Planungsraum_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
01100101,Stülerstraße,011001,MULTIPOLYGON (((13.349232392565362 52.50307265...
01100102,Großer Tiergarten,011001,MULTIPOLYGON (((13.376862123511701 52.51963690...
01100103,Lützowstraße,011001,MULTIPOLYGON (((13.349232392565362 52.50307265...
01100104,Körnerstraße,011001,MULTIPOLYGON (((13.369528193946069 52.49886975...
01100205,Wilhelmstraße,011002,MULTIPOLYGON (((13.37650010845128 52.516016209...
...,...,...,...
11401137,Erieseering,114011,MULTIPOLYGON (((13.513517161270201 52.50530382...
11501238,Rummelsburg,115012,MULTIPOLYGON (((13.475496114573351 52.50188275...
11501339,Karlshorst West,115013,MULTIPOLYGON (((13.505977325763633 52.49113207...
11501340,Karlshorst Nord,115013,MULTIPOLYGON (((13.552597157047254 52.47365228...


In [269]:
#############################################################################################
# Anzeigen von Indizes, welche in df_unfaelle, aber nicht in df_planungsraum enthalten sind #
#############################################################################################

def show_missing_values(df1: pd.DataFrame, df2: pd.DataFrame, column: str):

    indizes = df2.index.astype(int).to_list()
    df1[column] = df1[column].astype(int)

    # Überprüfen, ob für jeden Eintrag in df1[column] ein korrelierender Eintrag in df2.index existiert
    missing_indices = df1[~df1[column].isin(indizes)]
    print("Fehlende Werte:", missing_indices['Planungsraum_ID_FK'])

# Beispielaufruf der Funktion mit mehreren Spalten
show_missing_values(df_unfaelle, df_planungsraum, 'Planungsraum_ID_FK')

Fehlende Werte: Unfall_ID
13650    12301203
13651     3040818
13652    12103115
13653     6040703
13654     7030303
           ...   
27034     1011303
27035     1011201
27036     1011304
27037    11030721
27038     1011202
Name: Planungsraum_ID_FK, Length: 13389, dtype: int64


In [270]:
###############################################################################
# Transformation von nicht vorhandenen IDs von df_unfaelle in df_planungsraum #
###############################################################################

# Iteration über die Zeilen des DataFrames df_unfaelle
for index, row in df_unfaelle.iterrows():

    # Erstellen eines Punktes mit den Koordinaten aus der aktuellen Zeile von df_unfaelle
    point = Point(row['X-Koordinate'], row['Y-Koordinate'])

    # Überprüfen, ob der Punkt in einem der Polygone der Planungsräume liegt
    for planungsraum_id, planungsraum_multipolygon in df_planungsraum['Koordinaten'].items():

        if planungsraum_multipolygon.contains(point):
            # Ersetzen der Planungsraum_ID_FK durch die entsprechende ID
            df_unfaelle.at[index, 'Planungsraum_ID_FK'] = planungsraum_id
            break  # Beenden der Schleife, wenn der Punkt gefunden wurde


# Koordinaten werden ab hier nicht mehr im DataFrame bzw. später in der SQL benötigt
# Koordinaten wurden nur zur Überprüfung der IDs benötigt
df_planungsraum = df_planungsraum.drop(['Koordinaten'], axis= 1)

df_unfaelle # Dataframe anzeigen

Unnamed: 0_level_0,Planungsraum_ID_FK,Unfallkategorie_ID_FK,Unfallart_ID_FK,Unfalltyp_ID_FK,Lichtverhaeltnisse_ID_FK,Strassenzustand_ID_FK,X-Koordinate,Y-Koordinate,Zeit_ID_FK_in_Unfaelle
Unfall_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,02500729,3,7,4,1,2,13.475018,52.513597,108
2,12500824,3,3,6,1,1,13.291022,52.587259,78
3,02400520,3,7,4,1,1,13.420578,52.526019,65
4,07200308,3,7,7,3,1,13.348288,52.481844,120
5,03200206,3,7,7,2,2,13.403228,52.583472,108
...,...,...,...,...,...,...,...,...,...
50109,04300414,3,7,2,1,2,13.296345,52.511008,6499
50110,04400726,3,10,1,3,1,13.289496,52.493813,6060
50111,02400520,3,4,6,3,2,13.423095,52.527534,6195
50112,07300619,3,3,6,1,2,13.359259,52.474367,6152


In [271]:
show_missing_values(df_unfaelle, df_planungsraum, 'Planungsraum_ID_FK')

Fehlende Werte: Series([], Name: Planungsraum_ID_FK, dtype: int64)


## Dataframes to CSV
Um eine schnellere Codeausführung vor allem bei Änderungen zu ermöglichen werden die erstellen und transformierten Dataframes jeweils als CSV-Datei gespeichert.
Der Code wird in einzelnen Zellen aufgerufen, um mehr Flexbilität bei der Ausführung des Speicherbefehls zu haben.

**Unfälle**

In [272]:
df_unfaelle.to_csv(temp_path+'/df_unfaelle.csv')

In [273]:
df_unfallbeteiligte_kategorien.to_csv(temp_path+'/df_unfallbeteiligte_kategorien.csv')

In [274]:
df_unfaelle_unfallbeteiligte_relation.to_csv(temp_path+'/df_unfaelle_unfallbeteiligte_relation.csv', index=False, index_label=False)

In [275]:
df_unfallart.to_csv(temp_path+'/df_unfallart.csv')

In [276]:
df_zeit.to_csv(temp_path+'/df_zeit.csv')

In [277]:
df_unfallkategorie.to_csv(temp_path+'/df_unfallkategorie.csv')

In [278]:
df_unfalltyp.to_csv(temp_path+'/df_unfalltyp.csv')

In [279]:
df_lichtverhaeltnisse.to_csv(temp_path+'/df_lichtverhaeltnisse.csv')

In [280]:
df_strassenzustand.to_csv(temp_path+'/df_strassenzustand.csv')

**LOR**

In [281]:
df_bezirk.to_csv(temp_path+'/df_bezirk.csv')

In [282]:
df_prognoseraum.to_csv(temp_path+'/df_prognoseraum.csv')

In [283]:
df_bezirksregion.to_csv(temp_path+'/df_bezirksregion.csv')

In [284]:
df_planungsraum.to_csv(temp_path+'/df_planungsraum.csv')

# Baustellen

## Stammdaten

#### Laden

In [167]:
##########################################################
# Koordinaten aus Datei auslesen und Dataframe erstellen #
##########################################################

# Daten einlesen
data          = pd.read_json(data_path+'/Baustellen/baustellen_sperrungen.json')  # Einlesen JSON und Speicherung als Pandas Object
df_baustellen = pd.json_normalize(data['features'])                               # Dataframe erstellen aus Pandas Object, ab Ebene 'features'
df_baustellen = data_processor.set_new_index(df_baustellen, 'Baustellen_ID')      # neuen Index erstellen

df_baustellen   # Dataframe ausgeben

Unnamed: 0_level_0,type,properties.id,properties.tstore,properties.objectState,properties.subtype,properties.severity,properties.validity.from,properties.validity.to,properties.direction,properties.icon,properties.is_future,properties.street,properties.section,properties.content,geometry.type,geometry.coordinates,geometry.geometries
Baustellen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
1,Feature,2147349726,2024-02-14T10:09:31.458000Z,modified,Störung,keine Sperrung,15.02.2024 17:30,15.02.2024 20:00,Beidseitig,warnung,True,Mercedes-Platz (Friedrichshain),"Bereich Mühlenstr., Stralauer Allee, Warschaue...","Veranstaltung, dichter Verkehr zu erwarten. De...",Point,"[13.44344729778232, 52.505832535615625]",
2,Feature,2147350638,2024-02-14T13:13:37.234000Z,modified,Baustelle,keine Sperrung,15.02.2024 10:00,23.08.2024 17:00,Einseitig,baustelle,True,Sachsendamm (Schöneberg),Richtung Dominicusstraße zwischen Hedwig-Dohm-...,Fahrbahn auf einen Fahrstreifen verengt. Vom V...,GeometryCollection,,"[{'type': 'Point', 'coordinates': [13.35883177..."
3,Feature,2147350636,2024-02-13T10:08:51.440000Z,modified,Baustelle,keine Sperrung,15.02.2024 07:00,11.03.2024 17:00,Einseitig,baustelle,True,Großbeerenstraße (Mariendorf),stadtauswärts zwischen Kitzingstraße und Wilhe...,"Instandsetzungsarbeiten, Fahrbahn auf einen Fa...",GeometryCollection,,"[{'type': 'Point', 'coordinates': [13.37679985..."
4,Feature,2147350640,2024-02-14T09:58:00.977000Z,modified,Baustelle,keine Sperrung,15.02.2024 07:00,01.04.2024 23:59,Beidseitig,baustelle,True,Königstraße (Wannsee),,,GeometryCollection,,"[{'type': 'Point', 'coordinates': [13.15787259..."
5,Feature,LMS-BR_r_LMS-BR_325351_LMS-BR_72,2024-02-14T18:14:34.495000Z,modified,Sperrung,,14.02.2024 19:13,14.02.2024 21:14,,sperrung,,Am Kiesteich (Falkenhagener Feld),Staaken in Richtung Spandau zwischen Im Spekte...,"gesperrt, Verkehrsbehinderung durch Bergungsar...",GeometryCollection,,"[{'type': 'Point', 'coordinates': [13.16255999..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
301,Feature,2147343519,2024-02-02T07:24:07.350000Z,new,Sperrung,Vollsperrung,27.11.2018 09:00,08.07.2024 17:00,Beidseitig,sperrung,,Pankgrafenstraße (Karow),in beiden Richtungen (zwischen Boenkestraße un...,"Brückenarbeiten, Vollsperrung",Point,"[13.468874825468912, 52.61451096018626]",
302,Feature,2147343486,2024-02-02T07:24:07.366000Z,new,Baustelle,keine Sperrung,12.11.2018 15:04,29.02.2024 17:00,Beidseitig,baustelle,,Bismarckstraße (Charlottenburg),Richtung Ernst-Reuter-Platz Höhe Wilmersdorfer...,"Baustelle, Fahrbahn auf drei Fahrstreifen verengt",Point,"[13.30517700155737, 52.5114841045217]",
303,Feature,2147341997,2024-02-02T07:24:07.350000Z,new,Baustelle,keine Sperrung,03.11.2017 12:54,30.06.2024 17:00,Beidseitig,baustelle,,Mehringdamm (Kreuzberg),in beiden Richtungen zwischen Schwiebusser Str...,"Baustelle, Fahrbahnverschwenkung, Fahrstreifen...",Point,"[13.386030261001782, 52.48608119479517]",
304,Feature,AdbNO_r_AdbNO_88_AdB-NO,2024-02-14T18:14:05.930000Z,modified,Gefahr,,02.09.2017 00:00,,Einseitig,warnung,,A100 (Stadtring Berlin),Wedding Richtung Wilmersdorf Dreieck Funkturm ...,"rechter Fahrstreifen gesperrt, vorübergehende ...",GeometryCollection,,"[{'type': 'Point', 'coordinates': [13.28111, 5..."


### Transformation

#### Allgemein

In [168]:
###########################
# Umbenennen und anpassen #
###########################

# DROP
df_baustellen = df_baustellen.drop(['type', 'properties.tstore', 'properties.objectState',
                                   'properties.is_future', 'properties.street', 'properties.section',
                                    'geometry.type', 'geometry.coordinates', 'geometry.geometries',
                                    'properties.icon'], axis=1)
# RENAME
df_baustellen = df_baustellen.rename(columns={'properties.subtype': 'Baustellenart',
                                              'properties.severity': 'Baustellentyp',
                                              'properties.validity.from':  'Beginn',
                                              'properties.validity.to': 'Ende',
                                              'properties.direction': 'Seite Sperrung',
                                              'properties.content': 'Beschreibung'})

# FILTER

# Konvertierung zu datetime -> besser für Auswertung
df_baustellen['Beginn'] = pd.to_datetime(df_baustellen['Beginn'], dayfirst=True)
df_baustellen['Ende'] = pd.to_datetime(df_baustellen['Ende'], dayfirst=True)

# Betrachtungszeitraum als Start- und End
start_betrachtungszeitraum = pd.to_datetime('2018-01-01')
ende_betrachtungszeitraum = pd.to_datetime('2022-01-01')

# Filterbedingungen
bedingung1 = df_baustellen['Beginn'].between(start_betrachtungszeitraum, ende_betrachtungszeitraum) | df_baustellen['Ende'].between(start_betrachtungszeitraum, ende_betrachtungszeitraum)    # Prüfung ob Beginn- oder Enddatum einer Baustelle im Betrachtungszeitraum liegt
bedingung2 = (df_baustellen['Beginn'] < start_betrachtungszeitraum) & (df_baustellen['Ende'] > ende_betrachtungszeitraum)                                                                     # Prüfung ob Baustelle zwar nicht im Betrachtungszeitraum beginnt oder endet aber über diesen hinaus verläuft
bedingung3 = df_baustellen['Beginn'].between(start_betrachtungszeitraum, ende_betrachtungszeitraum) & df_baustellen['Ende'].between(start_betrachtungszeitraum, ende_betrachtungszeitraum)    # Prüfung ob Beginn- und Enddatum einer Baustelle im Betrachtungszeitraum liegt
# Anwenden der Filterbedingungen
df_baustellen = df_baustellen[bedingung1 | bedingung2 | bedingung3]

# neuen Index erstellen
df_baustellen = data_processor.set_new_index(df_baustellen, 'Baustellen_ID')

df_baustellen # Dataframe ausgeben

Unnamed: 0_level_0,properties.id,Baustellenart,Baustellentyp,Beginn,Ende,Seite Sperrung,Beschreibung
Baustellen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,2147347922,Bauarbeiten,keine Sperrung,2021-10-06 08:00:00,2024-03-29 17:00:00,Einseitig,"Fahrbahn auf einen Fahrstreifen verengt, Bauar..."
2,2147347459,Baustelle,keine Sperrung,2021-07-29 08:00:00,2024-02-29 17:00:00,Beidseitig,"Baustelle, Linksabbieger auf zwei Fahrstreifen..."
3,2147347409,Sperrung,Vollsperrung,2021-07-13 07:00:00,2024-12-31 17:00:00,Beidseitig,"Leitungsarbeiten, Fahrtrichtung gesperrt. In d..."
4,2147348879,Baustelle,keine Sperrung,2021-04-01 08:44:00,2024-08-05 17:00:00,Beidseitig,"Brückenbauarbeiten, Fahrbahn jeweils auf einen..."
5,2147346962,Baustelle,keine Sperrung,2021-03-16 08:00:00,2025-01-10 17:00:00,Beidseitig,"Kabeltrassenbau, Fahrbahn auf zwei Fahrstreife..."
6,2147350471,Baustelle,keine Sperrung,2021-03-09 08:00:00,2024-02-28 17:00:00,Beidseitig,"Baustelle, Fahrbahn auf einen Fahrstreifen ver..."
7,2147346953,Baustelle,keine Sperrung,2021-03-09 08:00:00,2024-02-28 17:00:00,Beidseitig,"Baustelle, Fahrbahn auf einen Fahrstreifen ver..."
8,2147346752,Baustelle,keine Sperrung,2021-01-06 07:00:00,2024-03-31 17:00:00,Beidseitig,"Hochbau-Baustelle, Fahrbahn auf einen Fahrstre..."
9,2147350087,Baustelle,keine Sperrung,2020-11-05 07:00:00,2024-05-31 17:00:00,Beidseitig,"Aufzugsbau U-Bf, Fahrbahn jeweils auf einen Fa..."
10,2147346410,Baustelle,keine Sperrung,2020-09-28 08:00:00,2024-02-29 17:00:00,Beidseitig,"Baustelle, Fahrbahn auf zwei Fahrstreifen ver..."


#### Zeit_ID in Baustellen

In [169]:
############################################################
# Erstellung Relationstabelle zwischen Zeit und Baustellen #
############################################################

# Zeit ID als Spalte verwenden
df_zeit.reset_index(inplace=True)

wochentage = ['Montag', 'Dienstag', 'Mittwoch', 'Donnerstag', 'Freitag', 'Samstag', 'Sonntag']

df_baustellen['Beginn'] = pd.to_datetime(df_baustellen['Beginn'], dayfirst=True)

df_baustellen['Beginn_Tag']       = df_baustellen['Beginn'].dt.day.astype(int)
df_baustellen['Beginn_Monat']     = df_baustellen['Beginn'].dt.month.astype(int)
df_baustellen['Beginn_Jahr']      = df_baustellen['Beginn'].dt.year.astype(int)
df_baustellen['Beginn_Stunde']    = df_baustellen['Beginn'].dt.hour.astype(int)
df_baustellen['Beginn_Wochentag'] = df_baustellen['Beginn'].apply(lambda x: wochentage[x.weekday()] if pd.notna(x) else None)

df_baustellen['Ende'] = pd.to_datetime(df_baustellen['Ende'],  dayfirst=True)

df_baustellen['Ende_Tag']       = df_baustellen['Ende'].dt.day.fillna(-1).astype(int)
df_baustellen['Ende_Monat']     = df_baustellen['Ende'].dt.month.fillna(-1).astype(int)
df_baustellen['Ende_Jahr']      = df_baustellen['Ende'].dt.year.fillna(-1).astype(int)
df_baustellen['Ende_Stunde']    = df_baustellen['Ende'].dt.hour.fillna(-1).astype(int)
df_baustellen['Ende_Wochentag'] = df_baustellen['Ende'].apply(lambda x: wochentage[x.weekday()] if pd.notna(x) else None)   # Wichtig hier, da teils keine Endzeitpuntk angeben, sonst Fehler, da kein Gegenwert

df_baustellen = df_baustellen.drop(['Beginn', 'Ende'], axis=1)

# Stelle sicher, dass alle beteiligten Spalten als Strings behandelt werden -> hinzufügen von NaN Werten
df_baustellen.fillna({'Beginn_Jahr': '', 'Beginn_Monat': '', 'Beginn_Stunde': '', 'Beginn_Wochentag': '', 'Ende_Jahr': '', 'Ende_Monat': '', 'Ende_Stunde': '', 'Ende_Wochentag': ''}, inplace=True)

# Schlüssel erzeugen
df_baustellen['beginn_key'] = df_baustellen['Beginn_Jahr'].astype(str) + '-' + df_baustellen['Beginn_Monat'].astype(str).str.zfill(2) + '-' + df_baustellen['Beginn_Stunde'].astype(str).str.zfill(2) + '-' + df_baustellen['Beginn_Wochentag']
df_baustellen['ende_key']   = df_baustellen['Ende_Jahr'].astype(str) + '-' + df_baustellen['Ende_Monat'].astype(str).str.zfill(2) + '-' + df_baustellen['Ende_Stunde'].astype(str).str.zfill(2) + '-' + df_baustellen['Ende_Wochentag']

df_zeit.fillna({'Jahr': '', 'Monat': '', 'Stunde': '', 'Wochentag': ''}, inplace=True)
df_zeit['temp_key'] = df_zeit['Jahr'].astype(str) + '-' + df_zeit['Monat'].astype(str).str.zfill(2) + '-' + df_zeit['Stunde'].astype(str).str.zfill(2) + '-' + df_zeit['Wochentag']

# Mapping von temp_key zu Zeit_ID
temp_key_to_zeit_id = df_zeit.set_index('temp_key')['Zeit_ID'].to_dict()

# Ordne jeder Zeile in df_baustellen die entsprechenden Zeit_IDs für Beginn und Ende zu
df_baustellen['Zeit_ID_FK_Beginn'] = df_baustellen['beginn_key'].map(temp_key_to_zeit_id)
df_baustellen['Zeit_ID_FK_Ende'] = df_baustellen['ende_key'].map(temp_key_to_zeit_id)

df_baustellen['Zeit_ID_FK_Beginn'].fillna(df_zeit.index.min()+1, inplace=True)
df_baustellen['Zeit_ID_FK_Ende'].fillna(df_zeit.index.max()+1, inplace=True)

# Liste für das Sammeln der Daten initialisieren
data_to_append = []

# Iteration über jede Zeile im DataFrame df_baustellen
for index, row in df_baustellen.iterrows():
    # Iteration über den Zeitbereich für jede Baustelle
    for i in range(int(row['Zeit_ID_FK_Beginn']), int(row['Zeit_ID_FK_Ende']) + 1):
        # Hinzufügen eines Dictionary für jede Zeit_ID zur Liste
        data_to_append.append({'Baustellen_ID_FK_in_Zeit': index,
                               'Zeit_ID_FK_in_Baustellen_Relation': i})

# Erstellen eines neuen DataFrames aus der Liste von Dictionaries
df_baustellen_zeit_relation = pd.DataFrame(data_to_append)
# Lösche die temporären und nicht mehr benötigten Spalten
df_baustellen = df_baustellen.drop(['Beginn_Jahr', 'Beginn_Monat', 'Beginn_Tag', 'Beginn_Stunde', 'Beginn_Wochentag', 'beginn_key', 'Ende_Jahr', 'Ende_Monat', 'Ende_Tag', 'Ende_Stunde', 'Ende_Wochentag', 'ende_key', 'Zeit_ID_FK_Beginn', 'Zeit_ID_FK_Ende'], axis=1)
df_zeit       = df_zeit.drop(['temp_key'], axis=1)
df_zeit       = df_zeit.set_index('Zeit_ID')

df_baustellen_zeit_relation

Unnamed: 0,Baustellen_ID_FK_in_Zeit,Zeit_ID_FK_in_Baustellen_Relation
0,1,7619
1,1,7620
2,1,7621
3,1,7622
4,1,7623
...,...,...
83830,24,8060
83831,24,8061
83832,24,8062
83833,24,8063


In [170]:
################################
# Koordinaten nochmal einlesen #
################################
# Koordinaten wurden nicht korrekt eingelesen (siehe erste Codeabschnitt, letzte Spalten)
# hier Koordinaten nochmal eingelesen und direkt als well known text (WKT) konvertiert (erleichtert Verwendung in Power BI)

# JSON-Datei laden
geometries = data_processor.load_json(data_path+'/Baustellen/baustellen_sperrungen.json')

# Liste für WKT-Ausgaben und ein Dictionary für das Zuordnen der Koordinaten per ID definieren
wkt_dict = {}

# Alle Geometrien aus der JSON-Datei auslesen
for feature in geometries['features']:
    geom_type = feature['geometry']['type']
    geometry = feature.get('geometry')
    feature_id = feature['properties']['id']  # Annahme, dass die ID unter properties.id gespeichert ist

    if geom_type == 'Point':
        coordinates = feature['geometry']['coordinates']
        wkt_dict[feature_id] = f"POINT ({coordinates[0]} {coordinates[1]})"

    elif geom_type == 'GeometryCollection':
        geometries = geometry.get('geometries', [])
        linestrings = []

        for geom in geometries:
            geom_type = geom.get('type')
            coordinates = geom.get('coordinates', [])

            if geom_type == 'LineString':
                linestrings += coordinates  # Fügt alle Koordinaten der Linestring hinzu

        if linestrings:
            wkt_dict[feature_id] = str(LineString(linestrings))

# Füge die WKT-Geometrien zu df_baustellen_gefiltert hinzu, basierend auf der Baustellen_ID
df_baustellen['Koordinaten'] = df_baustellen['properties.id'].map(wkt_dict)

# da mit bereits modifzierten Dataframe die Koordinaten nochmal angefügt, wurde properties.id benötigt
# wird hier nun gelöscht und durch eigenen Primärschlüssel Baustellen_ID erstetzt
df_baustellen = df_baustellen.drop(columns=['properties.id'], axis=1)         # Spalte löschen

df_baustellen

Unnamed: 0_level_0,Baustellenart,Baustellentyp,Seite Sperrung,Beschreibung,Koordinaten
Baustellen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,Bauarbeiten,keine Sperrung,Einseitig,"Fahrbahn auf einen Fahrstreifen verengt, Bauar...",LINESTRING (13.403006073931405 52.498368985274...
2,Baustelle,keine Sperrung,Beidseitig,"Baustelle, Linksabbieger auf zwei Fahrstreifen...",POINT (13.458241397415755 52.49203836090603)
3,Sperrung,Vollsperrung,Beidseitig,"Leitungsarbeiten, Fahrtrichtung gesperrt. In d...",POINT (13.533780340627656 52.52485696385509)
4,Baustelle,keine Sperrung,Beidseitig,"Brückenbauarbeiten, Fahrbahn jeweils auf einen...",LINESTRING (13.36063400404101 52.4467400059262...
5,Baustelle,keine Sperrung,Beidseitig,"Kabeltrassenbau, Fahrbahn auf zwei Fahrstreife...",POINT (13.338005013948996 52.51368044168044)
6,Baustelle,keine Sperrung,Beidseitig,"Baustelle, Fahrbahn auf einen Fahrstreifen ver...",POINT (13.397840674970704 52.53557701904636)
7,Baustelle,keine Sperrung,Beidseitig,"Baustelle, Fahrbahn auf einen Fahrstreifen ver...",POINT (13.397840674970704 52.53557701904636)
8,Baustelle,keine Sperrung,Beidseitig,"Hochbau-Baustelle, Fahrbahn auf einen Fahrstre...",POINT (13.472192551516244 52.50194274305411)
9,Baustelle,keine Sperrung,Beidseitig,"Aufzugsbau U-Bf, Fahrbahn jeweils auf einen Fa...",LINESTRING (13.335350016934271 52.499348048792...
10,Baustelle,keine Sperrung,Beidseitig,"Baustelle, Fahrbahn auf zwei Fahrstreifen ver...",POINT (13.459752344509802 52.49274877663376)


## Gefahrenbereiche um Baustellen

Das ein Unfall inmitten einer Baustellen passiert ist eher unwahrscheinlich. Deswegen wurde jeweils um den Punkt einer Baustellen bzw. um den Anfangs- Endpunkt einer Baustellen ein Gefahrenbereich definiert.

Dabei ist die Prämisse: Sobald ein Unfall von den Koordinaten innerhalb dieses definierten Bereiches liegt, ist anzunehmen, dass die Baustellen zu diesem geführt hat.

Sofern es die Daten zu lassen, könnte man auch historisch vergleichen, ob es seit der Baustelle dort zu mehr Unfällen gekommen ist, um eine noch qualifiziertere Aussage zu treffen. Das würde hier aber schon etwas zu weit führen.



In [171]:
#################################################
# Definition des Gefahrenbereichs um Baustellen #
#################################################
# Hinweis: Auf der Karte wird das Polygon oval dargestellt.
# Die Distanz vom Mittelpunkt zu den den einzelnen Punkten, welche fianle das Polygon defnieren sind aber identisch, weshalb nur von einer falschen Darstellung auf der Karte auszugehen ist.

def testPolygon():
    """Karte mit einem Polygon erstellen"""

    # Mittelpunkt und Radius um den Mittelpunkt definieren
    center_point = Point(13.412842, 52.521974)
    radius = 0.0005

    polygon = center_point.buffer(radius, resolution=50)                        # Erstelle ein regelmäßiges Polygon mit 50 Seiten um den Mittelpunkt
    m = folium.Map(location=[center_point.y, center_point.x], zoom_start=900)   # Erstelle eine Karte mit dem Mittelpunkt als Zentrum

    folium.GeoJson(polygon.__geo_interface__).add_to(m)                                       # Füge das Polygon zur Karte hinzu
    folium.Marker(location=[center_point.y, center_point.x], popup='Mittelpunkt').add_to(m)   # Füge den Mittelpunkt zur Karte hinzu

    return m

# Karte anzeigen
map = testPolygon()
map

In [172]:
###############################################################################
# Auslesen der ersten und letzten Koordinaten für Definition Gefahrenbereiche #
###############################################################################

# Koordinaten als Liste einlesen
geometry_wkt = df_baustellen['Koordinaten'].to_list()

# Baustellen-IDs als Liste einlesen
baustellen_id = df_baustellen.index.to_list()

# Definition eines neuen leeren DataFrames für die Ergebnisse
geometry_temp = pd.DataFrame(columns=['Baustellen_ID', 'Anfangspunkt_X', 'Anfangspunkt_Y', 'Endpunkt_X', 'Endpunkt_Y'])

# Schleife, welche jedes Geometryobjekt aus der Koordinatenliste ausliest
for geometry, baustellen_id in zip(geometry_wkt, baustellen_id):
    geometry_object = loads(geometry)

    if geometry_object.geom_type == 'Point':
        # Für Punktgeometrie werden Anfangs- und Endpunkte identisch gesetzt
        point_coords = geometry_object.coords[0]
        new_row = pd.DataFrame([[baustellen_id, point_coords[0], point_coords[1], point_coords[0], point_coords[1]]],
                               columns=['Baustellen_ID', 'Anfangspunkt_X', 'Anfangspunkt_Y', 'Endpunkt_X', 'Endpunkt_Y'])
        geometry_temp = pd.concat([geometry_temp, new_row], ignore_index=True)
    elif geometry_object.geom_type == 'LineString':
        # Für Liniengeometrie werden Anfangs- und Endpunkte separat gesetzt
        line_coords = geometry_object.coords
        start_point = line_coords[0]
        end_point = line_coords[-1]
        new_row = pd.DataFrame([[baustellen_id, start_point[0], start_point[1], end_point[0], end_point[1]]],
                               columns=['Baustellen_ID', 'Anfangspunkt_X', 'Anfangspunkt_Y', 'Endpunkt_X', 'Endpunkt_Y'])
        geometry_temp = pd.concat([geometry_temp, new_row], ignore_index=True)

# Baustellen-ID als Index setzen
geometry_temp.set_index('Baustellen_ID', inplace=True)

geometry_temp  # DataFrame anzeigen

Unnamed: 0_level_0,Anfangspunkt_X,Anfangspunkt_Y,Endpunkt_X,Endpunkt_Y
Baustellen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,13.403006,52.498369,13.399562,52.498349
2,13.458241,52.492038,13.458241,52.492038
3,13.53378,52.524857,13.53378,52.524857
4,13.360634,52.44674,13.360634,52.44674
5,13.338005,52.51368,13.338005,52.51368
6,13.397841,52.535577,13.397841,52.535577
7,13.397841,52.535577,13.397841,52.535577
8,13.472193,52.501943,13.472193,52.501943
9,13.33535,52.499348,13.33535,52.499348
10,13.459752,52.492749,13.459752,52.492749


In [173]:
#####################################################
# Abgleich Koordinaten Unfall ob in Gefahrenbereich #
#####################################################

def precompute_polygons(construction_sites_df, radius):
    """Berechnet vorab die Polygone für jede Baustelle basierend auf den Start- und Endpunkten."""

    polygons = []

    for _, row in construction_sites_df.iterrows():
        start_point = Point(row['Anfangspunkt_X'], row['Anfangspunkt_Y'])
        end_point   = Point(row['Endpunkt_X'], row['Endpunkt_Y'])

        # Polygone basierend auf dem Radius um Start- und Endpunkt erstellen
        polygons.append((start_point.buffer(radius), end_point.buffer(radius)))

    return polygons

def checkifpointinPolygon(accidents_df, construction_sites_df):
    """Überprüft, ob ein Unfallpunkt innerhalb des Gefahrenbereichs liegt, der durch Baustellen-Polygone definiert wird."""

    # Radius für den Gefahrenbereich
    radius = 0.001

    # Liste für Ergebnisdaten
    results_list = []

    # Vorab berechnete Polygone für jede Baustelle
    polygons = precompute_polygons(construction_sites_df, radius)

    # Über jeden Unfallpunkt im Unfall-Datenframe iterieren
    for unfall_index, unfall_row in accidents_df.iterrows():
        unfall_point = Point(unfall_row['X-Koordinate'], unfall_row['Y-Koordinate'])

        # Prüfen, ob der Unfallpunkt innerhalb eines der vorberechneten Polygone liegt
        for baustellen_index, (polygon_start, polygon_end) in enumerate(polygons):
            if polygon_start.contains(unfall_point) or polygon_end.contains(unfall_point):
                # Neuen Eintrag als Dictionary erstellen
                new_entry = {'Unfall_ID_FK': unfall_index, 'Baustellen_ID_FK': baustellen_index+1}
                results_list.append(new_entry)

    # Liste von Dictionaries in einen DataFrame umwandeln
    results_df = pd.DataFrame(results_list)

    return results_df

# Methodenaufruf
df_unfaelle_baustellen_relation = checkifpointinPolygon(df_unfaelle, geometry_temp)                                   # Funktionsaufruf, um die Beziehung zwischen Unfällen und Baustellen zu bestimmen

df_unfaelle_baustellen_relation   # Dataframe anzeigen

Unnamed: 0,Unfall_ID_FK,Baustellen_ID_FK
0,79,2
1,244,22
2,297,2
3,311,2
4,329,18
...,...,...
426,49979,22
427,49987,18
428,50015,22
429,50082,18


## Transformation Baustellen-Koordinaten für Power BI

In [174]:
######################################
# Leerzeichen entfernen für Power BI #
######################################

coordinates = df_baustellen['Koordinaten'].tolist()
new_coordinates = []

for item in coordinates:
    new_item = item.replace('POINT ', 'POINT').replace('LINESTRING ', 'LINESTRING')
    new_coordinates.append(new_item)

df_baustellen['Koordinaten'] = new_coordinates
df_baustellen

Unnamed: 0_level_0,Baustellenart,Baustellentyp,Seite Sperrung,Beschreibung,Koordinaten
Baustellen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,Bauarbeiten,keine Sperrung,Einseitig,"Fahrbahn auf einen Fahrstreifen verengt, Bauar...",LINESTRING(13.403006073931405 52.4983689852743...
2,Baustelle,keine Sperrung,Beidseitig,"Baustelle, Linksabbieger auf zwei Fahrstreifen...",POINT(13.458241397415755 52.49203836090603)
3,Sperrung,Vollsperrung,Beidseitig,"Leitungsarbeiten, Fahrtrichtung gesperrt. In d...",POINT(13.533780340627656 52.52485696385509)
4,Baustelle,keine Sperrung,Beidseitig,"Brückenbauarbeiten, Fahrbahn jeweils auf einen...",LINESTRING(13.36063400404101 52.44674000592627...
5,Baustelle,keine Sperrung,Beidseitig,"Kabeltrassenbau, Fahrbahn auf zwei Fahrstreife...",POINT(13.338005013948996 52.51368044168044)
6,Baustelle,keine Sperrung,Beidseitig,"Baustelle, Fahrbahn auf einen Fahrstreifen ver...",POINT(13.397840674970704 52.53557701904636)
7,Baustelle,keine Sperrung,Beidseitig,"Baustelle, Fahrbahn auf einen Fahrstreifen ver...",POINT(13.397840674970704 52.53557701904636)
8,Baustelle,keine Sperrung,Beidseitig,"Hochbau-Baustelle, Fahrbahn auf einen Fahrstre...",POINT(13.472192551516244 52.50194274305411)
9,Baustelle,keine Sperrung,Beidseitig,"Aufzugsbau U-Bf, Fahrbahn jeweils auf einen Fa...",LINESTRING(13.335350016934271 52.4993480487922...
10,Baustelle,keine Sperrung,Beidseitig,"Baustelle, Fahrbahn auf zwei Fahrstreifen ver...",POINT(13.459752344509802 52.49274877663376)


## Dataframes to CSV

In [175]:
df_baustellen.to_csv(temp_path+'/df_baustellen.csv')

In [176]:
df_unfaelle_baustellen_relation.to_csv(temp_path+'/df_unfaelle_baustellen_relation.csv')

In [177]:
df_baustellen_zeit_relation.to_csv(temp_path+'/df_baustellen_zeit_relation.csv', index=False, index_label=False)

# Verkehrslage


## Verkehrsdetektoren

### Stammdaten laden

In [178]:
############################
# Daten in Dataframe laden #
############################

df_verkehrsdetektoren_stamm = pd.read_excel(data_path+'/Verkehrslage/Verkehrsdetektion_Stammdaten.xlsx')                    # Laden der Daten aus Excel
df_verkehrsdetektoren_stamm

Unnamed: 0,MQ_KURZNAME,DET_NAME_ALT,DET_NAME_NEU,DET_ID15,MQ_ID15,STRASSE,POSITION,POS_DETAIL,RICHTUNG,SPUR,annotation,LÄNGE (WGS84),BREITE (WGS84),INBETRIEBNAHME,ABBAUDATUM,DEINSTALLIERT,KOMMENTAR
0,TE001,TEU00002_Det0,TE001_Det_HF1,100101010000167,100201010000077,A115,AS Spanische Allee – Brücke,AK Zehlendorf,Südwest,HF_R,Hauptfahrbahn rechte Spur,13.192578,52.433868,2003-02-18,NaT,,
1,TE001,TEU00002_Det1,TE001_Det_HF2,100101010000268,100201010000077,A115,AS Spanische Allee – Brücke,AK Zehlendorf,Südwest,HF_2vR,"Hauptfahrbahn, 2. Spur von rechts",13.192578,52.433868,2003-02-18,NaT,,
2,TE002,TEU00002_Det2,TE002_Det_HF1,100101010000369,100201010000178,A115,AS Spanische Allee – Brücke,AD Funkturm,Nordost,HF_R,Hauptfahrbahn rechte Spur,13.192747,52.433813,2003-02-18,NaT,,
3,TE002,TEU00002_Det3,TE002_Det_HF2,100101010000470,100201010000178,A115,AS Spanische Allee – Brücke,AD Funkturm,Nordost,HF_2vR,"Hauptfahrbahn, 2. Spur von rechts",13.192747,52.433813,2003-02-18,NaT,,
4,TE004,TEU00004_Det0,TE004_Det_HF1,100101010000874,100201010000380,Clayallee,zwischen Scharfestraße und Propst-Süssmilch-We...,Potsdamer Chaussee,Süd,HF_R,Hauptfahrbahn rechte Spur,13.261301,52.436642,2003-02-18,NaT,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
577,TE583,teuscalaS00000DD00384D1,TE583_Det_HF2,100101010097975,100201010055348,Tempelhofer Damm,zwischen Burgemeisterstraße und Friedrich-Wilh...,Nord,Nord,HF_2vR,"Hauptfahrbahn, 2. Spur von rechts",13.384196,52.457440,2018-03-01,NaT,X,
578,TE592,teuscalaS00000DD00391D0,TE592_Det_HF1,100101010099692,100201010056257,Kaiser-Friedrich-Straße,zwischen Schillerstraße und Pestalozzistraße,Süd,Süd,HF_R,Hauptfahrbahn rechte Spur,13.301719,52.509232,2018-04-27,NaT,X,
579,TE592,teuscalaS00000DD00391D1,TE592_Det_HF2,100101010099793,100201010056257,Kaiser-Friedrich-Straße,zwischen Schillerstraße und Pestalozzistraße,Süd,Süd,HF_2vR,"Hauptfahrbahn, 2. Spur von rechts",13.301719,52.509232,2018-04-27,NaT,X,
580,TE593,teuscalaS00000DD00392D0,TE593_Det_HF1,100101010099894,100201010056358,Kaiser-Friedrich-Straße,zwischen Pestalozzistraße und Schillerstraße,Nord,Nord,HF_R,Hauptfahrbahn rechte Spur,13.302183,52.508531,2018-04-27,NaT,X,


In [179]:
######################
# Dataframe anpassen #
######################

# Fehlerhafte Einzelwerte werden ersetzt / geändert

def replacefalsestreet(cur_street, new_street):
  """Falsche Straßennamen (cur_street) werden durch neuen Straßnamen (new_street) ersetzt"""

  index_list = df_verkehrsdetektoren_stamm.loc[df_verkehrsdetektoren_stamm['STRASSE'] == cur_street].index  # Index der aktuellen Straße erhalten

  for index in index_list:
    df_verkehrsdetektoren_stamm.at[index, 'STRASSE'] = new_street # neuen Straßnamen hinzufügen

# Methodenaufruf
replacefalsestreet('Joachimstaler Straße', 'Joachimsthaler Straße')
replacefalsestreet('Ollenhauer Straße', 'Ollenhauerstraße')
replacefalsestreet('Lietzenburger Str', 'Lietzenburger Straße')
replacefalsestreet('Klingelhöfer Straße', 'Klingelhöferstraße')
replacefalsestreet('Brunsbüttler Damm', 'Brunsbütteler Damm')
replacefalsestreet('Müllerstraße (Weddingplatz)', 'Müllerstraße')

# Löschen von nicht benötigten Attributen
df_verkehrsdetektoren_stamm = df_verkehrsdetektoren_stamm.drop(['DET_NAME_ALT', 'DET_NAME_NEU', 'DET_ID15', 'MQ_ID15', 'POS_DETAIL','RICHTUNG', 'SPUR', 'annotation', 'INBETRIEBNAHME','ABBAUDATUM', 'DEINSTALLIERT', 'KOMMENTAR'], axis=1)

# Spaltennamen anpassen
df_verkehrsdetektoren_stamm = df_verkehrsdetektoren_stamm.rename(columns={'MQ_KURZNAME':'Verkehrsdetektor_ID', 'STRASSE': 'Strasse'})                           # Duplikate vorhanden, da teilweise pro Fahrbahn und Fahrtrichtrung mehrere Sensoren
df_verkehrsdetektoren_stamm = df_verkehrsdetektoren_stamm.drop_duplicates(subset=['Verkehrsdetektor_ID'])
df_verkehrsdetektoren_stamm = df_verkehrsdetektoren_stamm.query("Verkehrsdetektor_ID != 'TE539' ")

### Zuordnung Straßenkoordinaten und Verkehrsdetektoren

Diese Aufgabe hat sich tatsächlich schwieriger gestaltet. Über mehrere Iterationen konnte festgestellt werden, dass es teilweise Zusammenhänge zwischen den Detektoren gibt.

Dabei konnten folgenden drei Arten von Detektoren identiziert werden:
1. **Einzeldetektoren:** Ein Dektor, der die Daten für eine Straße erfasst
2. **Abschnittsdetektoren:** Mehrere Detektoren, die auf verschiedene Abschnitten der Straße messen
3. **Richtungsdetektoren:** Zwei Detektoren auf einer Straße die jeweils für eine Richtung das Verkehrsaufkommen messen.

Die Schwierigkeit bestand nun darin entsprechend diese Besonderheiten auch bei der Zuordnnung der Straßenkoordinaten zu beachten.

In den verschiedenen Codeabschnitten werden Attribute erzeugt bzw. ausgewertet, die entsprechend eine möglichst eindeutige Zuordnung ermöglichen sollen.

In [180]:
########################
# Daten aus JSON laden #
########################

strassen_geo = data_processor.load_json(data_path+'/Verkehrslage/Strassen/Strassenabschnitte.geojson')
bezirk_geo   = data_processor.load_json(data_path+'/LOR/coordinates/wgs84/bezirke_wgs84.geojson')

# Für jeden Eintrag im JSON die Geometrie extrahieren und in ein Shapely-Objekt umwandeln
bezirke_geometries  = [shape(feature['geometry']) for feature in bezirk_geo['features']]
bezirke_names       = [feature['properties']['Gemeinde_name'] for feature in bezirk_geo['features']]

In [181]:
############################################
# Zuordnung Verkehrsdetektoren und Bezirke #
############################################
# jeder Verkehrsdetektor hat einen Straßennamen, über die theoretisch einfach die Koordinaten abgerufen werden könnten
# Problem teilweise haben Straßen in unterschiedlichen Bezirken den gleichen Namen und unterscheiden sich sozusagen über die Postleitzahl aka den jeweiligen Bezirk
# um diese abzubilden werden nachfolgend die Verkehrsdetektoren genommen und mit den Bezirkskoordinaten abgeglichen / zugeordnet -> Daten wurden bereits unter 'Unfälle' verwendet, hier nur reuse

# Initialisieren einer neuen Spalte für die Bezirke
df_verkehrsdetektoren_stamm['Bezirk'] = None

# Überprüfen, ob Detektor innerhalb eines Bezirks-MultiPolygon liegt
for index, detector in df_verkehrsdetektoren_stamm.iterrows():

    point = Point(detector['LÄNGE (WGS84)'], detector['BREITE (WGS84)'])

    for i in range(len(bezirke_geometries)):

        if bezirke_geometries[i].contains(point):

            # Zuweisung des Bezirksnamens zum Detektor
            df_verkehrsdetektoren_stamm.at[index, 'Bezirk'] = bezirke_names[i]

            break  # Suche stoppt, sobald der passende Bezirk gefunden wurde

df_verkehrsdetektoren_stamm

Unnamed: 0,Verkehrsdetektor_ID,Strasse,POSITION,LÄNGE (WGS84),BREITE (WGS84),Bezirk
0,TE001,A115,AS Spanische Allee – Brücke,13.192578,52.433868,Steglitz-Zehlendorf
2,TE002,A115,AS Spanische Allee – Brücke,13.192747,52.433813,Steglitz-Zehlendorf
4,TE004,Clayallee,zwischen Scharfestraße und Propst-Süssmilch-We...,13.261301,52.436642,Steglitz-Zehlendorf
6,TE005,Berliner Straße,"zwischen Seehofstraße und Gartenstraße, in Höh...",13.263106,52.435112,Steglitz-Zehlendorf
8,TE006,Teltower Damm,"zwischen Kirchstraße und Potsdamer Straße, in ...",13.259881,52.433741,Steglitz-Zehlendorf
...,...,...,...,...,...,...
572,TE581,Tempelhofer Damm,zwischen Alt-Tempelhof und A100,13.385776,52.467462,Tempelhof-Schöneberg
574,TE582,Tempelhofer Damm,zwischen Friedrich-Wilhelm-Straße und Burgemei...,13.383970,52.457794,Tempelhof-Schöneberg
576,TE583,Tempelhofer Damm,zwischen Burgemeisterstraße und Friedrich-Wilh...,13.384196,52.457440,Tempelhof-Schöneberg
578,TE592,Kaiser-Friedrich-Straße,zwischen Schillerstraße und Pestalozzistraße,13.301719,52.509232,Charlottenburg-Wilmersdorf


In [182]:
###########################################
# Kategoriesierung von Verkehrsdetektoren #
###########################################

def are_positions_equal(position1, position2):
    return position1 == position2

def are_positions_complementary(position1, position2):
    if "zwischen" in position1 and " und " in position1:
        parts1 = position1.split("zwischen ")[1].split(" und ")
        complementary_position1 = f"zwischen {parts1[1]} und {parts1[0]}"
    else:
        return False

    if "zwischen" in position2 and " und " in position2:
        parts2 = position2.split("zwischen ")[1].split(" und ")
        complementary_position2 = f"zwischen {parts2[1]} und {parts2[0]}"
    else:
        return False

    return complementary_position1 == position2 or complementary_position2 == position1

def calculate_distance(point1, point2):
    return point1.distance(point2)

def identify_detector_type(df):
    detector_types = []
    detector_partners = []

    for idx1, row1 in df.iterrows():
        is_direction_detector = False
        is_section_detector = False
        partner_id = None

        point1 = Point(row1['LÄNGE (WGS84)'], row1['BREITE (WGS84)'])

        for idx2, row2 in df.iterrows():
            if idx1 != idx2:
                # Überprüfung auf gleiche Straße und Bezirk
                if (row1['Strasse'] == row2['Strasse'] and
                    row1['Bezirk'] == row2['Bezirk']):

                    point2 = Point(row2['LÄNGE (WGS84)'], row2['BREITE (WGS84)'])
                    distance = calculate_distance(point1, point2)

                    if are_positions_equal(row1['POSITION'], row2['POSITION']):
                        is_direction_detector = True
                        partner_id = row2['Verkehrsdetektor_ID']
                        break

                    elif are_positions_complementary(row1['POSITION'], row2['POSITION']):
                        is_direction_detector = True
                        partner_id = row2['Verkehrsdetektor_ID']
                        break

                    elif distance <= 0.005:
                        is_direction_detector = True
                        partner_id = row2['Verkehrsdetektor_ID']
                        break

                    else:
                        is_section_detector = True  # Änderung zu Abschnittsdetektor, wenn Positionen komplementär
                        partner_id = row2['Verkehrsdetektor_ID']

        if not is_direction_detector and not is_section_detector:
            detector_types.append("Einzeldetektor")
            detector_partners.append(np.NaN)
        elif is_section_detector:
            detector_types.append("Abschnittsdetektor")
            detector_partners.append(partner_id)
        else:
            detector_types.append("Richtungsdetektor")
            detector_partners.append(partner_id)

    return detector_types, detector_partners

# Beispielaufruf
detector_types, detector_partners = identify_detector_type(df_verkehrsdetektoren_stamm)
df_verkehrsdetektoren_stamm['Detektortyp'] = detector_types
df_verkehrsdetektoren_stamm['Partner'] = detector_partners
df_verkehrsdetektoren_stamm

Unnamed: 0,Verkehrsdetektor_ID,Strasse,POSITION,LÄNGE (WGS84),BREITE (WGS84),Bezirk,Detektortyp,Partner
0,TE001,A115,AS Spanische Allee – Brücke,13.192578,52.433868,Steglitz-Zehlendorf,Richtungsdetektor,TE002
2,TE002,A115,AS Spanische Allee – Brücke,13.192747,52.433813,Steglitz-Zehlendorf,Richtungsdetektor,TE001
4,TE004,Clayallee,zwischen Scharfestraße und Propst-Süssmilch-We...,13.261301,52.436642,Steglitz-Zehlendorf,Einzeldetektor,
6,TE005,Berliner Straße,"zwischen Seehofstraße und Gartenstraße, in Höh...",13.263106,52.435112,Steglitz-Zehlendorf,Einzeldetektor,
8,TE006,Teltower Damm,"zwischen Kirchstraße und Potsdamer Straße, in ...",13.259881,52.433741,Steglitz-Zehlendorf,Einzeldetektor,
...,...,...,...,...,...,...,...,...
572,TE581,Tempelhofer Damm,zwischen Alt-Tempelhof und A100,13.385776,52.467462,Tempelhof-Schöneberg,Abschnittsdetektor,TE580
574,TE582,Tempelhofer Damm,zwischen Friedrich-Wilhelm-Straße und Burgemei...,13.383970,52.457794,Tempelhof-Schöneberg,Abschnittsdetektor,TE583
576,TE583,Tempelhofer Damm,zwischen Burgemeisterstraße und Friedrich-Wilh...,13.384196,52.457440,Tempelhof-Schöneberg,Abschnittsdetektor,TE582
578,TE592,Kaiser-Friedrich-Straße,zwischen Schillerstraße und Pestalozzistraße,13.301719,52.509232,Charlottenburg-Wilmersdorf,Richtungsdetektor,TE593


In [183]:
##########################################
# Vereinheitlichtung Richtungsdetektoren #
##########################################
# Richtungsdetektoren würden eigentlich erfordern, dass für jede Straßenseite Koordinaten vorhanden sind
# durch Datensatz aber nicht gegeben, müssten synthetisch erstellt werden
# aufgrund der geringen Relevanz aber entschieden die Richtungsvektoren zu vereinheitlichen und nur einen pro Straße zu verwenden

direction_detector_deleted = []

for index, row in df_verkehrsdetektoren_stamm.iterrows():

    if row['Detektortyp'] == 'Richtungsdetektor':

        partner1_id = row['Verkehrsdetektor_ID']
        partner2_id = row['Partner']

        if  (partner2_id and partner1_id) not in direction_detector_deleted:
          direction_detector_deleted.append(partner2_id)

        else:
          continue

df_verkehrsdetektoren_stamm = df_verkehrsdetektoren_stamm[~df_verkehrsdetektoren_stamm['Verkehrsdetektor_ID'].isin(direction_detector_deleted)]
df_verkehrsdetektoren_stamm = df_verkehrsdetektoren_stamm.query("Verkehrsdetektor_ID != 'TE174'")
df_verkehrsdetektoren_stamm

Unnamed: 0,Verkehrsdetektor_ID,Strasse,POSITION,LÄNGE (WGS84),BREITE (WGS84),Bezirk,Detektortyp,Partner
0,TE001,A115,AS Spanische Allee – Brücke,13.192578,52.433868,Steglitz-Zehlendorf,Richtungsdetektor,TE002
4,TE004,Clayallee,zwischen Scharfestraße und Propst-Süssmilch-We...,13.261301,52.436642,Steglitz-Zehlendorf,Einzeldetektor,
6,TE005,Berliner Straße,"zwischen Seehofstraße und Gartenstraße, in Höh...",13.263106,52.435112,Steglitz-Zehlendorf,Einzeldetektor,
8,TE006,Teltower Damm,"zwischen Kirchstraße und Potsdamer Straße, in ...",13.259881,52.433741,Steglitz-Zehlendorf,Einzeldetektor,
10,TE009,Großbeerenstraße,zwischen Körtingstraße und Wilhelm-Pasewaldt-S...,13.379267,52.436141,Tempelhof-Schöneberg,Einzeldetektor,
...,...,...,...,...,...,...,...,...
570,TE580,Tempelhofer Damm,zwischen A100 und Alt-Tempelhof,13.385382,52.468100,Tempelhof-Schöneberg,Abschnittsdetektor,TE581
572,TE581,Tempelhofer Damm,zwischen Alt-Tempelhof und A100,13.385776,52.467462,Tempelhof-Schöneberg,Abschnittsdetektor,TE580
574,TE582,Tempelhofer Damm,zwischen Friedrich-Wilhelm-Straße und Burgemei...,13.383970,52.457794,Tempelhof-Schöneberg,Abschnittsdetektor,TE583
576,TE583,Tempelhofer Damm,zwischen Burgemeisterstraße und Friedrich-Wilh...,13.384196,52.457440,Tempelhof-Schöneberg,Abschnittsdetektor,TE582


In [184]:
######################################################
# Zuweisung Straßenkoordinaten zu Verkehrsdetektoren #
######################################################


def assign_detectors_to_nearest_linestrings(df_verkehrsdetektoren_stamm, strassen_geo):
    # Sammle alle LineStrings nach Straße und Bezirk
    lines_by_street_and_bezirk = defaultdict(list)
    for obj in strassen_geo['features']:

        street_name = obj['properties'].get('strassenna') or obj['properties'].get('str_bez')
        bezirk = obj['properties'].get('bezirk')

        for sublist in obj['geometry']['coordinates']:
            if isinstance(sublist[0][0], list):  # MultiLinestring
                for subsublist in sublist:
                    lines_by_street_and_bezirk[(street_name, bezirk)].append(LineString(subsublist))
            else:  # LineString
                lines_by_street_and_bezirk[(street_name, bezirk)].append(LineString(sublist))

    # Zuweisen der LineStrings zu den nächstgelegenen Abschnittsdetektoren
    assigned_lines = defaultdict(lambda: MultiLineString())

    for (street_name, bezirk), lines in lines_by_street_and_bezirk.items():
        for line in lines:
            line_midpoint = line.interpolate(0.5, normalized=True)

            # Finde alle Abschnittsdetektoren dieser Straße und dieses Bezirks
            detectors = df_verkehrsdetektoren_stamm[(df_verkehrsdetektoren_stamm['Strasse'] == street_name) &
                                                    (df_verkehrsdetektoren_stamm['Bezirk'] == bezirk) &
                                                    (df_verkehrsdetektoren_stamm['Detektortyp'] == 'Abschnittsdetektor')]
            if not detectors.empty:
                min_distance = float('inf')
                nearest_detector_index = None
                for index, detector in detectors.iterrows():
                    detector_point = Point(detector['LÄNGE (WGS84)'], detector['BREITE (WGS84)'])
                    distance = line_midpoint.distance(detector_point)
                    if distance < min_distance:
                        min_distance = distance
                        nearest_detector_index = index

                # Weise den LineString dem nächstgelegenen Abschnittsdetektor zu
                if nearest_detector_index is not None:
                    assigned_lines[nearest_detector_index] = assigned_lines[nearest_detector_index].union(line)

    # Aktualisiere den DataFrame mit den zugewiesenen LineStrings
    df_verkehrsdetektoren_stamm['Koordinaten'] = [MultiLineString() for _ in range(len(df_verkehrsdetektoren_stamm))]
    for index, lines in assigned_lines.items():
        df_verkehrsdetektoren_stamm.at[index, 'Koordinaten'] = lines

def fill_remaining_detectors_with_linestrings(df_verkehrsdetektoren_stamm, strassen_geo):
    # Wiederhole die Sammlung aller LineStrings nach Straße und Bezirk
    lines_by_street_and_bezirk = defaultdict(list)
    for obj in strassen_geo['features']:

        street_name = obj['properties'].get('strassenna')
        street_bez  = obj['properties'].get('str_bez')
        bezirk = obj['properties'].get('bezirk')

        for sublist in obj['geometry']['coordinates']:
            if isinstance(sublist[0][0], list):  # MultiLinestring
                for subsublist in sublist:
                    lines_by_street_and_bezirk[(street_name, bezirk)].append(LineString(subsublist))
                    lines_by_street_and_bezirk[(street_bez, bezirk)].append(LineString(subsublist))
            else:  # LineString
                lines_by_street_and_bezirk[(street_name, bezirk)].append(LineString(sublist))
                lines_by_street_and_bezirk[(street_bez, bezirk)].append(LineString(sublist))

    # Durchlaufe den DataFrame und weise fehlende Koordinaten zu
    for index, detektor in df_verkehrsdetektoren_stamm.iterrows():
        if detektor['Koordinaten'].is_empty:
            street_name = detektor['Strasse']
            bezirk = detektor['Bezirk']
            relevant_lines = lines_by_street_and_bezirk.get((street_name, bezirk), [])

            # Weise alle relevanten LineStrings zu, falls vorhanden
            if relevant_lines:
                df_verkehrsdetektoren_stamm.at[index, 'Koordinaten'] = MultiLineString(relevant_lines)
            else:
                # Wenn keine relevanten LineStrings vorhanden sind, bleibt die Zuweisung leer
                df_verkehrsdetektoren_stamm.at[index, 'Koordinaten'] = MultiLineString()

# Beispielaufruf der ergänzenden Funktion nach der Hauptfunktion
assign_detectors_to_nearest_linestrings(df_verkehrsdetektoren_stamm, strassen_geo)
fill_remaining_detectors_with_linestrings(df_verkehrsdetektoren_stamm, strassen_geo)

df_verkehrsdetektoren_stamm

Unnamed: 0,Verkehrsdetektor_ID,Strasse,POSITION,LÄNGE (WGS84),BREITE (WGS84),Bezirk,Detektortyp,Partner,Koordinaten
0,TE001,A115,AS Spanische Allee – Brücke,13.192578,52.433868,Steglitz-Zehlendorf,Richtungsdetektor,TE002,MULTILINESTRING ((13.196894851809894 52.417690...
4,TE004,Clayallee,zwischen Scharfestraße und Propst-Süssmilch-We...,13.261301,52.436642,Steglitz-Zehlendorf,Einzeldetektor,,MULTILINESTRING ((13.260447206563455 52.435063...
6,TE005,Berliner Straße,"zwischen Seehofstraße und Gartenstraße, in Höh...",13.263106,52.435112,Steglitz-Zehlendorf,Einzeldetektor,,MULTILINESTRING ((13.260447206563455 52.435063...
8,TE006,Teltower Damm,"zwischen Kirchstraße und Potsdamer Straße, in ...",13.259881,52.433741,Steglitz-Zehlendorf,Einzeldetektor,,MULTILINESTRING ((13.260447206563455 52.435063...
10,TE009,Großbeerenstraße,zwischen Körtingstraße und Wilhelm-Pasewaldt-S...,13.379267,52.436141,Tempelhof-Schöneberg,Einzeldetektor,,MULTILINESTRING ((13.377178702461235 52.432486...
...,...,...,...,...,...,...,...,...,...
570,TE580,Tempelhofer Damm,zwischen A100 und Alt-Tempelhof,13.385382,52.468100,Tempelhof-Schöneberg,Abschnittsdetektor,TE581,MULTILINESTRING ((13.38559357182348 52.4670844...
572,TE581,Tempelhofer Damm,zwischen Alt-Tempelhof und A100,13.385776,52.467462,Tempelhof-Schöneberg,Abschnittsdetektor,TE580,MULTILINESTRING ((13.385010045931754 52.461579...
574,TE582,Tempelhofer Damm,zwischen Friedrich-Wilhelm-Straße und Burgemei...,13.383970,52.457794,Tempelhof-Schöneberg,Abschnittsdetektor,TE583,MULTILINESTRING ((13.384215426950657 52.458181...
576,TE583,Tempelhofer Damm,zwischen Burgemeisterstraße und Friedrich-Wilh...,13.384196,52.457440,Tempelhof-Schöneberg,Abschnittsdetektor,TE582,MULTILINESTRING ((13.384248859231208 52.454018...


## Verkehrsaufkommen

### Datensätze laden

In [185]:
####################
# Datensätze laden #
####################

def readcombine(year):
  """Mehrere Datensätze von Verkehrsaufkommen jahresweise zusammenführen """

  # Definiere den Pfad zum Verzeichnis, in dem sich die Dateien befinden, und kombiniere den Pfad mit dem angegebenen Jahr
  path = data_path + f'/Verkehrslage/{year}/'

  # Suche nach allen Dateien mit der Erweiterung .csv.gz im angegebenen Verzeichnis
  files = glob.glob(os.path.join(path, "*.csv.gz"))

  # Initialisiere einen leeren DataFrame
  df = pd.DataFrame()

  # Iteriere über jede gefundene Datei
  for file in files:

    df_df = pd.read_csv(file, sep=';',encoding='ISO-8859-1')    # Lese die CSV-Datei in einen DataFrame ein
    df = pd.concat([df, df_df])                         # Dataframes zusammenführen

  return df

# Initialisiere einen leeren DataFrame für das Verkehrsaufkommen
df_verkehrsaufkommen = pd.DataFrame()
df_verkehrsaufkommen = pd.concat([readcombine(2018), readcombine(2019), readcombine(2020), readcombine(2021)])  # Kombiniere die Daten aus den Jahren 2018 bis 2021, indem die Funktion 'readcombine' für jedes Jahr aufgerufen wird

df_verkehrsaufkommen    # Dataframe anzeigen

Unnamed: 0,mq_name,tag,stunde,qualitaet,q_kfz_mq_hr,v_kfz_mq_hr,q_pkw_mq_hr,v_pkw_mq_hr,q_lkw_mq_hr,v_lkw_mq_hr
0,TE001,01.02.2018,0,1.0,123,71,90,75,33,59
1,TE001,01.02.2018,1,1.0,82,74,62,76,20,69
2,TE001,01.02.2018,2,1.0,75,71,47,81,28,55
3,TE001,01.02.2018,3,1.0,97,82,56,85,41,77
4,TE001,01.02.2018,4,1.0,204,73,143,76,61,64
...,...,...,...,...,...,...,...,...,...,...
122777,TE559,30.11.2021,19,1.0,259,27,253,27,6,26
122778,TE559,30.11.2021,20,1.0,192,31,191,31,1,32
122779,TE559,30.11.2021,21,1.0,141,30,141,30,0,-1
122780,TE559,30.11.2021,22,1.0,120,32,119,32,1,31


### Transformation in einheitliches Format

In [186]:
######################
# Dataframe anpassen #
######################

# Spalten entfernen
df_verkehrsaufkommen = df_verkehrsaufkommen.drop(['qualitaet'], axis=1)

# Spalten umbenennen entsprechend Datenbankschema
df_verkehrsaufkommen = df_verkehrsaufkommen.rename(columns={'mq_name': 'Verkehrsdetektor_ID_FK',
                                                            'q_kfz_mq_hr': 'Anzahl_KFZ',
                                                            'v_kfz_mq_hr': 'Geschwindigkeit_KFZ',
                                                            'q_pkw_mq_hr': 'Anzahl_PKW',
                                                            'v_pkw_mq_hr': 'Geschwindigkeit_PKW',
                                                            'q_lkw_mq_hr': 'Anzahl_LKW',
                                                            'v_lkw_mq_hr': 'Geschwindigkeit_LKW'})

# Index neu definieren
df_verkehrsaufkommen = data_processor.set_new_index(df_verkehrsaufkommen, 'Verkehrsaufkommen_ID')
df_verkehrsaufkommen

Unnamed: 0_level_0,Verkehrsdetektor_ID_FK,tag,stunde,Anzahl_KFZ,Geschwindigkeit_KFZ,Anzahl_PKW,Geschwindigkeit_PKW,Anzahl_LKW,Geschwindigkeit_LKW
Verkehrsaufkommen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,TE001,01.02.2018,0,123,71,90,75,33,59
2,TE001,01.02.2018,1,82,74,62,76,20,69
3,TE001,01.02.2018,2,75,71,47,81,28,55
4,TE001,01.02.2018,3,97,82,56,85,41,77
5,TE001,01.02.2018,4,204,73,143,76,61,64
...,...,...,...,...,...,...,...,...,...
8385214,TE559,30.11.2021,19,259,27,253,27,6,26
8385215,TE559,30.11.2021,20,192,31,191,31,1,32
8385216,TE559,30.11.2021,21,141,30,141,30,0,-1
8385217,TE559,30.11.2021,22,120,32,119,32,1,31


### Verkehrsaufkommen und Zeitdimension verküpfen

In [187]:
####################################################################
# Zeiten splitten seperate Spalten für Jahr, Monat, Tag, Wochentag #
####################################################################

df_verkehrsaufkommen['tag'] = pd.to_datetime(df_verkehrsaufkommen['tag'], format='%d.%m.%Y')

wochentage = ['Montag', 'Dienstag', 'Mittwoch', 'Donnerstag', 'Freitag', 'Samstag', 'Sonntag']

df_verkehrsaufkommen['Tag']       = df_verkehrsaufkommen['tag'].dt.day
df_verkehrsaufkommen['Monat']     = df_verkehrsaufkommen['tag'].dt.month
df_verkehrsaufkommen['Jahr']      = df_verkehrsaufkommen['tag'].dt.year
df_verkehrsaufkommen['Wochentag'] = [wochentage[dt.weekday()] for dt in df_verkehrsaufkommen['tag']]

df_verkehrsaufkommen = df_verkehrsaufkommen.drop(['tag'], axis=1)
df_verkehrsaufkommen

Unnamed: 0_level_0,Verkehrsdetektor_ID_FK,stunde,Anzahl_KFZ,Geschwindigkeit_KFZ,Anzahl_PKW,Geschwindigkeit_PKW,Anzahl_LKW,Geschwindigkeit_LKW,Tag,Monat,Jahr,Wochentag
Verkehrsaufkommen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,TE001,0,123,71,90,75,33,59,1,2,2018,Donnerstag
2,TE001,1,82,74,62,76,20,69,1,2,2018,Donnerstag
3,TE001,2,75,71,47,81,28,55,1,2,2018,Donnerstag
4,TE001,3,97,82,56,85,41,77,1,2,2018,Donnerstag
5,TE001,4,204,73,143,76,61,64,1,2,2018,Donnerstag
...,...,...,...,...,...,...,...,...,...,...,...,...
8385214,TE559,19,259,27,253,27,6,26,30,11,2021,Dienstag
8385215,TE559,20,192,31,191,31,1,32,30,11,2021,Dienstag
8385216,TE559,21,141,30,141,30,0,-1,30,11,2021,Dienstag
8385217,TE559,22,120,32,119,32,1,31,30,11,2021,Dienstag


In [188]:
###################################################
# Zeiten Verkehrsaufkommen durch Zeit-ID ersetzen #
###################################################
df_zeit.reset_index(inplace=True)

# Erzeuge eine eindeutige Schlüsselspalte in beiden DataFrames zur Identifikation
df_verkehrsaufkommen['temp_key'] = df_verkehrsaufkommen['Jahr'].astype(str) + '-' + df_verkehrsaufkommen['Monat'].astype(str) + '-' + df_verkehrsaufkommen['stunde'].astype(str) + '-' + df_verkehrsaufkommen['Wochentag'].astype(str)
df_zeit['temp_key'] = df_zeit['Jahr'].astype(str) + '-' + df_zeit['Monat'].astype(str) + '-' + df_zeit['Stunde'].astype(str) + '-' + df_zeit['Wochentag'].astype(str)

# Füge den DataFrame df_zeit zu df hinzu, um die Zeit-IDs zu erhalten
temp_key_to_zeit_id = df_zeit.set_index('temp_key')['Zeit_ID'].to_dict()

# Ordne jeder Zeile in df_baustellen die entsprechenden Zeit_IDs für Beginn und Ende zu
df_verkehrsaufkommen['Zeit_ID_FK'] = df_verkehrsaufkommen['temp_key'].map(temp_key_to_zeit_id)

# Entferne die temporären und unnötigen Spalten
df_verkehrsaufkommen.drop(columns=['temp_key'], axis=1)
df_zeit = df_zeit.drop(['temp_key'], axis=1)
df_zeit = df_zeit.set_index('Zeit_ID')

df_verkehrsaufkommen

Unnamed: 0_level_0,Verkehrsdetektor_ID_FK,stunde,Anzahl_KFZ,Geschwindigkeit_KFZ,Anzahl_PKW,Geschwindigkeit_PKW,Anzahl_LKW,Geschwindigkeit_LKW,Tag,Monat,Jahr,Wochentag,temp_key,Zeit_ID_FK
Verkehrsaufkommen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,TE001,0,123,71,90,75,33,59,1,2,2018,Donnerstag,2018-2-0-Donnerstag,172
2,TE001,1,82,74,62,76,20,69,1,2,2018,Donnerstag,2018-2-1-Donnerstag,179
3,TE001,2,75,71,47,81,28,55,1,2,2018,Donnerstag,2018-2-2-Donnerstag,186
4,TE001,3,97,82,56,85,41,77,1,2,2018,Donnerstag,2018-2-3-Donnerstag,193
5,TE001,4,204,73,143,76,61,64,1,2,2018,Donnerstag,2018-2-4-Donnerstag,200
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8385214,TE559,19,259,27,253,27,6,26,30,11,2021,Dienstag,2021-11-19-Dienstag,7863
8385215,TE559,20,192,31,191,31,1,32,30,11,2021,Dienstag,2021-11-20-Dienstag,7870
8385216,TE559,21,141,30,141,30,0,-1,30,11,2021,Dienstag,2021-11-21-Dienstag,7877
8385217,TE559,22,120,32,119,32,1,31,30,11,2021,Dienstag,2021-11-22-Dienstag,7884


In [189]:
################################################################################
# Prüfung und Anpassung Dataframes entsprechend Anpassungen Verkehrsdetektoren #
################################################################################

df_verkehrsaufkommen = df_verkehrsaufkommen[df_verkehrsaufkommen['Verkehrsdetektor_ID_FK'].isin(df_verkehrsdetektoren_stamm['Verkehrsdetektor_ID'])]
df_verkehrsaufkommen

Unnamed: 0_level_0,Verkehrsdetektor_ID_FK,stunde,Anzahl_KFZ,Geschwindigkeit_KFZ,Anzahl_PKW,Geschwindigkeit_PKW,Anzahl_LKW,Geschwindigkeit_LKW,Tag,Monat,Jahr,Wochentag,temp_key,Zeit_ID_FK
Verkehrsaufkommen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,TE001,0,123,71,90,75,33,59,1,2,2018,Donnerstag,2018-2-0-Donnerstag,172
2,TE001,1,82,74,62,76,20,69,1,2,2018,Donnerstag,2018-2-1-Donnerstag,179
3,TE001,2,75,71,47,81,28,55,1,2,2018,Donnerstag,2018-2-2-Donnerstag,186
4,TE001,3,97,82,56,85,41,77,1,2,2018,Donnerstag,2018-2-3-Donnerstag,193
5,TE001,4,204,73,143,76,61,64,1,2,2018,Donnerstag,2018-2-4-Donnerstag,200
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8385214,TE559,19,259,27,253,27,6,26,30,11,2021,Dienstag,2021-11-19-Dienstag,7863
8385215,TE559,20,192,31,191,31,1,32,30,11,2021,Dienstag,2021-11-20-Dienstag,7870
8385216,TE559,21,141,30,141,30,0,-1,30,11,2021,Dienstag,2021-11-21-Dienstag,7877
8385217,TE559,22,120,32,119,32,1,31,30,11,2021,Dienstag,2021-11-22-Dienstag,7884


In [190]:
##################################################################################
# DataFrame nach Stunde, Wochentag, Jahr und Monat gruppieren und zusammenfassen #
##################################################################################
df_verkehrsaufkommen = df_verkehrsaufkommen.groupby(['Verkehrsdetektor_ID_FK','stunde', 'Wochentag', 'Jahr', 'Monat']).agg({
    'Anzahl_KFZ':             'mean',
    'Geschwindigkeit_KFZ':    'mean',
    'Anzahl_PKW':             'mean',
    'Geschwindigkeit_PKW':    'mean',
    'Anzahl_LKW':             'mean',
    'Geschwindigkeit_LKW':    'mean',
    'Zeit_ID_FK':             'first'
}).reset_index()

df_verkehrsaufkommen = df_verkehrsaufkommen.drop(['Jahr', 'Monat', 'Wochentag', 'stunde'], axis=1)                        # Zeitangaben in df_unfaelle löschen
df_verkehrsaufkommen['Verkehrsdetektor_ID_FK'] = df_verkehrsaufkommen['Verkehrsdetektor_ID_FK'].str.replace('TE', '')     # TE löschen
df_verkehrsaufkommen = data_processor.set_new_index(df_verkehrsaufkommen, 'Verkehrsaufkommen_ID')                         # neuen Index erstellen

df_verkehrsaufkommen

Unnamed: 0_level_0,Verkehrsdetektor_ID_FK,Anzahl_KFZ,Geschwindigkeit_KFZ,Anzahl_PKW,Geschwindigkeit_PKW,Anzahl_LKW,Geschwindigkeit_LKW,Zeit_ID_FK
Verkehrsaufkommen_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,001,115.60,67.40,86.20,76.60,29.20,41.00,2
2,001,117.75,72.25,91.75,74.50,26.00,65.50,170
3,001,145.75,80.25,123.50,84.75,22.25,49.50,338
4,001,156.75,62.50,136.25,60.00,20.50,74.00,506
5,001,203.00,59.40,177.40,60.00,25.60,53.20,674
...,...,...,...,...,...,...,...,...
1376287,592,156.80,38.40,151.60,38.80,5.20,23.00,5376
1376288,592,142.50,37.25,136.50,38.50,6.00,15.25,5544
1376289,592,142.00,37.50,135.00,38.50,7.00,20.50,5712
1376290,592,92.40,37.40,89.20,37.80,3.20,21.80,5880


In [191]:
df_verkehrsdetektoren_stamm['Verkehrsdetektor_ID'] = df_verkehrsdetektoren_stamm['Verkehrsdetektor_ID'].str.extract('(\d+)').astype(int)
df_verkehrsdetektoren_stamm.set_index('Verkehrsdetektor_ID', inplace=True)
df_verkehrsdetektoren_stamm

Unnamed: 0_level_0,Strasse,POSITION,LÄNGE (WGS84),BREITE (WGS84),Bezirk,Detektortyp,Partner,Koordinaten
Verkehrsdetektor_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,A115,AS Spanische Allee – Brücke,13.192578,52.433868,Steglitz-Zehlendorf,Richtungsdetektor,TE002,MULTILINESTRING ((13.196894851809894 52.417690...
4,Clayallee,zwischen Scharfestraße und Propst-Süssmilch-We...,13.261301,52.436642,Steglitz-Zehlendorf,Einzeldetektor,,MULTILINESTRING ((13.260447206563455 52.435063...
5,Berliner Straße,"zwischen Seehofstraße und Gartenstraße, in Höh...",13.263106,52.435112,Steglitz-Zehlendorf,Einzeldetektor,,MULTILINESTRING ((13.260447206563455 52.435063...
6,Teltower Damm,"zwischen Kirchstraße und Potsdamer Straße, in ...",13.259881,52.433741,Steglitz-Zehlendorf,Einzeldetektor,,MULTILINESTRING ((13.260447206563455 52.435063...
9,Großbeerenstraße,zwischen Körtingstraße und Wilhelm-Pasewaldt-S...,13.379267,52.436141,Tempelhof-Schöneberg,Einzeldetektor,,MULTILINESTRING ((13.377178702461235 52.432486...
...,...,...,...,...,...,...,...,...
580,Tempelhofer Damm,zwischen A100 und Alt-Tempelhof,13.385382,52.468100,Tempelhof-Schöneberg,Abschnittsdetektor,TE581,MULTILINESTRING ((13.38559357182348 52.4670844...
581,Tempelhofer Damm,zwischen Alt-Tempelhof und A100,13.385776,52.467462,Tempelhof-Schöneberg,Abschnittsdetektor,TE580,MULTILINESTRING ((13.385010045931754 52.461579...
582,Tempelhofer Damm,zwischen Friedrich-Wilhelm-Straße und Burgemei...,13.383970,52.457794,Tempelhof-Schöneberg,Abschnittsdetektor,TE583,MULTILINESTRING ((13.384215426950657 52.458181...
583,Tempelhofer Damm,zwischen Burgemeisterstraße und Friedrich-Wilh...,13.384196,52.457440,Tempelhof-Schöneberg,Abschnittsdetektor,TE582,MULTILINESTRING ((13.384248859231208 52.454018...


## Dataframe to CSV

In [192]:
df_verkehrsdetektoren_stamm.to_csv(temp_path+'/df_verkehrsdetektoren.csv')

In [193]:
df_verkehrsaufkommen.to_csv(temp_path+'/df_verkehrsaufkommen.csv')

# Datenbank

Die Datenbank wird erstellt, um diese anschließend lokal im Bericht nutzen zu können. Zudem können hier bereits alle relevanten Informationen und Verknüpfungen festgelegt werden und nicht erst im Bericht.

Datenbank wird hier erstellt und anschließend in SQL-Code der Datenbank überführt, um diese dann lokal zu nutzen.

## Datenbank initialisieren

In [194]:
# MySQL-Server starten
!service mysql start

# Einmaliges Setzen des root-Passworts auf dem MySQL Server
!mysql -e "ALTER USER 'root'@'localhost' IDENTIFIED WITH mysql_native_password BY 'root';FLUSH PRIVILEGES;"

 * Starting MySQL database server mysqld
   ...done.


In [195]:
with mysql.connector.connect(user='root', password='root', host='localhost') as con, con.cursor() as cursor:
  # Erstellen der Datenbank "OLTP_DB"
  cursor.execute("DROP DATABASE IF EXISTS Unfaelle_DB")
  cursor.execute("CREATE DATABASE IF NOT EXISTS Unfaelle_DB")
  cursor.execute("USE Unfaelle_DB")

from sqlalchemy import create_engine, text
engine_unfaelle = create_engine('mysql+mysqlconnector://root:root@localhost/Unfaelle_DB', echo=False)

## Datenbank konfigurieren

Wie bereits angesprochen wurden Dataframes, welche auch final in der Datenbank genutzt werden soll, als CSV gespeichert. Diese werden hier nun wieder ausgelesen, um die Datenbank zu konfigurieren.

In [196]:
#####################################
# CSV wieder in Dataframes einlesen #
#####################################

# Unfalldaten
df_unfallbeteiligte_kategorien        = pd.read_csv(temp_path+'/df_unfallbeteiligte_kategorien.csv',        index_col='Unfallbeteiligten_ID')
df_unfallkategorie                    = pd.read_csv(temp_path+'/df_unfallkategorie.csv',                    index_col='Unfallkategorie_ID')
df_unfalltyp                          = pd.read_csv(temp_path+'/df_unfalltyp.csv',                          index_col='Unfalltyp_ID')
df_lichverhaeltnisse                  = pd.read_csv(temp_path+'/df_lichtverhaeltnisse.csv',                 index_col='Lichtverhaeltnisse_ID')
df_strassenzustand                    = pd.read_csv(temp_path+'/df_strassenzustand.csv',                    index_col='Strassenzustand_ID')
df_unfallart                          = pd.read_csv(temp_path+'/df_unfallart.csv',                          index_col='Unfallart_ID')
df_zeit                               = pd.read_csv(temp_path+'/df_zeit.csv',                               index_col='Zeit_ID')
df_unfaelle                           = pd.read_csv(temp_path+'/df_unfaelle.csv',                           index_col='Unfall_ID')
df_unfaelle_unfallbeteiligte_relation = pd.read_csv(temp_path+'/df_unfaelle_unfallbeteiligte_relation.csv')

# LOR
df_bezirk                             = pd.read_csv(temp_path+'/df_bezirk.csv',                             index_col='Bezirk_ID')
df_prognoseraum                       = pd.read_csv(temp_path+'/df_prognoseraum.csv',                       index_col='Prognoseraum_ID')
df_bezirksregion                      = pd.read_csv(temp_path+'/df_bezirksregion.csv',                      index_col='Bezirksregion_ID')
df_planungsraum                       = pd.read_csv(temp_path+'/df_planungsraum.csv',                       index_col='Planungsraum_ID')

# Baustellen
df_baustellen                         = pd.read_csv(temp_path+'/df_baustellen.csv',                         index_col='Baustellen_ID')
df_unfaelle_baustellen_relation       = pd.read_csv(temp_path+'/df_unfaelle_baustellen_relation.csv')
df_baustellen_zeit_relation           = pd.read_csv(temp_path+'/df_baustellen_zeit_relation.csv')

# Verkehrsaufkommen
df_verkehrsdetektoren                 = pd.read_csv(temp_path+'/df_verkehrsdetektoren.csv',                 index_col='Verkehrsdetektor_ID')
df_verkehrsaufkommen                  = pd.read_csv(temp_path+'/df_verkehrsaufkommen.csv',                  index_col='Verkehrsaufkommen_ID')

### Erstellung von Tabellen

In [197]:
def createTable(df: pd.DataFrame, tableName: str):
  """Tabellen in Unfalldatenbank erstellen"""

  # Abfrage ob Dateframe Index auch übernommen werden soll als Tabellenspalte oder nicht, hier handelt es sich um m-zu-n-Tabellen (Beziehungstabellen)
  index_should_be_saved = True if (tableName != 'Unfallbeteiligte_bei_Unfall' or tableName != 'Baustellen_Zeit' or tableName != 'Unfaelle_in_Baustellen') else False

  # Koordiantenangaben bekommen extra Datentyp zugewiesen, da häufig sehr lang
  if any('Koordinaten' in col for col in df.columns):
    df.to_sql(con= engine_unfaelle, name=tableName, index= index_should_be_saved, if_exists='replace', dtype={'Koordinaten': TEXT(32000)}, chunksize=200)  # Koordinaten sind sehr lange Textobjekte, deswegen extra Datentyp hierfür definiert
  else:
    df.to_sql(con= engine_unfaelle, name=tableName, index= index_should_be_saved, if_exists='replace', chunksize=200)                                      # Tabelle 'normal' zur Datenbank hinzufügen, chunksize auf 200 um große Datensätze einzufügen



In [198]:
# Methodenaufruf
createTable(df_unfaelle_baustellen_relation,        'Unfaelle_in_Baustellen')
createTable(df_baustellen,                          'FACT_Baustellen')
createTable(df_baustellen_zeit_relation,            'Baustellen_Zeit')

createTable(df_unfaelle_unfallbeteiligte_relation,  'Unfallbeteiligte_bei_Unfall')
createTable(df_unfaelle,                            'FACT_Verkehrsunfaelle')
createTable(df_unfallbeteiligte_kategorien,         'Unfallbeteiligten')
createTable(df_unfallkategorie,                     'Unfallkategorie')
createTable(df_lichverhaeltnisse,                   'Lichtverhaeltnisse')
createTable(df_strassenzustand,                     'Strassenzustand')
createTable(df_unfallart,                           'Unfallart')
createTable(df_unfalltyp,                           'Unfalltyp')

createTable(df_planungsraum,                        'Planungsraum')
createTable(df_bezirksregion,                       'Bezirksregion')
createTable(df_prognoseraum,                        'Prognoseraum')
createTable(df_bezirk,                              'Bezirk')

createTable(df_verkehrsaufkommen,                   'FACT_Verkehrsaufkommen')
createTable(df_verkehrsdetektoren,                  'Verkehrsdetektoren')
createTable(df_zeit,                                'Zeit')

### Beziehungen erstellen

In [199]:
def addPrimaryKeyRelation(table_keys: list):
    """Primärschlüssel definieren, unterstützt jetzt auch zusammengesetzte Primärschlüssel."""
    with mysql.connector.connect(user='root', password='root', host='localhost') as con:
        cursor = con.cursor()
        cursor.execute("USE Unfaelle_DB")

        for table_key in table_keys:
            table_name = list(table_key.keys())[0]
            primary_keys = table_key[table_name]  # Erwartet eine Liste von Spaltennamen
            primary_keys_str = ', '.join(primary_keys)  # Konvertiert die Liste in einen String für die SQL-Anweisung
            query_table_primary_relations = f"ALTER TABLE {table_name} ADD PRIMARY KEY ({primary_keys_str});"

            try:
                cursor.execute(query_table_primary_relations)
                print(f"Primärschlüssel für Tabelle {table_name} erfolgreich hinzugefügt.")
            except Exception as e:
                print(f"Fehler beim Hinzufügen des Primärschlüssels für Tabelle {table_name}: {e}")

In [200]:
table_keys = [
    {'Unfallbeteiligten': ['Unfallbeteiligten_ID']},
    {'Unfallkategorie': ['Unfallkategorie_ID']},
    {'Unfallbeteiligte_bei_Unfall': ['Unfall_ID_FK_in_Unfallbeteiligten', 'Unfallbeteiligten_ID_FK']},
    {'Unfalltyp': ['Unfalltyp_ID']},
    {'Lichtverhaeltnisse': ['Lichtverhaeltnisse_ID']},
    {'Strassenzustand': ['Strassenzustand_ID']},
    {'Unfallart': ['Unfallart_ID']},
    {'Zeit': ['Zeit_ID']},
    {'FACT_Verkehrsunfaelle': ['Unfall_ID']},
    {'Bezirk': ['Bezirk_ID']},
    {'Prognoseraum': ['Prognoseraum_ID']},
    {'Bezirksregion': ['Bezirksregion_ID']},
    {'Planungsraum': ['Planungsraum_ID']},
    {'FACT_Baustellen': ['Baustellen_ID']},
    {'Baustellen_Zeit': ['Baustellen_ID_FK_in_Zeit', 'Zeit_ID_FK_in_Baustellen_Relation']},
    {'Unfaelle_in_Baustellen': ['Unfall_ID_FK', 'Baustellen_ID_FK']},
    {'Verkehrsdetektoren': ['Verkehrsdetektor_ID']},
    {'FACT_Verkehrsaufkommen': ['Verkehrsaufkommen_ID']}
]

addPrimaryKeyRelation(table_keys)

Primärschlüssel für Tabelle Unfallbeteiligten erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Unfallkategorie erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Unfallbeteiligte_bei_Unfall erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Unfalltyp erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Lichtverhaeltnisse erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Strassenzustand erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Unfallart erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Zeit erfolgreich hinzugefügt.
Primärschlüssel für Tabelle FACT_Verkehrsunfaelle erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Bezirk erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Prognoseraum erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Bezirksregion erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Planungsraum erfolgreich hinzugefügt.
Primärschlüssel für Tabelle FACT_Baustellen erfolgreich hinzugefügt.
Primärschlüssel für Tabelle Baustellen_Zeit erfolgr

In [201]:
############################
# Fremdschlüssel festlegen #
############################

# query, um nachträglich Fremdschlüsselbeziehunen in Tabellen einzufügen
query_table_relations = """
ALTER TABLE `FACT_Verkehrsaufkommen`      ADD CONSTRAINT `Zeit_ID_FK`                 FOREIGN KEY (`Zeit_ID_FK`)                REFERENCES `Zeit`(`Zeit_ID`);
ALTER TABLE `FACT_Verkehrsaufkommen`      ADD CONSTRAINT `Verkehrsdetektor_ID_FK`     FOREIGN KEY (`Verkehrsdetektor_ID_FK`)    REFERENCES `Verkehrsdetektoren`(`Verkehrsdetektor_ID`);

ALTER TABLE `Unfaelle_in_Baustellen`      ADD CONSTRAINT `Unfall_ID_FK`               FOREIGN KEY (`Unfall_ID_FK`)              REFERENCES `FACT_Verkehrsunfaelle`(`Unfall_ID`);
ALTER TABLE `Unfaelle_in_Baustellen`      ADD CONSTRAINT `Baustellen_ID_FK`           FOREIGN KEY (`Baustellen_ID_FK`)          REFERENCES `FACT_Baustellen`(`Baustellen_ID`);

ALTER TABLE `Baustellen_Zeit`            ADD CONSTRAINT `Baustellen_ID_FK_in_Zeit`           FOREIGN KEY (`Baustellen_ID_FK_in_Zeit`)           REFERENCES `FACT_Baustellen`(`Baustellen_ID`);
ALTER TABLE `Baustellen_Zeit`            ADD CONSTRAINT `Zeit_ID_FK_in_Baustellen_Relation`  FOREIGN KEY (`Zeit_ID_FK_in_Baustellen_Relation`)  REFERENCES `Zeit`(`Zeit_ID`);

ALTER TABLE `Unfallbeteiligte_bei_Unfall` ADD CONSTRAINT `Unfall_ID_FK_in_Unfallbeteiligten`  FOREIGN KEY (`Unfall_ID_FK_in_Unfallbeteiligten`) REFERENCES `FACT_Verkehrsunfaelle`(`Unfall_ID`);
ALTER TABLE `Unfallbeteiligte_bei_Unfall` ADD CONSTRAINT `Unfallbeteiligten_ID_FK`            FOREIGN KEY (`Unfallbeteiligten_ID_FK`)           REFERENCES `Unfallbeteiligten`(`Unfallbeteiligten_ID`);

ALTER TABLE `Planungsraum`                ADD CONSTRAINT `Bezirksregion_ID_FK`        FOREIGN KEY (`Bezirksregion_ID_FK`)       REFERENCES `Bezirksregion`(`Bezirksregion_ID`);
ALTER TABLE `Bezirksregion`               ADD CONSTRAINT `Prognoseraum_ID_FK`         FOREIGN KEY (`Prognoseraum_ID_FK`)        REFERENCES `Prognoseraum`(`Prognoseraum_ID`);
ALTER TABLE `Prognoseraum`                ADD CONSTRAINT `Bezirk_ID_FK`               FOREIGN KEY (`Bezirk_ID_FK`)              REFERENCES `Bezirk`(`Bezirk_ID`);

ALTER TABLE `FACT_Verkehrsunfaelle`       ADD CONSTRAINT `Planungsraum_ID_FK`         FOREIGN KEY (`Planungsraum_ID_FK`)        REFERENCES `Planungsraum`(`Planungsraum_ID`);
ALTER TABLE `FACT_Verkehrsunfaelle`       ADD CONSTRAINT `Unfallkategorie_ID_FK`      FOREIGN KEY (`Unfallkategorie_ID_FK`)     REFERENCES `Unfallkategorie`(`Unfallkategorie_ID`);
ALTER TABLE `FACT_Verkehrsunfaelle`       ADD CONSTRAINT `Unfalltyp_ID_FK`            FOREIGN KEY (`Unfalltyp_ID_FK`)           REFERENCES `Unfalltyp`(`Unfalltyp_ID`);
ALTER TABLE `FACT_Verkehrsunfaelle`       ADD CONSTRAINT `Unfallart_ID_FK`            FOREIGN KEY (`Unfallart_ID_FK`)           REFERENCES `Unfallart`(`Unfallart_ID`);
ALTER TABLE `FACT_Verkehrsunfaelle`       ADD CONSTRAINT `Lichtverhaeltnisse_ID_FK`   FOREIGN KEY (`Lichtverhaeltnisse_ID_FK`)  REFERENCES `Lichtverhaeltnisse`(`Lichtverhaeltnisse_ID`);
ALTER TABLE `FACT_Verkehrsunfaelle`       ADD CONSTRAINT `Strassenzustand_ID_FK`      FOREIGN KEY (`Strassenzustand_ID_FK`)     REFERENCES `Strassenzustand`(`Strassenzustand_ID`);
ALTER TABLE `FACT_Verkehrsunfaelle`       ADD CONSTRAINT `Zeit_ID_FK_in_Unfaelle`     FOREIGN KEY (`Zeit_ID_FK_in_Unfaelle`)    REFERENCES `Zeit`(`Zeit_ID`);
"""

# Aufteilen der Anweisungen in der Zeichenkette
queries = query_table_relations.split(";")

# Verbindung zur Datenbank herstellen und Anweisungen ausführen
with mysql.connector.connect(user='root', password='root', host='localhost') as con:
    cursor = con.cursor()
    cursor.execute("USE Unfaelle_DB")
    for query in queries:
        print(query)
        if query.strip():
            cursor.execute(query)


ALTER TABLE `FACT_Verkehrsaufkommen`      ADD CONSTRAINT `Zeit_ID_FK`                 FOREIGN KEY (`Zeit_ID_FK`)                REFERENCES `Zeit`(`Zeit_ID`)

ALTER TABLE `FACT_Verkehrsaufkommen`      ADD CONSTRAINT `Verkehrsdetektor_ID_FK`     FOREIGN KEY (`Verkehrsdetektor_ID_FK`)    REFERENCES `Verkehrsdetektoren`(`Verkehrsdetektor_ID`)


ALTER TABLE `Unfaelle_in_Baustellen`      ADD CONSTRAINT `Unfall_ID_FK`               FOREIGN KEY (`Unfall_ID_FK`)              REFERENCES `FACT_Verkehrsunfaelle`(`Unfall_ID`)

ALTER TABLE `Unfaelle_in_Baustellen`      ADD CONSTRAINT `Baustellen_ID_FK`           FOREIGN KEY (`Baustellen_ID_FK`)          REFERENCES `FACT_Baustellen`(`Baustellen_ID`)


ALTER TABLE `Baustellen_Zeit`            ADD CONSTRAINT `Baustellen_ID_FK_in_Zeit`           FOREIGN KEY (`Baustellen_ID_FK_in_Zeit`)           REFERENCES `FACT_Baustellen`(`Baustellen_ID`)

ALTER TABLE `Baustellen_Zeit`            ADD CONSTRAINT `Zeit_ID_FK_in_Baustellen_Relation`  FOREIGN KEY (`Zeit_

## Datenbank exportieren

In [202]:
import subprocess

# MySQL-Verbindungsinformationen
username = 'root'
password = 'root'
database_name = 'Unfaelle_DB'

# Befehl zum Ausführen des mysqldump-Befehls
command = f"mysqldump -u {username} -p{password} {database_name}"

# Ausführen des Befehls und Erfassen der Ausgabe
try:
    # DROP DATABASE IF EXISTS, CREATE DATABASE und USE-Anweisungen manuell hinzufügen
    output = f"DROP DATABASE IF EXISTS {database_name};\nCREATE DATABASE {database_name};\nUSE {database_name};\n" + subprocess.check_output(command, shell=True).decode()

    # Speichern der Ausgabe in eine Datei
    with open(dir_path+'/database/unfaelle_db.sql', 'w') as f:
        f.write(output)

    print("Export erfolgreich!")

except subprocess.CalledProcessError as e:
    print("Export fehlgeschlagen:", e)

Export erfolgreich!


# Anhang

## Wetter



**UPDATE 2024-07-03:** Das Wetter musste leider verworfen werden, da es trotz der sehr guten Datensituation dieser Daten nicht konkret einem Unfall zugeordnet werden kann, da bei den Unfällen kein Tag hinterlegt.
Aus den Wetterdaten könnte maximal eine aggregierte Zahl erstellt werden, was jedoch in unserer Wahrnehmung die Aussagekraft jedoch so stark senkt, sodass eine weitere Verwendung dieser Dimension als unbrauchbar erscheint.

Um den dennoch bereits absolvierten Schritte eine entsprechende Würdigung und Dokumentation zu verleihen werden diese als eine Art Anhang hier aufgeführt.

Bei Verbesserung der Datenlage der Unfalldaten (vor allem durch Ergänzung des Attributs 'Unfalltag') könnte diese Dimension wieder spannend sein. Bei der aktuellen Lage ist diese jedoch nahezu unbrauchbar.




*Quelle:*  https://www.kaggle.com/datasets/mexwell/berlin-hourly-weather-data <br><br>

Der Wetterdatensatz stammt zwar von Kaggle.com, aber ursprünglich vom Deutschen Wetterdienst (DWD), welcher auch die Daten ursprünglich erhoben hat. Es wurde jedoch auf die Daten von Kaggle zurückgegriffen, da diese bereits eine konsistente Benennungsstruktur aufwiesen, im Gegensatz zu denen des DWD.

Inhaltlich handelt es sich aber dennoch um identische Daten.

Auf Kaggle.com wurden mehr Daten angeboten als benötigt, weshalb diese auch vorab explorativ mittels Excel durchsucht wurden. Dabei konnte bereits festgestellt werden, dass einige Dateien keine Daten für den relevanten Zeitraum vom 01.01.2018 bis zum 31.12.2021 aufwießen. Diese wurden folglich nicht verwendet, aber dennoch in einem seperaten Ordner dokumentiert.

Weiterführend wurden auch einige Dateien vollständig außen vor gelassen, da diese nach unserem inhaltlichen Verständnis wenig mit Unfällen zu tun hat, wie z.B. der Luftdruck oder ähnliches.


Hier wurden erstmal alle Daten so genommen, bis auf  welche die nicht den relevanten Zeitraum abgedeckt haben

In [None]:
df_weather_snow             = pd.read_csv(data_path+'/Wetter/berlin_snow.csv', sep=',')
df_weather_precipitation    = pd.read_csv(data_path+'/Wetter/berlin_precipitation.csv', sep=';')
df_weather_temperature      = pd.read_csv(data_path+'/Wetter/berlin_temperature.csv', sep=';')

df_weather_list = [df_weather_snow, df_weather_precipitation, df_weather_temperature]

In [None]:
def showcolumns(dfList):

  for item in dfList:
    print(item.columns.format())

showcolumns(df_weather_list)

In [None]:
def dropunneccessary(df, dateColumn):

  if 'MESS_DATUM' in df.columns:
    df['MESS_DATUM']  = pd.to_datetime(df['MESS_DATUM'], format='%Y%m%d%H', errors= 'coerce')
    df['Stunde']      = df['MESS_DATUM'].dt.hour.values.astype(int)

    df = df.drop(['STATIONS_ID',
                  'eor',
                  'QN_9',
                  'QN_8',
                  'QN_7',
                  'QN_3'], axis= 1, errors= 'ignore')

  # Extra für Snow, weil aus anderer Datenquelle, aber hier entsprechend vereintlicht
  elif 'DATE' in df.columns:
    df['DATE'] = pd.to_datetime(df['DATE'])
    df = df.drop(['Unnamed: 0',
                  'STATION',
                  'NAME',
                  'LATITUDE',
                  'LONGITUDE',
                  'ELEVATION',
                  'TMIN',
                  'TMAX'], axis= 1, errors= 'ignore')

  # Start- und Enddatum entsprechend 'Faktendaten' Unfälle
  start_date = pd.to_datetime('20180101', format='%Y%m%d')
  end_date = pd.to_datetime('20220101', format='%Y%m%d')

  df = df[(df[dateColumn].dt.date >= start_date) & (df[dateColumn].dt.date < end_date)]

  df['Jahr']    = df[dateColumn].dt.year.values.astype(int)
  df['Monat']   = df[dateColumn].dt.month.values.astype(int)
  df['Tag']     = df[dateColumn].dt.day.values.astype(int)

  df = df.drop([dateColumn], axis= 1, errors= 'ignore')

  return df

In [None]:
df_weather_precipitation  = dropunneccessary(df_weather_precipitation, 'MESS_DATUM')
df_weather_snow           = dropunneccessary(df_weather_snow, 'DATE')
df_weather_temperature    = dropunneccessary(df_weather_temperature, 'MESS_DATUM')

df_weather_list = [df_weather_snow, df_weather_precipitation, df_weather_temperature]

In [None]:
showcolumns(df_weather_list)

In [None]:
df_weather = pd.merge(df_weather_precipitation, df_weather_temperature, on=['Jahr', 'Monat','Tag','Stunde'], how='left')
df_weather = pd.merge(df_weather, df_weather_snow, on=['Jahr', 'Monat','Tag'], how='left')
df_weather

In [None]:
df_weather['Datum'] = pd.to_datetime(df_weather[['Jahr', 'Monat', 'Tag']].astype(str).apply('-'.join, axis=1), errors='coerce')
df_weather['Wochentag'] = df_weather['Datum'].dt.day_name()

df_weather

In [None]:
filtered_df = df_weather.query('''Jahr == 2019 & Monat == 4 & Wochentag == 'Tuesday' ''')

import matplotlib.pyplot as plt

fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 8), sharex=True)

ax1.plot(filtered_df['Stunde'], filtered_df['TT_TU'], marker='o', label=f'Temperatur in °C')
ax2.plot(filtered_df['Stunde'], filtered_df['  R1'], marker='o', label=f'Niederschlag in mm')

ax1.set_ylabel('Temperatur')
ax1.set_xlabel('Stunde')
ax1.legend(title='Stunde')

ax2.set_ylabel('Niederschlag')
ax2.set_xlabel('Stunde')
ax2.legend(title='Stunde')

plt.suptitle('Temperatur und Niederschlag im Jahr 2019 und Monat April pro Stunde')
plt.show()

In [None]:
filtered_df = df_verkehrsaufkommen.query('''Jahr == 2019 & Monat == 4 & Wochentag == 'Dienstag' ''')

import matplotlib.pyplot as plt

fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 8), sharex=True)

ax1.plot(filtered_df['stunde'], filtered_df['Geschwindigkeit_KFZ'], marker='o', label=f'Geschwindigkeit')
ax2.plot(filtered_df['stunde'], filtered_df['Anzahl_KFZ'], marker='o', label=f'Anzahl')

ax1.set_ylabel('Geschwindigkeit')
ax1.legend(title='KFZ')

ax2.set_ylabel('Anzahl')
ax2.set_xlabel('Stunde')
ax2.legend(title='KFZ')

plt.suptitle('Geschwindigkeit und Anzahl der Fahrzeuge im Jahr 2019 und Monat April pro Stunde')
plt.show()