## Auswertung von Verkehrsdaten

Übung zur Vorlesung "Verkehrsmanagement und Telematik"



### 1. Kleine Einführung in die Programmierung mit Python



Wir beginnen damit ein paar \(wenige, aber wichtige\) Befehle in Python kennen zu lernen. Dies ist nicht als Pythontutorial zu verstehen, es soll nur ein kurzen Überlick geben werden, wie man mit der Programmiersprache Python Verkehrsdaten auswerten kann. Will man weiter mit Python arbeiten, empfielt sich die Installation, z.B. von Anaconda: https://www.anaconda.com/products/distribution.

Los gehts: Führe den folgenden Programmiercode aus:


In [None]:
print('Hello world')

Hier wurde die `print()`\-Funktion verwendet. Sie gibt Zeichenketten und andere Datentypen im Notebook aus. Ist man sich nicht sicher, was ein komplexerer Programmiercode tut, kann diese Funktion nützlich sein, um Fehler zu finden \(debuggen\). Führe den folgenden Programmiercode aus:



In [None]:
name = 'Anna' #Ersetzte Anna durch deinen Namen
print('Hello ' + name + '!')

Anmerkungen:

- `name` ist hier die Bezeichnung einer Variable \(sie kann als Platzhalter für verschiedene Werte gesehen werden\). Durch das "`=`" wird der Variable ein Wert zugeordnet.
- Kommentare werden in Python mit `#` vom Code unterschieden; bei der Ausführung des Codes werden diese Teile ignoriert.
- Zwei Zeichenketten können durch "`+`" zusammengefügt werden. Man bezeichnet Zeichenketten als Strings \(`str`\).  Sie stehen in Anführungszeichen, um sie von Variablennamen zu unterscheiden. Strings sind einer von vielen Datentypen, die in Python verwendet werden. Weitere wichtige Datentypen sind hier aufgelistet: [https://www.hdm\-stuttgart.de/~maucher/Python/html/Datentypen.html](https://www.hdm-stuttgart.de/~maucher/Python/html/Datentypen.html), u.a. Ganzzahlen \(`int`\), boolsche Werte \(`bool,` sie nehmen die Werte `True` oder `False` an\) und sequenzielle Datentypen wie Listen, Tupel, ...



#### For\-Schleifen und if\-statements

Eine for\-Schleife ist eine wiederholte Ausführung des Programmiercodes, meist unter Variation von bestimmten Werten. 



In [None]:
for i in range(5): #Doppelpunkt nicht vergessen
    print(i)

for\-Schleifen werden in Python mit dem Schlüsselwort '`for`' eingeführt. Es folgt eine Iterationsvariable \(hier `i`\) und ein Iterationsbereich \(hier `range(5), range(5) = 0, 1, 2, 3, 4`\). Der Körper der for\-Schleife ist eingerückt und wird für alle Elemente im Iterationsbereich ausgeführt. 


Ein if-statement prüft vor der Ausführung des Codes, ob eine bestimmte Bedingung erfüllt ist:



In [None]:
a = 7
if a > 5:
    print(a)

Durch `else` wird Code definiert, der ausgeführt wird, falls die Bedingung nicht erfüllt ist. Das 'else'-statement ist optional.

In [None]:
a = 4
if a > 5:
    print(a)
else:
    print('a is less than or equal to 5')

Bedingungen können unterschiedlich formuliert werden. Durch '==' wird überprüft, ob a genau den Wert 5 hat (Vergleichsoperator). Zur Erinnerung: ein einfaches '=' ist für die Variablenzuweisung:
- `a == 4` entspricht der Antwort auf die Frage "Ist a gleich 4?"
- `a = 4` entspricht dem Befehl "Setzte a auf 4!"

In [None]:
a = 4
if a == 4:
    print('a equals 4')

#### Funktionen

Oft muss ein und dieselbe Aufgabe erledigt werden, jedoch mit unterschiedlichen Parametern \(z.B. das Ausgeben von Text auf einer Konsole\). Zu diesem Zweck können wir Funktionen \([https://docs.python.org/3/tutorial/controlflow.html\#defining\-functions](https://docs.python.org/3/tutorial/controlflow.html#defining-functions)\) erstellen. Ein Beispiel für eine Funkton ist `print()`. Funktionen können verschiedene Argumente entgegennehmen und auch Werte zurückgeben, wie wir gleich an einem Beispiel sehen werden.

In Python werden Funktionen mit dem Schlüsselwort `def` eingeführt:


In [None]:
def my_sum(a, b):  # Doppelpunkt nicht vergessen!
    """Berechnet a+b.
    
    Das hier ist eine Dokumentation der Funktion (Docstring)
    """
    c = a+b
    return c


a = 13
b = -3
result = my_sum(a,b)
print(result)

Hier legen wir zuerst eine Funktion mit dem Namen `my_sum` an, welche zwei Argumente, die wir hier `a` und `b` genannt haben, erwartet. Eine Funktion kann im Prinzip beliebig viele Argumente erwarten, die mit einem Komma voneinander getrennt werden. Sämtlicher Code der danach eingerückt ist gehört zu der Funktion! In diesem Fall wird einfach nur die Summe der beiden Zahlen mittels des `return` Befehls zurückgegeben. Durch das `return` ist es möglich, das Ergebnis auch außerhalb der Funktion zu speichern \(hier in der Variable `result`\) und weiter zu verwenden \(z.B. mit einem`print()`Befehl\). Eine Funktion muss nichts zurückgeben \(es muss kein `return` geben\). Python gibt dann einen speziellen Wert zurück, nämlich `None`.



### Daten

Häufig muss man Funktionen nicht selbst schreiben, sondern kann bereits existierende Funktionen nutzen, ohne im Detail verstehen zu müssen, wie sie programmiert wurden. Solche Funktionen sind in Bibliotheken verfügbar, die man über den Befehl `import` einbinden kann. Eine wichtige Bibliothek zur Auswertung von Daten in tabellarischem Format ist die Python\-Bibliothek pandas \(von engl. panel data\). Zum Plotten verwenden wir die Bibliothek plotly \(siehe weiter unten\). Durch die Nutzung dieser und anderer Bibliotheken wird die Mächtigkeit der Datenauswertung mit Python deutlich. 

Der folgende Befehl importiert pandas und wir nutzen die gängige Abkürzung `pd`, um Funktionen aus der Bibliothek aufzurufen.


In [None]:
import pandas as pd

Außerdem brauchen wir noch die Daten, die wir auswerten wollen. Im folgenden sind das:
- Radarmessungen vom Adenauerring (Adenauerring Mitte.txt)
- ANPR-Daten (Kennzeichenerfassung) von der Kriegsstraße (A1.csv, A4.csv)
- Detektordaten von der A57 (verkehrsdaten_5min_HFB_m.csv)

In [None]:
from google.colab import files
uploaded = files.upload()

Jetzt können wir damit beginnen Daten auszuwerten:)

### 2. Nachfrage bestimmen \(Ganglinie\)



In [None]:
df_radar = pd.read_csv('Adenauerring Mitte.txt', delimiter = "\t", names = ['Datum', 'Uhrzeit', 'Länge[dm]', 'Geschwindigkeit', 'Kategorie', 'Zeitlücke', 'Richtung'])
df_radar = df_radar.reset_index(drop=True)
print(df_radar)

Wir haben die Radar\-Daten 'Adenauerring Mitte.txt' in einer Tabelle, einem sogenannten Dataframe \(kurz df\) gespeichet. Dies ist die zentrale Datenstruktur von Pandas. Die pandas\-Funktion `read_csv` hat viele \(optionale\) Inputparameter, vgl. [https://pandas.pydata.org/docs/reference/api/pandas.read\_csv.html](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html). Wir haben folgende genutzt:

- Den Namen der Datei:  'Adenauerring Mitte.txt' \(dieser Input ist nicht optional!\)
- delimiter \(Trennzeichen\): Die Spalten sind hier durch Tabs voneinander getrennt. Die Abkürzung dafür ist '\\t'. Andere häufige delimiter sind ',' oder ';'.
- names: Eine Liste mit den Spaltennamen, die wir verwenden wollen.

In der zweiten Zeile haben wir die erste Spalte \(leere Werte, gespiechert als `NaN` = Not a number\) gelöscht. Anschließend haben wir print verwendet, um uns das Ergebnis anzuschauen.

Um diese einzelnen Schritte besser zu verstehen, kannst du die obige Funktion mal mit weniger Input\-Parametern laufen lassen und anschauen, wie dann der Output aussieht.



Um die Daten etwas besser zu verstehen und sie zu validieren, ist es sinnvoll die `print()`\-Funktion zu verwenden, wie wir es eben gemacht haben. Weitere nützliche Funktionen sind `head()`, hier werden nur die ersten fünf Zeilen ausgegeben und `describe()`, das die wichtigsten Werte wie Minimum, Maximum, Mittelwert, etc. der Daten zusammenfasst.


In [None]:
print(df_radar.head())

In [None]:
print(df_radar.describe())

Angenommen wir benötigen nur die Nachfrage einer Richtung und nur vom 2. Dezember 2020. Wir müssen unseren Dataframe nach der Richtung \(letzte Spalte\) und nach dem Datum \(erste Spalte\) filtern:



In [None]:
df_radar = df_radar[df_radar['Richtung'] == '+']
df_radar = df_radar[df_radar['Datum'] == '2020-12-02']
print(df_radar)

Zum besseren Verständnis, kann man beispielsweise die erste Zeile folgendermaßen lesen: "\(Das neue\) df\_radar ist \(das alte\) df\_radar, bei dem df\_radar\['Richtung'\] den Wert '\+' hat."

Als nächstes möchten wir die Ergebnisse zu Zeitintervallen aggregieren. Dazu müssen wir ein Zeitformat einführen und die Funktion `resample` verwenden. 

- In Zeile 1 erzeugen wir eine neue Spalte, in dem wir einen noch ungenutzen Spaltennamen \(hier Datetime\) verwenden. Die pandas Funktion `to_datetime` wandelt nun die Spalten "Datum" und "Uhrzeit" in ein Zeitformat um, das dann in dieser neuen Spalte gespeichert wird.
- Wir benötigen eine Spalte Verkehrsstärke, über die wir später aggregieren können. Da jeder Eintrag \(jede Zeile\) genau ein Fahrzeug repräsentiert, setzten wir die Verkehrsstärke erstmal auf 1.
- Die Funktion resample aggregiert nun stundenweise \('H' für hour\) die Spalte Datetime. Und gibt ein sogenanntes "Resampler Object" zurück.
- Von diesem Objekt können wir uns nun beispielsweise die Verkehrsstärke und die mittlere Geschwindigkeit anschauen.

In [None]:
df_radar['Datetime'] = pd.to_datetime(df_radar['Datum'] + ' ' + df_radar['Uhrzeit'])
df_radar['Verkehrsstärke'] = 1
df_radar_resampled = df_radar.resample('H', on='Datetime')

df_radar_q = df_radar_resampled.Verkehrsstärke.count()
df_radar_v = df_radar_resampled.Geschwindigkeit.mean()
print(df_radar_q.head())
print(df_radar_v.head())


Die Daten sind nun so gut aufbereitet, dass wir sie plotten können. Dazu verwenden wir einen line-Plot der Bibliothek plotly express.

In [None]:
import plotly.express as px
fig = px.line(df_radar_q, title = 'Ganglinie Adenauerring 2. Dezember 2020')
fig.show()

### 3. Geschwindigkeits\- und Zeitlückenverteilungen



Als nächstes möchten wir uns die Geschwindigkeitsverteilung auf dem Adenauerring anschauen. Wir nutzen dafür die plotly express plots "Histogram" und "ecdf" \(empirical cumulative distribution function\). Falls man eine bestimmte Plotly-Funktion sucht (z.B. ein Histogramm), reicht es häufig nach "plotly histogram" zu googeln. Man landet dann bei der plotly-Dokumentation, die sehr anschaulich aufbereitet ist: https://plotly.com/python/histograms/



In [None]:
#Histogramm

#nbins = number of bins
fig = px.histogram(df_radar, x="Geschwindigkeit", title = 'Histogramm Geschwindigkeiten Adenauerring 2. Dezember 2020', nbins=100) 
fig.show()


#Verteilungsfunktion

fig = px.ecdf(df_radar, x="Geschwindigkeit", title = 'Geschwindigkeitsverteilung Adenauerring 2. Dezember 2020')
#die y-Achse soll neu beschriftet werden
fig.update_yaxes(title_text= 'Kumulierte relative Häufigkeit')
fig.show()


Neben der Geschwindigkeitsverteilung, kann man sich beispielsweise auch die Zeitlückenverteilung anschauen. Zuerst werden die Zeitlücken zu numerischen Werten \(bisher Strings mit Komma als Dezimalzeichen\) formatiert.


In [None]:
#ersetze Komma durch Punkt
df_radar['Zeitlücke'] = df_radar['Zeitlücke'].apply(lambda x: x.replace(',','.'))

#wandle String in numerischen Datentyp um
df_radar['Zeitlücke'] = pd.to_numeric(df_radar['Zeitlücke'])

Wie eben definieren wir uns bins. In den Daten ist bei Zeitlücken größer als 25.5 Sekunden ebenfalls der Wert 25.5 vermerkt. Deswegen schauen wir uns nur die Verteilung bis 25 Sekunden an. Verwollständige den Code analog zur Geschwindigkitsverteilung oben:


In [None]:
fig = #TODO
fig.show()

In [None]:
#LÖSUNG
fig = px.histogram(df_radar, x="Zeitlücke", title = 'Zeitlücken Adenauerring 2. Dezember 2020', nbins = 50)
fig.show()

### 4. Reisezeiten



Mit den ANPR\-Daten können wir Reisezeiten berechnen. Vieles machen wir ähnlich wie oben.


In [None]:
#Einlesen und Formatieren der Daten
df_ANPR1 = pd.read_csv('A1.csv', delimiter = ';', encoding= 'unicode_escape', names = ['ID', 'Land', 'Datum', 'Spur', 'SpurID', 'Kennzeichen', 'Ort', 'Uhrzeit', 'FahrzeugTyp', 'Zulassungs-Bezirk', 'ConfLvl', '1', '2', '3'], header = 1, usecols = ['Datum', 'Uhrzeit', 'Kennzeichen'])
df_ANPR2 = pd.read_csv('A4.csv', delimiter = ';', encoding= 'unicode_escape', names = ['ID', 'Land', 'Datum', 'Spur', 'SpurID', 'Kennzeichen', 'Ort', 'Uhrzeit', 'FahrzeugTyp', 'Zulassungs-Bezirk', 'ConfLvl', '1', '2', '3'], header = 1, usecols = ['Datum', 'Uhrzeit', 'Kennzeichen'])

#Filtern nach dem 28. September 2021
df_ANPR1 = df_ANPR1[df_ANPR1['Datum'] == '28.09.2021']
df_ANPR2 = df_ANPR2[df_ANPR2['Datum'] == '28.09.2021']

#Zeiten im Datetime-Format speichern und löschen der Spalten Datum und Uhrzeit
df_ANPR1['Datetime_in'] = pd.to_datetime(df_ANPR1['Datum'] + ' ' + df_ANPR1['Uhrzeit'])
df_ANPR2['Datetime_out'] = pd.to_datetime(df_ANPR2['Datum'] + ' ' + df_ANPR2['Uhrzeit'])
df_ANPR1 = df_ANPR1.drop(columns=['Datum', 'Uhrzeit'])
df_ANPR2 = df_ANPR2.drop(columns=['Datum', 'Uhrzeit'])

Wir überprüfen im Folgenden ein paar Voraussetzungen, um sinnvolle Reisezeiten bestimmen zu können.


In [None]:
#An einer Messstation mehrfach erfasste Kennzeichen
is_unique = df_ANPR1["Kennzeichen"].is_unique
print('Wurden Kennzeichen höchstens einmal an Messstation 1 erfasst? ' + str(is_unique))
#wir verwenden nur die jeweils erste Erfassung
df_ANPR1 = df_ANPR1.drop_duplicates(subset=['Kennzeichen']) 
df_ANPR2 = df_ANPR2.drop_duplicates(subset=['Kennzeichen'])

#Kennzeichen, die an beiden Messstationen erfasst wurden (sonst können wir keine Reisezeiten bestimmen)
Kennzeichen1 = set(df_ANPR1['Kennzeichen'])
Kennzeichen2 = set(df_ANPR2['Kennzeichen'])

print('Anzahl der Kennzeichen, die an beiden Stationen erfasst wurden: '+ str(len(Kennzeichen1 & Kennzeichen2)))

Nun können wir die Daten mergen und nach obigen Erkennntnissen filtern, sowie die Reisezeiten berechnen. Verwende print\-Funktionen, um die einzelnen Schritte nachzuvollziehen.



In [None]:
#Mergen der Daten
df_ANPR1 = df_ANPR1.set_index('Kennzeichen')
df_ANPR2 = df_ANPR2.set_index('Kennzeichen')
df_ANPR = pd.concat([df_ANPR1, df_ANPR2], axis = 1, join = 'inner')

In [None]:
#Reisezeiten bestimmen und in Sekunden umrechnen
df_ANPR['Reisezeit'] = df_ANPR['Datetime_out'] - df_ANPR['Datetime_in']
df_ANPR['Reisezeit[s]'] = df_ANPR['Reisezeit'].apply(lambda x: x.total_seconds())

#Filterung
df_ANPR = df_ANPR[df_ANPR['Datetime_out'] > df_ANPR['Datetime_in']]
df_ANPR = df_ANPR[df_ANPR['Reisezeit'] < df_ANPR['Reisezeit'].quantile(.90)]

print(df_ANPR)

In [None]:
import plotly.express as px
fig = px.scatter(df_ANPR, x = 'Datetime_in', y = 'Reisezeit[s]')
#die y-Achse soll bei 0 starten und bis zum maximalen Wert gehen
max = df_ANPR['Reisezeit[s]'].max()
fig.update_yaxes(range = [0, max])
fig.show()

### 5. q\-v\-Diagramme



Zum Abschluss schauen wir uns noch q-v-Diagramme von Autobahndaten an.

In [None]:
df_Detektor = pd.read_csv('verkehrsdaten_5min_HFB_m.csv', usecols = ['datum', 'position', 'q_kfz_gesamt', 'v_kfz_gesamt', 'q_pkw_gesamt',
       'v_pkw_gesamt', 'q_lkw_gesamt', 'v_lkw_gesamt'])
print(df_Detektor.head())

Wir wollen eine zusätzliche Spalte mit dem Schwerverkehrsanteil hinzufügen:

In [None]:
df_Detektor['SV-Anteil[%]'] = df_Detektor['q_lkw_gesamt'] / df_Detektor['q_kfz_gesamt'] *100
print(df_Detektor.head())

Hier nun ein erster q-v-Plot:

In [None]:
import plotly.express as px
fig = px.scatter(df_Detektor, x='q_kfz_gesamt', y='v_kfz_gesamt', labels = {'q_kfz_gesamt': 'Verkehrsstärke', 'v_kfz_gesamt': 'Geschwindigkeit'})
fig.show()

Und nach dem Schwerverkehrsanteil eingefärbt:

In [None]:
fig = px.scatter(df_Detektor, x='q_kfz_gesamt', y='v_kfz_gesamt', labels = {'q_kfz_gesamt': 'Verkehrsstärke', 'v_kfz_gesamt': 'Geschwindigkeit'}, color = df_Detektor['SV-Anteil[%]'])
fig.show()

Oder getrennt nach Lkw und Pkw. Achtung: hier wird eine andere Unterbibliothek, nämlich plotly graph_objects verwendet. Der Syntax dafür ist etwas anders.

In [None]:
import plotly.graph_objects as go
fig = go.Figure()
fig.add_trace(go.Scatter(x=df_Detektor['q_pkw_gesamt'], y=df_Detektor['v_pkw_gesamt'], mode='markers', name='Pkw'))
fig.add_trace(go.Scatter(x=df_Detektor['q_lkw_gesamt'], y=df_Detektor['v_lkw_gesamt'], mode='markers', name='Lkw'))
fig.update_xaxes(title = 'Verkehrsstärke')
fig.update_yaxes(title = 'Geschwindigkeit')
fig.show()

Es gibt noch viele weitere Möglichkeiten, die Daten auszuwerten und zu analysieren. Vorerst ist das hier aber das Ende dieser Einführung. Es lohnt sich selbst weiter mit den Daten und Plots rumzuprobieren. Dadurch lernt man am meisten. Viel Spaß dabei:)