In [None]:
# Benötigte Imports
import os
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.preprocessing import StandardScaler
from tensorflow import keras
from tensorflow.python.keras.models import Sequential
# Unterschied zwischen CuDNNLSTM und LSMT: https://stackoverflow.com/questions/49987261/what-is-the-difference-between-cudnnlstm-and-lstm-in-keras
from tensorflow.python.keras.layers import Dense, CuDNNLSTM 
from tensorflow.python.keras import regularizers
from tensorflow.python.keras.optimizers import adam_v2
from tensorflow.python.keras.metrics import RootMeanSquaredError

# 0. Daten vorbereiten

Bevor wir mit unseren Daten arbeiten können, müssen wir diese erst einmal vorbereiten. Darunter fällt das **Einlesen**, das **Vereinheitlichen von Timestamps und Fußgänger-IDs**, das **Berechnen der Delta-Werte** für die x- und y-Position zwischen zwei Zeitschritten, sowie das **Aufteilen in Trainings-, Validierungs- und Testdaten**.

*Anmerkung: Der Code zur Datenvorbereitung ist im separaten Notebook "DataPreparation.ipynb" zu finden. Der Code für alle Plotting-Methoden ist im separaten Notebook "Plotting.ipynb" zu finden.*

In [None]:
path_train = "Data/datasplits/traindata.csv" # Pfad zu den Trainingsdaten
path_test = "Data/datasplits/testdata.csv" # Pfad zu den Testdaten
path_valid = "Data/datasplits/validationdata.csv" # Pfad zu den Validierungsdaten

# Datenvorbereitung wird nur einmal ausgeführt; Sobald Daten bereits gesplittet und als CSV-Dateien abgespeichert wurden, werden diese einfach nur eingelesen
# Um einen neuen Datensplit zu erhalten, einfach die CSV-Dateien aus dem Ordner "Data/datasplits" entfernen
if not os.path.exists(path_train) or not os.path.exists(path_test) or not os.path.exists(path_valid):
    # Eine genauere Beschreibung, was bei der Vorbereitung der Daten passiert, ist in der Datei "DataPreparation.ipynb" selbst zu finden
    %run DataPreparation.ipynb
    
# Das Plotting-Notebook enthält alle benötigten Funktionen für die im Folgenden erstellten Plots
%run Plotting.ipynb

# Einlesen von Trainings- und Testdaten
df_train = pd.read_csv(path_train, sep=",")
df_test = pd.read_csv(path_test, sep=',')
df_valid = pd.read_csv(path_valid, sep=",")

Hier ein kurzer Einblick in unsere aufbereiteten Trainingsdaten...

In [None]:
df_train

# 1. Daten vorverarbeiten

## 1.1 Entfernen redundanter Daten

Als erstes werden nicht benötigte Daten von unserem Trainingsdatensatz entfernt. In unserem Fall können wir **alle ersten Zeitschritte eines Datenpunktes** (besteht aus insgesamt 20 Zeitschritten) entfernen. Da für die ersten X- und Y- Positionen noch kein Delta-Wert berechnet werden kann, ist dx und dy für den ersten Zeitschritt somit immer = 0 und daher nicht aussagekräftig. 

Erinnerung: Die eigentliche Aufgabe ist es, mithilfe der ersten 8 Positionsdaten die nächsten 12 vorherzusagen. D. h. aus den ersten 8 Positionen erhalten wir 7 Delta-X und Delta-Y Werte. Und genau mit diesen 7 Delta-Werten werden wir später eine (bzw. mehrere) Vorhersagen treffen.

In [None]:
# Entfernen aller ersten Zeitschritte eines Datenpunktes
df_train = df_train.drop(df_train[df_train.Timestamp == 1].index)
df_valid = df_valid.drop(df_valid[df_valid.Timestamp == 1].index)

## 1.2 Standardisieren

Als nächstes werden die Trainingsdaten und die Valiedierungsdaten skaliert. Dazu wird der StandardScaler von Scikitlearn verwendet und auf die Trainingsdaten gefittet. 

*Anmerkung: Um **Data Leakage** zu vermeiden, wurden die Daten zuerst in Trainings-, Test- und Validierungsdaten aufgeteilt. Erst dann wurde ein Scaler erstellt und **nur** auf die Trainingsdaten gefittet. Um die Daten der anderen zwei Datesätze zu skalieren, wird dann der mit den Trainingsdaten gefittete Scaler verwendet.*

In [None]:
# Skalieren der Trainingsdaten
scaler = StandardScaler()
features = df_train[["dx", "dy"]] # Features auswählen, die skaliert werden sollen
scaler.fit(features)
df_train["dx_scaled"] = 0 # neue Spalte für skalierte dx-Werte erstellen und mit 0 initialisieren
df_train["dy_scaled"] = 0 # neue Spalte für skalierte dy-Werte erstellen und mit 0 initialisieren
df_train[["dx_scaled", "dy_scaled"]] = scaler.transform(features) # dx und dy skalieren und in den entsprechenden Spalten ablegen

# Skalieren der Validierungsdaten
features = df_valid[["dx", "dy"]]
df_valid["dx_scaled"] = 0 # neue Spalte für skalierte dx-Werte erstellen und mit 0 initialisieren
df_valid["dy_scaled"] = 0 # neue Spalte für skalierte dy-Werte erstellen und mit 0 initialisieren
df_valid[["dx_scaled", "dy_scaled"]] = scaler.transform(features) # dx und dy skalieren und in den entsprechenden Spalten ablegen

Hier ein kleines Zwischenupdate, wie unsere Testdaten inzwischen aussehen...

In [None]:
df_train

## 1.3 Transformieren

In der aktuellen Form, in der unsere Daten vorliegen, können wir sie allerdings nicht in ein RNN der Keras-Library einfüttern. Das vorgeschriebene Format für die Daten sieht nämlich folgendermaßen aus: **[samples, timesteps, features]**. In unserem Fall ist timesteps = 7 und features = 2, da wir eine Zeitreihe mit 7 Delta-Werten mit je zwei Features (dx und dy) zur Vorhersage nutzen wollen. 

Außerdem soll die Vorhersage der 12 zukünftigen Positionen **rekursiv** erfolgen. D. h. unser NN gibt uns für 7 gegebene Delta-Werte nur den nächsten vorhergesagten Delta-Wert zurück, welcher dann für die nächste Vorhersage wiederum mit einbezogen wird usw. 

Das bedeutet, jeder einzelne Datenpunkte unserer Trainingsdaten kann in 12 weitere Trainingssamples aufgeteilt werden. Im folgenden wird diese Transformation für die Trainings- und die Validierungsdaten durchgeführt.

In [None]:
sequence_length = 7 # Anhand von 7 dx und dy Werten (welche aus 8 Zeitschritten entstanden sind) soll der nächste Delta-Wert vorausgesagt werden

# teilt die Trainingsdaten so auf, dass aus jedem Datenpunkt (bestehend aus 20 Zeitschritten/ bzw. 19, da der erste ja entfernt wurde) 12 
# Trainingssamples (jeweils 7 dx und dy und ein erwarteter dx und dy Wert) entstehen und bringt die Trainingsdaten in ein passendes Format für das neuronale Netzt
def transform_data_for_rnn(df, sequence_length):
    ids = np.array(df.ID.unique())
    x, y = [], []
    for id in ids: # über jeden einzelnen Datenpunkt iterieren
        df_current = df[df.ID == id] # einzelnen Datenpunkt herausgreifen und diesen dann in weitere Datenpunkte aufteilen
        feature_data = np.array(df_current[['dx_scaled', 'dy_scaled']])
        for i in range(sequence_length, feature_data.shape[0]): # einen Datenpunkt in 12 Samples aufteilen
            x.append(feature_data[i-sequence_length:i,:]) # enthält 7 dx und dy Werte für die Prädiktion
            y.append(feature_data[i, :]) # enthält den erwarteten dx und dy Wert, der mit den anderen 7 Deltas vorhergesagt werden soll
    x = np.array(x)
    y = np.array(y)
    return x, y

x_train, y_train = transform_data_for_rnn(df_train, sequence_length) # Trainingsdaten, die in das RNN eingefüttert werden und zugehörige Ground Trouth-Werte
x_valid, y_valid = transform_data_for_rnn(df_valid, sequence_length) # Validierungsdaten, die in das RNN eingefüttert werden und zugehörige Ground Trouth-Werte

Die Trainings- und Validierungsdaten haben also nun die gewünschte Form...

In [None]:
print("Form der Trainingsdaten: ", x_train.shape, y_train.shape)
print("Form der Validierungsdaten: ", x_valid.shape, y_valid.shape)

# 2. Neuronales Netz erstellen und trainieren

## 2.1 Erstellen des Models

Nachdem die Daten nun fertig vorverarbeitet sind, kann man sich dem eigentlichen NN widmen. Zunächst wird das neuronale Netz mit all seinen Layern und Parametern erstellt.

*Anmerkung: Eine präzisere Erklärung der verwendeten Layer, Regularisierungstechniken etc. wird in der Projektdokumentation gegeben.*

In [None]:
model = Sequential()
model.add(CuDNNLSTM(units = 128, return_sequences = True, input_shape = (x_train.shape[1], x_train.shape[2]))) # standard Aktivierungsfunktion: tanh
model.add(CuDNNLSTM(units = 128, return_sequences = True, kernel_regularizer=regularizers.l1(0.01)))
model.add(CuDNNLSTM(units = 64, return_sequences = False, kernel_regularizer=regularizers.l1(0.01)))
model.add(Dense(units = 2)) # standard Aktivierungsfunktion: linear
print(model.summary())

## 2.2 Trainieren des Models

Das erstellte Model wird nun kompiliert und mithilfe der Trainingsdaten trainiert. Zusätzlich werden beim Kompilieren die Lernrate, die Anzahl der Epochen, sowie die verwendete Loss-Funktion und Metrik festgelegt.

In [None]:
learning_rate = 0.0001
epochs = 15
batch_size = 10
opt = adam_v2.Adam(learning_rate = learning_rate)
model.compile(loss = 'mse', optimizer = opt, metrics = ['mae'])
history = model.fit(x = x_train, y = y_train, epochs = epochs, validation_data=(x_valid, y_valid), batch_size = batch_size, shuffle = True)

Der Verlauf der Loss-Funktion, sowie die Performance sieht für das Model folgendermaßen aus:

In [None]:
plot_model_loss(history, epochs)
plot_model_metric(history, epochs)

# 3. Vorhersage von zukünftigen Deltas/ Positionen

Das neuronale Netz ist nun fertig trainiert und kann nun anhand von 7 gegebenen Delta-Werten **einen** nächsten Delta-Wert für x- und y-Koordinate vorhersagen. Die folgenden Methoden ermöglichen es, den vorhergesagten Wert für eine erneute Prädiktion mit einzubeziehen, sodass die n nächsten Deltas vorhergesagt werden können. Außerdem werden mithilfe der Delta-Werte auch gleich die erwarteten X- und Y-Positionen der Fußgänger berechnet, um so die eigentliche Trajektorie bestimmen zu können.

In [None]:
# verschiebt die Werte des Arrays um eins nach vorne und hängt den vorhergesagten Delta-Wert hinten an (erster Wert wird entfernt)
# Prinzip: aus [1, 2, 3, 4] und [5] wird [2, 3, 4, 5]
# current_deltas braucht Shape (1, 7, 2) und predicted_deltas (1, 2)
def shift_deltas(current_deltas, predicted_delta):
    new_deltas = np.reshape(current_deltas, (7,2))
    new_deltas = np.delete(new_deltas, 0, axis=0) # ersten Wert der gegebenen Werte entfernen
    new_deltas = np.append(new_deltas, predicted_delta , axis=0) # predicteten Wert für nächste Vorhersage anhängen
    return np.array([new_deltas])

# Methode, die iterative die nächsten n Positionen bestimmt
# given_deltas = start_deltas = die Deltas der ersten 8 Positionen, mit denen die nächsten n Positionen vorhergesagt werden sollen
# x_pos = x-Koordinaten Startwert = letzter gemessener x-Wert, bevor die Prädiktion startet
# y_pos = y-Koordinaten Startwert = letzter gemessener y-Wert, bevor die Prädiktion startet
def predict_next_n_steps(n, given_deltas, x_pos, y_pos):
    pred_dx_values = [] # vorhergesagte Delta-x Werte
    pred_dy_values = [] # vorhergesagte Delta-y Werte
    pred_x_pos = [] # vorhergesagte x Koordinaten
    pred_y_pos = [] # vorhergesagte y Koordinaten  
    for i in range(0, n): 
        pred_value = model.predict(given_deltas) # nächsten Wert anhand der aktuellen 7 Deltas vorhersagen --> pred_value hat die Form [[dx dy]]
        pred_value_unscaled = scaler.inverse_transform(pred_value) # Ergebnis zurückskalieren, um tatsächliche Delta-Werte zu erhalten
        given_deltas = shift_deltas(given_deltas, pred_value) # Vorhergesagten Delta-Wert zur Liste für die nächste Prädiktion hinzufügen
        pred_dx = round(pred_value_unscaled[0, 0], 3) # herausholen des vorhergesagten dx Wertes aus dem Array
        pred_dy = round(pred_value_unscaled[0, 1], 3) # herausholen des vorhergesagten dy Wertes aus dem Array        
        x_pos = round(x_pos + pred_dx, 3)
        y_pos = round(y_pos + pred_dy, 3)
        # berechneten Werte für dx, dy, xPos und yPos an die jeweilige Ergebnisliste anhängen
        pred_dx_values.append(pred_dx)
        pred_dy_values.append(pred_dy)
        pred_x_pos.append(x_pos)
        pred_y_pos.append(y_pos)
    return pred_dx_values, pred_dy_values, pred_x_pos, pred_y_pos

Mithilfe der obigen Methoden können jetzt für jeden Fußgänger des Testdatensatzes die nächsten 12 dx und dy Werte, sowie die entsprechenden x- und y-Positionen vorhergesagt werden. Genau dies wird in folgendem Codeblock getätigt.

In [None]:
forecast_range = 12 # Anzahl der Positionen, die vorhergesagt werden sollen

predicted_dx_values = []
predicted_dy_values = []
predicted_x_pos = []
predicted_y_pos = []

ids_test =  np.array(df_test.ID.unique())
progress = 1

for id in ids_test: 
    print("Fortschritt: ", progress, "/", len(ids_test), end='\r')
    progress += 1
    # Aktuellen Datenpunkt mithilfe der ID auswählen
    current_datapoint = df_test[df_test.ID == id]
    given_data = current_datapoint[current_datapoint.Timestamp <= 8] # ersten 8 Positionen sind gegeben, die nächsten 12 sollen vorhergesagt werden
    
    # anhängen der ersten 8 gegebenen Werte an die Trajektorien-Resultat-Listen
    predicted_dx_values.extend(given_data['dx'].tolist())
    predicted_dy_values.extend(given_data['dy'].tolist())
    predicted_x_pos.extend(given_data['X'].tolist())
    predicted_y_pos.extend(given_data['Y'].tolist())
    
    # von den gegebenen 8 Punkten die 7 Deltas extrahieren und basierend auf diesen die Vorhersagen machen
    given_deltas = given_data.drop(given_data[given_data.Timestamp == 1].index) # ersten Delta-Wert für die vorhersage entfernen (da dieser sowieso immer 0 ist)
    given_deltas = np.array(scaler.transform(given_deltas[['dx', 'dy']])) # skalieren der Daten + Umwandeln in Numpy-Array
    given_deltas = np.reshape(given_deltas, (1, 7, 2)) # daten in korrekte Form bringen, damit man sie in das NN einfütter kann
    
    # Positionen des Fußgängers holen, an der er sich am Ende der beobachteten Zeit befindet --> = Startkoordinaten für die Prädiktion
    start_x = predicted_x_pos[-1]
    start_y = predicted_y_pos[-1]
    
    # nächsten n Positionen vorhersagen
    pred_dx, pred_dy, pred_x, pred_y = predict_next_n_steps(forecast_range, given_deltas, start_x, start_y)
    
    predicted_dx_values.extend(pred_dx)
    predicted_dy_values.extend(pred_dy)
    predicted_x_pos.extend(pred_x)
    predicted_y_pos.extend(pred_y)

Die vorhergesagten Ergebnisse für die Delta-Werte, sowie die vorhergesagten x- und y-Positionen werden an das DataFrame der Testdaten angehängt. 

In [None]:
# Erstellen Listen als Spalten an das Test-Dataframe anhängen
df_test["predicted_dx"] = predicted_dx_values
df_test["predicted_dy"] = predicted_dy_values
df_test["predicted_x"] = predicted_x_pos
df_test["predicted_y"] = predicted_y_pos
print(df_test.head(20))

# 4. Bewertung der Performance

Zur Bewertung der Performance unseres trainierten neuronalen Netzes werden die zwei in der Literatur gängigen Metriken "**Average Displacement Error (ADE)**" und "**Final Displacement Error (FDE)**" herangezogen. Die zwei Metriken lassen sich mit derselben Funktion berechnen, der einzige Unterschied liegt in den übergebenen Daten für die Berechnung.

In [None]:
# Berechnen des Displacement Errors
# true_pos und pred_pos = Tatsächliche Positionen bzw. vorhergesagte Positionen | Numpy-Arrays der Form [[x1 y1],[x2 y2], ...]
def calc_displacement_error(true_pos, pred_pos):
    if (len(true_pos) != len(pred_pos)):
        print("Listen haben unterschiedliche Länge, Displacement Error kann nicht berechnet werden!")
        return
    n = len(true_pos) # Datenanzahl
    sum_of_euclid_distances = 0 # Summe der euklidischen Distanzen der Punkte
    for i in range (0, n):
        sum_of_euclid_distances += np.linalg.norm(true_pos[i] - pred_pos[i])
    return sum_of_euclid_distances / n

## 4.1 Average Displacement Error (ADE)

Der ADE ist der durchschnittliche Fehler zwischen der Ground Trouth und der vorhergesagten Trajektorie aller vorhergesagten Positionen (in unserem Fall alle Timestamps > 8) über alle Fußgänger. Das bedeutet, wir holen uns alle Daten mit Timestamp > 8 aus dem Dataframe, da alle Positionen der Timestamps 9 bis 20 vorhergesagt wurden (basierend auf den ersten 8).

Schöne Definition: https://arxiv.org/pdf/1907.08752.pdf#:~:text=Average%20Displacement%20Error%20(ADE)%3A,entire%20duration%20of%205%20seconds

In [None]:
df_predictions = df_test.drop(df_test[df_test.Timestamp < 9].index) # nur die vorhergesagten Daten auswählen
true_positions = np.array(df_predictions[['X', 'Y']]) # Ground Trouth der Positionen
predicted_positions = np.array(df_predictions[['predicted_x', 'predicted_y']]) # Vorhergesagte Positionen
ade = calc_displacement_error(true_positions, predicted_positions)
print("Average Displacement Error (ADE): ", round(ade, 3))

## 4.2 Final Displacement Error (FDE)

Der FDE ist der Fehler zwischen der finalen vorhergesagten Position, und der zugehörigen Ground Trouth. In anderen Worten: FDE = die Summe der euklidischen Distanzen zwischen allen final vorhergesagten Positionen vs. Ground Trouth geteilt durch die Anzahl der Fußgänger. Hier wählen wir also alle Daten mit Timestamp = 20 aus und übergeben sie der *calc_displacement_error* Methode.

In [None]:
df_final_positions = df_test[df_test.Timestamp == 20] # Daten für die finalen Positionen extrahieren 
true_final_positions = np.array(df_final_positions[['X', 'Y']]) # Ground Trouth der finalen Positionen
predicted_final_positions = np.array(df_final_positions[['predicted_x', 'predicted_y']]) # Vorhergesagte finale Positionen
fde = calc_displacement_error(true_final_positions, predicted_final_positions)
print("Final Displacement Error (FDE): ", round(fde, 3))

# 5. Zusätze

Unter diesem Unterpunkt sind zusätzliche Visualisierungen zu finden, welche sich teilweise auch in der Projektdokumentation wiederfinden.

## 5.1 Plotten des Displacement-Errors für jeden Zeitschritt

Das trainierte NN hat iterativ die nächsten 12 Positionen vorhergesagt. Durch dieses iterative Vorgehen, summiert sich der Fehler immer mehr auf, da wir ja basierend auf einer evtl. falschen Vorhersage wieder eine erneute Vorhersage treffen. Wenn man das ganze dann 12 mal wiederholt, kann sich der Fehler ganz schön aufsummieren, was auch folgende Grafik verdeutlicht:

In [None]:
timesteps = []
displacement_errors = []
for timestep in range(9, 21): # Über alle vorhergesagten Positionen iterieren
    df_current_timestep = df_test[df_test.Timestamp == timestep] # Daten des aktuellen Timestamps extrahieren
    true_positions = np.array(df_current_timestep[['X', 'Y']]) # Ground Trouth der Positionen
    predicted_positions = np.array(df_current_timestep[['predicted_x', 'predicted_y']]) # Vorhergesagte Positionen
    de = calc_displacement_error(true_positions, predicted_positions) # Displacement Error für einen bestimmten Timestamp
    timesteps.append(timestep)
    displacement_errors.append(de)

plot_displacement_errors(timesteps, displacement_errors)

## 5.2 Plotten von Beispiel-Fußgänger-Trajektorien

Hier kann man sich die beobachteten Positionen, sowie die gewünschten vorhergesagten Positionen der Fußgänger **aus einem gewünschten Datensatz** anzeigen lassen.

In [None]:
desired_dataset = df_train
ids = np.array(desired_dataset.ID.unique())
ids = ids[0:2] # Auswählen, welche Datenpunkte geplottet werden sollen
for id in ids:
    print("Fußgänger-ID: ", id, "\n")
    current_data = df_train[df_train.ID == id]
    observed = current_data.loc[current_data.Timestamp <= 8] 
    predicted = current_data.loc[current_data.Timestamp > 8] 
    observed_x = observed['X'].tolist()
    observed_y = observed['Y'].tolist()
    predicted_x = predicted['X'].tolist()
    predicted_y = predicted['Y'].tolist()
    plot_pedestrian_trajectory(x_observed = observed_x, y_observed = observed_y, x_pred = predicted_x, y_pred = predicted_y)

## 5.3 Plotten von tatsächlich vorhergesagten Trajektorien vs. Ground Trouth

Hier kann man sich die vom NN vorhergesagten Trajektorien **des Testdatensatzes**, sowie die zugehörige Ground Trouth visualisieren lassen. 

In [None]:
ids = np.array(df_test.ID.unique())
ids = ids[100:200] # Auswählen, welche Datenpunkte geplottet werden sollen
for id in ids:
    print("Fußgänger-ID: ", id, "\n")
    current_data = df_test[df_test.ID == id]
    observed = current_data.loc[current_data.Timestamp <= 8] 
    predicted = current_data.loc[current_data.Timestamp > 8] 
    observed_x = observed['X'].tolist()
    observed_y = observed['Y'].tolist()
    gt_predicted_x = predicted['X'].tolist()
    gt_predicted_y = predicted['Y'].tolist()
    predicted_x = predicted['predicted_x'].tolist()
    predicted_y = predicted['predicted_y'].tolist()
    plot_pedestrian_trajectory(x_observed = observed_x, y_observed = observed_y, x_pred = predicted_x, y_pred = predicted_y, x_real = gt_predicted_x, y_real = gt_predicted_y)