# Noch erledigen

- Methode zum Plotten der Trajektorie eines Fußgängers (ersten 8 Steps in anderer Farbe als die weiteren 12)
- Methode zum Plotten der vorhergesagten Trajektorie vs ground trouth
- Methode zum Plotten des Model losses over time


In [19]:
import os
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import LSTM
from keras.layers import Dropout # LSTM hat auch dropout argument

# 0. Daten vorbereiten

Im ersten Schritt werden die Daten aus den einzelnen .txt Dateien ausgelesen und in ein gemeinsames Dataframe gepackt.

In [2]:
column_names = ['Timestamp', 'ID', 'X', 'Y']
df = pd.DataFrame(columns = column_names)

# durch jede .txt Datei im Ordner 'Data' iterieren, Daten einlesen und ans Dataframe anhängen
for filename in os.listdir("Data/raw"): 
    if filename.endswith(".txt"):
        tmp_df = pd.read_csv("Data/raw/" + filename, sep=" ", header=None)
        tmp_df.columns = column_names 
        df = df.append(tmp_df, ignore_index = True)

In [3]:
df

Unnamed: 0,Timestamp,ID,X,Y
0,0,100,1.728,14.378
1,12,100,2.035,14.378
2,24,100,2.342,14.378
3,36,100,2.630,14.378
4,48,100,2.937,14.416
...,...,...,...,...
108115,11424,273,-27.961,18.169
108116,11436,273,-28.388,17.967
108117,11448,273,-28.747,17.787
108118,11460,273,-29.107,17.608


# 1. Daten vorverarbeiten

## 1.1 Vereinheitlichen von IDs und Timestamps | Deltas zwischen zwei Zeitpunkten berechnen

In diesem Schritt werden die Daten vorverarbeitet. Darunter fällt das vergeben einer einzigartigen ID für jeden Datenpunkt (1 Datenpunkt besteht aus 20 Zeitpunkten), sowie das Vereinheitlichen der Timestamps. Da für uns nur die Reihenfolge der einzelnen Zeitpunkte von Interesse ist, der Abstand zwischen diesen auch immer gleich ist, können wir den Zeitpunkten die Werte 1-20 zuordnen (wobei zu Zeitpunkt 1 das erste mal x und y Wert erfasst wurde und bei Zeitpunkt 20 das letzte mal). </br>
Außerdem werden in diesem Schritt für die X- und Y-Werte die relativen Änderungen zwischen zwei Zeitpunkten berechnet und den separaten Spalten 'dx' und 'dy' abgelegt.

In [4]:
curr_id = 0
prev_x = 0
prev_y = 0
for i, row in df.iterrows():
    if i % 20 == 0:
        curr_id += 1 # alle 20 Zeitpunkte erhöht sich die ID
        prev_x = row.X
        prev_y = row.Y
    df.at[i, 'ID'] = curr_id
    df.at[i, 'Timestamp'] = (i % 20) + 1
    dx = row.X - prev_x
    dy = row.Y - prev_y
    prev_x = row.X
    prev_y = row.Y
    df.at[i, 'dx'] = round(dx, 3)
    df.at[i, 'dy'] = round(dy, 3)

In [5]:
df

Unnamed: 0,Timestamp,ID,X,Y,dx,dy
0,1,1,1.728,14.378,0.000,0.000
1,2,1,2.035,14.378,0.307,0.000
2,3,1,2.342,14.378,0.307,0.000
3,4,1,2.630,14.378,0.288,0.000
4,5,1,2.937,14.416,0.307,0.038
...,...,...,...,...,...,...
108115,16,5406,-27.961,18.169,-0.449,-0.180
108116,17,5406,-28.388,17.967,-0.427,-0.202
108117,18,5406,-28.747,17.787,-0.359,-0.180
108118,19,5406,-29.107,17.608,-0.360,-0.179


## 1.2 Aufteilen der Daten in Trainings-, Test- und Validierungsdaten

Um **Data Leakage** zu vermeiden, werden die Daten zuerst in die drei separaten Sets aufgeteilt und dann für jede separat ein Scaler verwendet, um die Daten zu normalisieren.

In [6]:
ids = np.array(df.ID.unique()) # alle IDs holen
np.random.shuffle(ids) # IDs zufällig durchmischen

test_percentage = valid_percentage = 0.1
test_size = int(test_percentage * len(ids))
valid_size = int(valid_percentage * len(ids))
test_ids, valid_ids, train_ids = ids[:test_size], ids[test_size:test_size + valid_size], ids[test_size + valid_size:]
print("Trainingsdaten: \t", len(train_ids), " ≙ 80%")
print("Validierungsdaten: \t", len(valid_ids), " ≙ 10%")
print("Testdaten: \t\t", len(test_ids), " ≙ 10%")

Trainingsdaten: 	 4326  ≙ 80%
Validierungsdaten: 	 540  ≙ 10%
Testdaten: 		 540  ≙ 10%


Der Hauptdatensatz (mit allen Daten) wird in die drei einzelnen Datensätze aufgeteilt und diese als .csv Dateien abgespeichert. Wurden dieser Split bereits schon einmal durchgeführt, so werden die bereits existierenden .csv Dateien eingelesen. Will man das neuronale Netz mit neuen Mischungen von Test-, Trainings- und Validierungsdaten probieren, so müssen einfach die drei .csv Dateien aus dem Ordner "Data/datasplits/" entfernt werden. 

In [97]:
path_train = "Data/datasplits/traindata.csv"
path_test = "Data/datasplits/testdata.csv"
path_valid = "Data/datasplits/validationdata.csv"
if not os.path.exists(path_train) or not os.path.exists(path_test) or not os.path.exists(path_valid):
    df_train = df.copy()
    for id in np.concatenate([test_ids, valid_ids]):
        df_train = df_train.drop(df_train[df_train.ID == id].index)
    df_test = df.copy()
    for id in np.concatenate([train_ids, valid_ids]):
        df_test = df_test.drop(df_test[df_test.ID == id].index)
    df_valid = df.copy()
    for id in np.concatenate([test_ids, train_ids]):
        df_valid = df_valid.drop(df_valid[df_valid.ID == id].index)
    df_train.to_csv(path_train, sep=',', index = False)
    df_test.to_csv(path_test, sep=',', index = False)
    df_valid.to_csv(path_valid, sep=',', index = False)
    print("CSV Dateien wurden erstellt,,,")
else:
    df_train = pd.read_csv(path_train, sep=",")
    df_test = pd.read_csv(path_test, sep=',')
    df_valid = pd.read_csv(path_valid, sep=',')
    print(".csv Dateien existieren bereits und wurden eingelesen...")

.csv Dateien existieren bereits und wurden eingelesen...


In [98]:
df_train

Unnamed: 0,Timestamp,ID,X,Y,dx,dy
0,1,3,-11.633,18.006,0.000,0.000
1,2,3,-11.633,18.006,0.000,0.000
2,3,3,-11.633,18.006,0.000,0.000
3,4,3,-11.633,18.083,0.000,0.077
4,5,3,-11.633,18.083,0.000,0.000
...,...,...,...,...,...,...
86515,16,5406,-27.961,18.169,-0.449,-0.180
86516,17,5406,-28.388,17.967,-0.427,-0.202
86517,18,5406,-28.747,17.787,-0.359,-0.180
86518,19,5406,-29.107,17.608,-0.360,-0.179


Nun werden die Trainingsdaten so vorbereitet, dass man sie in das RNN einfüttern kann. Dazu brauchen sie die das Format [samples, time steps, features]. Nachdem wir später eine rekursive Single-Step Prediction für den nächsten Delta-Wert (basierend auf den 7 vorhergehenden) durchführen werden, muss man die Daten zusätzlich noch weiter aufteilen, was auch den Vorteil hat, dass man mehr Trainingsdaten hat. Jeder Datenpunkt wird in weitere Datenpunkte aufgeteilt, bestehend aus 7 Werten und der 8e Wert ist dann die erwartete Prediction

In [99]:
sequence_length = 7 # Anhand von 7 dx und dy Werten (welche aus 8 Zeitschritten entstanden sind) sagen wir den nächsten Delta-Wert voraus

def transform_traindata(df, sequence_length):
    df = df.drop(df[df.Timestamp == 1].index) # Alle ersten Zeitschritte werden entfernt (da dx und dy hier eh immer 0 ist)
    ids = np.array(df.ID.unique()) # alle (20 Timestep) Sequenzen aus dem dataframe holen, um die dann weiter aufzuteilen
    x, y = [], []
    for id in ids:
        df_current = df[df.ID == id] # einen Datenpunkt mithilfe der ID herausgreifen und diesen dann in weitere Datenpunkte aufteilen
        feature_data = np.array(df[['dx', 'dy']])
        for i in range(sequence_length, feature_data.shape[0]):
            x.append(feature_data[i-sequence_length:i,:]) #contains sequence_length values 0-sequence_length * columsn
            y.append(feature_data[i, :]) #contains the prediction values for validation (3rd column = Close),  for single-step prediction
    
    x = np.array(x)
    y = np.array(y)
    return df, x, y

In [None]:
df_train, x_train, y_train = transform_traindata(df_train, sequence_length)

In [96]:
df_train

Unnamed: 0,Timestamp,ID,X,Y,dx,dy
1,2,3,-11.633,18.006,0.0,0.0
2,3,3,-11.633,18.006,0.0,0.0
3,4,3,-11.633,18.083,0.0,0.077
4,5,3,-11.633,18.083,0.0,0.0
5,6,3,-11.633,18.083,0.0,0.0
6,7,3,-11.633,18.159,0.0,0.076
7,8,3,-11.633,18.159,0.0,0.0
8,9,3,-11.633,18.159,0.0,0.0
9,10,3,-11.633,18.255,0.0,0.096
10,11,3,-11.633,18.255,0.0,0.0


## 1.3 Standardisieren

Durch die ersten 8 Werte erhalten wir 7 Deltas. Der erste Wert ist immer 0 (da wir ja keinen vorherigen Wert haben, um das Delta zu berechnen). Aus diesem Grund wird der erste Wert entfernt und dann später nur die sieben Delta-Werte in das NN gegeben.

In [None]:
# Standard Scaler
df_train_scaled = df_train.copy()
df_train_scaled = df_train_scaled.drop(df_train_scaled[df_train_scaled.Timestamp == 1].index)
scaler = StandardScaler() # = MinMaxScaler(feature_range = (-1,1)) oder RobustScaler()
features = df_train_scaled[["dx", "dy"]]
scaler.fit(features)
df_train_scaled[["dx_scaled", "dy_scaled"]] = scaler.transform(features)

In [None]:
df_train_scaled

In [None]:
# inverse the transform
df_train_scaled[["dx_scaled", "dy_scaled"]] = scaler.inverse_transform(df_train_scaled[["dx_scaled", "dy_scaled"]])

# 2. Neuronales Netz trainieren

In [None]:
# Create the neural network and its layers
nn = Sequential()
nn.add(LSTM(units = 50, return_sequences = True, input_shape = (X_train.shape[1], 1)))
nn.add(Dense())

In [None]:
# Man kann dem nn auch gleich die Validation daten mit dazu geben!

# Plotting

In [None]:
"""Plotting"""
# x axis values
x = np.array([3,2,1,4,5,6])
# corresponding y axis values
y = np.array([2,4,1,5,2,6])

x2 = x * 2
y2 = y * 2
# plotting the points 
plt.plot(x, y, label = "PersonA", color='blue', linestyle='dotted', linewidth = 1,
         marker='o', markerfacecolor='blue', markersize=5)
plt.plot(x2, y2, label = "LLL", color='red', linestyle='dotted', linewidth = 1,
         marker='o', markerfacecolor='red', markersize=5)
# setting x and y axis range
plt.ylim(np.amin(y) - 0.1, np.amax(y2) + 0.1)
plt.xlim(np.amin(x) - 0.1, np.amax(x2) + 0.1)
plt.legend(loc='best')
  
# naming the x axis
plt.xlabel('x - axis')
# naming the y axis
plt.ylabel('y - axis')
  
# giving a title to my graph
plt.title('Some cool customizations!')
  
# function to show the plot
plt.show()

In [None]:
# Plotten der Trajektorie eines einzelnen Fußgängers

# Normalize and standardize data
You can normalize your dataset using the scikit-learn object MinMaxScaler.

Good practice usage with the MinMaxScaler and other rescaling techniques is as follows:

Fit the scaler using available training data. For normalization, this means the training data will be used to estimate the minimum and maximum observable values. This is done by calling the fit() function,
Apply the scale to training data. This means you can use the normalized data to train your model. This is done by calling the transform() function
Apply the scale to data going forward. This means you can prepare new data in the future on which you want to make predictions.
If needed, the transform can be inverted. This is useful for converting predictions back into their original scale for reporting or plotting. This can be done by calling the inverse_transform() function.
https://machinelearningmastery.com/normalize-standardize-time-series-data-python/

# k-Fold Cross Validation with validation set

In general, when you are doing model selection and testing, your data is divided into three parts, training set, validation set and testing set. You use your training set to train different models, estimate the performance on your validation set, then select the model with optimal performance and test it on your testing set.

On the other hand, if you are using K-fold cross-validation to estimate the performance of a model, your data is then divided into K folds, you loop through the K folds and each time use one fold as testing(or validation) set and use the rest (K-1) folds as training set. Then you average across all folds to get the estimated testing performance of your model. This is what the Wikipedia page is referring to.

But keep in mind that this is for testing a specific model, if you have multiple candidate models and want to do model-selection as well, you have to select a model only with your training set to avoid this subtle circular logic fallacy. So you further divide your (K-1) folds 'training data' into two parts, one for training and one for validation. This means you do an extra 'cross-validation' first to select the optimal model within the (K-1) folds, and then you test this optimal model on your testing fold. In other words, you are doing a two-level cross-validation, one is the K-fold cross-validation in general, and within each cross-validation loop, there is an extra (K-1)-fold cross-validation for model selection. Then you have what you stated in your question, 'Of the k subsamples one subsample is retained as the validation data, one other subsample is retained as the test data, and k-2 subsamples are used as training data.'
https://stats.stackexchange.com/questions/90288/in-k-fold-cross-validation-does-the-training-subsample-include-test-set

## Why separate test and validation sets?
The error rate estimate of the final model on validation data will be biased (smaller than the true error rate) since the validation set is used to select the final model After assessing the final model on the test set, YOU MUST NOT tune the model any further!
https://stats.stackexchange.com/questions/19048/what-is-the-difference-between-test-set-and-validation-set