# Daten Vorbereiten

Im ersten Schritt werden die Daten aus den einzelnen .txt Dateien ausgelesen und in ein gemeinsames Dataframe gepackt.

In [None]:
print("Einlesen der ursprünglichen Daten...")

In [None]:
column_names = ['Timestamp', 'ID', 'X', 'Y']
df = pd.DataFrame(columns = column_names)

# durch jede .txt Datei im Ordner 'Data' iterieren, Daten einlesen und ans Dataframe anhängen
for filename in os.listdir("Data/raw"): 
    if filename.endswith(".txt"):
        tmp_df = pd.read_csv("Data/raw/" + filename, sep=" ", header=None)
        tmp_df.columns = column_names 
        df = df.append(tmp_df, ignore_index = True)

In [None]:
print(df)

## 1.1 Vereinheitlichen von IDs und Timestamps | Deltas zwischen zwei Zeitpunkten berechnen

In diesem Schritt werden die Daten vorverarbeitet. Darunter fällt das vergeben einer einzigartigen ID für jeden Datenpunkt (1 Datenpunkt besteht aus 20 Zeitpunkten), sowie das Vereinheitlichen der Timestamps. Da für uns nur die Reihenfolge der einzelnen Zeitpunkte von Interesse ist, der Abstand zwischen diesen auch immer gleich ist, können wir den Zeitpunkten die Werte 1-20 zuordnen (wobei zu Zeitpunkt 1 das erste mal x und y Wert erfasst wurde und bei Zeitpunkt 20 das letzte mal). </br>
Außerdem werden in diesem Schritt für die X- und Y-Werte die relativen Änderungen zwischen zwei Zeitpunkten berechnet und den separaten Spalten 'dx' und 'dy' abgelegt.

In [None]:
print("\nVereinheitlichen von IDs und Timestamps und berechnen der Deltas zwischen zwei Zeipunkten...")

In [None]:
curr_id = 0
prev_x = 0
prev_y = 0
for i, row in df.iterrows():
    if i % 20 == 0:
        curr_id += 1 # alle 20 Zeitpunkte erhöht sich die ID
        prev_x = row.X
        prev_y = row.Y
    df.at[i, 'ID'] = curr_id
    df.at[i, 'Timestamp'] = (i % 20) + 1
    dx = row.X - prev_x
    dy = row.Y - prev_y
    prev_x = row.X
    prev_y = row.Y
    df.at[i, 'dx'] = round(dx, 3)
    df.at[i, 'dy'] = round(dy, 3)

In [None]:
print(df)

## 1.2 Aufteilen der Daten in Trainings-, Test- und Validierungsdaten

Um **Data Leakage** zu vermeiden, werden die Daten zuerst in Trainingsdaten und Testdaten aufgeteilt und dann für jede separat ein Scaler verwendet, um die Daten zu normalisieren.

Der Hauptdatensatz (mit allen Daten) wird in die drei einzelnen Datensätze aufgeteilt und diese als .csv Dateien abgespeichert. Wurden dieser Split bereits schon einmal durchgeführt, so werden die bereits existierenden .csv Dateien eingelesen. Will man das neuronale Netz mit neuen Mischungen von Test-, Trainings- und Validierungsdaten probieren, so müssen einfach die drei .csv Dateien aus dem Ordner "Data/datasplits/" entfernt werden. 

In [None]:
print("\nAufteilen der Daten in Trainings- und Testdaten...")

In [None]:
ids = np.array(df.ID.unique()) # alle IDs holen
np.random.shuffle(ids) # IDs zufällig durchmischen

test_percentage = 0.1 # 10% Testdaten, der Rest Trainingsdaten (wobei von den Trainingsdaten später ein Teil als Validierungsdaten abgespalten wird)
test_size = int(test_percentage * len(ids))
test_ids, train_ids = ids[:test_size], ids[test_size:]

df_train = df.copy()
for id in test_ids:
    df_train = df_train.drop(df_train[df_train.ID == id].index)
df_test = df.copy()
for id in train_ids:
    df_test = df_test.drop(df_test[df_test.ID == id].index)
df_train.to_csv(path_train, sep=',', index = False)
df_test.to_csv(path_test, sep=',', index = False)

In [None]:
print("Trainings- und Testdaten wurden aufgeteilt und sind nun im Ordner 'Data/datasplits' wiederzufinden!")
print("Jetzt kanns losgehen!")