# Feature Preprocessing
Die Daten werden in eine für *machine learning* nutzbare Represantation überführt.

In [4]:
import pandas as pd
import numpy as np
import pickle
from sklearn import preprocessing

In [2]:
with open('df_features.pickle', 'rb') as fp:
    df_pre = pickle.load(fp)
df_pre.head()

Unnamed: 0,Datum,Wochentag,Fahrweg,Fahrt,Fahrzeugnummer,Linienverlauf,SollAb,IstAb,GPS-Breite Soll,GPS-Länge Soll,Verspätung,Verspätung_total_seconds,Feiertag,Stunden,Temperatur (°C),Windstärke (km/h),Wetter
0,2016-10-10,Montag,4,1061896,1299,01 Roxel Hallenbad A,2016-10-10 05:16:00,2016-10-10 05:15:45,519544255.0,75273611.0,-1 days +23:59:45,-15.0,False,2016-10-10 05:00:00,6.0,7.0,wolkig
1,2016-10-10,Montag,2,1081890,5556,30 Ludgeriplatz B,2016-10-10 05:17:00,2016-10-10 05:17:58,519558997.0,76278508.0,00:00:58,58.0,False,2016-10-10 05:00:00,6.0,7.0,wolkig
2,2016-10-10,Montag,4,1061896,1299,02 Pantaleonstra¿e,2016-10-10 05:17:00,2016-10-10 05:17:14,519539.0,75313352.0,00:00:14,14.0,False,2016-10-10 05:00:00,6.0,7.0,wolkig
3,2016-10-10,Montag,2,1081890,5556,31 Goebenstr.,2016-10-10 05:19:00,2016-10-10 05:19:03,51952888.0,76254844.0,00:00:03,3.0,False,2016-10-10 05:00:00,6.0,7.0,wolkig
4,2016-10-10,Montag,4,1061896,1299,03 Pienersallee,2016-10-10 05:19:00,2016-10-10 05:19:09,519511969.0,75300852.0,00:00:09,9.0,False,2016-10-10 05:00:00,6.0,7.0,wolkig


In [3]:
# Discard outliers.
df_pre = df_pre[df_pre["Verspätung_total_seconds"] > -1200]  #discard early departures of more than 20 minutes
df_pre = df_pre[df_pre["Verspätung_total_seconds"] < 3600]   #discard delays longer than an hour
df_pre.head()

Unnamed: 0,Datum,Wochentag,Fahrweg,Fahrt,Fahrzeugnummer,Linienverlauf,SollAb,IstAb,GPS-Breite Soll,GPS-Länge Soll,Verspätung,Verspätung_total_seconds,Feiertag,Stunden,Temperatur (°C),Windstärke (km/h),Wetter
0,2016-10-10,Montag,4,1061896,1299,01 Roxel Hallenbad A,2016-10-10 05:16:00,2016-10-10 05:15:45,519544255.0,75273611.0,-1 days +23:59:45,-15.0,False,2016-10-10 05:00:00,6.0,7.0,wolkig
1,2016-10-10,Montag,2,1081890,5556,30 Ludgeriplatz B,2016-10-10 05:17:00,2016-10-10 05:17:58,519558997.0,76278508.0,00:00:58,58.0,False,2016-10-10 05:00:00,6.0,7.0,wolkig
2,2016-10-10,Montag,4,1061896,1299,02 Pantaleonstra¿e,2016-10-10 05:17:00,2016-10-10 05:17:14,519539.0,75313352.0,00:00:14,14.0,False,2016-10-10 05:00:00,6.0,7.0,wolkig
3,2016-10-10,Montag,2,1081890,5556,31 Goebenstr.,2016-10-10 05:19:00,2016-10-10 05:19:03,51952888.0,76254844.0,00:00:03,3.0,False,2016-10-10 05:00:00,6.0,7.0,wolkig
4,2016-10-10,Montag,4,1061896,1299,03 Pienersallee,2016-10-10 05:19:00,2016-10-10 05:19:09,519511969.0,75300852.0,00:00:09,9.0,False,2016-10-10 05:00:00,6.0,7.0,wolkig


In [5]:
# Scaling numerical features to range [0, 1]. This makes training models usually easier.
min_max_scaler = preprocessing.MinMaxScaler()
df_pre.loc[:, ('Temperatur (°C)', 'Windstärke (km/h)')] = min_max_scaler.fit_transform(
    df_pre[['Temperatur (°C)', 'Windstärke (km/h)']]
)

In [6]:
# Endcode categorial variables as one-hot vectors.
df_pre = pd.concat([df_pre, pd.get_dummies(df_pre[['Wochentag', 'Wetter', 'Linienverlauf']])], axis=1)
df_pre.head()

Unnamed: 0,Datum,Wochentag,Fahrweg,Fahrt,Fahrzeugnummer,Linienverlauf,SollAb,IstAb,GPS-Breite Soll,GPS-Länge Soll,...,Linienverlauf_49 Amelsb¿rener Str.,Linienverlauf_50 Sternkamp,Linienverlauf_51 Hansestr. A,Linienverlauf_52 Raringheide,Linienverlauf_53 Pater-Kolbe-Str.,Linienverlauf_54 Plutoweg,Linienverlauf_55 Amelsb¿ren Schule,Linienverlauf_56 Amelsb¿ren Kirche,Linienverlauf_57 Davertstr. B,Linienverlauf_58 Am Dornbusch
0,2016-10-10,Montag,4,1061896,1299,01 Roxel Hallenbad A,2016-10-10 05:16:00,2016-10-10 05:15:45,519544255.0,75273611.0,...,0,0,0,0,0,0,0,0,0,0
1,2016-10-10,Montag,2,1081890,5556,30 Ludgeriplatz B,2016-10-10 05:17:00,2016-10-10 05:17:58,519558997.0,76278508.0,...,0,0,0,0,0,0,0,0,0,0
2,2016-10-10,Montag,4,1061896,1299,02 Pantaleonstra¿e,2016-10-10 05:17:00,2016-10-10 05:17:14,519539.0,75313352.0,...,0,0,0,0,0,0,0,0,0,0
3,2016-10-10,Montag,2,1081890,5556,31 Goebenstr.,2016-10-10 05:19:00,2016-10-10 05:19:03,51952888.0,76254844.0,...,0,0,0,0,0,0,0,0,0,0
4,2016-10-10,Montag,4,1061896,1299,03 Pienersallee,2016-10-10 05:19:00,2016-10-10 05:19:09,519511969.0,75300852.0,...,0,0,0,0,0,0,0,0,0,0


In [9]:
# Extract number of Haltestelle.
df_pre['Haltestelle'] = pd.to_numeric(df_pre['Linienverlauf'].str[:3])

In [11]:
# Add month as label. 
df_pre['month'] = df_pre['Datum'].dt.month
df_pre[['Datum', 'month']].head()

Unnamed: 0,Datum,month
0,2016-10-10,10
1,2016-10-10,10
2,2016-10-10,10
3,2016-10-10,10
4,2016-10-10,10


In [12]:
df_pre.head()

Unnamed: 0,Datum,Wochentag,Fahrweg,Fahrt,Fahrzeugnummer,Linienverlauf,SollAb,IstAb,GPS-Breite Soll,GPS-Länge Soll,...,Linienverlauf_51 Hansestr. A,Linienverlauf_52 Raringheide,Linienverlauf_53 Pater-Kolbe-Str.,Linienverlauf_54 Plutoweg,Linienverlauf_55 Amelsb¿ren Schule,Linienverlauf_56 Amelsb¿ren Kirche,Linienverlauf_57 Davertstr. B,Linienverlauf_58 Am Dornbusch,Haltestelle,month
0,2016-10-10,Montag,4,1061896,1299,01 Roxel Hallenbad A,2016-10-10 05:16:00,2016-10-10 05:15:45,519544255.0,75273611.0,...,0,0,0,0,0,0,0,0,1,10
1,2016-10-10,Montag,2,1081890,5556,30 Ludgeriplatz B,2016-10-10 05:17:00,2016-10-10 05:17:58,519558997.0,76278508.0,...,0,0,0,0,0,0,0,0,30,10
2,2016-10-10,Montag,4,1061896,1299,02 Pantaleonstra¿e,2016-10-10 05:17:00,2016-10-10 05:17:14,519539.0,75313352.0,...,0,0,0,0,0,0,0,0,2,10
3,2016-10-10,Montag,2,1081890,5556,31 Goebenstr.,2016-10-10 05:19:00,2016-10-10 05:19:03,51952888.0,76254844.0,...,0,0,0,0,0,0,0,0,31,10
4,2016-10-10,Montag,4,1061896,1299,03 Pienersallee,2016-10-10 05:19:00,2016-10-10 05:19:09,519511969.0,75300852.0,...,0,0,0,0,0,0,0,0,3,10


In [13]:
df_pre.to_pickle('df_preprocessed.pickle')