In [1]:
import pandas as pd
import numpy as np
import pandasql as sqldf
import datetime
import matplotlib.pyplot as plt
import seaborn as sns
import sys,os
import random

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error as MAE

In [2]:
def load_data(directory = 'sliced_data'):
    '''
        Funktion, die die aufbereiteten/vorbereiteten Daten aus existierenden CSV Dateien 
        einliest und je nach Vollständigkeit in zwei Dictionaries abspeichert,
        geschlüsselt nach der jeweiligen RaceId
    '''
    if os.path.exists(directory):
        csv_filenames = []
        #auslesen aller csv file dateinamen aus formula 1 datensatz und abspeichern in liste
        for filename in os.listdir(os.getcwd()+'/'+directory):
            typ = filename.split('.')[-1]
            name = filename.split('.')[0]
            if typ == 'csv':
                csv_filenames.append(filename)
        sliced_races = {}
        #einlesen und abspeichern als dataframe aller dateien
        for file in csv_filenames:
            try:
                df = pd.read_csv(directory+'/'+file, engine = 'python', sep = ';', decimal = '.')
                del df['Unnamed: 0']
            except Exception as e:
                df = pd.read_csv(directory+'/'+file, engine = 'c', sep = ';', decimal = '.')
                del df['Unnamed: 0']
                print(e)
            f = int(file.split('_')[-1].split('.')[0]) #raceid wird als key gesetzt
            sliced_races[f] = df
        print('Einlesen der sliced Dateien erfolgreich')
    else:
        raise ('sliced Dateien können nicht eingelesen werden, da kein entsprechendes Verzeichnis existiert!')
   
    return sliced_races

def train_dev_test(data_dict, train_p = 0.7, dev_p = 0.2, test_p = 0.1, nogo_columns = []):
    
    if round(train_p+dev_p+test_p,1) !=1.0:
        raise ValueError ('No valid train/dev/test distribution')
    
    '''
        Daten werde in einem Dictionary übergeben, Dataframes werden in dieser 
        Funktion geshuffled und dann in einen Traindatensatz, einen Development-
        datensatz und in einen Testdatensatz aufgeteilt.
    '''
    #aufteilen in train, dev, test counter
    train_count = round(len(data_dict.keys())*train_p, 0)
    dev_count = train_count+round(len(data_dict.keys())*dev_p,0)
    test_count = len(data_dict.keys())-(train_count+dev_count)
    
    #shufflen der übergebenen Daten
    keys = list(data_dict.keys())
    random.shuffle(keys)
    data_shuffled = {}
    for key in keys:
        data_shuffled[key] = data_dict[key]
        
    #erzeugen separater train,dev,test dictionaries
    train = {}
    dev = {}
    test = {}
    c = 0
    
    #daten sollen nicht in tensoren umgewandelt werden
    for id, df in data_shuffled.items():
        #entfernen nicht gewollter spalten aus dataframe
        cols = [col for col in df.columns if col not in nogo_columns]
        df = df[cols]
        if c < train_count:
            train[id] = df
        elif c >= train_count and c < dev_count:
            dev[id] = df
        else:
            test[id] = df
        c += 1
                
    return train, dev, test

#### Daten einlesen und splitten
Einlesen der einzelnen Rennen unf aufteilen in Trainings, Development und Testdatensätze. Beim Aufteilen in train, dev, test werden Daten immer geshuffled.

In [3]:
sliced_races = load_data(directory = 'sliced_data')
train, dev, test = train_dev_test(data_dict=sliced_races)
print('Anzahl Trainingsdatensätze:', len(train.keys()))
print('Anzahl Devdatensätze:', len(dev.keys()))
print('Anzahl Testdatensätze:', len(test.keys()))
print('Insgesamt:', len(train.keys())+len(dev.keys())+len(test.keys()))

Einlesen der sliced Dateien erfolgreich
Anzahl Trainingsdatensätze: 96
Anzahl Devdatensätze: 27
Anzahl Testdatensätze: 14
Insgesamt: 137


### Lineare Regression
Hier werden verschiedene Lineare Regressions Modelle definiert. Zuerst wird mit Hilfe des sklearn packages ein normales Lineare Regressionsmodell definiert, dann wird Regularisierung auf die Lineare Regression angewendet (Lasso und Ridge). Bei diesen beiden Methoden kann eine Art Hyperparameteroptimierung vorgenommen werden, indem (..).
<br>Zuletzt werden die Ergebnisse der Modelle miteinander verglichen.

In [4]:
#definieren nicht gewollter Attribute (Attribute die nicht dem Modell übergeben werden sollen):
nogo_columns = ['year', 
                'podium_position', 
                'raceId',
                'lap_number',
                'driverId', 
                'driver_fullname',
                'total_milliseconds',
               'lap_in_milliseconds',
               'total_minutes']

#definieren eines linearen Regressionsmodells
reg = LinearRegression()

print('Lineare Regression:\n')
print('---training---')
full_races = pd.DataFrame()
for raceId, race in train.items():
    full = pd.DataFrame(columns = race.columns)
    #für jedes rennen und jeden Fahrer des Rennens die Werte der letzten Runde des Rennens 
    #in einem DataFrame zusammenfügen
    for did in race.driverId.unique():
        driver_df = race.where(race.driverId == did).dropna(how = 'all').tail(1)
        full = full.append(driver_df)
    full_races = full_races.append(full)
cols = [col for col in full_races.columns if col not in nogo_columns] 
full_races = full_races.replace(np.nan,0) 
y = np.array(full_races['total_minutes'])
races = full_races[cols]  
X = np.array(races)
reg = reg.fit(X, y)
A = reg.predict(X)
mse = mean_squared_error(A, y)
mae = MAE(A,y)
print('mse:', mse)
print('mae:',mae)

full_races = pd.DataFrame()
print('---testing---')
for raceId, race in test.items():
    full = pd.DataFrame(columns = race.columns)
    
    for did in race.driverId.unique():
        driver_df = race.where(race.driverId == did).dropna(how = 'all').tail(1)
        full = full.append(driver_df)
    full_races = full_races.append(full)
y = np.array(full_races['total_minutes'])
cols = [col for col in full_races.columns if col not in nogo_columns] 
races = full_races[cols]  
X = np.array(races)
A = reg.predict(X)
mse = mean_squared_error(A, y)
mae = MAE(A,y)
print('mse:', mse)
print('mae:',mae)

#hinzufügen der prediction spalte zu DataFrame, der noch alle Datenspalten enthält
full_races['prediction'] = A

print('\n\n---coefficients for linear regression---')
for col, coe in zip(races.columns,reg.coef_):
    print(col+':',coe)
    
auswertung = {}
for raceId in full_races.raceId.unique():
    #auswerten der vorhergesagten ERgebnisse pro rennen
    race = full_races.where(full_races.raceId == raceId).dropna(how = 'all')
    race = sqldf.sqldf('select * from race order by prediction ASC')#absteigend nach vorhergesagten zeiten sortieren
    race.reset_index(inplace = True)
    race.rename(columns = {'index': 'predicted_position'},inplace = True)
    race['predicted_position'] = race['predicted_position']+1 #updaten der vorhergesagten positionen
    #sortieren nach zielvariablen/richtiger podiumsposition
    race = sqldf.sqldf('select podium_position, predicted_position, total_minutes, prediction from race order by podium_position ASC')
    k = str(raceId)+'_linreg'#kennzeichnung dass vorhersage von linearer regression ist
    auswertung[k] = race
print(70*'=')

Lineare Regression:

---training---
mse: 45.17856387365378
mae: 3.4190853901298657
---testing---
mse: 105.03169433110823
mae: 5.91601735561037


---coefficients for linear regression---
status_binary: 25.7776161126595
lap_position: -0.07816185219144312
race_completion: 56.25453557044228
grid: 0.11851603033653113
form: -0.10816392912479955
rain: -0.3272464112866711
bias: -165808869450.44742
circuitId_1.0: -104497541597.23811
circuitId_2.0: -104497541588.28265
circuitId_3.0: -104497541591.12566
circuitId_4.0: -104497541588.39464
circuitId_5.0: -104497541591.25186
circuitId_6.0: -104497541584.97629
circuitId_7.0: -104497541591.42503
circuitId_9.0: -104497541594.70844
circuitId_10.0: -104497541593.40709
circuitId_11.0: -104497541586.84488
circuitId_12.0: -104497541589.28322
circuitId_13.0: -104497541593.36472
circuitId_14.0: -104497541597.79308
circuitId_15.0: -104497541583.11334
circuitId_17.0: -104497541589.39548
circuitId_18.0: -104497541592.81209
circuitId_20.0: -104497541590.09819
cir

#### Definieren einer Klasse um die Regularisierungsstärke für die Regularization zu optimieren:
Es wird eine Klasse definiert, welche für die Ridge und die Lasso Regularisierung mit verschiedenen Alphas Modelle anhand zuvor übergebener Trainingsdatensätze trainiert. Der übergebene Developmentdatensatz wird als Testdatensatz verwendet, um das Modell zu finden, dessen Alpha den niedrigsten MAE erzeugt hat. Dieses wird als bestes Alpha zurückgegeben.

In [5]:
class RegularizationOptimizer(object):
    
    def __init__(self, alphas = [c/10 for c in range(0,11)], regularization = 'ridge', nogo_columns = []):
        
        self.train = None#satz der für training der modelle verwendet wird
        self.test = None#dev datensatz, auf dem die modelle mit verschiedener regularisierung getestet werden
        self.__alphas = alphas#alphas die getestet werden (grid search)
        self.results = {}
        self.best_alpha = None
        self.type = regularization#lasso oder ridge regularisierung
        self.nogo_columns = nogo_columns#spalten die aus datensatz zuvor noch entfernt werden müssen
        
    def validate_alphas(self):
        
        #testen verschiedener Generalisierungsstufen für das Regressionsmodell
        for alpha in self.__alphas:
        
            #definieren eines Ridge Regressionsmodells
            if self.type == 'ridge':
                ridge = Ridge(alpha = alpha)
                print('alpha:',str(alpha))
                print('---training---')
                full_races = pd.DataFrame()
                #erzeugen des benötigten Datensatzes aus übergebenen Datensätzen für Regression
                for raceId, race in self.train.items():
                    full = pd.DataFrame(columns = race.columns)
                    for did in race.driverId.unique():
                        driver_df = race.where(race.driverId == did).dropna(how = 'all').tail(1)
                        full = full.append(driver_df)
                    full_races = full_races.append(full)
                #entfernen der nogo columns
                cols = [col for col in full_races.columns if col not in self.nogo_columns] 
                y = np.array(full_races['total_minutes'])
                races = full_races[cols]  
                X = np.array(races)
                ridge = ridge.fit(X, y)
                
                full_races = pd.DataFrame()
                print('---testing---')
                for raceId, race in self.test.items():
                    full = pd.DataFrame(columns = race.columns)
                    for did in race.driverId.unique():
                        driver_df = race.where(race.driverId == did).dropna(how = 'all').tail(1)
                        full = full.append(driver_df)
                    full_races = full_races.append(full)
                full_races = full_races.replace(np.nan,0)   
                y = np.array(full_races['total_minutes'])
                cols = [col for col in full_races.columns if col not in self.nogo_columns] 
                races = full_races[cols]  
                X = np.array(races)
                A = ridge.predict(X)
                mse = mean_squared_error(A, y)
                mae = MAE(A,y)
                #dem alpha wird ein mae zugeordnet
                self.results[alpha] = mae
            #definieren eines Lasso Regressionsmodells
            elif self.type == 'lasso':
                lasso = Lasso(alpha = alpha)
                print('alpha:',str(alpha))
                print('---training---')
                full_races = pd.DataFrame()
                for raceId, race in self.train.items():
                    full = pd.DataFrame(columns = race.columns)
                    for did in race.driverId.unique():
                        driver_df = race.where(race.driverId == did).dropna(how = 'all').tail(1)
                        full = full.append(driver_df)
                    full_races = full_races.append(full)
                cols = [col for col in full_races.columns if col not in self.nogo_columns] 
                y = np.array(full_races['total_minutes'])
                races = full_races[cols]  
                X = np.array(races)
                lasso = lasso.fit(X, y)
                A = lasso.predict(X)
                
                #starten vom testen des modells
                full_races = pd.DataFrame()
                print('---testing---')
                for raceId, race in self.test.items():
                    full = pd.DataFrame(columns = race.columns)
                    for did in race.driverId.unique():
                        driver_df = race.where(race.driverId == did).dropna(how = 'all').tail(1)
                        full = full.append(driver_df)
                    full_races = full_races.append(full)
                full_races = full_races.replace(np.nan,0)   
                y = np.array(full_races['total_minutes'])
                cols = [col for col in full_races.columns if col not in self.nogo_columns] 
                races = full_races[cols]  
                X = np.array(races)
                A = lasso.predict(X)
                mse = mean_squared_error(A, y)
                mae = MAE(A,y)
                #dem alpha wird ein mae zugeordnet
                self.results[alpha] = mae
            #finden der besten kombination nach minimalstem Error (MAE)
            key_min = min(self.results.keys(), key=(lambda k: self.results[k]))
            self.best_alpha = key_min

#### Bestimmen eines guten Alphas für die Regularisierungen
Im Folgenden wird das beste Alpha (Regularisierungsstärke) für die Lasso und für die Ridge Regression ausgewählt. Orientiert wird sich an dem niedrigsten MAE, die alphas orientieren sich an einer Grid Search und lauten:
<br>[0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1]

In [6]:
#Alpha Optimizer für die Lasso Regularisierung
lasso_opt = RegularizationOptimizer(regularization='lasso', nogo_columns=nogo_columns)
lasso_opt.train = train
lasso_opt.test = dev
lasso_opt.validate_alphas()
lasso_alpha = lasso_opt.best_alpha
#Alpha Optiimizer für die ridge regularisierung
ridge_opt = RegularizationOptimizer(regularization='ridge', nogo_columns=nogo_columns)
ridge_opt.train = train
ridge_opt.test = dev
ridge_opt.validate_alphas()
ridge_alpha = ridge_opt.best_alpha
print('Lasso Alpha:', str(lasso_alpha),'\nRidge Alpha:',str(ridge_alpha))

alpha: 0.0
---training---


  positive)
  positive)


---testing---
alpha: 0.1
---training---
---testing---
alpha: 0.2
---training---
---testing---
alpha: 0.3
---training---
---testing---
alpha: 0.4
---training---
---testing---
alpha: 0.5
---training---
---testing---
alpha: 0.6
---training---
---testing---
alpha: 0.7
---training---
---testing---
alpha: 0.8
---training---
---testing---
alpha: 0.9
---training---
---testing---
alpha: 1.0
---training---
---testing---
alpha: 0.0
---training---
---testing---
alpha: 0.1
---training---
---testing---
alpha: 0.2
---training---
---testing---
alpha: 0.3
---training---
---testing---
alpha: 0.4
---training---
---testing---
alpha: 0.5
---training---
---testing---
alpha: 0.6
---training---
---testing---
alpha: 0.7
---training---
---testing---
alpha: 0.8
---training---
---testing---
alpha: 0.9
---training---
---testing---
alpha: 1.0
---training---
---testing---
Lasso Alpha: 0.0 
Ridge Alpha: 0.1


In [11]:
print('---Lasso---')
#definieren nicht gewollter Attribute (Attribute die nicht dem Modell übergeben werden sollen):
nogo_columns = ['year', 
                'podium_position', 
                'raceId',
                'lap_number',
                'driverId', 
                'driver_fullname',
                'total_milliseconds',
               'lap_in_milliseconds',
               'total_minutes']

#definieren eines linearen Regressionsmodells mit dem zuvor ausgewählten alpha
lasso = Lasso(alpha = lasso_alpha)

print('---training---')
full_races = pd.DataFrame()
for raceId, race in train.items():
    full = pd.DataFrame(columns = race.columns)
    #für jedes rennen und jeden Fahrer des Rennens die Werte der letzten Runde des Rennens 
    #in einem DataFrame zusammenfügen
    for did in race.driverId.unique():
        driver_df = race.where(race.driverId == did).dropna(how = 'all').tail(1)
        full = full.append(driver_df)
    full_races = full_races.append(full)
cols = [col for col in full_races.columns if col not in nogo_columns] 
full_races = full_races.replace(np.nan,0) 
y = np.array(full_races['total_minutes'])
races = full_races[cols]  
X = np.array(races)
lasso = lasso.fit(X, y)
A = lasso.predict(X)
mse = mean_squared_error(A, y)
mae = MAE(A,y)
print('mse:', mse)
print('mae:',mae)

full_races = pd.DataFrame()
print('---testing---')
for raceId, race in test.items():
    full = pd.DataFrame(columns = race.columns)
    
    for did in race.driverId.unique():
        driver_df = race.where(race.driverId == did).dropna(how = 'all').tail(1)
        full = full.append(driver_df)
    full_races = full_races.append(full)
y = np.array(full_races['total_minutes'])
cols = [col for col in full_races.columns if col not in nogo_columns] 
races = full_races[cols]  
X = np.array(races)
A = lasso.predict(X)
mse = mean_squared_error(A, y)
mae = MAE(A,y)
print('mse:', mse)
print('mae:',mae)

#hinzufügen der prediction spalte zu DataFrame, der noch alle Datenspalten enthält
full_races['prediction'] = A

print('\n\n---coefficients for lasso regression---')
for col, coe in zip(races.columns,lasso.coef_):
    print(col+':',coe)
#vorhersagen werden als von lasso gekennzeichnet in dictionary mit allen vorhersagen aufgenommen
for raceId in full_races.raceId.unique():
    race = full_races.where(full_races.raceId == raceId).dropna(how = 'all')
    race = sqldf.sqldf('select * from race order by prediction ASC')
    race.reset_index(inplace = True)
    race.rename(columns = {'index': 'predicted_position'},inplace = True)
    race['predicted_position'] = race['predicted_position']+1
    race = sqldf.sqldf('select podium_position, predicted_position, total_minutes, prediction from race order by podium_position ASC')
    k = str(raceId)+'_lasso'
    auswertung[k] = race
print(70*'=')

---Lasso---
---training---


  positive)
  positive)


mse: 45.17857420378396
mae: 3.419118901225657
---testing---
mse: 105.01982752894145
mae: 5.915319436697596


---coefficients for lasso regression---
status_binary: 25.77768140974023
lap_position: -0.07818390308267434
race_completion: 56.25436791323797
grid: 0.11851076755304284
form: -0.1081589348843398
rain: -0.32725287860854135
bias: 0.0
circuitId_1.0: -5.482558881654912
circuitId_2.0: 3.4727754653549847
circuitId_3.0: 0.6297907872423777
circuitId_4.0: 3.360818495203222
circuitId_5.0: 0.5037801505275916
circuitId_6.0: 6.779086923398938
circuitId_7.0: 0.3303854683370079
circuitId_9.0: -2.952967367328203
circuitId_10.0: -1.6515929905559092
circuitId_11.0: 4.910677993735296
circuitId_12.0: 2.4721681516577125
circuitId_13.0: -1.6093270432978874
circuitId_14.0: -6.0376484209943335
circuitId_15.0: 8.642019878441102
circuitId_17.0: 2.3598702568783554
circuitId_18.0: -1.0567019104254665
circuitId_20.0: 1.6576547768720513
circuitId_22.0: -2.2803545013791897
circuitId_24.0: 0.5922514410518926
c

In [12]:
print('---Ridge---')
#definieren nicht gewollter Attribute (Attribute die nicht dem Modell übergeben werden sollen):
nogo_columns = ['year', 
                'podium_position', 
                'raceId',
                'lap_number',
                'driverId', 
                'driver_fullname',
                'total_milliseconds',
               'lap_in_milliseconds',
               'total_minutes']

#definieren eines linearen Regressionsmodells mit dem optimalen ridge alpha
ridge = Ridge(alpha = ridge_alpha)

print('---training---')
full_races = pd.DataFrame()
for raceId, race in train.items():
    full = pd.DataFrame(columns = race.columns)
    #für jedes rennen und jeden Fahrer des Rennens die Werte der letzten Runde des Rennens 
    #in einem DataFrame zusammenfügen
    for did in race.driverId.unique():
        driver_df = race.where(race.driverId == did).dropna(how = 'all').tail(1)
        full = full.append(driver_df)
    full_races = full_races.append(full)
cols = [col for col in full_races.columns if col not in nogo_columns] 
full_races = full_races.replace(np.nan,0) 
y = np.array(full_races['total_minutes'])
races = full_races[cols]  
X = np.array(races)
ridge = ridge.fit(X, y)
A = ridge.predict(X)
mse = mean_squared_error(A, y)
mae = MAE(A,y)
print('mse:', mse)
print('mae:',mae)

full_races = pd.DataFrame()
print('---testing---')
for raceId, race in test.items():
    full = pd.DataFrame(columns = race.columns)
    
    for did in race.driverId.unique():
        driver_df = race.where(race.driverId == did).dropna(how = 'all').tail(1)
        full = full.append(driver_df)
    full_races = full_races.append(full)
#full_races = full_races.replace(np.nan,0)   
y = np.array(full_races['total_minutes'])
cols = [col for col in full_races.columns if col not in nogo_columns] 
races = full_races[cols]  
X = np.array(races)
A = ridge.predict(X)
mse = mean_squared_error(A, y)
mae = MAE(A,y)
print('mse:', mse)
print('mae:',mae)

#hinzufügen der prediction spalte zu DataFrame, der noch alle Datenspalten enthält
full_races['prediction'] = A

print('\n\n---coefficients for ridge regression---')
for col, coe in zip(races.columns,ridge.coef_):
    print(col+':',coe)
#vorhersagen werden als von ridge gekennzeichnet in dictionary mit allen vorhersagen aufgenommen
for raceId in full_races.raceId.unique():
    race = full_races.where(full_races.raceId == raceId).dropna(how = 'all')
    race = sqldf.sqldf('select * from race order by prediction ASC')
    race.reset_index(inplace = True)
    race.rename(columns = {'index': 'predicted_position'},inplace = True)
    race['predicted_position'] = race['predicted_position']+1
    race = sqldf.sqldf('select podium_position, predicted_position, total_minutes, prediction from race order by podium_position ASC')
    k = str(raceId)+'_ridge'
    auswertung[k] = race
print(70*'=')

---Ridge---
---training---
mse: 45.18115565176718
mae: 3.4207421459116247
---testing---
mse: 105.58545951605493
mae: 5.942520286622156


---coefficients for ridge regression---
status_binary: 25.84418791318039
lap_position: -0.08070665415893563
race_completion: 55.29255529220573
grid: 0.11972183232996694
form: -0.10754535194783757
rain: -0.4035462409767298
bias: 0.0
circuitId_1.0: -5.8680400579602505
circuitId_2.0: 3.036376376093535
circuitId_3.0: 0.2371259536224382
circuitId_4.0: 2.957059999039457
circuitId_5.0: 0.11927430513456647
circuitId_6.0: 6.382798225588283
circuitId_7.0: -0.04838399268522368
circuitId_9.0: -3.3418562937564524
circuitId_10.0: -2.0269272779050076
circuitId_11.0: 4.515368722000809
circuitId_12.0: 2.0788339586419333
circuitId_13.0: -2.0114741142396926
circuitId_14.0: -6.396176882483353
circuitId_15.0: 8.212282915292256
circuitId_17.0: 1.9658191162632022
circuitId_18.0: -1.5061000271730385
circuitId_20.0: 1.2525833886735185
circuitId_22.0: -2.65886967118031
circuit

### Ergebnisse:
Ausgabe des Dictionarys, welches die Vorhersagen von der unregularisierten Linearen Regression, der Lasso und der Ridge Regression enthält:

In [13]:
for key, value in auswertung.items():
    
    print(key+':\n', value)

944.0_linreg:
     podium_position  predicted_position  total_minutes  prediction
0               1.0                   5      91.151500   91.664612
1               2.0                   7      91.280767   91.874817
2               3.0                   8      91.388900   92.402100
3               4.0                   4      91.943883   91.305542
4               5.0                  11      92.488150   92.872925
5               6.0                  10      92.763512   92.773560
6               7.0                   6      92.816035   91.854431
7               8.0                  13      93.103196   93.259216
8               9.0                   9      93.285328   92.614502
9              10.0                  14      93.314945   93.421021
10             11.0                  12      93.340995   93.092773
11             12.0                  17      93.475405   94.004517
12             13.0                  15      93.500356   93.469482
13             14.0                  18      93