## Age Phase 5 (Evaluation): Diverse Modelle

* Autorin: Anna (i3-Versicherung)
* Webseite: [Data Science Training - Kapitel 14](https://data-science.training/kapitel-14/)
* Datum: 23.03.2023

Version 1

In [4]:
# Pandas Paket (Package) importieren
#  Datenstrukturen und Datenanalyse, I/O
#  https://pandas.pydata.org/pandas-docs/stable/
import pandas as pd
# Pickle Paket (Package) importieren
#  Objekte serialisieren
#  https://docs.python.org/3/library/pickle.html
import pickle as pk
# Eigene Module importieren
#  zur Bewertung der Modelle
import sys
sys.path.append('../00_DST_Module/')
import dst_score_functions_regression as sfr

In [5]:
# Datenversion festlegen: 1
version  = 1
# Modell-Abkürzung festlegen:
# (a) ohne Optimierung
#  r1  = Lineare Regression
#  pr  = Polynomiale Regression: nicht implementiert, da Grad 1 => lineare Regression
#  rr  = Ridge Regression
#  la  = Lasso (Regression)
# (b) mit und ohne Optimierung
#  rt  = Regression Tree
#  rfr = Random Forest Regressor
#  gbr = Gradient Boosting Regressor
#  mlr = Multilayer Perceptron Regressor
# optional
#  svr = Support Vector Regressor 
shortcut = 'mlr'
# Optimierung
#opt = '' # ohne Optimierung
opt = '_opt' # mit Optimierung 

In [6]:
# Testdaten als Pandas Data Frame (df) aus Excel-Datei laden
#  (KNIME: "Excel Reader")
filename = '../../data/titanic/age/test_v' + str(version) + '.xlsx'
df_test  = pd.read_excel(filename)

In [7]:
# Modell laden
#  (KNIME: "PMML Reader")
filename = '../../models/titanic/age/' + shortcut + '_v' + str(version) + opt
model = pk.load(open(filename, 'rb'))

In [8]:
# Testdaten: Daten ohne PassengerId und Age extrahieren
X_test = df_test.iloc[:,2:].values
#  Lösung (Age) extrahieren
y_true = df_test.iloc[:,1].values

In [9]:
# Ergebnisse berechnen und ausgeben
#  (KNIME: "XYZ Predictor", "Scorer")
scores = sfr.dst_scores_regression_trained_model(model, X_test, y_true)
sfr.dst_print_scores_regression(scores)


Gütemaße

* Bestimmtheitsmaß (R^2)                :  0.5227
* Root Mean Squared Error (RMSE)        :  8.9782
* Mean Absolute Error (MAE)             :  6.8194
* Mean Absolute Percentage Error (MAPE) :  58.3437 %


### Ergebnisse

####  r1  = Lineare Regression

Gütemaße

* Bestimmtheitsmaß (R^2)                :  0.5129
* Root Mean Squared Error (RMSE)        :  9.0698
* Mean Absolute Error (MAE)             :  6.7575
* Mean Absolute Percentage Error (MAPE) :  65.416 %

####  pr  = Polynomiale Regression

####  rr  = Ridge Regression

Gütemaße

* Bestimmtheitsmaß (R^2)                :  0.5132
* Root Mean Squared Error (RMSE)        :  9.0666
* Mean Absolute Error (MAE)             :  6.7463
* Mean Absolute Percentage Error (MAPE) :  65.1982 %

####  la  = Lasso (Regression)

Gütemaße

* Bestimmtheitsmaß (R^2)                :  0.4656
* Root Mean Squared Error (RMSE)        :  9.4994
* Mean Absolute Error (MAE)             :  6.5763
* Mean Absolute Percentage Error (MAPE) :  76.7799 %

####  rt  = Regression Tree

Standard-Konfiguration

Gütemaße

* Bestimmtheitsmaß (R^2)                :  0.1082
* Root Mean Squared Error (RMSE)        :  12.2718
* Mean Absolute Error (MAE)             :  8.9143
* Mean Absolute Percentage Error (MAPE) :  60.1206 %

Optimiertes Modell

Gütemaße

* Bestimmtheitsmaß (R^2)                :  0.477
* Root Mean Squared Error (RMSE)        :  9.3976
* Mean Absolute Error (MAE)             :  6.9568
* Mean Absolute Percentage Error (MAPE) :  46.8557 %

####  rfr = Random Forest Regressor

Standard-Konfiguration

Gütemaße

* Bestimmtheitsmaß (R^2)                :  0.5154
* Root Mean Squared Error (RMSE)        :  9.0463
* Mean Absolute Error (MAE)             :  6.5011
* Mean Absolute Percentage Error (MAPE) :  47.6128 %

Optimiertes Modell

Gütemaße

* Bestimmtheitsmaß (R^2)                :  0.5577
* Root Mean Squared Error (RMSE)        :  8.6427
* Mean Absolute Error (MAE)             :  6.369
* Mean Absolute Percentage Error (MAPE) :  48.4214 %

####  gbr = Gradient Boosting Regressor

Standard-Konfiguration

Gütemaße

* Bestimmtheitsmaß (R^2)                :  0.542
* Root Mean Squared Error (RMSE)        :  8.7947
* Mean Absolute Error (MAE)             :  6.6951
* Mean Absolute Percentage Error (MAPE) :  57.2067 %

Optimiertes Modell

Gütemaße

* Bestimmtheitsmaß (R^2)                :  0.5459
* Root Mean Squared Error (RMSE)        :  8.7567
* Mean Absolute Error (MAE)             :  6.5533
* Mean Absolute Percentage Error (MAPE) :  51.6766 %

####  mlr = Multilayer Perceptron Regressor

Standard-Konfiguration

Gütemaße

* Bestimmtheitsmaß (R^2)                :  0.5
* Root Mean Squared Error (RMSE)        :  9.1891
* Mean Absolute Error (MAE)             :  6.8043
* Mean Absolute Percentage Error (MAPE) :  60.9033 %

Optimiertes Modell

Gütemaße

* Bestimmtheitsmaß (R^2)                :  0.5227
* Root Mean Squared Error (RMSE)        :  8.9782
* Mean Absolute Error (MAE)             :  6.8194
* Mean Absolute Percentage Error (MAPE) :  58.3437 %

*andere Hardware*

* Bestimmtheitsmaß (R^2)                :  0.5206
* Root Mean Squared Error (RMSE)        :  8.9973
* Mean Absolute Error (MAE)             :  6.6438
* Mean Absolute Percentage Error (MAPE) :  56.1562 %

####  svr = Support Vector Regressor

Standard-Konfiguration

Gütemaße

* Bestimmtheitsmaß (R^2)                :  0.3488
* Root Mean Squared Error (RMSE)        :  10.4868
* Mean Absolute Error (MAE)             :  7.2685
* Mean Absolute Percentage Error (MAPE) :  93.7543 %

Optimiertes Modell

Gütemaße

* Bestimmtheitsmaß (R^2)                :  0.5115
* Root Mean Squared Error (RMSE)        :  9.0826
* Mean Absolute Error (MAE)             :  6.4316
* Mean Absolute Percentage Error (MAPE) :  69.6964 %
