### _Capstone Projekt - Wiederverkaufswert von Gebrauchtwagen vorhersagen_

# **04_Modelle erstellen, trainieren, evaluieren**
In diesem Notebook werden verschiedene Modelle erstellt, trainiert und evaluiert, um die Vorhersage des Preises zu optimieren.

Folgende ML-Modelle werden dabei berücksichtigt:
- Lineare Regression
- Decision Tree Regressor
- Random Forest Regressor
- Gradient Boosting Regressor

## 1) Libraries importieren

In [1]:
# Libraries importieren
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## 2) Daten einlesen

In [3]:
# Daten importieren
df_clean = pd.read_csv("../Data/clean_data.csv")

# Daten inspizieren
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70864 entries, 0 to 70863
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   body_type             70864 non-null  object 
 1   fuel_type             70864 non-null  object 
 2   horsepower            70864 non-null  float64
 3   make_name             70864 non-null  object 
 4   mileage               70864 non-null  float64
 5   model_name            70864 non-null  object 
 6   price                 70864 non-null  float64
 7   wheel_system_display  70864 non-null  object 
 8   average_fuel_economy  70864 non-null  float64
 9   age                   70864 non-null  int64  
 10  manual                70864 non-null  int64  
dtypes: float64(4), int64(2), object(5)
memory usage: 5.9+ MB


## 3) Dummy-Variablen erstellen
Für das Training werden Dummy-Variablen erstellt.

In [7]:
# Dummies in neuem Dataset speichern
df_dummies = pd.get_dummies(df_clean, drop_first=True, dtype=float)

In [9]:
# Dummies anschauen
df_dummies.head()

Unnamed: 0,horsepower,mileage,price,average_fuel_economy,age,manual,body_type_Coupe,body_type_Hatchback,body_type_Minivan,body_type_Pickup Truck,...,model_name_iM,model_name_iQ,model_name_tC,model_name_xA,model_name_xB,model_name_xD,wheel_system_display_All-Wheel Drive,wheel_system_display_Four-Wheel Drive,wheel_system_display_Front-Wheel Drive,wheel_system_display_Rear-Wheel Drive
0,184.0,25794.0,13000.0,29.5,4,0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
1,295.0,15732.0,27300.0,21.5,2,0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
2,138.0,4580.0,15724.0,29.0,2,0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
3,180.0,25122.0,21000.0,24.0,2,0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
4,241.0,61161.0,17300.0,20.5,6,0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


In [11]:
# Info
df_dummies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70864 entries, 0 to 70863
Columns: 778 entries, horsepower to wheel_system_display_Rear-Wheel Drive
dtypes: float64(776), int64(2)
memory usage: 420.6 MB


## 4) Trainings- und Testingdatensätze erstllen 

In [14]:
# X und y definieren
X = df_dummies.drop(["price"], axis=1)
y = df_dummies["price"]

In [16]:
# Imports
from sklearn.model_selection import train_test_split

# Train-Test-Split (70%-30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

## 5) Modelle trainieren und evaluieren
Für die Evaluation werden folgende Metrics verwendet:
- R²
- Root Mean Squared Error (RMSE)
- Mean Absolute Error (MAE)
- Mean Absolute Percentage Error (MAPE)

Die Mean Absolute Percentage Error (MAPE) misst die Genauigkeit einer Vorhersage, indem sie den durchschnittlichen absoluten Fehler als Prozentsatz der tatsächlichen Werte berechnet. Sie zeigt, wie weit die Vorhersagen im Durchschnitt von den tatsächlichen Werten abweichen, relativ zu den tatsächlichen Werten. Dadurch ermöglicht MAPE einen einfachen Vergleich der Vorhersagegenauigkeit über verschiedene Datensätze hinweg, unabhängig von der Skalierung der Daten.

Quelle: https://chatgpt.com/share/a9cfb871-f4a2-46e0-9bdd-7d844967597a 

### 5.1) Modelle ohne Cross-Validation und Hyperparameter Tuning

#### 5.1.1) Modell 1 - Lineare Regression

In [21]:
# Imports
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error, mean_absolute_percentage_error

In [23]:
# Modell erstellen und trainieren
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)

In [24]:
# Modellevaluation auf Trainingsdaten

# Vorhersagen auf dem Trainingsset machen
y_pred_train = lin_reg.predict(X_train)

# Evaluationsmetrics berechnen
r2_train = r2_score(y_train, y_pred_train)
mse_train = mean_squared_error(y_train, y_pred_train)
mae_train = mean_absolute_error(y_train, y_pred_train)
mape_train = mean_absolute_percentage_error(y_train, y_pred_train)

# Prints
print("Evaluation auf Trainingsdaten")
print("R²-Wert Train:", r2_train)
print("RMSE Train:", np.sqrt(mse_train))
print("MAE Train:", mae_train)
print("MAPE Train:", mape_train)

Evaluation auf Trainingsdaten
R²-Wert Train: 0.8574655332608325
RMSE Train: 5292.151389923104
MAE Train: 3803.962116131524
MAPE Train: 0.1963417252414145


In [25]:
# Modellevaluation auf Testdaten

# Vorhersagen auf dem Testset machen
y_pred = lin_reg.predict(X_test)

# Evaluationsmetrics berechnen
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
mape = mean_absolute_percentage_error(y_test, y_pred)

# Prints
print("Evaluation auf Testdaten")
print("R²-Wert:", r2)
print("RMSE:", np.sqrt(mse))
print("MAE:", mae)
print("MAPE:", mape)

Evaluation auf Testdaten
R²-Wert: -317471031.2697887
RMSE: 249539758.2805892
MAE: 7431265.498945915
MAPE: 492.2760081181507


Zusammenfassung Evaluation (Testdaten)

|Model|R²-Wert|RMSE|MAE|MAPE|
|--|--|--|--|--|
|Linear Regression (ohne CV und HT)|-317471031|249539758|7431265|492|


#### 5.1.2) Modell 2 - Decision Tree Regressor

In [28]:
# Imports
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [29]:
# Decision Tree Regressor erstellen und trainieren
tree_model = DecisionTreeRegressor(random_state=42)
tree_model.fit(X_train, y_train)

In [31]:
# Modellevaluation auf Trainingsdaten

# Vorhersagen auf dem Trainingsset machen
y_pred_train = tree_model.predict(X_train)

# Evaluationsmetrics berechnen
r2_train = r2_score(y_train, y_pred_train)
mse_train = mean_squared_error(y_train, y_pred_train)
mae_train = mean_absolute_error(y_train, y_pred_train)
mape_train = mean_absolute_percentage_error(y_train, y_pred_train)

# Prints
print("Evaluation auf Trainingsdaten")
print("R²-Wert Train:", r2_train)
print("RMSE Train:", np.sqrt(mse_train))
print("MAE Train:", mae_train)
print("MAPE Train:", mape_train)

Evaluation auf Trainingsdaten
R²-Wert Train: 0.9772843466196811
RMSE Train: 2112.685872867819
MAE Train: 876.2072994503895
MAPE Train: 0.025877191966123557


In [34]:
# Modellevaluation auf Testdaten

# Vorhersagen auf dem Testset machen
y_pred = tree_model.predict(X_test)

# Evaluationsmetrics berechnen
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
mape = mean_absolute_percentage_error(y_test, y_pred)

# Prints
print("Evaluation auf Testdaten")
print("R²-Wert:", r2)
print("RMSE:", np.sqrt(mse))
print("MAE:", mae)
print("MAPE:", mape)

Evaluation auf Testdaten
R²-Wert: 0.8917067686700525
RMSE: 4608.805222597829
MAE: 3136.216084030679
MAPE: 0.1284502053299045


Zusammenfassung Evaluation (Testdaten)

|Model|R²-Wert|RMSE|MAE|MAPE|
|--|--|--|--|--|
|Linear Regression (ohne CV und HT)|-317471031|249539758|7431265|492|
|Decision Tree Regressor (ohne CV und HT)|0.8917|4609|3136|0.1285|

#### 5.1.3) Modell 3 - Random Forest Regressor

In [38]:
# Imports
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [42]:
# Random Forest Regressor erstellen (n_estimators=100) und trainieren
forest_model = RandomForestRegressor(n_estimators=100, random_state=42)
forest_model.fit(X_train, y_train)

In [44]:
# Modellevaluation auf Trainingsdaten

# Vorhersagen auf dem Trainingsset machen
y_pred_train = forest_model.predict(X_train)

# Evaluationsmetrics berechnen
r2_train = r2_score(y_train, y_pred_train)
mse_train = mean_squared_error(y_train, y_pred_train)
mae_train = mean_absolute_error(y_train, y_pred_train)
mape_train = mean_absolute_percentage_error(y_train, y_pred_train)

# Prints
print("Evaluation auf Trainingsdaten")
print("R²-Wert Train:", r2_train)
print("RMSE Train:", np.sqrt(mse_train))
print("MAE Train:", mae_train)
print("MAPE Train:", mape_train)

Evaluation auf Trainingsdaten
R²-Wert Train: 0.9709970043985188
RMSE Train: 2387.22712257198
MAE Train: 1474.5640531867305
MAPE Train: 0.054278848777977985


In [45]:
# Modellevaluation auf Testdaten

# Vorhersagen auf dem Testset machen
y_pred = forest_model.predict(X_test)

# Evaluationsmetrics berechnen
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
mape = mean_absolute_percentage_error(y_test, y_pred)

# Prints
print("Evaluation auf Testdaten")
print("R²-Wert:", r2)
print("RMSE:", np.sqrt(mse))
print("MAE:", mae)
print("MAPE:", mape)

Evaluation auf Testdaten
R²-Wert: 0.9225251505194979
RMSE: 3898.235467994862
MAE: 2667.0212807479406
MAPE: 0.10687002602434235


Zusammenfassung Evaluation (Testdaten)

|Model|R²-Wert|RMSE|MAE|MAPE|
|--|--|--|--|--|
|Linear Regression (ohne CV und HT)|-317471031|249539758|7431265|492|
|Decision Tree Regressor (ohne CV und HT)|0.8917|4609|3136|0.1285|
|Random Forest Regressor (ohne CV und HT)|0.9225|3898|2667|0.1069|

#### 5.1.4) Modell 4 - Gradient Boosting Regressor

In [48]:
# Imports
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [49]:
# Gradient Boosting Regressor erstellen (n_estimators=100 und learning_rate=0.1, max_depth=3) und trainieren
gb_model = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)
gb_model.fit(X_train, y_train)

In [50]:
# Modellevaluation auf Trainingsdaten

# Vorhersagen auf dem Trainingsset machen
y_pred_train = gb_model.predict(X_train)

# Evaluationsmetrics berechnen
r2_train = r2_score(y_train, y_pred_train)
mse_train = mean_squared_error(y_train, y_pred_train)
mae_train = mean_absolute_error(y_train, y_pred_train)
mape_train = mean_absolute_percentage_error(y_train, y_pred_train)

# Prints
print("Evaluation auf Trainingsdaten")
print("R²-Wert Train:", r2_train)
print("RMSE Train:", np.sqrt(mse_train))
print("MAE Train:", mae_train)
print("MAPE Train:", mape_train)

Evaluation auf Trainingsdaten
R²-Wert Train: 0.8848022076401431
RMSE Train: 4757.670816737391
MAE Train: 3400.4058375417803
MAPE Train: 0.14125615670258718


In [51]:
# Modellevaluation auf Testdaten

# Vorhersagen auf dem Testset machen
y_pred = gb_model.predict(X_test)

# Evaluationsmetrics berechnen
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
mape = mean_absolute_percentage_error(y_test, y_pred)

# Prints
print("Evaluation auf Testdaten")
print("R²-Wert:", r2)
print("RMSE:", np.sqrt(mse))
print("MAE:", mae)
print("MAPE:", mape)

Evaluation auf Testdaten
R²-Wert: 0.8809888273508041
RMSE: 4831.495342523516
MAE: 3422.319535952205
MAPE: 0.1412198301727322


Zusammenfassung Evaluation (Testdaten)

|Model|R²-Wert|RMSE|MAE|MAPE|
|--|--|--|--|--|
|Linear Regression (ohne CV und HT)|-317471031|249539758|7431265|492|
|Decision Tree Regressor (ohne CV und HT)|0.8917|4609|3136|0.1285|
|Random Forest Regressor (ohne CV und HT)|0.9225|3898|2667|0.1069|
|Gradient Boosting Regressor (ohne CV und HT)|0.8810|4831|3422|0.1412|

### 5.2) Modellevaluation mit Cross-Validation

Die Kreuzvalidierungswerte bieten eine zuverlässige Schätzung der Modellleistung, indem sie das Modell in mehreren Durchläufen auf unterschiedlichen Teilmengen des Trainingsdatensatzes testen, was hilft, die Generalisierbarkeit des Modells auf neue, unbekannte Daten zu beurteilen. Sie ermöglichen es auch, die Modellstabilität zu überprüfen, da signifikante Schwankungen in den Scores auf potenzielle Probleme wie Über- oder Unteranpassung hinweisen können. (Quelle: ChatGPT: https://chatgpt.com/share/8fac80cf-2967-467d-92f2-04f7c1b0efcb)


Quellen Code: 
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html
- https://stackoverflow.com/questions/60761775/should-cross-validation-score-be-performed-on-original-or-split-data
- https://chatgpt.com/share/8fac80cf-2967-467d-92f2-04f7c1b0efcb

In [54]:
# Imports
from sklearn.model_selection import KFold, cross_val_score

# Anuahl Folds
kf = KFold(n_splits=5, shuffle=True, random_state=42)

In [55]:
# Scoring für Lineare Regression
scores_linreg = cross_val_score(lin_reg, X_test, y_test, cv=kf, scoring="neg_mean_squared_error")

# Print Scores
print("MSE Scores für jedes Fold:", -scores_linreg)
print("Durchschnittlicher MSE:", -scores_linreg.mean())

MSE Scores für jedes Fold: [3.14920867e+07 6.72356115e+14 2.88804814e+07 9.51051474e+19
 3.31743805e+07]
Durchschnittlicher MSE: 1.902116394748101e+19


In [56]:
# Scoring für Decision Tree Regressor
scores_dtr = cross_val_score(tree_model, X_test, y_test, cv=kf)

# Print Scores
print("Scores für jedes Fold:", scores_dtr)
print("Durchschnittliche Genauigkeit:", scores_dtr.mean())
print("Standardabweichung Genauigkiet:", scores_dtr.std())

Scores für jedes Fold: [0.87498009 0.87084851 0.8706902  0.8575702  0.87287157]
Durchschnittliche Genauigkeit: 0.8693921160202519
Standardabweichung Genauigkiet: 0.006113849465043129


In [57]:
# Scoring für Random Forest Regressor
scores_rfr = cross_val_score(forest_model, X_test, y_test, cv=kf)

# Print Scores
print("Scores für jedes Fold:", scores_rfr)
print("Durchschnittliche Genauigkeit:", scores_rfr.mean())
print("Standardabweichung Genauigkiet:", scores_rfr.std())

Scores für jedes Fold: [0.90755192 0.91093104 0.91382217 0.90082554 0.9103387 ]
Durchschnittliche Genauigkeit: 0.9086938761722625
Standardabweichung Genauigkiet: 0.0044096382431423956


In [58]:
# Scoring für Gradient Boosting Regressor
scores_gbr = cross_val_score(gb_model, X_test, y_test, cv=kf)

# Print Scores
print("Scores für jedes Fold:", scores_gbr)
print("Durchschnittliche Genauigkeit:", scores_gbr.mean())
print("Standardabweichung Genauigkiet:", scores_gbr.std())

Scores für jedes Fold: [0.87757894 0.88081707 0.88645172 0.86379119 0.87920133]
Durchschnittliche Genauigkeit: 0.8775680509497021
Standardabweichung Genauigkiet: 0.0075092649741962956


### 5.3) Crossvalidation und Hyperparametertuning
In diesem Schritt werden mittels GridSearch für die Regressor-Modelle (Decision Tree Regressor, Random Forest Regressor, Gradient Boosting Regressor) die besten Parameter auf einem kleinen Sample-Dataset gesucht und diese dann für das Trainig des ganzen Modells verwendet.

#### 5.3.1) Kleinere Datensets erstellen für Hyperparametertuning aufgrund der Laufzeit
Da die Modelle mit Crossvalidation und Hyperaparametertuning sehr lange gebraucht haben, um durchzulaufen oder gar nicht durchgelaufen sind/gecrashed sind, haben wir das Dataset in einem ersten Schritt verringert, um die besten Hyperparameter zu finden und die Modelle mit allen Daten anschliessend mit diesen Parametern zu trainieren. Je nach Modell wurden unterschiedliche Sample-Grössen verwendet, da insb. der Random Forest Regressor sehr lange braucht zum durchlaufen. Für künftige Projekte müsste man die Sample-Grösser ehöhen und dazu bessere/mehr CPU zur Verfügung haben.

In [183]:
# Sample-Dataset 10k erstellen (Quelle: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html)
df_sample_10k = df_dummies.sample(n=10000, random_state=1) 

In [185]:
# X und y definieren
X_sample_10k = df_sample_10k.drop(["price"], axis=1)
y_sample_10k = df_sample_10k["price"]

In [187]:
# Train-Test-Split (70%-30%)
X_train_sample_10k, X_test_sample_10k, y_train_sample_10k, y_test_sample_10k = train_test_split(X_sample_10k, y_sample_10k, test_size=0.3, random_state=42)


In [189]:
# Sample-Dataset 5k erstellen
df_sample_5k = df_dummies.sample(n=5000, random_state=1) 

In [191]:
# X und y definieren
X_sample_5k = df_sample_10k.drop(["price"], axis=1)
y_sample_5k = df_sample_10k["price"]

In [193]:
# Train-Test-Split (70%-30%)
X_train_sample_5k, X_test_sample_5k, y_train_sample_5k, y_test_sample_5k = train_test_split(X_sample_5k, y_sample_5k, test_size=0.3, random_state=42)


In [197]:
# Sample-Dataset 2k erstellen
df_sample_2k = df_dummies.sample(n=2000, random_state=1) 

In [199]:
# X und y definieren
X_sample_2k = df_sample_2k.drop(["price"], axis=1)
y_sample_2k = df_sample_2k["price"]

In [201]:
# Train-Test-Split (70%-30%)
X_train_sample_2k, X_test_sample_2k, y_train_sample_2k, y_test_sample_2k = train_test_split(X_sample_2k, y_sample_2k, test_size=0.3, random_state=42)


#### 5.3.2) Modell 5 - Decision Tree Regressor

##### Parameter suchen

In [205]:
# Imports
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [207]:
# Parameter-Grid (Quelle: ChatGPT: https://chatgpt.com/share/8fac80cf-2967-467d-92f2-04f7c1b0efcb)
param_grid_decision_tree = {
    'max_depth': [None, 10, 20, 30, 40, 50],
    'min_samples_split': [2, 10, 20],
    'min_samples_leaf': [1, 2, 4],
}

In [209]:
# DecisionTreeRegressor-Modell mit CV erstellen
tree_model_cv_sample = GridSearchCV(DecisionTreeRegressor(random_state=1),param_grid_decision_tree, cv=5)

In [211]:
# Training
tree_model_cv_sample = tree_model_cv_sample.fit(X_train_sample_10k, y_train_sample_10k)

best_params_decision_tree = tree_model_cv_sample.best_params_
best_params_decision_tree

{'max_depth': 30, 'min_samples_leaf': 1, 'min_samples_split': 20}

In [219]:
# 2. Iteration mit anderem param_grid basierend auf den vorherigen best_params
param_grid_decision_tree_2 = {
    'max_depth': range(25, 35),
    'min_samples_leaf': [1],
    'min_samples_split': range(20, 30),
}

In [221]:
# DecisionTreeRegressor-Modell mit CV erstellen
tree_model_cv_sample_2 = GridSearchCV(DecisionTreeRegressor(random_state=1),param_grid_decision_tree_2, cv=5)


In [223]:
# Training
tree_model_cv_sample_2 = tree_model_cv_sample_2.fit(X_train_sample_10k, y_train_sample_10k)

best_params_decision_tree_2 = tree_model_cv_sample_2.best_params_
best_params_decision_tree_2

{'max_depth': 26, 'min_samples_leaf': 1, 'min_samples_split': 23}

##### Beste Parameter auf das Modell mit ganzem Datensatz anwenden

In [225]:
# Decision Tree Regressor erstellen und trainieren
tree_model_best = DecisionTreeRegressor(random_state=42, **best_params_decision_tree_2)
tree_model_best.fit(X_train, y_train)

In [227]:
# Modellevaluation auf Trainingsdaten

# Vorhersagen auf dem Trainingsset machen
y_pred_train = tree_model_best.predict(X_train)

# Evaluationsmetrics berechnen
r2_train = r2_score(y_train, y_pred_train)
mse_train = mean_squared_error(y_train, y_pred_train)
mae_train = mean_absolute_error(y_train, y_pred_train)
mape_train = mean_absolute_percentage_error(y_train, y_pred_train)

# Prints
print("Evaluation auf Trainingsdaten")
print("R²-Wert Train:", r2_train)
print("RMSE Train:", np.sqrt(mse_train))
print("MAE Train:", mae_train)
print("MAPE Train:", mape_train)

Evaluation auf Trainingsdaten
R²-Wert Train: 0.9461134113225258
RMSE Train: 3253.9633516513845
MAE Train: 2214.1090220500005
MAPE Train: 0.08647642317567772


In [229]:
# Modellevaluation auf Testdaten

# Vorhersagen auf dem Testset machen
y_pred = tree_model_best.predict(X_test)

# Evaluationsmetrics berechnen
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
mape = mean_absolute_percentage_error(y_test, y_pred)

# Prints
print("Evaluation auf Testdaten")
print("R²-Wert:", r2)
print("RMSE:", np.sqrt(mse))
print("MAE:", mae)
print("MAPE:", mape)

Evaluation auf Testdaten
R²-Wert: 0.9077829134509773
RMSE: 4252.980550599169
MAE: 2887.530413048975
MAPE: 0.11706203843547798


Zusammenfassung Evaluation (Testdaten)

|Model|R²-Wert|RMSE|MAE|MAPE|
|--|--|--|--|--|
|Linear Regression (ohne CV und HT)|-317471031|249539758|7431265|492|
|Decision Tree Regressor (ohne CV und HT)|0.8917|4609|3136|0.1285|
|Random Forest Regressor (ohne CV und HT)|0.9225|3898|2667|0.1069|
|Gradient Boosting Regressor (ohne CV und HT)|0.8810|4831|3422|0.1412|
|Decision Tree Regressor (best_params)|0.9078|4253|2888|0.1171|

#### 5.3.3) Modell 6 - Random Forest Regressor (best_params)

##### Parameter suchen

In [233]:
# Imports
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [244]:
# Initiales Parameter-Grid (Quelle: ChatGPT: https://chatgpt.com/share/8fac80cf-2967-467d-92f2-04f7c1b0efcb)
param_grid_random_forest = {
    'n_estimators': [50, 100],
    'max_depth': [None, 10],
    'min_samples_split': [2, 10],
    'min_samples_leaf': [1, 2]
}

In [321]:
# Random Forest Modell mit CV erstellen
random_forest_cv_sample = GridSearchCV(RandomForestRegressor(random_state=1),param_grid_random_forest, cv=5)

In [248]:
# Training
random_forest_cv_sample = random_forest_cv_sample.fit(X_train_sample_2k, y_train_sample_2k)

best_params_random_forest = random_forest_cv_sample.best_params_
best_params_random_forest

{'max_depth': None,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'n_estimators': 100}

In [297]:
# Iteration mit anderem param_grid basierend auf den vorherigen best_params
param_grid_random_forest_2 = {
    'n_estimators': [100, 200],
    'max_depth': [None, 1],
    'min_samples_split': [3, 4],
    'min_samples_leaf': [1, 2]
}

In [299]:
# DecisionTreeRegressor-Modell mit CV erstellen
random_forest_cv_sample_2 = GridSearchCV(RandomForestRegressor(random_state=1),param_grid_random_forest_2, cv=5)


In [301]:
# Training
random_forest_cv_sample_2 = random_forest_cv_sample_2.fit(X_train_sample_2k, y_train_sample_2k)

best_params_random_forest_2 = random_forest_cv_sample_2.best_params_
best_params_random_forest_2

{'max_depth': None,
 'min_samples_leaf': 1,
 'min_samples_split': 4,
 'n_estimators': 100}

##### Beste Parameter auf das Modell mit ganzem Datensatz anwenden

In [304]:
# Random Forest Regressor erstellen und trainieren
forest_model_best = RandomForestRegressor(random_state=42, **best_params_random_forest_2)
forest_model_best.fit(X_train, y_train)

In [312]:
# Modellevaluation auf Trainingsdaten

# Vorhersagen auf dem Trainingsset machen
y_pred_train = forest_model_best.predict(X_train)

# Evaluationsmetrics berechnen
r2_train = r2_score(y_train, y_pred_train)
mse_train = mean_squared_error(y_train, y_pred_train)
mae_train = mean_absolute_error(y_train, y_pred_train)
mape_train = mean_absolute_percentage_error(y_train, y_pred_train)

# Prints
print("Evaluation auf Trainingsdaten")
print("R²-Wert Train:", r2_train)
print("RMSE Train:", np.sqrt(mse_train))
print("MAE Train:", mae_train)
print("MAPE Train:", mape_train)

Evaluation auf Trainingsdaten
R²-Wert Train: 0.9678647588169659
RMSE Train: 2512.829914588019
MAE Train: 1618.9789637901015
MAPE Train: 0.06060915605893863


In [314]:
# Modellevaluation auf Testdaten

# Vorhersagen auf dem Testset machen
y_pred = forest_model_best.predict(X_test)

# Evaluationsmetrics berechnen
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
mape = mean_absolute_percentage_error(y_test, y_pred)

# Prints
print("Evaluation auf Testdaten")
print("R²-Wert:", r2)
print("RMSE:", np.sqrt(mse))
print("MAE:", mae)
print("MAPE:", mape)

Evaluation auf Testdaten
R²-Wert: 0.923908761452693
RMSE: 3863.26967100382
MAE: 2642.067042954418
MAPE: 0.10589846512020083


Zusammenfassung Evaluation (Testdaten)

|Model|R²-Wert|RMSE|MAE|MAPE|
|--|--|--|--|--|
|Linear Regression (ohne CV und HT)|-317471031|249539758|7431265|492|
|Decision Tree Regressor (ohne CV und HT)|0.8917|4609|3136|0.1285|
|Random Forest Regressor (ohne CV und HT)|0.9225|3898|2667|0.1069|
|Gradient Boosting Regressor (ohne CV und HT)|0.8810|4831|3422|0.1412|
|Decision Tree Regressor (best_params)|0.9055|4306|2911|0.1180|
|Random Forest Regressor (best_params)|0.9239|3863|2642|0.1059|

#### 5.3.4) Modell 7 - Gradient Boosting Regressor (best_params)

##### Parameter suchen

In [317]:
# Imports
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [360]:
# Parameter-Grid (Quelle: ChatGPT: https://chatgpt.com/share/8fac80cf-2967-467d-92f2-04f7c1b0efcb)
param_grid_gbr = {
    'n_estimators': [50, 100],
    'learning_rate': [0.01, 0.1],
    'max_depth': [3, 5]
}

In [362]:
# Gradient Boosting Regressor Modell mit CV erstellen
gbr_model_cv_sample = GridSearchCV(GradientBoostingRegressor(random_state=1),param_grid_gbr, cv=5)


In [364]:
# Training
gbr_model_cv_sample = gbr_model_cv_sample.fit(X_train_sample_5k, y_train_sample_5k)

best_params_gbr = gbr_model_cv_sample.best_params_
best_params_gbr

{'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 100}

In [373]:
# 2. Iteration mit anderem param_grid basierend auf den vorherigen best_params
param_grid_gbr_2 = {
    'n_estimators': [200, 300],
    'learning_rate': [0.1],
    'max_depth': [5]
}

In [375]:
# Gradient Boosting Regressor Modell mit CV erstellen
gbr_model_cv_sample_2 = GridSearchCV(GradientBoostingRegressor(random_state=1),param_grid_gbr_2, cv=5)


In [377]:
# Training
gbr_model_cv_sample_2 = gbr_model_cv_sample_2.fit(X_train_sample_5k, y_train_sample_5k)

best_params_gbr_2 = gbr_model_cv_sample_2.best_params_
best_params_gbr_2

{'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 300}

##### Beste Parameter auf das Modell mit ganzem Datensatz anwenden

In [383]:
# Gradient Boosting Regressor erstellen mit best_params
gb_model_best = GradientBoostingRegressor(random_state=42, **best_params_gbr_2)
gb_model_best.fit(X_train, y_train)

In [391]:
# Modellevaluation auf Trainingsdaten

# Vorhersagen auf dem Trainingsset machen
y_pred_train = gb_model_best.predict(X_train)

# Evaluationsmetrics berechnen
r2_train = r2_score(y_train, y_pred_train)
mse_train = mean_squared_error(y_train, y_pred_train)
mae_train = mean_absolute_error(y_train, y_pred_train)
mape_train = mean_absolute_percentage_error(y_train, y_pred_train)

# Prints
print("Evaluation auf Trainingsdaten")
print("R²-Wert Train:", r2_train)
print("RMSE Train:", np.sqrt(mse_train))
print("MAE Train:", mae_train)
print("MAPE Train:", mape_train)

Evaluation auf Trainingsdaten
R²-Wert Train: 0.9346713023348763
RMSE Train: 3582.814407735
MAE Train: 2582.9466887070084
MAPE Train: 0.10588524791096482


In [393]:
# Modellevaluation auf Testdaten

# Vorhersagen auf dem Testset machen
y_pred = gb_model_best.predict(X_test)

# Evaluationsmetrics berechnen
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
mape = mean_absolute_percentage_error(y_test, y_pred)

# Prints
print("Evaluation auf Testdaten")
print("R²-Wert:", r2)
print("RMSE:", np.sqrt(mse))
print("MAE:", mae)
print("MAPE:", mape)

Evaluation auf Testdaten
R²-Wert: 0.9260145017579415
RMSE: 3809.438787300474
MAE: 2703.272174226086
MAPE: 0.10978867561910431


**Zusammenfassung Evaluation (Testdaten)**

|Model|R²-Wert|RMSE|MAE|MAPE|
|--|--|--|--|--|
|Linear Regression (ohne CV und HT)|-317471031|249539758|7431265|492|
|Decision Tree Regressor (ohne CV und HT)|0.8917|4609|3136|0.1285|
|Random Forest Regressor (ohne CV und HT)|0.9225|3898|2667|0.1069|
|Gradient Boosting Regressor (ohne CV und HT)|0.8810|4831|3422|0.1412|
|Decision Tree Regressor (best_params)|0.9055|4306|2911|0.1180|
|Random Forest Regressor (best_params)|0.9239|3863|2642|0.1059|
|Gradient Boosting Regressor (best_params)|0.9260|3809|2703|0.1098|

Der Random Forest Regressor und Gradient Boosting Regressor performen ähnlich gut. Da R2 und RMSE besser sind, entscheiden wir uns für unser finales Modell für die App für den Gradient Boosting Regressor. Diesen werden wir in Notebook 05 finalisieren und exportieren