# 05_Finales Modell trainieren und exportieren
In Notebook 04_Modelle_evaluieren wurde das beste Modell und die besten Hyperparameter evaluiert. Ergebnis: **Gradient Boosting Regressor**.
In diesem Notebook wird das Modell auf die gesamten vorliegenden Daten trainiert und dann für die App exportiert.

## 1) Libraries importieren

In [32]:
# Libraries importieren
import pandas as pd
import numpy as np

## 2) Daten einlesen

In [35]:
# Daten importieren
df_clean = pd.read_csv("../Data/clean_data.csv")

# Daten inspizieren
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70864 entries, 0 to 70863
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   body_type             70864 non-null  object 
 1   fuel_type             70864 non-null  object 
 2   horsepower            70864 non-null  float64
 3   make_name             70864 non-null  object 
 4   mileage               70864 non-null  float64
 5   model_name            70864 non-null  object 
 6   price                 70864 non-null  float64
 7   wheel_system_display  70864 non-null  object 
 8   average_fuel_economy  70864 non-null  float64
 9   age                   70864 non-null  int64  
 10  manual                70864 non-null  int64  
dtypes: float64(4), int64(2), object(5)
memory usage: 5.9+ MB


## 3) Dummy-Variablen erstellen

In [38]:
# Dummies in neuem Dataset speichern
df_dummies = pd.get_dummies(df_clean, drop_first=True, dtype=float)

In [39]:
# Info
df_dummies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70864 entries, 0 to 70863
Columns: 778 entries, horsepower to wheel_system_display_Rear-Wheel Drive
dtypes: float64(776), int64(2)
memory usage: 420.6 MB


## 4) X und y definieren

In [43]:
# X und y definieren
X = df_dummies.drop(["price"], axis=1)
y = df_dummies["price"]

## 5) Gradient Boosting Regressor trainieren

In [65]:
# Imports
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_absolute_percentage_error, mean_squared_error, mean_absolute_error, r2_score

In [51]:
# Best Parameters aus Notebook 04
best_params = {'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 300}

In [54]:
# Gradient Boosting Regressor erstellen mit best_params
final_model = GradientBoostingRegressor(random_state=42, **best_params)
final_model.fit(X, y)

In [67]:
# Modellevaluation auf Testdaten

# Vorhersagen auf dem Testset machen
y_pred = final_model.predict(X)

# Evaluationsmetrics berechnen
r2 = r2_score(y, y_pred)
mse = mean_squared_error(y, y_pred)
mae = mean_absolute_error(y, y_pred)
mape = mean_absolute_percentage_error(y, y_pred)

# Prints
print("Evaluation auf Testdaten")
print("R²-Wert:", r2)
print("RMSE:", np.sqrt(mse))
print("MAE:", mae)
print("MAPE:", mape)

Evaluation auf Testdaten
R²-Wert: 0.9326413496868102
RMSE: 3637.0943694767147
MAE: 2620.297393018736
MAPE: 0.10730085527890702


## 6) Modell für App exportieren
Finales Modell mithilfe von pickle exportieren für Verwendung in App

In [70]:
import pickle

# Dateipfad 
filename = '../App/model.sav'

# Modell exportieren
pickle.dump(final_model, open(filename, 'wb'))

print(f"Das Modell wurde erfolgreich in der Datei '{filename}' gespeichert.")

Das Modell wurde erfolgreich in der Datei '../App/model.sav' gespeichert.
