# Model Training

In [7]:
import pandas as pd

from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score


## Importiere prozessierte Daten

In [4]:
# Trainings- und Testdaten für lineare Modelle einlesen
X_train_lr_pca = pd.read_csv('../data/processed/X_train_lr_pca.csv')
X_test_lr_pca = pd.read_csv('../data/processed/X_test_lr_pca.csv')

# Trainings- und Testdaten für baumbasierte Modelle einlesen
X_train_tree_fs = pd.read_csv('../data/processed/X_train_tree_fs.csv')
X_test_tree_fs = pd.read_csv('../data/processed/X_test_tree_fs.csv')

# Zielwerte einlesen
y_train = pd.read_csv('../data/processed/y_train.csv').values.ravel()
y_test = pd.read_csv('../data/processed/y_test.csv').values.ravel()


In [8]:
# 1. Baseline-Modell: Lineare Regression
lr_model = LinearRegression()
lr_model.fit(X_train_lr_pca, y_train)
y_pred_lr = lr_model.predict(X_test_lr_pca)

# Evaluierung der Linearen Regression
print("Lineare Regression - Evaluation:")
print("MSE:", mean_squared_error(y_test, y_pred_lr))
print("MAE:", mean_absolute_error(y_test, y_pred_lr))
print("R^2:", r2_score(y_test, y_pred_lr))

# 2. Random Forest
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train_tree_fs, y_train)
y_pred_rf = rf_model.predict(X_test_tree_fs)

# Evaluierung des Random Forest
print("\nRandom Forest - Evaluation:")
print("MSE:", mean_squared_error(y_test, y_pred_rf))
print("MAE:", mean_absolute_error(y_test, y_pred_rf))
print("R^2:", r2_score(y_test, y_pred_rf))

# 3. Gradient Boosting
gb_model = GradientBoostingRegressor(n_estimators=100, random_state=42)
gb_model.fit(X_train_tree_fs, y_train)
y_pred_gb = gb_model.predict(X_test_tree_fs)

# Evaluierung des Gradient Boosting
print("\nGradient Boosting - Evaluation:")
print("MSE:", mean_squared_error(y_test, y_pred_gb))
print("MAE:", mean_absolute_error(y_test, y_pred_gb))
print("R^2:", r2_score(y_test, y_pred_gb))


Lineare Regression - Evaluation:
MSE: 539.0743880015362
MAE: 17.32044943087601
R^2: 0.9531002722866916

Random Forest - Evaluation:
MSE: 135.32947733333333
MAE: 3.620177777777778
R^2: 0.9882262712163955

Gradient Boosting - Evaluation:
MSE: 111.38236612938648
MAE: 4.546334370460688
R^2: 0.990309681261434


## 1. Lineare Regression (Baseline-Modell)
- **Mean Squared Error (MSE):** 539.07 – Ein relativ hoher Fehler im Vergleich zu den komplexeren Modellen. Der MSE-Wert gibt an, wie stark die tatsächlichen Werte durchschnittlich vom Modell abweichen. Bei der Linearen Regression ist der MSE deutlich höher, was auf eine geringere Anpassungsfähigkeit hinweist.
- **Mean Absolute Error (MAE):** 17.32 – Dieser absolute Fehler zeigt, dass die durchschnittliche Abweichung der Vorhersagen vom tatsächlichen Wert bei etwa 17 liegt.
- **R²:** 0.9531 – Die Lineare Regression erklärt etwa 95,3 % der Varianz der Zielvariable. Das Modell zeigt zwar eine hohe Anpassung, wird jedoch durch die einfachere Struktur eingeschränkt.

Die Lineare Regression bietet eine solide Grundlage als Baseline, aber die geringere Flexibilität macht es schwieriger, nichtlineare Zusammenhänge genau zu modellieren.

## 2. Random Forest
- **MSE:** 135.33 – Der Fehler ist im Vergleich zur Linearen Regression deutlich niedriger, was auf eine bessere Anpassung an die Daten hindeutet.
- **MAE:** 3.62 – Der absolute Fehler ist ebenfalls deutlich niedriger als bei der Linearen Regression, was auf eine hohe Genauigkeit bei der Vorhersage einzelner Werte hinweist.
- **R²:** 0.9882 – Der Random Forest erklärt etwa 98,8 % der Varianz der Zielvariable und erzielt damit eine sehr gute Anpassung.

Random Forest passt sich den Daten deutlich besser an und ist in der Lage, komplexere Zusammenhänge zu modellieren. Das Modell zeigt eine hohe Genauigkeit und Stabilität.

## 3. Gradient Boosting
- **MSE:** 111.38 – Gradient Boosting weist den niedrigsten MSE auf, was darauf hindeutet, dass es die Zielvariable am besten vorhersagt.
- **MAE:** 4.55 – Der MAE ist geringfügig höher als beim Random Forest, bleibt jedoch niedrig genug, um die Genauigkeit des Modells zu demonstrieren.
- **R²:** 0.9903 – Mit einem R² von 99,0 % erklärt Gradient Boosting den höchsten Anteil der Varianz und passt sich am besten an die Zielvariable an.

Gradient Boosting erzielt die besten Ergebnisse in allen Metriken, was auf eine sehr präzise Modellierung der Zielvariable hindeutet. Dies macht es zum besten Modell in diesem Vergleich, da es die Balance zwischen Flexibilität und Genauigkeit am besten erreicht.

## Zusammenfassung der Modelle
- **Baseline:** Die Lineare Regression bietet eine einfache Vergleichsgrundlage, weist jedoch höhere Fehler auf.
- **Random Forest:** Deutlich bessere Anpassung und geringe Fehler; eignet sich gut für komplexe Datenstrukturen.
- **Gradient Boosting:** Das leistungsfähigste Modell in diesem Vergleich, mit der besten Vorhersagequalität und der niedrigsten Fehlerrate