# Training des Baseline-Modells

Dieses Notebook implementiert das Training eines linearen Regressionsmodells als Baseline für die Umsatzvorhersage. Das trainierte Modell wird für spätere Verwendung gespeichert.

## Übersicht
1. Bibliotheken importieren
2. Daten laden und vorbereiten
3. Modell trainieren
4. Modell evaluieren
5. Modell speichern

## 1. Bibliotheken importieren

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import joblib
import sys
import os

# Add the DataPreparation directory to the Python path
project_root = os.path.abspath(os.path.join(os.getcwd(), '..'))
data_prep_path = os.path.join(project_root, '0_DataPreparation')
sys.path.append(data_prep_path)
from data_preparation import DataPreparation

## 2. Daten laden und vorbereiten

In [2]:
# Daten laden und vorbereiten
data_prep = DataPreparation()
data = data_prep.load_data()
train_data, test_data = data_prep.split_data(data)

# Features und Zielwerte vorbereiten
X_train, y_train = data_prep.prepare_data(train_data, is_training=True)
X_test, y_test = data_prep.prepare_data(test_data, is_training=False)

print("Trainingsdaten Shape:", X_train.shape)
print("Testdaten Shape:", X_test.shape)

Trainingsdaten: von 2013-07-01 00:00:00 bis 2017-07-31 00:00:00
Testdaten: von 2017-08-01 00:00:00 bis 2018-07-31 00:00:00
Anzahl Trainingssamples: 7493
Anzahl Testsamples: 1841
Trainingsdaten Shape: (7493, 29)
Testdaten Shape: (1841, 29)


## 3. Modell trainieren

In [3]:
# Modell initialisieren und trainieren
model = LinearRegression()
model.fit(X_train, y_train)

# Vorhersagen machen
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)

## 4. Modell evaluieren

In [4]:
# Modell auf Trainingsdaten evaluieren
train_mse = mean_squared_error(y_train, y_pred_train)
train_rmse = np.sqrt(train_mse)
train_r2 = r2_score(y_train, y_pred_train)

print("\nTrainingsdaten Metriken:")
print(f"MSE: {train_mse:.2f}")
print(f"RMSE: {train_rmse:.2f}")
print(f"R²: {train_r2:.4f}")

# Modell auf Testdaten evaluieren
test_mse = mean_squared_error(y_test, y_pred_test)
test_rmse = np.sqrt(test_mse)
test_r2 = r2_score(y_test, y_pred_test)

print("\nTestdaten Metriken:")
print(f"MSE: {test_mse:.2f}")
print(f"RMSE: {test_rmse:.2f}")
print(f"R²: {test_r2:.4f}")


Trainingsdaten Metriken:
MSE: 5675.27
RMSE: 75.33
R²: 0.7401

Testdaten Metriken:
MSE: 5038.79
RMSE: 70.98
R²: 0.7022


## 5. Modell speichern

In [5]:
# Modell speichern
model_path = os.path.join(os.getcwd(), 'linear_regression_model.joblib')
joblib.dump(model, model_path)
print(f"\nModell gespeichert unter: {model_path}")

# Feature Namen speichern
feature_names = X_train.columns.tolist()
feature_names_path = os.path.join(os.getcwd(), 'feature_names.joblib')
joblib.dump(feature_names, feature_names_path)
print(f"Feature Namen gespeichert unter: {feature_names_path}")


Modell gespeichert unter: /Users/admin/Dropbox/@PARA/Projects/opencampus/bakery_sales_prediction/2_BaselineModel/linear_regression_model.joblib
Feature Namen gespeichert unter: /Users/admin/Dropbox/@PARA/Projects/opencampus/bakery_sales_prediction/2_BaselineModel/feature_names.joblib


## 6. Modellkoeffizienten anzeigen

In [6]:
# Modellkoeffizienten als DataFrame
coefficients = pd.DataFrame({
    'Feature': X_train.columns,
    'Coefficient': model.coef_
})
coefficients['Abs_Coefficient'] = abs(coefficients['Coefficient'])
coefficients = coefficients.sort_values('Abs_Coefficient', ascending=False)

print("\nModellkoeffizienten (sortiert nach absolutem Wert):")
print(coefficients[['Feature', 'Coefficient']].to_string(index=False))


Modellkoeffizienten (sortiert nach absolutem Wert):
                   Feature   Coefficient
           Jahreszeit_fall -6.840234e+12
         Jahreszeit_winter -6.840234e+12
         Jahreszeit_spring -6.840234e+12
         Jahreszeit_summer -6.840234e+12
 Temp_Kategorie_Basis_kalt -5.827809e+12
 Temp_Kategorie_Basis_warm -5.827809e+12
 Temp_Kategorie_Basis_mild -5.827809e+12
Temp_Kategorie_Saison_warm  4.854983e+12
Temp_Kategorie_Saison_kalt  4.854983e+12
Temp_Kategorie_Saison_mild  4.854983e+12
             Warengruppe_2  1.395422e+12
             Warengruppe_5  1.395422e+12
             Warengruppe_3  1.395422e+12
             Warengruppe_1  1.395422e+12
             Warengruppe_4  1.395422e+12
             Warengruppe_6  1.395422e+12
    Position_im_Monat_Ende -5.974905e+11
   Position_im_Monat_Mitte -5.974905e+11
  Position_im_Monat_Anfang -5.974905e+11
             Woche_im_Jahr -4.325488e+01
                   Quartal  2.571891e+01
            ist_Wochenende  2.170027e+01
    