## Pakete laden und mit RF imputierten Datensatz laden

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.formula.api as smf
import holidays
from sklearn.model_selection import train_test_split

# Load the data
data_RF = pd.read_csv("/workspaces/bakery_sales_prediction/0_DataPreparation/imputed_data_RF.csv")

## Lineares Modell ohne Interaktionen

In [3]:
# Fit the linear model (erster Versuch)
mod = smf.ols('Umsatz ~ C(Warengruppe)  + Temperatur + C(Feiertag) + C(Jahreszeit) + C(Wochenende) + Umsatz_lag1', data=data_RF).fit()

# Print the summary
print(mod.summary())

                            OLS Regression Results                            
Dep. Variable:                 Umsatz   R-squared:                       0.732
Model:                            OLS   Adj. R-squared:                  0.731
Method:                 Least Squares   F-statistic:                     2106.
Date:                Sat, 22 Jun 2024   Prob (F-statistic):               0.00
Time:                        05:06:02   Log-Likelihood:                -53273.
No. Observations:                9287   AIC:                         1.066e+05
Df Residuals:                    9274   BIC:                         1.067e+05
Df Model:                          12                                         
Covariance Type:            nonrobust                                         
                            coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------------
Intercept                43.47

## Lineares Modell mit Interaktionen

In [6]:
# Modell mit Interaktionseffekten
import pandas as pd
import statsmodels.formula.api as smf
from sklearn.model_selection import train_test_split
import itertools

# Formel für die multiple lineare Regression mit ausgewählten Interaktionseffekten
mod_int = smf.ols('Umsatz ~ C(Warengruppe) + Temperatur + C(Feiertag) + C(Jahreszeit) + C(Wochenende) + Umsatz_lag1 + Umsatz_lag7 + C(Kieler_Woche)*C(Warengruppe) + Wettercode*Temperatur + Monat*Temperatur', data = data_RF).fit()

# Print the summary
print(mod_int.summary())


                            OLS Regression Results                            
Dep. Variable:                 Umsatz   R-squared:                       0.737
Model:                            OLS   Adj. R-squared:                  0.736
Method:                 Least Squares   F-statistic:                     1175.
Date:                Sat, 22 Jun 2024   Prob (F-statistic):               0.00
Time:                        05:07:00   Log-Likelihood:                -52922.
No. Observations:                9246   AIC:                         1.059e+05
Df Residuals:                    9223   BIC:                         1.061e+05
Df Model:                          22                                         
Covariance Type:            nonrobust                                         
                                                    coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------------------------

Ergebnis könnte Artefakt sein, weil die Korrelation zwischen Wettercode und Temperatur durch die Imputation in die Höhe geschossen wurde

## Vorhersagen testen

In [7]:
# Create a new house with the following features
new_day = pd.DataFrame({
'Temperatur': [20], 
'Warengruppe': [3],
"Feiertag" : [1],
"Jahreszeit" : [2],
"Wochenende" : [1],
"Umsatz_lag1" : [100.80162265371] 
})
# Use the model to predict the sales of the new day
predicted_sales = mod.predict(new_day)
print(f"The predicted sales for the new day is: {predicted_sales[0]}")


The predicted sales for the new day is: 224.18552938937597
