# Daten importieren

In [None]:
import pandas as pd

# Schritt 1: Lese die entsprechende Datei ein, speichere die Daten in der Variable 'df' ab und gib sie anschließend aus.
df = pd.read_csv(..., parse_dates=["Date"], index_col="Date")
df = df.asfreq('D')
df

# Daten visualisieren

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Schritt 2: Visualisiere die Daten mithilfe eines Lineplots.
plt.figure(figsize=(20,5))
sns.lineplot(x=df.index, y=...)

In [None]:
# Schritt 3: Ermittle den gleitenden Durchschnitt über einen Zeitraum von 365 Tagen, wobei mindestens 350 Tage berücksichtigt werden müssen.
rolling_average_df = df.rolling(window=..., center=True, min_periods=...).mean()

# Schritt 4: Visualisiere die Daten und den gleitenden Durchschnitt jeweils mithilfe eines Lineplots, um den vorherrschenden Trend in den Daten zu identifizieren.
plt.figure(figsize=(20,5))
sns.lineplot(x=df.index, y=...)
sns.lineplot(x=rolling_average_df.index, y=..., color="red", linewidth=2.5, label="Train")

In [None]:
# Schritt 5: Erstelle den 'Weekly Plot', um zu schauen, ob es eine Wöchentliche Säsonalität gibt.
plt.figure(figsize=(11, 5))
sns.lineplot(x=..., y=..., hue=df.index.isocalendar().week.astype(int), legend=False)
plt.title("Weekly Plot")

# Daten aufteilen

In [None]:
# Schritt 6: Unterteile die Daten in df_train und df_test, wobei df_train alle Daten bis 2018 enthält und df_test alle Daten ab 2018.
df_train = df[...]
df_test = df[...]

In [None]:
df_train

In [None]:
df_test

# Besten Wert für *'order'* bestimmen

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression
from statsmodels.tsa.deterministic import CalendarFourier, DeterministicProcess
import numpy as np

def best_order_cv(orders, y_train):
    best_order = None
    best_score = float('inf')

    for order in orders:
        fourier = CalendarFourier(freq="Y", order=order)
        # Schritt 7: Bestimme basierend auf deiner Beobachtung aus Schritt 4, welchen Wert der 'order'-Parameter in 'DeterministicProcess' erhalten soll.
        dp = DeterministicProcess(index=y_train.index, order=..., additional_terms=[fourier])
        X_train = dp.in_sample()
        model = LinearRegression()
        scores = cross_val_score(model, X_train, y_train, cv=4, scoring="neg_mean_absolute_error")
        mean_score = -np.mean(scores)

        if mean_score < best_score:
            best_order = order
            best_score = mean_score

    return best_order

In [None]:
# Schritt 8: Ermittle mit der Funktion 'best_order_cv()' den optimalen Wert für den 'order'-Parameter in 'CalendarFourier'.
result = best_order_cv([...], df_train["Stock Price"])
print("The best order is: ", result)

# Features generieren

In [None]:
# Schritt 9: Generiere die entsprechenden Features basierend auf den Ergebnissen der vorherigen Schritte.
fourier = CalendarFourier(freq="Y", order=...)
dp = DeterministicProcess(index=..., order=..., additional_terms=[fourier])

X = dp.in_sample()
X

In [None]:
# Schritt 10: Teile die Features mithilfe von '.loc' in X_train und X_test auf.
X_train = ...
X_test = ...

In [None]:
y_train = df_train["Stock Price"]
y_test = df_test["Stock Price"]

# Modell trainieren

In [None]:
from sklearn.linear_model import LinearRegression

# Schritt 11: Erstelle eine Instanz eines linearen Regressionsmodells und trainiere dieses Modell auf den Trainingsdaten.
model = ...
model.fit(..., ...)

# Modell visualisieren

In [None]:
# Schritt 12: Nutze das trainierte Modell, um Vorhersagen für die Trainingsdaten zu generieren.
train_predictions = ...

In [None]:
# Schritt 13: Visualisiere die Trainingsdaten und das Modell jeweils mit einem Lineplot.
plt.figure(figsize=(20, 6))
sns.lineplot(x=X_train.index, y=...)
sns.lineplot(x=X_train.index, y=..., color="red", linewidth=2.5, label="Train")

# Vorhersage auf den Testdaten

In [None]:
# Schritt 14: Nutze das trainierte Modell, um Vorhersagen für die Testdaten zu generieren.
test_predictions = ...

# Modellbewertung (Mean Absolute Error)

In [None]:
from sklearn.metrics import mean_absolute_error

# Schritt 15: Berechne den Mean Absolute Error (MAE) basierend auf den Vorhersagen und den Testdaten.
mae = mean_absolute_error(..., ...)
print("Mean Absolute Error:", mae)

In [None]:
# Schritt 16: Visualisiere die gesamten Daten, das Modell und die Vorhersagen für die Testdaten jeweils mit einem Lineplot.
plt.figure(figsize=(20, 6))
sns.lineplot(x=df.index, y=...)
sns.lineplot(x=X_train.index, y=..., color="red", linewidth=2.5, label="Train")
sns.lineplot(x=X_test.index, y=..., color="lightgreen", linewidth=2.5, label="Test")

# Prognosen für die nächsten drei Jahre:

In [None]:
# Schritt 17: Erstelle die erforderlichen Features, um Prognosen für die nächsten drei Jahre zu machen.
X_forecast = ...
X_forecast

In [None]:
# Schritt 18: Nutze das trainierte Modell, um Vorhersagen für die X_forecast zu generieren.
forecast_predictions = ...

In [None]:
# Schritt 19: Ergänze zu den Plots aus Schritt 16 einen weiteren Linienplot, um die Prognosen zu visualisieren.
plt.figure(figsize=(20, 6))
sns.lineplot(x=df.index, y=...)
sns.lineplot(x=X_train.index, y=..., color="red", linewidth=2.5, label="Train")
sns.lineplot(x=X_test.index, y=..., color="lightgreen", linewidth=2.5, label="Test")
sns.lineplot(x=X_forecast.index, y=..., color="orange", linewidth=2.5, label="Forecast")