In [1]:
import os
import time
import csv
import numpy as np
import yfinance as yf
import pandas as pd
import matplotlib.pyplot as plt
from keras.models import Sequential
from keras.layers import LSTM, Dense, Dropout
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from keras.models import save_model, load_model
from keras.callbacks import EarlyStopping
import plotly.express as px
import plotly.graph_objs as go
import joblib

# Erstelle den Ordner zum Speichern der Modelle, falls nicht bereits vorhanden
os.makedirs('./models', exist_ok=True)


In [2]:
# Lade die historischen Daten einer Aktie (z.B. Apple)
symbol = "AAPL"  # Apple-Aktien
start_date = "2000-01-01"  # Startdatum für die Daten
end_date = "2024-10-10"    # Enddatum für die Daten

# CSV-Datei für die Ergebnisse
csv_filename = f'./results/hyperparameter_search_results_{start_date}_{end_date}.csv'
os.makedirs('./results', exist_ok=True)

# Daten herunterladen von Yahoo Finance
df = yf.download(symbol, start=start_date, end=end_date)

# Überprüfen der Daten
print(df.head())


[*********************100%***********************]  1 of 1 completed

                Open      High       Low     Close  Adj Close     Volume
Date                                                                    
2000-01-03  0.936384  1.004464  0.907924  0.999442   0.844004  535796800
2000-01-04  0.966518  0.987723  0.903460  0.915179   0.772846  512377600
2000-01-05  0.926339  0.987165  0.919643  0.928571   0.784155  778321600
2000-01-06  0.947545  0.955357  0.848214  0.848214   0.716296  767972800
2000-01-07  0.861607  0.901786  0.852679  0.888393   0.750226  460734400





In [3]:
# Daten aus den relevanten Spalten entnehmen
features = df[['Open', 'High', 'Low', 'Adj Close', 'Volume']]
target = df['Close']

# MinMaxScaler initialisieren und die Features skalieren
feature_scaler = MinMaxScaler(feature_range=(0, 1))
target_scaler = MinMaxScaler(feature_range=(0, 1))

scaled_features = feature_scaler.fit_transform(features)
scaled_target = target_scaler.fit_transform(target.values.reshape(-1, 1))

joblib.dump(feature_scaler, './scaler/feature_scaler.pkl')
joblib.dump(target_scaler, './scaler/target_scaler.pkl')

['./scaler/target_scaler.pkl']

In [4]:
val_size= 0.2
# Definiere die möglichen Werte für die Hyperparameter
hyperparameters = {
    'windowsize': [1, 2, 5, 10, 15, 20, 30, 60],
    'batchsize': [1, 5, 14, 30, 64, 128, 256, 512],
    'epochs': [30],
    'units': [1, 2, 5, 6, 8, 12, 16, 32, 64, 128],
    'lstm_layers': [1, 2, 3],
    'future_steps': [2, 3, 4, 5, 10, 30, 60]
}

In [5]:
# Prüfe, ob das Modell bereits existiert
def model_exists(window_size, future_steps, batch_size, epochs, units, lstm_layers):
    if os.path.exists(csv_filename):
        with open(csv_filename, 'r') as file:
            reader = csv.reader(file)
            for row in reader:
                if row[1:6] == [str(window_size), str(future_steps), str(batch_size), str(epochs), str(units), str(lstm_layers)]:
                    return True
    return False

# Schreibe oder appende die Ergebnisse in die CSV
def write_to_csv(model_name, window_size, future_steps, batch_size, epochs, units, lstm_layers, mse, mae, r2):
    file_exists = os.path.isfile(csv_filename)
    with open(csv_filename, 'a', newline='') as file:
        writer = csv.writer(file)
        if not file_exists:
            # Header hinzufügen, wenn die Datei neu erstellt wird
            writer.writerow(['Model Name', 'Window Size', 'Future Steps', 'Batch Size', 'Epochs', 'Units', 'LSTM Layers', 'MSE', 'MAE', 'R2'])
        writer.writerow([model_name, window_size, future_steps, batch_size, epochs, units, lstm_layers, mse, mae, r2])

def create_sliding_window(data, target, window_size, future_steps):
    """
    Erstellt Sliding-Window-Daten aus den Merkmalen und Zielwerten.
    :param data: Skalierte Eingabedaten (Features)
    :param target: Skalierte Zielwerte (Target)
    :param window_size: Anzahl der vorhergehenden Tage (Fenstergröße)
    :param future_steps: Anzahl der Tage in die Zukunft, die vorhergesagt werden
    :return: X, y - Arrays mit den Feature-Sequenzen und den Zielwerten
    """
    X, y = [], []
    for i in range(len(data) - window_size - future_steps):
        X.append(data[i:i + window_size])
        y.append(target[i + window_size:i + window_size + future_steps])
    return np.array(X), np.array(y)


# Zufällige Suche über die Hyperparameter
def random_search(n_iter=10):
    results = []

    for _ in range(n_iter):
        # Zufällige Auswahl von Hyperparametern
        window_size = np.random.choice(hyperparameters['windowsize'])
        batch_size = np.random.choice(hyperparameters['batchsize'])
        epochs = np.random.choice(hyperparameters['epochs'])
        units = int(np.random.choice(hyperparameters['units']))
        lstm_layers = np.random.choice(hyperparameters['lstm_layers'])
        future_steps = np.random.choice(hyperparameters['future_steps'])

        print(f"Iteration: {_}, window_size={window_size}, future_steps={future_steps}, batch_size={batch_size}, epochs={epochs}, units={units}, lstm_layers={lstm_layers}")

        # Prüfe, ob das Modell mit diesen Parametern bereits existiert
        if model_exists(window_size, future_steps, batch_size, epochs, units, lstm_layers):
            print(f"Modell mit den Parametern (ws={window_size}, future_steps={future_steps}, bs={batch_size}, ep={epochs}, units={units}, layers={lstm_layers}) existiert bereits. Überspringe...")
            continue

        # Daten vorbereiten mit aktuellem window_size und future_steps
        X, y = create_sliding_window(scaled_features, scaled_target, window_size=window_size, future_steps=future_steps)
        X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=val_size, random_state=42)

        # Modell erstellen
        model = Sequential()

        # Ersten LSTM Layer hinzufügen
        model.add(LSTM(units=units, return_sequences=True if lstm_layers > 1 else False, input_shape=(X_train.shape[1], X_train.shape[2])))
        model.add(Dropout(0.2))

        # Weitere LSTM Layer falls vorhanden
        for layer in range(1, lstm_layers):
            model.add(LSTM(units=units, return_sequences=False if layer == lstm_layers - 1 else True))
            model.add(Dropout(0.2))

        # Dense-Schicht hinzufügen
        model.add(Dense(units=future_steps))  # Vorhersage von mehreren Schritten

        # Modell kompilieren
        model.compile(optimizer='adam', loss='mean_squared_error')
        earlystop = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)
        
        # Modell trainieren
        history = model.fit(X_train, y_train, epochs=epochs, batch_size=batch_size, validation_data=(X_val, y_val), verbose=1, callbacks=[earlystop])

        # Berechnung der Metriken für den Zeitraum tmax - future_steps bis tmax (gesamter Datensatz)
         
        # Erstelle X_windowed für den gesamten Datensatz, um Vorhersagen zu machen
        X_windowed = create_sliding_window(scaled_features, scaled_target, window_size=window_size, future_steps=future_steps)[0]

        # Vorhersagen für die letzten future_steps Datenpunkte im gesamten Datensatz
        y_pred = model.predict(X_windowed)  # Vorhersagen auf den letzten verfügbaren Fenstern

        # Reshape der y_pred Array für die Rückskalierung basierend auf future_steps
        y_pred_reshaped = y_pred.reshape(-1, future_steps)

        # Den Skalierungsfaktor rückgängig machen, um die echten Werte wiederherzustellen
        y_pred_rescaled = target_scaler.inverse_transform(y_pred_reshaped)

        # Bestimme tmax als das Ende des Datensatzes
        tmax = len(scaled_target)

        # Berechne den Bereich von tmax - future_steps bis tmax (nur die letzten future_steps)
        start_idx = tmax - future_steps
        end_idx = tmax

        # Echte Werte aus dem Gesamt-Datensatz für diesen Zeitraum
        y_true_final_span = target_scaler.inverse_transform(scaled_target[start_idx:end_idx].reshape(-1, 1)).flatten()

        # Die vorhergesagten Werte für diesen Zeitraum
        y_pred_final_span = y_pred_rescaled[-1, :]  # Letzte Vorhersage für die finalen future_steps

        # Berechne die Metriken für den Zeitraum tmax - future_steps bis tmax
        mse = mean_squared_error(y_true_final_span, y_pred_final_span)
        mae = mean_absolute_error(y_true_final_span, y_pred_final_span)
        r2 = r2_score(y_true_final_span, y_pred_final_span)

        # Ausgabe der Metriken
        print(f"MSE für den Zeitraum tmax - future_steps bis tmax: {mse}")
        print(f"MAE für den Zeitraum tmax - future_steps bis tmax: {mae}")
        print(f"R2 für den Zeitraum tmax - future_steps bis tmax: {r2}")

        # Modellname basierend auf einem Zeitstempel
        timestamp = time.strftime("%Y%m%d-%H%M%S")
        model_name = f"model_{timestamp}_ws{window_size}_fs{future_steps}_bs{batch_size}_epochs{epochs}_units{units}_layers{lstm_layers}.keras"
        save_model(model, f'./models/{model_name}')

        # Ergebnis in die CSV-Datei schreiben
        write_to_csv(model_name, window_size, future_steps, batch_size, epochs, units, lstm_layers, mse, mae, r2)

        # Ergebnis in die Resultsliste einfügen
        results.append((window_size, future_steps, batch_size, epochs, units, lstm_layers, mse, mae, r2, model_name))

    # Ergebnisse sortieren nach dem besten MSE
    results = sorted(results, key=lambda x: x[5])  # Sortiere nach MSE
    best_params = results[0]

    print("\nBeste Hyperparameter-Kombination:")
    print(f"window_size={best_params[0]}, future_steps={best_params[1]}, batch_size={best_params[2]}, epochs={best_params[3]}, units={best_params[4]}, lstm_layers={best_params[5]}")

    return results


In [None]:
# Beispielhafte Ausführung der Funktion
results = random_search(n_iter=50)

Iteration: 0, window_size=1, future_steps=5, batch_size=30, epochs=30, units=64, lstm_layers=3
Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
MSE für den Zeitraum tmax - future_steps bis tmax: 141.53744794121013
MAE für den Zeitraum tmax - future_steps bis tmax: 11.530401611328125
R2 für den Zeitraum tmax - future_steps bis tmax: -21.217108480898123
Iteration: 1, window_size=5, future_steps=30, batch_size=256, epochs=30, units=8, lstm_layers=3
Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30
MSE für den Zeitraum tmax - future_steps 

In [None]:
import plotly.colors as pc

def plot_predictions_from_models(X_data, y_data, data_type, dates, model_names=None, csv_filename='./results/hyperparameter_search_results.csv', save_fig=True):
    """
    Diese Funktion plotet die Vorhersagen ausgewählter Modelle gegen den echten Kurs.
    :param X_data: Die Eingangsdaten (Features).
    :param y_data: Die echten Zielwerte (z.B. Aktienkurs).
    :param data_type: Typ der Daten ('Train', 'Test').
    :param dates: Liste oder Serie der Datumswerte (X-Achse).
    :param model_names: Liste von Modellnamen oder einzelner Modellname. Wenn None, werden alle Modelle aus der CSV-Datei verwendet.
    :param csv_filename: Pfad zur CSV-Datei mit Modellinformationen.
    :param save_fig: Wenn True, wird die Figur gespeichert.
    """
    
    # Scaler laden
    scaler = joblib.load('./scaler/target_scaler.pkl')
    
    # CSV-Datei laden
    df = pd.read_csv(csv_filename)
    
    # Wenn keine Modellnamen übergeben werden, alle Modelle aus der CSV verwenden
    if model_names is None:
        model_names = df['Model Name'].tolist()
    elif isinstance(model_names, str):  # Falls nur ein einzelner Modellname übergeben wird
        model_names = [model_names]

    # Rückskalieren der echten Werte
    y_data_rescaled = scaler.inverse_transform(y_data.reshape(-1, 1))

    # Erstelle einen Plotly-Plot
    fig = go.Figure()

    # Füge die echten Werte hinzu (dicke schwarze Linie)
    fig.add_trace(go.Scatter(x=dates, y=y_data_rescaled.flatten(), mode='lines', name=f'Echte {data_type} Werte', line=dict(color='black', width=3)))

    # Farben für die Modelle festlegen
    model_colors = pc.qualitative.Set1  # Eine Liste von Plotly-Farben (bis zu 9 verschiedene Farben)

    # Vorhersagen der ausgewählten Modelle plotten
    for idx, model_name in enumerate(model_names):
        if model_name in df['Model Name'].values:
            # Extrahiere den window_size und future_steps aus dem Modellnamen (z.B. 'model_20211010-101010_ws30_fs5_...')
            window_size = int(model_name.split('_ws')[1].split('_')[0])
            future_steps = int(model_name.split('_fs')[1].split('_')[0])  # Hier future_steps extrahieren

            # Bereite die Daten für das Modell mit der extrahierten window_size vor
            X_windowed = create_windowed_data_for_model(X_data, window_size)

            # Lade das Modell
            model = load_model(f'./models/{model_name}', compile=False)

            # Vorhersagen machen
            y_pred = model.predict(X_windowed)

            # Reshape der y_pred Array für die Rückskalierung basierend auf future_steps
            y_pred_reshaped = y_pred.reshape(-1, future_steps)

            # Rückskalieren der Vorhersagen
            y_pred_rescaled = scaler.inverse_transform(y_pred_reshaped)

            # Plot der Vorhersagen (Punkte von tmax-future_steps bis tmax)
            tmax = len(y_data_rescaled)  # Das Ende des Zeitraums
            prediction_indices = range(tmax - future_steps, tmax)  # Indizes für die Vorhersagen
            fig.add_trace(go.Scatter(
                x=[dates[i] for i in prediction_indices],  # Datumswerte für die Vorhersagepunkte
                y=y_pred_rescaled[-1, :],  # Letztes Fenster verwenden
                mode='markers',
                name=f'{model_name} (Vorhersage)',
                marker=dict(symbol='circle', size=8, color=model_colors[idx % len(model_colors)])  # Gleiche Farbe für Modell
            ))

            # Plot der Eingabedaten (Punkte von tmax-future_steps-windowsize bis tmax-future_steps)
            input_indices = range(tmax - future_steps - window_size, tmax - future_steps)  # Indizes für die Eingabedaten
            fig.add_trace(go.Scatter(
                x=[dates[i] for i in input_indices],  # Datumswerte für die Eingabedaten
                y=y_data_rescaled[input_indices].flatten(),  # Eingabewerte
                mode='markers',
                name=f'{model_name} (Eingabe)',
                marker=dict(symbol='x', size=8, color=model_colors[idx % len(model_colors)])  # Gleiche Farbe wie Vorhersage
            ))

        else:
            print(f"Modell {model_name} wurde in der CSV-Datei nicht gefunden.")

    # Layout des Plots
    fig.update_layout(
        title=f'Vorhersagen der Modelle auf {data_type}daten',
        xaxis_title='Zeit',
        yaxis_title='Preis',
        showlegend=True
    )

    # Plot anzeigen
    fig.show(renderer='browser')
    
    # Optionales Speichern des Plots
    if save_fig:
        fig.write_html(f"./plots/{time.strftime('%Y%m%d-%H%M%S')}.html")


def create_windowed_data_for_model(X_data, window_size):
    """
    Bereitet die Daten so vor, dass sie für Modelle mit unterschiedlicher window_size verwendet werden können.
    :param X_data: Originale Daten, die vorfenstert werden sollen.
    :param window_size: Die Fenstergröße, die für das Modell verwendet wurde.
    :return: Fensterartige Daten für das Modell.
    """
    X_windowed = []
    for i in range(window_size, len(X_data)):
        X_windowed.append(X_data[i - window_size:i])
    return np.array(X_windowed)


In [10]:
plot_predictions_from_models(scaled_features, scaled_target, data_type='Prediction', csv_filename=csv_filename, dates=df.index)



In [None]:
plot_predictions_from_models(scaled_features, scaled_target, data_type='Prediction', model_names=['model_20241011-171432_ws1_bs5_epochs30_units64_layers1.keras'], csv_filename=csv_filename)