Zunächst wird eine Verbindung zu einer SQL Server-Datenbank hergestellt und es werden Aktiendaten für ein spezifisches Unternehmen extrahiert. Zur weiteren Bearbeitung wird eine Transformation der Daten angewandt.

In [None]:
import pyodbc
import yfinance as yf
import pandas as pd
from sqlalchemy import create_engine
import datetime
from datetime import date, timedelta

# Verbindungsstring
conn_str = (
    r'Driver=SQL Server;'
    r'Server=.\SQLEXPRESS;'
    r'Database=studienprojekt;'
    r'Trusted_Connection=yes;'
)

# Verbindung zur Datenbank herstellen
cnxn = pyodbc.connect(conn_str)

# SQLAlchemy connectable erstellen
engine = create_engine('mssql+pyodbc://', creator=lambda: cnxn)

# Tabelle prüfen
# BITTE HIER DATUM UND COMPANY ÄNDERN
table_name = "stock_data"  # Name der Zieltabelle
start_date = "2020-07-01"  # Startdatum, ab dem Daten überprüft werden sollen
end_date = "2023-07-01"  # Enddatum, bis zu dem Daten überprüft werden sollen
company_name = "AAPL"  # nur AAPL, MSFT oder GOOG möglich // Name des Unternehmens, für das Daten geladen werden sollen

# Daten aus der Tabelle für das bestimmte Unternehmen in einen DataFrame laden
select_query = f"SELECT * FROM {table_name} WHERE date >= ? AND date <= ? AND Company = ?"
data = pd.read_sql(select_query, con=engine, params=(start_date, end_date, company_name))

# added
data["ID"] = data.index
data = data[["ID", "Date", "Company", "Type", "Open", "High", "Low", "Close", "Volume"]]
data.reset_index(drop=True, inplace=True)

# Verbindung schließen
cnxn.close()

# DataFrame anzeigen
print(data.tail())


Der historische Kursverlauf der Close-Werte wird in einemLiniendiagramm visualisiert.

In [None]:
import matplotlib.pyplot as plt
plt.style.use('bmh')
plt.figure(figsize=(15, 10))
plt.plot(data["Date"], data["Close"])

`seasonal_decompose` ist eine Funktion, die eine Zeitreihe in drei verschiedene Komponenten zerlegt:

- Trend: Die zugrundeliegende Tendenz der Zeitreihen. Dabei werden steigende und fallende Tendenzen abgebildet.
- Saisonalität: Periodische Schwankungen. Zum Beispiel könnte der Aktienkurs tendenziell während bestimmter Zeiten eines Jahres steigen oder fallen.
- Residual: Der Teil der Zeitreihe, der nicht durch Trend und Saisonalität erklärt werden kann.

Folgende Parameter werden verwendet:

- `data["Close"]`: Die zu analysierende Zeitreihe der Close-Werte
- `model='multiplicative'`: Das zu verwendende Modell für die Zerlegung. Ein multiplikatives Modell ist geeignet, wenn die Amplitude der saisonalen Schwankungen mit der Zeit zunimmt oder abnimmt.
- `period=30`: Die Länge des saisonalen Zyklus. In diesem Fall wird davon ausgegangen, dass sich die saisonalen Schwankungen alle 30 Tage wiederholen.

In [None]:
from statsmodels.tsa.seasonal import seasonal_decompose
result = seasonal_decompose(data["Close"], model='multiplicative', period=30)
fig = plt.figure()  
fig = result.plot() 

Die Funktion `pd.plotting.autocorrelation_plot()` ist eine visuelle Hilfsmethode, um die Autokorrelation in einer Zeitreihe darzustellen. Autokorrelation, auch bekannt als serielle Korrelation, bezeichnet die Korrelation eines Elements in einer Serie mit anderen Elementen aus derselben Serie, die von früheren Zeitschritten stammen.

Das Autokorrelationsdiagramm hilft zu erkennen, ob es eine Muster oder eine Beziehung zwischen den Werten einer Zeitspanne gibt und den Werten aus vorherigen Zeitspannen.

In [None]:
pd.plotting.autocorrelation_plot(data["Close"])

Die Funktion `plot_pacf` aus der `statsmodels.graphics.tsaplots` Bibliothek wird verwendet, um das partielle Autokorrelationsdiagramm für die gegebenen Zeitreihendaten zu erstellen. 

Ein Diagramm der partiellen Autokorrelation gibt Auskunft über die direkte Beziehung eines gegebenen Lags mit der aktuellen Zeitspanne, nachdem die Effekte aller kleineren Lags herausgerechnet wurden. 

Hier sind die Parameter, die in der Funktion verwendet werden:

- `data["Close"]`: Die zu analysierende Zeitreihe (in diesem Fall die Schlusskurse der Aktien).
- `lags=100`: Die Anzahl der Lags, die im Diagramm angezeigt werden sollen. Ein Lag ist eine zeitliche Verzögerung.
- `method='ywm'`: Die Methode zur Schätzung der partiellen Autokorrelation. 'ywm' steht für die Yule-Walker-Gleichungen mit Modifikationen entsprechend der Methode von Levinson-Durbin.

Insgesamt zeigt dieser Codeabschnitt ein Diagramm, das die partielle Autokorrelation der Schlusskurse über 100 Lags hinweg darstellt. Diese Art von Diagramm kann nützlich sein, um die Anzahl der Lags zu bestimmen, die in einem autoregressiven Prognosemodell verwendet werden sollten.

In [None]:
from statsmodels.graphics.tsaplots import plot_pacf
plot_pacf(data["Close"], lags=100, method='ywm')

ARIMA ist ein gebräuchlicher Algorithmus für die Vorhersage von Zeitreihen. Er basiert auf drei zentralen Parametern:

- `p` steht für die Anzahl der zurückliegenden Datenpunkte, die berücksichtigt werden, um den nächsten Punkt zu prognostizieren. Dies ist der autoregressive Aspekt des Modells.
- `d` repräsentiert die notwendigen Differenzbildungen, um die Zeitreihe stationär zu machen. Dies ist der integrierte Aspekt des Modells.
- `q` bezieht sich auf die Anzahl der vorhergehenden Fehler, die in das Modell einfließen. Dies ist der gleitende Durchschnittsaspekt des Modells.

In der Funktion `auto_arima` wird das 'Close'-Feld aus unseren Börsendaten als eindimensionales Array übergeben. Die Funktion probiert verschiedene Kombinationen von `p`, `d` und `q` aus und wählt diejenige aus, die das beste Modell ergibt (das heißt, das Modell mit dem niedrigsten AIC-Wert).

Die Einstellung `seasonal=False` teilt dem Modell mit, dass es keine saisonalen Komponenten berücksichtigen soll, während `trace=True` bewirkt, dass der Fortschritt der Funktion während der Ausführung angezeigt wird.

Zum Schluss werden die optimalen Werte für `p`, `d` und `q` ausgegeben und in den entsprechenden Variablen gespeichert.

In [None]:
import pandas as pd
import numpy as np
from pmdarima import auto_arima

# Annahme: Sie haben Ihre Zeitreihendaten in einem DataFrame namens 'data' geladen

# Die Zeitreihendaten in eine eindimensionale NumPy-Array-ähnliche Struktur umwandeln
y = np.array(data['Close'])

# AutoARIMA-Modell erstellen und anpassen, um die optimalen Parameterwerte zu ermitteln
model = auto_arima(y, seasonal=False, trace=True)

# Die optimalen Parameterwerte für P, D und Q ausgeben
print(f"Optimale Werte für P, D und Q: {model.order}")
p, d, q = model.order


Es wurden verschiedene Kombinationen von P, D und Q getestet und dabei jeweils den AIC (Akaike Information Criterion) berechnet. Die AIC ist eine Maßzahl für die Güte eines statistischen Modells: Je kleiner der AIC-Wert, desto besser passt das Modell zu den Daten, wenn man die Komplexität des Modells mit einbezieht.

Im gegebenen Fall war das beste Modell ARIMA(0,1,0), weil es den niedrigsten AIC-Wert hatte (3679.890). Die optimalen Werte für P, D und Q waren also 0, 1 und 0. Dies bedeutet:

    P (Ordnung des autoregressiven Teils): 0 – Es werden keine vorherigen Datenpunkte zur Vorhersage des nächsten Punktes verwendet.
    D (Integrationsgrad): 1 – Die Zeitreihe wurde einmal differenziert, um sie stationär zu machen.
    Q (Ordnung des gleitenden Durchschnitts): 0 – Es werden keine vorherigen Fehler in das Modell einbezogen.

In [None]:
#predictions = fitted.predict()
#print(predictions)

SARIMAX wird verwendet, um ein saisonales autoregressives, integriertes gleitendes Durchschnittsmodell (Seasonal AutoRegressive Integrated Moving Average, SARIMA) zu erstellen und an die Daten anzupassen. Dies ist eine Erweiterung des ARIMA-Modells, das die saisonale Komponente in den Daten berücksichtigt.

Es werden 4 Parameter übernommen: die Zeitreihendaten, die Ordnung des Modells (p, d und q), und die saisonale Ordnung des Modells. Hier sind die Schlusskurse ('Close') aus den Aktiendaten die Zeitreihendaten und die durch auto_arima ermittelten optimalen Werte werden als Ordnung des Modells und der saisonalen Ordnung übergeben. Die Zahl 12 in der saisonalen Ordnung bedeutet, dass die Saisonalität auf jährlicher Basis betrachtet wird (12 Monate).

In [None]:
import statsmodels.api as sm
import warnings
import time

# Startzeit messen
start_time = time.time()

model = sm.tsa.statespace.SARIMAX(data['Close'],
                                 order=(p, d, q),
                                 seasonal_order=(p, d, q, 12))
model = model.fit()

# Endzeit messen
end_time = time.time()

# Gesamtdauer berechnen
duration = end_time - start_time

print(model.summary())
print("Durchlaufdauer:", duration, "Sekunden")

Es wird eine Vorhersage für die nächsten 30 Tage gemacht

In [None]:
predictions = model.predict(len(data), len(data)+30)
print(predictions)

Die Vorhersage der nächsten 30 Tage wird nun visualisiert. Es werden die historischen Daten mit denen trainiert wurde und die Vorhersage in einem Liniendiagramm abgebildet.

In [None]:
data["Close"].plot(legend=True, label="Training Data", figsize=(15, 10))
predictions.plot(legend=True, label="Predictions")

Zuerst werden zukünftige Daten generiert, indem ein `pd.date_range`-Objekt erstellt wird, das mit dem Tag nach dem letzten Datum in den Daten beginnt und für die nächsten 30 Tage andauert.

Ein neuer DataFrame `df_predictions` wird erstellt, der die zukünftigen Daten und die entsprechenden Vorhersagen enthält.

Dann wird dieser neue DataFrame an den ursprünglichen DataFrame angehängt, um einen erweiterten DataFrame `data_extended` zu erstellen, der sowohl die ursprünglichen Daten als auch die Vorhersagen enthält.

Anschließend wird ein Plot erstellt, der die Schlusskurse mit Datum abbildet. Die ursprüngliche Zeitreihe wird zusammen mit den Vorhersagen für die nächsten 30 Tage gezeichnet. 

In [None]:
# Vorhersagen für die nächsten 30 Tage erhalten
#predictions = model.predict(len(data), len(data) + 29)  # 30 Tage Vorhersagen

# Daten für die nächsten 30 Tage generieren
future_dates = pd.date_range(start=data['Date'].iloc[-1] + timedelta(days=1), periods=30)

# Ein DataFrame für die Vorhersagen erstellen
df_predictions = pd.DataFrame({
    'Date': future_dates,
    'Close': predictions
})

# DataFrame erweitern, indem Sie die Vorhersagen anhängen
data_extended = pd.concat([data, df_predictions])

# Plot erstellen
plt.figure(figsize=(12, 6))
plt.plot(data_extended['Date'], data_extended['Close'], label='Original')
plt.plot(data_extended['Date'].tail(30), data_extended['Close'].tail(30), label='Vorhersagen')
plt.xlabel('Datum')
plt.ylabel('Close')
plt.title('Vorhersagen für Close-Preise')
plt.legend()
plt.grid(True)
plt.show()

In [None]:
import numpy as np

# Key einbinden
company = data.loc[0]['Company']
data_extended['Company'] = company
data_extended['Type'] = data_extended['High'].apply(lambda x: f'Arima_{company}' if np.isnan(x) else f'Act_{company}')
data_extended.loc[data_extended['Type'].str.contains('Arima'), 'Forecast_Date'] = end_date
data_extended['Key'] = data_extended['Company'] + '_' + data_extended['Date'].astype(str) + '_' + data_extended['Type']


In [None]:
import pyodbc
from sqlalchemy import create_engine
import pandas as pd
import numpy as np
import warnings

# Deaktivieren der Pandas-Warnungen
warnings.filterwarnings('ignore', category=UserWarning)

# Verbindungsstring
conn_str = (
    r'Driver=SQL Server;'
    r'Server=.\SQLEXPRESS;'
    r'Database=studienprojekt;'
    r'Trusted_Connection=yes;'
)

# Verbindung zur Datenbank herstellen
cnxn = pyodbc.connect(conn_str)

# SQLAlchemy connectable erstellen
engine = create_engine('mssql+pyodbc://', creator=lambda: cnxn)

# Query erstellen, um alle Daten auszulesen
query = "SELECT * FROM stock_data_forecast"

# Ausführen der Query und Laden der Ergebnisse in einen DataFrame
exists_df = pd.read_sql(query, cnxn)

# added
exists_df = exists_df.astype(data_extended.dtypes)
exists_df = exists_df.reindex(columns=data_extended.columns)

# Key einbinden
exists_df['Key'] = exists_df['Company'] + '_' + exists_df['Date'].astype(str) + '_' + exists_df['Type']

In [None]:
# Zusammenführen der beiden DataFrames
combined_df = pd.concat([exists_df, data_extended])

In [None]:
# Entfernen von Duplikaten
combined_df = combined_df.drop_duplicates(subset=['Key'], keep=False)

In [None]:
# Schreiben des aktualisierten DataFrames in die SQL Server-Tabelle
combined_df.to_sql('stock_data_forecast', con=engine, if_exists='append', index=False)

# Anzahl der geschriebenen Zeilen erhalten
num_written_rows = combined_df.shape[0]
print(f"Es wurden {num_written_rows} Zeilen erfolgreich übertragen.")

exists_df = pd.read_sql('SELECT * FROM stock_data_forecast', cnxn)
exists_df.drop_duplicates(subset='Key', inplace=True)

# Verbindung schließen
cnxn.close()
print(f"Die Verbindung ist wieder geschlossen.")

In [None]:
# Darstellung der übertragenen Daten
combined_df