In [2]:
# 1. Bibliotheken importieren
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, classification_report

# 2. CSV-Datei laden
df = pd.read_csv("C:/Users/Nael Ackle/OneDrive - BBBaden/Dokumente/IAP/Modul 259/main.csv")

# 3. Zielklassifikation erstellen: "Close" in Klassen unterteilen (hoch / normal)
grenzwert = df["Close"].quantile(0.75)  # oberes Quartil
df["Close_Klasse"] = (df["Close"] >= grenzwert).astype(int)  # 1 = hoch, 0 = normal

# 4. Features und Ziel festlegen
X = df[["Open", "High", "Low", "Volume"]]
y = df["Close_Klasse"]

# 5. Trainings- und Testdaten aufteilen
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 6. Logistisches Regressionsmodell erstellen und trainieren
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

# 7. Vorhersagen erzeugen
y_pred = model.predict(X_test)

# 8. Confusion Matrix ausgeben
print("Confusion Matrix:")
cm = confusion_matrix(y_test, y_pred)
print(cm)

# 9. Klassifikationsbericht ausgeben
print("\nKlassifikationsbericht:")
print(classification_report(y_test, y_pred, target_names=["normal", "hoch"]))

# 10. Spezifität manuell berechnen
tn, fp, fn, tp = cm.ravel()
spezifitaet = tn / (tn + fp)
print(f"Spezifität: {spezifitaet:.4f}")


Confusion Matrix:
[[28183    22]
 [   27  9432]]

Klassifikationsbericht:
              precision    recall  f1-score   support

      normal       1.00      1.00      1.00     28205
        hoch       1.00      1.00      1.00      9459

    accuracy                           1.00     37664
   macro avg       1.00      1.00      1.00     37664
weighted avg       1.00      1.00      1.00     37664

Spezifität: 0.9992


### Bewertung und Fazit

Das Modell zeigt aussergewöhnlich gute Ergebnisse mit einer Genauigkeit von nahezu 100 %. Sowohl Sensitivität als auch Spezifität sind extrem hoch.
Die Confusion Matrix bestätigt, dass fast alle Vorhersagen korrekt getroffen wurden. 
Solch ein Ergebnis deutet darauf hin, dass die Klassen sehr gut voneinander getrennt werden können – möglicherweise aufgrund einer starken Korrelation zwischen den Eingabedaten und der Zielvariable.
Für eine Klassifikation von „hohen“ vs. „normalen“ Schlusskursen ist dieses Modell sehr gut geeignet.
