In [None]:
import pandas as pd
import numpy as np
import time
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# CSV-Datei laden
df = pd.read_csv('dataset/clf_cat/eye_movements.csv')  # Passe den Pfad an deine Datei an

# Merkmale und Zieltrennung
X = df.drop(columns=['label'])  # 'label' ist die Zielvariable
y = df['label']

# RandomForestClassifier mit WEKA-ähnlichen Parametern
clf = RandomForestClassifier(
    n_estimators=100,       # Entspricht numIterations in WEKA
    max_depth=None,         # Entspricht maxDepth=0 in WEKA (keine Begrenzung)
    n_jobs=8                # Einzelne Ausführung, entspricht numExecutionSlots=1
)

# Experiment 10 Mal durchführen
n_experiments = 10
build_times = np.zeros(n_experiments)
evaluate_times = np.zeros(n_experiments)
accuracies = np.zeros(n_experiments)

for seed in range(n_experiments):
    print(f"Experiment {seed + 1} mit Seed {seed}")
    
    # Daten aufteilen (66% Training, 34% Test)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.34, random_state=seed)
    
    # Zeitmessung für das Modelltraining
    start_build = time.time()
    clf.fit(X_train, y_train)
    end_build = time.time()
    build_times[seed] = end_build - start_build
    
    # Zeitmessung für die Modellbewertung
    start_evaluate = time.time()
    y_pred = clf.predict(X_test)
    end_evaluate = time.time()
    evaluate_times[seed] = end_evaluate - start_evaluate
    
    # Genauigkeit berechnen
    accuracies[seed] = accuracy_score(y_test, y_pred)

# Gesamtergebnisse als Arrays ausgeben
print("Array der Trainingszeiten (build model):", build_times)
print("Array der Bewertungszeiten (evaluate):", evaluate_times)
print("Array der Genauigkeiten:", accuracies)

# Durchschnittsergebnisse
print(f"\nDurchschnittliche Trainingszeit (build model): {np.mean(build_times):.4f} Sekunden")
print(f"Durchschnittliche Bewertungszeit (evaluate): {np.mean(evaluate_times):.4f} Sekunden")
print(f"Durchschnittliche Genauigkeit: {np.mean(accuracies):.2%}")


Experiment 1 mit Seed 0
Experiment 2 mit Seed 1
Experiment 3 mit Seed 2
Experiment 4 mit Seed 3
Experiment 5 mit Seed 4
Experiment 6 mit Seed 5
Experiment 7 mit Seed 6
Experiment 8 mit Seed 7
Experiment 9 mit Seed 8
Experiment 10 mit Seed 9
Array der Trainingszeiten (build model): [0.31825423 0.31187153 0.33679032 0.31969142 0.34621859 0.31073236
 0.30908251 0.30998421 0.31065011 0.30280399]
Array der Bewertungszeiten (evaluate): [0.03783917 0.05322671 0.036237   0.03798246 0.04193759 0.03869081
 0.04241514 0.03619933 0.04323339 0.03930449]
Array der Genauigkeiten: [0.63084654 0.6289138  0.65597217 0.63703131 0.63741786 0.6385775
 0.63819095 0.64321608 0.63161964 0.64476227]

Durchschnittliche Trainingszeit (build model): 0.3176 Sekunden
Durchschnittliche Bewertungszeit (evaluate): 0.0407 Sekunden
Durchschnittliche Genauigkeit: 63.87%
