Random Forest with 100 Trees

In [None]:
import pandas as pd
import numpy as np
import time
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

df = pd.read_csv('dataset/clf_cat/eye_movements.csv')

X = df.drop(columns=['label'])
y = df['label']

clf = RandomForestClassifier(
    n_estimators=100,       
    max_depth=None,    
    n_jobs=8
)

n_experiments = 10
build_times = np.zeros(n_experiments)
evaluate_times = np.zeros(n_experiments)
accuracies = np.zeros(n_experiments)

for seed in range(n_experiments):
    print(f"Experiment {seed + 1} mit Seed {seed}")
    

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.34, random_state=seed)
    

    start_build = time.time()
    clf.fit(X_train, y_train)
    end_build = time.time()
    build_times[seed] = end_build - start_build
    
    start_evaluate = time.time()
    y_pred = clf.predict(X_test)
    end_evaluate = time.time()
    evaluate_times[seed] = end_evaluate - start_evaluate
    
    accuracies[seed] = accuracy_score(y_test, y_pred)

print("Array der Trainingszeiten (build model):", build_times)
print("Array der Bewertungszeiten (evaluate):", evaluate_times)
print("Array der Genauigkeiten:", accuracies)

print(f"\nDurchschnittliche Trainingszeit (build model): {np.mean(build_times):.4f} Sekunden")
print(f"Durchschnittliche Bewertungszeit (evaluate): {np.mean(evaluate_times):.4f} Sekunden")
print(f"Durchschnittliche Genauigkeit: {np.mean(accuracies):.2%}")


Experiment 1 mit Seed 0
Experiment 2 mit Seed 1
Experiment 3 mit Seed 2
Experiment 4 mit Seed 3
Experiment 5 mit Seed 4
Experiment 6 mit Seed 5
Experiment 7 mit Seed 6
Experiment 8 mit Seed 7
Experiment 9 mit Seed 8
Experiment 10 mit Seed 9
Array der Trainingszeiten (build model): [0.38863659 0.35514522 0.35697985 0.3656733  0.35609889 0.3528266
 0.37509656 0.36005664 0.3426609  0.33834624]
Array der Bewertungszeiten (evaluate): [0.02842355 0.0254097  0.02718568 0.02577806 0.02510595 0.02578998
 0.02505445 0.02609372 0.02426958 0.02602243]
Array der Genauigkeiten: [0.63239273 0.63277928 0.65597217 0.64630847 0.62388867 0.63509857
 0.63741786 0.64166989 0.62736761 0.63548512]

Durchschnittliche Trainingszeit (build model): 0.3592 Sekunden
Durchschnittliche Bewertungszeit (evaluate): 0.0259 Sekunden
Durchschnittliche Genauigkeit: 63.68%


Random Forest 250 Trees

In [None]:
import pandas as pd
import numpy as np
import time
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

df = pd.read_csv('dataset/clf_cat/eye_movements.csv')

X = df.drop(columns=['label'])
y = df['label']

clf = RandomForestClassifier(
    n_estimators=100,       
    max_depth=None,    
    n_jobs=8
)

n_experiments = 10
build_times = np.zeros(n_experiments)
evaluate_times = np.zeros(n_experiments)
accuracies = np.zeros(n_experiments)

for seed in range(n_experiments):
    print(f"Experiment {seed + 1} mit Seed {seed}")
    

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.34, random_state=seed)
    

    start_build = time.time()
    clf.fit(X_train, y_train)
    end_build = time.time()
    build_times[seed] = end_build - start_build
    
    start_evaluate = time.time()
    y_pred = clf.predict(X_test)
    end_evaluate = time.time()
    evaluate_times[seed] = end_evaluate - start_evaluate
    
    accuracies[seed] = accuracy_score(y_test, y_pred)

print("Array der Trainingszeiten (build model):", build_times)
print("Array der Bewertungszeiten (evaluate):", evaluate_times)
print("Array der Genauigkeiten:", accuracies)

print(f"\nDurchschnittliche Trainingszeit (build model): {np.mean(build_times):.4f} Sekunden")
print(f"Durchschnittliche Bewertungszeit (evaluate): {np.mean(evaluate_times):.4f} Sekunden")
print(f"Durchschnittliche Genauigkeit: {np.mean(accuracies):.2%}")


Experiment 1 mit Seed 0
Experiment 2 mit Seed 1
Experiment 3 mit Seed 2
Experiment 4 mit Seed 3
Experiment 5 mit Seed 4
Experiment 6 mit Seed 5
Experiment 7 mit Seed 6
Experiment 8 mit Seed 7
Experiment 9 mit Seed 8
Experiment 10 mit Seed 9
Array der Trainingszeiten (build model): [0.95044351 0.85604191 0.85919404 0.87604022 0.85810757 0.85887909
 0.8578198  0.85297894 0.83590055 0.842314  ]
Array der Bewertungszeiten (evaluate): [0.05595541 0.06198668 0.05432224 0.05699754 0.05700135 0.06400013
 0.05571461 0.05844927 0.05634522 0.05624962]
Array der Genauigkeiten: [0.64089679 0.64940085 0.66486278 0.6393506  0.63741786 0.64128334
 0.6393506  0.65829146 0.64051024 0.64630847]

Durchschnittliche Trainingszeit (build model): 0.8648 Sekunden
Durchschnittliche Bewertungszeit (evaluate): 0.0577 Sekunden
Durchschnittliche Genauigkeit: 64.58%


Python WEKA Wrapper

In [1]:
import pandas as pd
import time
import weka.core.jvm as jvm
from weka.classifiers import Classifier, Evaluation
from weka.core.converters import Loader
from weka.core.classes import Random
from weka.filters import Filter
import numpy as np

# JVM starten
jvm.start()

# CSV-Datei laden und in WEKA-Format umwandeln
loader = Loader(classname="weka.core.converters.CSVLoader")
data = loader.load_file("dataset/clf_cat/eye_movements.csv")
data.class_is_last()  # Die Zielspalte (label) ist die letzte Spalte

# NumericToNominal Filter anwenden, um die Zielvariable nominal zu machen
num_to_nominal = Filter(classname="weka.filters.unsupervised.attribute.NumericToNominal", options=["-R", "last"])
num_to_nominal.inputformat(data)
data = num_to_nominal.filter(data)

# RandomForestClassifier in WEKA
clf = Classifier(classname="weka.classifiers.trees.RandomForest", options=["-I", "100", "-depth", "0", "-num-slots", "8"])


# Experiment 10 Mal durchführen
n_experiments = 10
build_times = np.zeros(n_experiments)
evaluate_times = np.zeros(n_experiments)
accuracies = np.zeros(n_experiments)

for seed in range(n_experiments):
    print(f"Experiment {seed + 1} mit Seed {seed}")

    # Daten zufällig aufteilen (66% Training, 34% Test)
    train, test = data.train_test_split(66, Random(seed))

    # Zeitmessung für das Modelltraining
    start_build = time.time()
    clf.build_classifier(train)
    end_build = time.time()
    build_times[seed] = end_build - start_build

    # Zeitmessung für die Modellbewertung
    evaluator = Evaluation(train)
    start_evaluate = time.time()
    evaluator.test_model(clf, test)
    end_evaluate = time.time()
    evaluate_times[seed] = end_evaluate - start_evaluate

    # Genauigkeit berechnen
    accuracies[seed] = evaluator.percent_correct / 100

# JVM stoppen
jvm.stop()

# Ergebnisse in Array-Format ausgeben
print("Array der Trainingszeiten (build model):", build_times)
print("Array der Bewertungszeiten (evaluate):", evaluate_times)
print("Array der Genauigkeiten:", accuracies)

# Durchschnittsergebnisse
print(f"\nDurchschnittliche Trainingszeit (build model): {np.mean(build_times):.4f} Sekunden")
print(f"Durchschnittliche Bewertungszeit (evaluate): {np.mean(evaluate_times):.4f} Sekunden")
print(f"Durchschnittliche Genauigkeit: {np.mean(accuracies):.2%}")


DEBUG:weka.core.jvm:Adding bundled jars
DEBUG:weka.core.jvm:Classpath=['c:\\Users\\jakob\\anaconda3\\Lib\\site-packages\\weka\\lib\\arpack_combined.jar', 'c:\\Users\\jakob\\anaconda3\\Lib\\site-packages\\weka\\lib\\core.jar', 'c:\\Users\\jakob\\anaconda3\\Lib\\site-packages\\weka\\lib\\mtj.jar', 'c:\\Users\\jakob\\anaconda3\\Lib\\site-packages\\weka\\lib\\python-weka-wrapper.jar', 'c:\\Users\\jakob\\anaconda3\\Lib\\site-packages\\weka\\lib\\weka.jar']
DEBUG:weka.core.jvm:MaxHeapSize=default
DEBUG:weka.core.jvm:Package support disabled


Experiment 1 mit Seed 0
Experiment 2 mit Seed 1
Experiment 3 mit Seed 2
Experiment 4 mit Seed 3
Experiment 5 mit Seed 4
Experiment 6 mit Seed 5
Experiment 7 mit Seed 6
Experiment 8 mit Seed 7
Experiment 9 mit Seed 8
Experiment 10 mit Seed 9
Array der Trainingszeiten (build model): [0.84611702 0.47737217 0.37609601 0.36891961 0.3804636  0.35499144
 0.39613819 0.37833309 0.37393522 0.36926889]
Array der Bewertungszeiten (evaluate): [0.16004443 0.13996053 0.19094801 0.17208815 0.19006944 0.14904475
 0.12917066 0.16304278 0.16303301 0.18009448]
Array der Genauigkeiten: [0.63741786 0.64321608 0.63355238 0.64398918 0.6490143  0.63780441
 0.64437572 0.64553537 0.63703131 0.63007344]

Durchschnittliche Trainingszeit (build model): 0.4322 Sekunden
Durchschnittliche Bewertungszeit (evaluate): 0.1637 Sekunden
Durchschnittliche Genauigkeit: 64.02%


In [1]:
import pandas as pd
import time
import weka.core.jvm as jvm
from weka.classifiers import Classifier, Evaluation
from weka.core.converters import Loader
from weka.core.classes import Random
from weka.filters import Filter
import numpy as np

# JVM starten
jvm.start()

# CSV-Datei laden und in WEKA-Format umwandeln
loader = Loader(classname="weka.core.converters.CSVLoader")
data = loader.load_file("dataset/clf_cat/eye_movements.csv")
data.class_is_last()  # Die Zielspalte (label) ist die letzte Spalte

# NumericToNominal Filter anwenden, um die Zielvariable nominal zu machen
num_to_nominal = Filter(classname="weka.filters.unsupervised.attribute.NumericToNominal", options=["-R", "last"])
num_to_nominal.inputformat(data)
data = num_to_nominal.filter(data)

# RandomForestClassifier in WEKA
clf = Classifier(classname="weka.classifiers.trees.RandomForest", options=["-I", "250", "-depth", "0", "-num-slots", "8"])


# Experiment 10 Mal durchführen
n_experiments = 10
build_times = np.zeros(n_experiments)
evaluate_times = np.zeros(n_experiments)
accuracies = np.zeros(n_experiments)

for seed in range(n_experiments):
    print(f"Experiment {seed + 1} mit Seed {seed}")

    # Daten zufällig aufteilen (66% Training, 34% Test)
    train, test = data.train_test_split(66, Random(seed))

    # Zeitmessung für das Modelltraining
    start_build = time.time()
    clf.build_classifier(train)
    end_build = time.time()
    build_times[seed] = end_build - start_build

    # Zeitmessung für die Modellbewertung
    evaluator = Evaluation(train)
    start_evaluate = time.time()
    evaluator.test_model(clf, test)
    end_evaluate = time.time()
    evaluate_times[seed] = end_evaluate - start_evaluate

    # Genauigkeit berechnen
    accuracies[seed] = evaluator.percent_correct / 100

# JVM stoppen
jvm.stop()

# Ergebnisse in Array-Format ausgeben
print("Array der Trainingszeiten (build model):", build_times)
print("Array der Bewertungszeiten (evaluate):", evaluate_times)
print("Array der Genauigkeiten:", accuracies)

# Durchschnittsergebnisse
print(f"\nDurchschnittliche Trainingszeit (build model): {np.mean(build_times):.4f} Sekunden")
print(f"Durchschnittliche Bewertungszeit (evaluate): {np.mean(evaluate_times):.4f} Sekunden")
print(f"Durchschnittliche Genauigkeit: {np.mean(accuracies):.2%}")


DEBUG:weka.core.jvm:Adding bundled jars
DEBUG:weka.core.jvm:Classpath=['c:\\Users\\jakob\\anaconda3\\Lib\\site-packages\\weka\\lib\\arpack_combined.jar', 'c:\\Users\\jakob\\anaconda3\\Lib\\site-packages\\weka\\lib\\core.jar', 'c:\\Users\\jakob\\anaconda3\\Lib\\site-packages\\weka\\lib\\mtj.jar', 'c:\\Users\\jakob\\anaconda3\\Lib\\site-packages\\weka\\lib\\python-weka-wrapper.jar', 'c:\\Users\\jakob\\anaconda3\\Lib\\site-packages\\weka\\lib\\weka.jar']
DEBUG:weka.core.jvm:MaxHeapSize=default
DEBUG:weka.core.jvm:Package support disabled


Experiment 1 mit Seed 0
Experiment 2 mit Seed 1
Experiment 3 mit Seed 2
Experiment 4 mit Seed 3
Experiment 5 mit Seed 4
Experiment 6 mit Seed 5
Experiment 7 mit Seed 6
Experiment 8 mit Seed 7
Experiment 9 mit Seed 8
Experiment 10 mit Seed 9
Array der Trainingszeiten (build model): [1.54386497 0.95116854 0.90725946 0.93792844 0.93851352 0.99440813
 0.93779278 0.97991967 0.93467951 0.89921522]
Array der Bewertungszeiten (evaluate): [0.65305376 0.5631237  0.48705626 0.55999804 0.54599595 0.6042645
 0.59438372 0.60597992 0.55473661 0.54014897]
Array der Genauigkeiten: [0.64514882 0.64437572 0.64824121 0.65056049 0.65056049 0.63664476
 0.64862775 0.65597217 0.63239273 0.62388867]

Durchschnittliche Trainingszeit (build model): 1.0025 Sekunden
Durchschnittliche Bewertungszeit (evaluate): 0.5709 Sekunden
Durchschnittliche Genauigkeit: 64.36%
