In [1]:
# Set the current working directory to the root directory
import os
import pickle as pkl
import random

from copy import deepcopy
from datetime import datetime
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
os.chdir('../')

In [2]:
from classes.slicedkex import SlicedKex
from classes.smartkex import SmartKex
from classes.metakex import MetaKex
from classes.headerkex import HeaderKex
from classes.graphkex import GraphKex

from functions.utils import get_dataset_file_paths, generate_dataset
from functions.notebook_utils import merge_training_data_dicts

In [3]:
train_root = '../new'
test_root = '../validation/'
train_heap_paths, train_json_paths = get_dataset_file_paths(train_root)
test_heap_paths, test_json_paths = get_dataset_file_paths(test_root)

In [4]:
training_sizes = [500, 1000, 2000, 3000, 4000, 5000, 7500, 10000, 20000, 30000, 40000, 50000, 70000, 90000]

results = dict()
algorithms = ['slicedkex', 'smartkex', 'metakex', 'headerkex', 'graphkex']
classes = [SlicedKex, SmartKex, MetaKex, HeaderKex, GraphKex]
feature_vector_sizes = [128, 128, 176, 136, 9]

In [5]:
def generate_all_data(heap_paths, json_paths, algorithms, classes, feature_vector_sizes, train_subset=True, block_size=1000):
    test_dataset_dict = dict()
    for idx, algorithm in enumerate(algorithms):
        print(f'{datetime.now()}:Generating dataset for {algorithms[idx]}')
        test_dataset, test_labels = generate_dataset(heap_paths=heap_paths,
                                                     json_paths=json_paths,
                                                     obj_class=classes[idx], block_size=block_size,
                                                     train_subset=train_subset, feature_vector_size=feature_vector_sizes[idx])
        test_dataset_dict[algorithms[idx]] = [deepcopy(test_dataset), deepcopy(test_labels)]

    return test_dataset_dict


In [6]:
def train_all_algorithms(dataset_dict, seed, algorithms, classes, feature_vector_sizes, test_dataset_dict, results_dict):

    metrics = ['accuracy', 'precision', 'recall', 'f1']
    print(f'{datetime.now()}:Current Seed: {seed}')
    for idx, algorithm in enumerate(algorithms):

        clf = RandomForestClassifier(random_state=seed)
        dataset, labels = dataset_dict.get(algorithm)
        if len(labels) == 0:
            continue
        print(f'{datetime.now()}: Training {algorithms[idx]}')
        clf.fit(dataset, labels)

        test_dataset, test_labels = test_dataset_dict.get(algorithm)
        # For methods that use pointers, sometimes we would not sample heap files that have the relevant metadata.
        # This would cause the files to be 0, and this if condition addresses that scenario.
        if len(test_labels) == 0:
            algorithm_result = results_dict.get(algorithm, dict())

            accuracy_list = algorithm_result.get(metrics[0], [])
            accuracy_list.append(0.0)
            algorithm_result[metrics[0]] = accuracy_list

            precision_list = algorithm_result.get(metrics[1], [])
            precision_list.append(0.0)
            algorithm_result[metrics[1]] = precision_list

            recall_list = algorithm_result.get(metrics[2], [])
            recall_list.append(0.0)
            algorithm_result[metrics[2]] = recall_list

            f1_list = algorithm_result.get(metrics[3], [])
            f1_list.append(0.0)
            algorithm_result[metrics[3]] = f1_list
            continue
        print(f'{datetime.now()}: Predicting for {algorithms[idx]}')
        y_pred = clf.predict(test_dataset)
        precision = precision_score(y_true=test_labels, y_pred=y_pred)
        recall = recall_score(y_true=test_labels, y_pred=y_pred)
        f1_measure = f1_score(y_true=test_labels, y_pred=y_pred)
        accuracy = accuracy_score(y_true=test_labels, y_pred=y_pred)

        print(f'{datetime.now()}:F1-Measure for {algorithm} for dataset: {f1_measure}')

        algorithm_result = results_dict.get(algorithm, dict())

        accuracy_list = algorithm_result.get(metrics[0], [])
        accuracy_list.append(accuracy)
        algorithm_result[metrics[0]] = accuracy_list

        precision_list = algorithm_result.get(metrics[1], [])
        precision_list.append(precision)
        algorithm_result[metrics[1]] = precision_list

        recall_list = algorithm_result.get(metrics[2], [])
        recall_list.append(recall)
        algorithm_result[metrics[2]] = recall_list
        
        f1_list = algorithm_result.get(metrics[3], [])
        f1_list.append(0.0)
        algorithm_result[metrics[3]] = f1_list
        
        results_dict[algorithm] = algorithm_result

    return results_dict


In [7]:
# We set the block size at 16k because there are only 15000 files in the path for testing.
test_dataset_dict = generate_all_data(heap_paths=test_heap_paths, json_paths=test_json_paths, algorithms=algorithms,
                                      classes=classes, feature_vector_sizes=feature_vector_sizes, block_size=16000,
                                      train_subset=False)

2024-12-13 12:49:21.562925:Generating dataset for slicedkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15332/15332 [01:29<00:00, 170.88it/s]


Total files found: 15332
2024-12-13 13:08:34.800074:Generating dataset for smartkex


Data Files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15332/15332 [05:02<00:00, 50.66it/s]


Total files found: 15332
2024-12-13 13:21:49.654760:Generating dataset for metakex


Data Files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15332/15332 [05:35<00:00, 45.65it/s]


Total files found: 15332
2024-12-13 13:37:21.077408:Generating dataset for headerkex


Data Files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15332/15332 [05:07<00:00, 49.88it/s]


Total files found: 15332
2024-12-13 13:50:36.940489:Generating dataset for graphkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15332/15332 [13:55<00:00, 18.35it/s]


Total files found: 12523


In [None]:
prev_training_size = 0
results_dict = dict()
training_data_dict = dict()
# Set a constant seed for every random forest
for training_size in training_sizes:
    # print('Current training size:%d' % training_size)
    print('-----------------------------------------------------------------------------------')
    print(f'Current training size:{training_size}: Previous training size:{prev_training_size}')
    seed = random.randint(0, 65536)
    # Generate the training data only unique to this iteration
    curr_training_data_dict = generate_all_data(heap_paths=train_heap_paths[prev_training_size:training_size],
                                                json_paths=train_json_paths[prev_training_size:training_size],
                                                feature_vector_sizes=feature_vector_sizes, classes=classes,
                                                train_subset=False, block_size=training_size-prev_training_size,
                                                algorithms=algorithms)
    prev_training_size = training_size
    
    # Merge it to the previous dataset. This is for efficiency and not recomputing all the previous training data.
    training_data_dict = merge_training_data_dicts(training_data_dict, curr_training_data_dict)
    
    results_dict = train_all_algorithms(dataset_dict=training_data_dict, seed=seed, algorithms=algorithms,
                                        feature_vector_sizes=feature_vector_sizes, classes=classes, 
                                        test_dataset_dict=test_dataset_dict, results_dict=results_dict)
    with open('combined_results_short.pkl', 'wb') as fp:
        pkl.dump(results_dict, fp, protocol=pkl.HIGHEST_PROTOCOL)

-----------------------------------------------------------------------------------
Current training size:500: Previous training size:0
2024-12-13 14:06:53.585274:Generating dataset for slicedkex


Data Files: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:02<00:00, 182.95it/s]


Total files found: 500
2024-12-13 14:07:18.666268:Generating dataset for smartkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:07<00:00, 68.10it/s]


Total files found: 500
2024-12-13 14:07:34.237842:Generating dataset for metakex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:07<00:00, 62.59it/s]


Total files found: 500
2024-12-13 14:07:53.262017:Generating dataset for headerkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:07<00:00, 67.32it/s]


Total files found: 500
2024-12-13 14:09:01.941671:Generating dataset for graphkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:19<00:00, 25.08it/s]


Total files found: 500
2024-12-13 14:09:23.904822:Current Seed: 29027
2024-12-13 14:09:23.905025: Training slicedkex
2024-12-13 14:16:25.203879: Predicting for slicedkex
2024-12-13 14:22:51.812517:F1-Measure for slicedkex for dataset: 0.2286781898039901
2024-12-13 14:22:51.813801: Training smartkex
2024-12-13 14:23:47.840101: Predicting for smartkex
2024-12-13 14:26:38.379067:F1-Measure for smartkex for dataset: 0.5040082527936744
2024-12-13 14:26:38.380340: Training metakex
2024-12-13 14:27:25.025924: Predicting for metakex
2024-12-13 14:30:57.289336:F1-Measure for metakex for dataset: 0.5275884185969951
2024-12-13 14:30:57.290538: Training headerkex
2024-12-13 14:31:36.269123: Predicting for headerkex
2024-12-13 14:34:30.744710:F1-Measure for headerkex for dataset: 0.5432675628794449
2024-12-13 14:34:30.745966: Training graphkex
2024-12-13 14:34:38.014446: Predicting for graphkex
2024-12-13 14:36:00.988962:F1-Measure for graphkex for dataset: 0.4894295692665891
----------------------

Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:02<00:00, 179.82it/s]


Total files found: 500
2024-12-13 14:36:25.575088:Generating dataset for smartkex


Data Files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:07<00:00, 68.05it/s]


Total files found: 500
2024-12-13 14:36:41.044376:Generating dataset for metakex


Data Files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:07<00:00, 62.51it/s]


Total files found: 500
2024-12-13 14:36:59.898977:Generating dataset for headerkex


Data Files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:07<00:00, 67.12it/s]


Total files found: 500
2024-12-13 14:37:15.698698:Generating dataset for graphkex


Data Files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:19<00:00, 25.42it/s]


Total files found: 500
2024-12-13 14:37:53.148179:Current Seed: 48771
2024-12-13 14:37:53.148430: Training slicedkex
2024-12-13 14:56:14.797804: Predicting for slicedkex
2024-12-13 15:02:49.655898:F1-Measure for slicedkex for dataset: 0.22711092715231787
2024-12-13 15:02:49.657364: Training smartkex
2024-12-13 15:04:55.424188: Predicting for smartkex
2024-12-13 15:07:44.273087:F1-Measure for smartkex for dataset: 0.49473586136215414
2024-12-13 15:07:44.274434: Training metakex
2024-12-13 15:09:51.300961: Predicting for metakex
2024-12-13 15:13:25.363368:F1-Measure for metakex for dataset: 0.4938638110636944
2024-12-13 15:13:25.364728: Training headerkex
2024-12-13 15:15:02.544931: Predicting for headerkex
2024-12-13 15:17:58.259553:F1-Measure for headerkex for dataset: 0.555767805057551
2024-12-13 15:17:58.260885: Training graphkex
2024-12-13 15:18:14.457108: Predicting for graphkex
2024-12-13 15:19:38.255062:F1-Measure for graphkex for dataset: 0.5168086335533514
---------------------

Data Files: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:11<00:00, 90.05it/s]


Total files found: 1000
2024-12-13 15:21:19.462046:Generating dataset for smartkex


Data Files: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:22<00:00, 43.56it/s]


Total files found: 1000
2024-12-13 15:22:01.919919:Generating dataset for metakex


Data Files: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:24<00:00, 40.93it/s]


Total files found: 1000
2024-12-13 15:22:51.758509:Generating dataset for headerkex


Data Files: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:23<00:00, 43.44it/s]


Total files found: 1000
2024-12-13 15:23:34.669882:Generating dataset for graphkex


Data Files: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:46<00:00, 21.42it/s]


Total files found: 1000
2024-12-13 15:24:50.133058:Current Seed: 5374
2024-12-13 15:24:50.133339: Training slicedkex
2024-12-13 16:16:54.587417: Predicting for slicedkex
2024-12-13 16:23:08.959642:F1-Measure for slicedkex for dataset: 0.26209365953668345
2024-12-13 16:23:08.960946: Training smartkex
2024-12-13 16:28:51.562618: Predicting for smartkex
2024-12-13 16:31:41.617726:F1-Measure for smartkex for dataset: 0.5748556564106446
2024-12-13 16:31:41.618971: Training metakex
2024-12-13 16:37:44.424918: Predicting for metakex
2024-12-13 16:41:28.195043:F1-Measure for metakex for dataset: 0.5999503797328775
2024-12-13 16:41:28.196297: Training headerkex
2024-12-13 16:46:02.804396: Predicting for headerkex
2024-12-13 16:48:58.929597:F1-Measure for headerkex for dataset: 0.6267575576503298
2024-12-13 16:48:58.930826: Training graphkex
2024-12-13 16:49:46.006473: Predicting for graphkex
2024-12-13 16:51:08.950118:F1-Measure for graphkex for dataset: 0.747844827586207
----------------------

Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:11<00:00, 85.24it/s]


Total files found: 1000
2024-12-13 16:53:48.241596:Generating dataset for smartkex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:26<00:00, 37.41it/s]


Total files found: 1000
2024-12-13 16:54:35.129089:Generating dataset for metakex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:28<00:00, 35.47it/s]


Total files found: 1000
2024-12-13 16:55:29.490649:Generating dataset for headerkex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:26<00:00, 37.51it/s]


Total files found: 1000
2024-12-13 16:56:16.858228:Generating dataset for graphkex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:50<00:00, 19.72it/s]


Total files found: 1000
2024-12-13 16:57:37.979697:Current Seed: 29817
2024-12-13 16:57:37.980084: Training slicedkex
2024-12-13 18:59:24.915723: Predicting for slicedkex
2024-12-13 19:06:12.013178:F1-Measure for slicedkex for dataset: 0.3090002931691586
2024-12-13 19:06:12.014685: Training smartkex
2024-12-13 19:16:52.064062: Predicting for smartkex
2024-12-13 19:19:49.184655:F1-Measure for smartkex for dataset: 0.5741651491905998
2024-12-13 19:19:49.186040: Training metakex
2024-12-13 19:30:18.647795: Predicting for metakex
2024-12-13 19:34:04.105013:F1-Measure for metakex for dataset: 0.5872449831865026
2024-12-13 19:34:04.106403: Training headerkex
2024-12-13 19:41:53.550992: Predicting for headerkex
2024-12-13 19:44:54.346190:F1-Measure for headerkex for dataset: 0.6452780541026217
2024-12-13 19:44:54.347641: Training graphkex
2024-12-13 19:46:22.760344: Predicting for graphkex
2024-12-13 19:47:46.313629:F1-Measure for graphkex for dataset: 0.7790388518825582
---------------------

Data Files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:06<00:00, 144.15it/s]


Total files found: 1000
2024-12-13 19:48:45.405471:Generating dataset for smartkex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:15<00:00, 66.17it/s]


Total files found: 1000
2024-12-13 19:49:15.267952:Generating dataset for metakex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:16<00:00, 61.41it/s]


Total files found: 1000
2024-12-13 19:49:50.912973:Generating dataset for headerkex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:15<00:00, 65.53it/s]


Total files found: 1000
2024-12-13 19:50:21.572078:Generating dataset for graphkex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:40<00:00, 24.66it/s]


Total files found: 1000
2024-12-13 19:51:24.198400:Current Seed: 12668
2024-12-13 19:51:24.198767: Training slicedkex
2024-12-13 22:37:46.255989: Predicting for slicedkex
2024-12-13 22:44:47.293776:F1-Measure for slicedkex for dataset: 0.4075473994948111
2024-12-13 22:44:47.294982: Training smartkex
2024-12-13 22:59:56.464927: Predicting for smartkex
2024-12-13 23:02:55.873405:F1-Measure for smartkex for dataset: 0.6644821947230969
2024-12-13 23:02:55.874518: Training metakex
2024-12-13 23:17:18.234518: Predicting for metakex
2024-12-13 23:21:05.664016:F1-Measure for metakex for dataset: 0.676608556484201
2024-12-13 23:21:05.665103: Training headerkex
2024-12-13 23:32:43.573096: Predicting for headerkex
2024-12-13 23:35:47.337547:F1-Measure for headerkex for dataset: 0.7006828463793328
2024-12-13 23:35:47.338643: Training graphkex
2024-12-13 23:37:43.115406: Predicting for graphkex
2024-12-13 23:39:06.625296:F1-Measure for graphkex for dataset: 0.7969567948628464
----------------------

Data Files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:06<00:00, 147.38it/s]


Total files found: 1000
2024-12-13 23:41:40.610781:Generating dataset for smartkex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:21<00:00, 47.18it/s]


Total files found: 1000
2024-12-13 23:42:20.933774:Generating dataset for metakex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:22<00:00, 44.04it/s]


Total files found: 1000
2024-12-13 23:43:08.769021:Generating dataset for headerkex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:21<00:00, 46.73it/s]


Total files found: 1000
2024-12-13 23:43:50.099223:Generating dataset for graphkex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:44<00:00, 22.46it/s]


Total files found: 1000
2024-12-13 23:45:04.230991:Current Seed: 47742
2024-12-13 23:45:04.231431: Training slicedkex
2024-12-14 03:44:15.278710: Predicting for slicedkex
2024-12-14 03:51:20.669648:F1-Measure for slicedkex for dataset: 0.4061051468645676
2024-12-14 03:51:20.671042: Training smartkex
2024-12-14 04:13:13.023477: Predicting for smartkex
2024-12-14 04:16:11.780956:F1-Measure for smartkex for dataset: 0.6694209354120267
2024-12-14 04:16:11.782281: Training metakex
2024-12-14 04:37:18.686184: Predicting for metakex
2024-12-14 04:41:07.945355:F1-Measure for metakex for dataset: 0.6841975364042271
2024-12-14 04:41:07.946723: Training headerkex
2024-12-14 04:57:34.158271: Predicting for headerkex
2024-12-14 05:00:39.010062:F1-Measure for headerkex for dataset: 0.7047538410705435
2024-12-14 05:00:39.011344: Training graphkex
2024-12-14 05:03:52.056931: Predicting for graphkex
2024-12-14 05:05:15.847315:F1-Measure for graphkex for dataset: 0.840196425859363
----------------------

Data Files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2500/2500 [00:23<00:00, 107.23it/s]


Total files found: 2500
2024-12-14 05:10:40.553037:Generating dataset for smartkex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2500/2500 [01:21<00:00, 30.56it/s]


Total files found: 2500
2024-12-14 05:14:16.856512:Generating dataset for metakex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2500/2500 [01:33<00:00, 26.87it/s]


Total files found: 2500
2024-12-14 05:18:51.365866:Generating dataset for headerkex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2500/2500 [01:23<00:00, 29.97it/s]


Total files found: 2500
2024-12-14 05:24:03.400577:Generating dataset for graphkex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2500/2500 [03:31<00:00, 11.83it/s]


Total files found: 2500
2024-12-14 05:31:15.884446:Current Seed: 60858
2024-12-14 05:31:15.884847: Training slicedkex
2024-12-14 12:34:00.722094: Predicting for slicedkex
2024-12-14 12:41:11.914750:F1-Measure for slicedkex for dataset: 0.4531698344573881
2024-12-14 12:41:11.916159: Training smartkex
2024-12-14 13:31:49.355498: Predicting for smartkex
2024-12-14 13:34:53.419574:F1-Measure for smartkex for dataset: 0.7010496495114954
2024-12-14 13:34:53.420922: Training metakex
2024-12-14 14:19:20.039964: Predicting for metakex
2024-12-14 14:23:10.329416:F1-Measure for metakex for dataset: 0.7146173950039506
2024-12-14 14:23:10.330652: Training headerkex
2024-12-14 15:09:52.478801: Predicting for headerkex
2024-12-14 15:13:03.831741:F1-Measure for headerkex for dataset: 0.7178429779130835
2024-12-14 15:13:03.833068: Training graphkex
2024-12-14 15:20:01.709337: Predicting for graphkex
2024-12-14 15:21:26.551197:F1-Measure for graphkex for dataset: 0.9008610136293154
---------------------

Data Files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2500/2500 [00:21<00:00, 115.42it/s]


Total files found: 2500
2024-12-14 15:24:45.461983:Generating dataset for smartkex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2500/2500 [00:51<00:00, 48.47it/s]


Total files found: 2500
2024-12-14 15:26:23.835954:Generating dataset for metakex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2500/2500 [00:55<00:00, 45.33it/s]


Total files found: 2500
2024-12-14 15:28:19.861651:Generating dataset for headerkex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2500/2500 [00:51<00:00, 48.17it/s]


Total files found: 2500
2024-12-14 15:30:00.149517:Generating dataset for graphkex


Data Files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2500/2500 [01:12<00:00, 34.53it/s]


Total files found: 1438
2024-12-14 15:32:27.743062:Current Seed: 59745
2024-12-14 15:32:27.743476: Training slicedkex
2024-12-15 01:30:07.491736: Predicting for slicedkex
2024-12-15 01:37:32.015844:F1-Measure for slicedkex for dataset: 0.4667032184473056
2024-12-15 01:37:32.017238: Training smartkex
2024-12-15 02:51:36.387314: Predicting for smartkex
2024-12-15 02:54:39.692333:F1-Measure for smartkex for dataset: 0.69697425295997
2024-12-15 02:54:39.693626: Training metakex
2024-12-15 04:12:39.761119: Predicting for metakex
2024-12-15 04:16:36.852404:F1-Measure for metakex for dataset: 0.7229865854257775
2024-12-15 04:16:36.853683: Training headerkex
2024-12-15 05:17:49.497007: Predicting for headerkex
2024-12-15 05:21:03.228184:F1-Measure for headerkex for dataset: 0.6859380055652624
2024-12-15 05:21:03.229428: Training graphkex
2024-12-15 05:29:39.405655: Predicting for graphkex
2024-12-15 05:31:03.748661:F1-Measure for graphkex for dataset: 0.8937188105745042
-----------------------

Data Files: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:02<00:00, 159.04it/s]


Total files found: 10000
2024-12-15 05:42:32.310287:Generating dataset for smartkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [03:04<00:00, 54.34it/s]


Total files found: 10000
2024-12-15 05:51:15.570248:Generating dataset for metakex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [03:22<00:00, 49.50it/s]


Total files found: 10000
2024-12-15 05:59:57.350988:Generating dataset for headerkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [03:06<00:00, 53.55it/s]


Total files found: 10000
2024-12-15 06:08:58.303298:Generating dataset for graphkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [06:06<00:00, 27.25it/s]


Total files found: 6813
2024-12-15 06:24:47.800391:Current Seed: 8771
2024-12-15 06:24:47.801483: Training slicedkex
2024-12-16 04:13:16.005404: Predicting for slicedkex
2024-12-16 04:21:37.123248:F1-Measure for slicedkex for dataset: 0.6213664157373163
2024-12-16 04:21:37.154408: Training smartkex
2024-12-16 07:26:36.008134: Predicting for smartkex
2024-12-16 07:29:37.391738:F1-Measure for smartkex for dataset: 0.7508879420479857
2024-12-16 07:29:37.408689: Training metakex
2024-12-16 10:28:31.570581: Predicting for metakex
2024-12-16 10:32:30.131896:F1-Measure for metakex for dataset: 0.7610894327132507
2024-12-16 10:32:30.133531: Training headerkex
2024-12-16 13:14:16.177090: Predicting for headerkex
2024-12-16 13:17:23.621621:F1-Measure for headerkex for dataset: 0.7774269258176921
2024-12-16 13:17:23.623193: Training graphkex
2024-12-16 13:33:51.031416: Predicting for graphkex
2024-12-16 13:35:16.710100:F1-Measure for graphkex for dataset: 0.922933524531394
-----------------------

Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:59<00:00, 168.58it/s]


Total files found: 10000
2024-12-16 13:48:22.239603:Generating dataset for smartkex


Data Files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [02:36<00:00, 63.82it/s]


Total files found: 10000
2024-12-16 13:53:40.276390:Generating dataset for metakex


Data Files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [02:46<00:00, 60.15it/s]


Total files found: 10000
2024-12-16 14:00:01.057090:Generating dataset for headerkex


Data Files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [02:36<00:00, 64.01it/s]


Total files found: 10000
2024-12-16 14:05:26.814532:Generating dataset for graphkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [08:47<00:00, 18.95it/s]


Total files found: 8949
2024-12-16 14:42:51.325166:Current Seed: 47385
2024-12-16 14:42:51.325591: Training slicedkex
2024-12-18 01:15:10.681873: Predicting for slicedkex
2024-12-18 01:24:04.996133:F1-Measure for slicedkex for dataset: 0.7437589995819549
2024-12-18 01:24:05.009189: Training smartkex
2024-12-18 08:25:28.393677: Predicting for smartkex
2024-12-18 08:28:44.575911:F1-Measure for smartkex for dataset: 0.7873588058083951
2024-12-18 08:28:44.578561: Training metakex
2024-12-18 15:32:49.883433: Predicting for metakex
2024-12-18 15:39:23.240463:F1-Measure for metakex for dataset: 0.7947002175378782
2024-12-18 15:39:23.243623: Training headerkex
2024-12-18 23:15:30.696082: Predicting for headerkex
2024-12-18 23:19:28.612733:F1-Measure for headerkex for dataset: 0.835074534926697
2024-12-18 23:19:28.617062: Training graphkex
2024-12-18 23:47:50.057098: Predicting for graphkex
2024-12-18 23:49:19.393693:F1-Measure for graphkex for dataset: 0.9635517604352145
----------------------

Data Files: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:54<00:00, 183.21it/s]


Total files found: 10000
2024-12-19 00:05:35.725407:Generating dataset for smartkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [02:27<00:00, 67.63it/s]


Total files found: 10000
2024-12-19 00:10:52.057038:Generating dataset for metakex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [02:40<00:00, 62.30it/s]


Total files found: 10000
2024-12-19 00:17:11.225755:Generating dataset for headerkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [02:29<00:00, 67.04it/s]


Total files found: 10000
2024-12-19 00:24:56.761136:Generating dataset for graphkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [05:22<00:00, 31.03it/s]


Total files found: 7873
2024-12-19 00:54:45.689554:Current Seed: 15482
2024-12-19 00:54:45.690534: Training slicedkex
2024-12-21 19:42:26.359446: Predicting for slicedkex
2024-12-21 19:53:06.403360:F1-Measure for slicedkex for dataset: 0.7871395015983362
2024-12-21 19:53:06.414007: Training smartkex
2024-12-22 03:32:00.231206: Predicting for smartkex
2024-12-22 03:35:39.020756:F1-Measure for smartkex for dataset: 0.8080937276169038
2024-12-22 03:35:39.024255: Training metakex
2024-12-22 12:01:26.849580: Predicting for metakex
2024-12-22 12:06:31.369595:F1-Measure for metakex for dataset: 0.8123103707114606
2024-12-22 12:06:31.376398: Training headerkex
2024-12-22 19:06:05.775062: Predicting for headerkex
2024-12-22 19:09:46.256729:F1-Measure for headerkex for dataset: 0.8564711900948251
2024-12-22 19:09:46.258576: Training graphkex
2024-12-22 19:45:37.543845: Predicting for graphkex
2024-12-22 19:47:10.720645:F1-Measure for graphkex for dataset: 0.9651122556918728
---------------------

Data Files: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:12<00:00, 138.20it/s]


Total files found: 10000
2024-12-22 20:07:48.990000:Generating dataset for smartkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [03:39<00:00, 45.53it/s]


Total files found: 10000
2024-12-22 20:22:49.793368:Generating dataset for metakex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [04:06<00:00, 40.52it/s]


Total files found: 10000
2024-12-22 20:39:08.364023:Generating dataset for headerkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [03:43<00:00, 44.70it/s]


Total files found: 10000
2024-12-22 20:55:16.219273:Generating dataset for graphkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [08:06<00:00, 20.54it/s]


Total files found: 7481
2024-12-22 22:17:37.925157:Current Seed: 7207
2024-12-22 22:17:37.925599: Training slicedkex
2024-12-26 08:35:06.314822: Predicting for slicedkex
2024-12-26 08:44:43.972074:F1-Measure for slicedkex for dataset: 0.8121104008721074
2024-12-26 08:44:43.974236: Training smartkex
2024-12-26 18:16:50.760049: Predicting for smartkex
2024-12-26 18:19:57.595370:F1-Measure for smartkex for dataset: 0.8192192505692828
2024-12-26 18:19:57.597051: Training metakex
2024-12-27 03:58:16.373817: Predicting for metakex
2024-12-27 04:03:36.398571:F1-Measure for metakex for dataset: 0.8229149834207006
2024-12-27 04:03:36.408559: Training headerkex
2024-12-27 12:21:01.328599: Predicting for headerkex
2024-12-27 12:24:46.606318:F1-Measure for headerkex for dataset: 0.8599072396105293
2024-12-27 12:24:46.648278: Training graphkex
2024-12-27 13:21:33.247975: Predicting for graphkex
2024-12-27 13:23:17.075431:F1-Measure for graphkex for dataset: 0.9742762426591381
----------------------

Data Files: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20000/20000 [02:52<00:00, 115.67it/s]


Total files found: 20000
2024-12-27 14:31:44.425026:Generating dataset for smartkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20000/20000 [07:26<00:00, 44.79it/s]


Total files found: 20000
2024-12-27 14:54:48.904652:Generating dataset for metakex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20000/20000 [08:18<00:00, 40.11it/s]


Total files found: 20000
2024-12-27 15:17:47.433379:Generating dataset for headerkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20000/20000 [07:39<00:00, 43.48it/s]


Total files found: 20000
2024-12-27 15:40:46.039361:Generating dataset for graphkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20000/20000 [21:50<00:00, 15.26it/s]


Total files found: 16136
2024-12-27 17:17:25.500434:Current Seed: 31340
2024-12-27 17:17:25.501472: Training slicedkex
2025-01-01 19:53:11.857782: Predicting for slicedkex
2025-01-01 20:03:28.995449:F1-Measure for slicedkex for dataset: 0.8824918332870836
2025-01-01 20:03:29.003891: Training smartkex
2025-01-02 08:12:21.979082: Predicting for smartkex
2025-01-02 08:15:55.929572:F1-Measure for smartkex for dataset: 0.8382771020212116
2025-01-02 08:15:55.932441: Training metakex
2025-01-02 21:33:13.997907: Predicting for metakex
2025-01-02 21:39:34.001331:F1-Measure for metakex for dataset: 0.8410450557543963
2025-01-02 21:39:34.005161: Training headerkex
2025-01-03 08:44:47.699649: Predicting for headerkex
2025-01-03 08:48:16.673870:F1-Measure for headerkex for dataset: 0.8776758222586786
2025-01-03 08:48:16.676325: Training graphkex
2025-01-03 10:01:50.657728: Predicting for graphkex
2025-01-03 10:03:26.517193:F1-Measure for graphkex for dataset: 0.9803482293754667
--------------------

Data Files: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16760/16760 [02:34<00:00, 108.38it/s]


Total files found: 16760
2025-01-03 10:32:12.856920:Generating dataset for smartkex


Data Files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16760/16760 [06:54<00:00, 40.43it/s]


Total files found: 16760
2025-01-03 10:56:28.454893:Generating dataset for metakex


Data Files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16760/16760 [07:47<00:00, 35.86it/s]


Total files found: 16760
2025-01-03 11:39:39.005119:Generating dataset for headerkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16760/16760 [07:03<00:00, 39.53it/s]


Total files found: 16760
2025-01-03 12:02:47.914728:Generating dataset for graphkex


Data Files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16760/16760 [22:19<00:00, 12.51it/s]


Total files found: 14629
2025-01-03 19:17:27.834392:Current Seed: 20436
2025-01-03 19:17:27.838206: Training slicedkex
