# Comparison of original implementation of Evolutionary Bagging with this package implementation

In this notebook empirical comparison between original and presented here implementation is conducted. Evolutionary Bagging model is trained using proposed in paper parameters and code on red_wine dataset. Model is trained 30 times and mean train accuracy is reported with test accuracy along standard deviation of these metrics.

## Functions definition from original repository

In [1]:
from evobagging_methods import EvoBagging as EvoBagging_original
from data_processing import load_data
from tqdm import tqdm
import numpy as np

## Original paper experiment

Importing data with train / test split

In [2]:
X_train, X_test, y_train, y_test = load_data("red_wine", test_size=0.2)

Train:  (1279, 11)  | Test:  (320, 11)
Train labels:  (array([0, 1]), array([1105,  174], dtype=int64))
Test labels:  (array([0, 1]), array([277,  43], dtype=int64))


In [3]:
n_select = 0
n_bags = 50
n_new_bags = 10
max_initial_size = X_train.shape[0]
n_crossover = n_bags - n_select - n_new_bags
mutation_rate = 0.05
mutation_size = int(max_initial_size*mutation_rate)
n_mutation = 5
size_coef = 5000
metric = "accuracy"

In [4]:
optimizer = EvoBagging_original(X_train, y_train, n_select, n_new_bags, 
                        max_initial_size, n_crossover, n_mutation, 
                        mutation_size, size_coef, metric, 1)

In [5]:
all_voting_train, all_voting_test = [], []
# init random bags of random sizes
for k in range(30):
    bags = {i: optimizer.gen_new_bag() for i in range(n_bags)}
    # evaluate
    bags = optimizer.evaluate_bags(bags)
    voting_train, voting_test = [], []

    for i in tqdm(range(25)):
        bags = optimizer.evobagging_optimization(bags)
        majority_voting_train_metric = optimizer.voting_metric(X_train, y_train, bags)
        majority_voting_test_metric = optimizer.voting_metric(X_test, y_test, bags)
        voting_train.append(majority_voting_train_metric)
        voting_test.append(majority_voting_test_metric)

    best_iter = np.argmax(voting_train)
    all_voting_train.append(voting_train[best_iter])
    all_voting_test.append(voting_test[best_iter])
    print(f"Experiment iteration {k+1}: done")

100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:47<00:00,  1.89s/it]


Experiment iteration 1: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:50<00:00,  2.04s/it]


Experiment iteration 2: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:50<00:00,  2.03s/it]


Experiment iteration 3: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:49<00:00,  1.97s/it]


Experiment iteration 4: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:51<00:00,  2.07s/it]


Experiment iteration 5: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:50<00:00,  2.04s/it]


Experiment iteration 6: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:52<00:00,  2.11s/it]


Experiment iteration 7: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:50<00:00,  2.02s/it]


Experiment iteration 8: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:51<00:00,  2.06s/it]


Experiment iteration 9: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:54<00:00,  2.20s/it]


Experiment iteration 10: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:51<00:00,  2.06s/it]


Experiment iteration 11: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:55<00:00,  2.22s/it]


Experiment iteration 12: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:56<00:00,  2.26s/it]


Experiment iteration 13: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:52<00:00,  2.08s/it]


Experiment iteration 14: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:51<00:00,  2.06s/it]


Experiment iteration 15: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:51<00:00,  2.06s/it]


Experiment iteration 16: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:53<00:00,  2.16s/it]


Experiment iteration 17: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [01:03<00:00,  2.54s/it]


Experiment iteration 18: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:50<00:00,  2.04s/it]


Experiment iteration 19: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:51<00:00,  2.07s/it]


Experiment iteration 20: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:51<00:00,  2.08s/it]


Experiment iteration 21: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:51<00:00,  2.04s/it]


Experiment iteration 22: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:50<00:00,  2.02s/it]


Experiment iteration 23: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:50<00:00,  2.02s/it]


Experiment iteration 24: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:49<00:00,  2.00s/it]


Experiment iteration 25: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:50<00:00,  2.02s/it]


Experiment iteration 26: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:51<00:00,  2.07s/it]


Experiment iteration 27: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:50<00:00,  2.03s/it]


Experiment iteration 28: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:51<00:00,  2.05s/it]


Experiment iteration 29: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:50<00:00,  2.01s/it]

Experiment iteration 30: done





## Our implementation

In [11]:
import sys
import os
from pathlib import Path
sys.path.append(str(Path.cwd().parent))

# importing
from EvoBagging import EvoBagging as EvoBagging_our

In [14]:
X_train, X_test, y_train, y_test = X_train.to_numpy(), X_test.to_numpy(), y_train.to_numpy().flatten(), y_test.to_numpy().flatten()

In [15]:
acus_test = []
acus_train = []
for i in range(30):
    model = EvoBagging_our(number_of_initial_bags=n_bags,
                       maximum_bag_size=max_initial_size,
                       generation_gap_size=n_new_bags,
                       k=size_coef,
                       mutation_size=mutation_size,
                       mode='classification',
                       number_of_mutated_bags=n_mutation,
                       number_of_iteration=25,
                       selection='naive',
                       logging=False,
                       metric_name="accuracy_score")

    # Training
    model.fit(X_train, y_train)

    pred_test = model.predict(X_test)
    pred_train = model.predict(X_train)

    acus_train.append(np.sum(pred_train == y_train)/y_train.shape[0])
    acus_test.append(np.sum(pred_test == y_test)/y_test.shape[0])
    print(f"Experiment iteration {i+1}: done")

100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:07<00:00,  3.19it/s]


Experiment iteration 1: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  2.93it/s]


Experiment iteration 2: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  3.12it/s]


Experiment iteration 3: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  3.03it/s]


Experiment iteration 4: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  3.02it/s]


Experiment iteration 5: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  3.09it/s]


Experiment iteration 6: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:07<00:00,  3.18it/s]


Experiment iteration 7: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:07<00:00,  3.18it/s]


Experiment iteration 8: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  3.11it/s]


Experiment iteration 9: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:07<00:00,  3.24it/s]


Experiment iteration 10: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  3.11it/s]


Experiment iteration 11: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  3.09it/s]


Experiment iteration 12: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  3.08it/s]


Experiment iteration 13: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  3.11it/s]


Experiment iteration 14: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:07<00:00,  3.19it/s]


Experiment iteration 15: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  3.10it/s]


Experiment iteration 16: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  3.10it/s]


Experiment iteration 17: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:09<00:00,  2.63it/s]


Experiment iteration 18: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  2.94it/s]


Experiment iteration 19: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  2.84it/s]


Experiment iteration 20: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  2.97it/s]


Experiment iteration 21: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  3.12it/s]


Experiment iteration 22: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:07<00:00,  3.19it/s]


Experiment iteration 23: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  3.06it/s]


Experiment iteration 24: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  2.87it/s]


Experiment iteration 25: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  2.82it/s]


Experiment iteration 26: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:09<00:00,  2.71it/s]


Experiment iteration 27: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  3.01it/s]


Experiment iteration 28: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  2.99it/s]


Experiment iteration 29: done


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:08<00:00,  2.99it/s]

Experiment iteration 30: done





## Comaprison of results

In [16]:
print("Results from original paper implementation")
print(f"Train mean acu : {np.mean(all_voting_train)}")
print(f"Train std acu  : {np.std(all_voting_train)}")
print(f"Test mean acu  : {np.mean(all_voting_test)}")
print(f"Test std acu   : {np.std(all_voting_test)}")

Results from original paper implementation
Train mean acu : 0.9956737034141255
Train std acu  : 0.0008967761550213717
Test mean acu  : 0.9169791666666666
Test std acu   : 0.0047518728033154305


In [17]:
print("Results from our implementation")
print(f"Train mean acu : {np.mean(acus_train)}")
print(f"Train std acu  : {np.std(acus_train)}")
print(f"Test mean acu  : {np.mean(acus_test)}")
print(f"Test std acu   : {np.std(acus_test)}")

Results from our implementation
Train mean acu : 0.9955694553036225
Train std acu  : 0.0010160848939076137
Test mean acu  : 0.9164583333333332
Test std acu   : 0.004340138886666591


In [18]:
print("Differents Between our implementation and origianl implementation")
print(f"Train mean acu difference : {np.mean(acus_train)-np.mean(all_voting_train)}")
print(f"Train std acu difference  : {np.std(acus_train)-np.std(all_voting_train)}")
print(f"Test mean acu difference  : {np.mean(acus_test)-np.mean(all_voting_test)}")
print(f"Test std acu difference   : {np.std(acus_test)-np.std(all_voting_test)}")

Differents Between our implementation and origianl implementation
Train mean acu difference : -0.00010424811050302463
Train std acu difference  : 0.00011930873888624206
Test mean acu difference  : -0.0005208333333334147
Test std acu difference   : -0.00041173391664883936


As we can see both alrgorithms perform similarly. Suprisingly this result is much different than reported in original paper where mean test accuracy was equal to 92.76. Let's see whether statistical test will tell us that difference in sample mean is significant and whether it differs significantly from one reported in paper.

In [19]:
import scipy.stats as stats
stats.ttest_rel(all_voting_test, acus_test)

Ttest_relResult(statistic=0.5065936913756394, pvalue=0.6162701431791301)

There is not enough evidence to reject null hypothesis stating that means doesn't differ significantly

In [20]:
t_stat, p_value = stats.ttest_1samp(acus_test, popmean=0.9276)
print("T-statistic value for our implementation: ", t_stat)  
print("P-Value: ", p_value)

T-statistic value:  -13.824375853612393
P-Value:  2.7037794008707763e-14


In [21]:
t_stat, p_value = stats.ttest_1samp(all_voting_test, popmean=0.9276)
print("T-statistic value for original implementation: ", t_stat)  
print("P-Value: ", p_value)

T-statistic value for original implementation:  -12.036293953239372
P-Value:  8.419464017452625e-13


In both cases t-test has p-value indicating there is enough evidence to reject null hypothesis that mean accuracy is equal to 92.76 reported in origianl paper

We can also look at maximum value of test metric which is very close to reported value. However quoting paper "We run 30 independent experiments with different random initialisation (content of bags) and report the mean and standard deviation of the respective metrics" it is said that authors report mean not maximum.

In [25]:
np.max(all_voting_test)

0.925

In [26]:
np.max(acus_test)

0.925