In [1]:
data_flag = 'opp115'

# ohsumed: 23986
# opp115 3399
# reuters 10788

In [2]:
import pickle
import pandas as pd
import numpy as np
import utilities
import preprocess
from sklearn.metrics import accuracy_score, hamming_loss
from sklearn.model_selection import train_test_split

## parameters

In [3]:
# algorithm parameters
balance_ratio = 0.5
random_state = 1
threshold_factor = 1.5
test_size = 0.2

sim_type = 'cosine'
embedding_method = 'distiluse-base-multilingual-cased-v1' # try different embeddings and find proper one

np.random.seed(random_state)

data_paths = {'opp115'   : r'C:\Users\IsmailKaraman\workspace\data\privacy_policy_data\OPP-115_v2\majority.csv',
              'ohsumed'  : r'C:\Users\IsmailKaraman\workspace\GitHub\thesis\data\ohsumed.csv',
              'reuters'  : r'C:\Users\IsmailKaraman\workspace\GitHub\thesis\data\Reuters21578.csv'}

unlabaled_ratios = {'opp115':0.75, 'ohsumed':0.95, 'reuters':0.9}

In [4]:
import warnings
warnings.filterwarnings("ignore")

# main

In [5]:
def main(data):
    print('*'*100)
    print('\x1b[1;31m'+data+'\x1b[0m')
    # reading data
    df = utilities.read_data(data_paths[data])
    X = df['text'].apply(preprocess.preprocess_text)
    y = df.drop(['text'], axis=1)
    # ------------------------------------------------------------------------------------------------------------------------------
    # reading from a pickle instead of applying vectorization
    X_num = utilities.vectorize_data(X, embedding_method)
    X_num = pd.Series([np.squeeze(i) for i in X_num])
    X_train, X_test, y_train, y_test = train_test_split(X_num, y, test_size=test_size, random_state=random_state)
    X_labeled, X_unlabeled, y_labeled, y_unlabeled = train_test_split(X_train, y_train, test_size=unlabaled_ratios[data], 
                                                                  random_state=random_state)
    
    print(X_labeled.shape, y_labeled.shape, X_unlabeled.shape, y_unlabeled.shape)
    utilities.multilabel_classifier(np.vstack(X_labeled), y_labeled, np.vstack(X_test), y_test)
    #utilities.classifier(np.vstack(X_labeled.values), y_labeled, np.vstack(X_test.values), y_test)
    # -----------------------------------------------------------------------------------------------------------------------------
    # calculation number of instances to balance dataset
    balance_ratio = 0.5
    num_of_new_instances = utilities.calculate_balancing_num_instance_multiclass(y_labeled, balance_ratio)
    # -----------------------------------------------------------------------------------------------------------------------------
    # oversampling dataset using unlabeled data with the given ratios
    validation, X_labeled, y_labeled, X_unlabeled, y_unlabeled = utilities.oversample_dataset(num_of_new_instances, 
                                                                                              X_labeled, y_labeled,
                                                                                              X_unlabeled, y_unlabeled, 
                                                                                              X_test, y_test, 
                                                                                              sim_calculation_type='safe_interval', 
                                                                                              batch_size=5)
        
    # -----------------------------------------------------------------------------------------------------------------------------
    # check if the result gets better
    print(X_labeled.shape, X_unlabeled.shape, X_test.shape)
    utilities.multilabel_classifier(np.vstack(X_labeled.values), y_labeled, np.vstack(X_test.values), y_test)  
    
    # comparing the found labels and ground truth
    y_true, y_pred = [], []
    for _, _, _, y_t, y_p in validation:
        y_true.append(list(y_t.values))
        y_pred.append(list(y_p.values()))
    
    acc = 1-hamming_loss(y_true, y_pred)
    emr = accuracy_score(y_true, y_pred)  
    print('-'*30)
    print(f'Exact match ratio : {emr:.2f} ')
    print(f'Accuracy          : {acc:.2f} ')
    print('-'*30)
    
    print('*'*100)
    print('/'*100)
    print('*'*100)

In [6]:
for data in data_paths.keys():
    main(data)

****************************************************************************************************
[1;31mopp115[0m
(679,) (679, 12) (2040,) (2040, 12)
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | 
[1mMultilabel Classifier Results[0m
[1mLinearSVM[0m
------------------------------
hamLoss: 0.07
Exact Match Ratio: 0.46
------------------------------
[1mClassification Report[0m
                                      precision    recall  f1-score   support

                      Data Retention       0.11      0.23      0.15        13
                       Data Security       0.69      0.88      0.77        40
                        Do Not Track       0.86      1.00      0.92         6
          First Party Collection/Use       0.73      0.88      0.80       230
International and Specific Audiences       0.92      0.81      0.86        68
                Introductory/Generic       0.50      0.70      0.59        76
           

f1 before : 0.923076923076923  f1 after : 0.6666666666666667
Shapes --------------
(679,) (1710,)
f1 before : 0.923076923076923  f1 after : 0.7142857142857143
Shapes --------------
(679,) (1707,)
f1 before : 0.923076923076923  f1 after : 0.923076923076923
Shapes --------------
(679,) (1707,)
f1 before : 0.923076923076923  f1 after : 0.923076923076923
Shapes --------------
(679,) (1707,)
f1 before : 0.923076923076923  f1 after : 0.923076923076923
Shapes --------------
(679,) (1707,)
f1 before : 0.923076923076923  f1 after : 0.923076923076923
Shapes --------------
(679,) (1707,)
f1 before : 0.923076923076923  f1 after : 0.923076923076923
Shapes --------------
(679,) (1707,)
f1 before : 0.923076923076923  f1 after : 0.923076923076923
Shapes --------------
(679,) (1707,)
f1 before : 0.923076923076923  f1 after : 0.923076923076923
Shapes --------------
(679,) (1707,)
f1 before : 0.923076923076923  f1 after : 0.923076923076923
Shapes --------------
(679,) (1707,)
f1 before : 0.92307692307692

f1 before : 0.8510638297872342  f1 after : 0.6779661016949153
Shapes --------------
(684,) (1627,)
f1 before : 0.8510638297872342  f1 after : 0.7241379310344828
Shapes --------------
(684,) (1622,)
f1 before : 0.8510638297872342  f1 after : 0.7636363636363637
Shapes --------------
(684,) (1617,)
f1 before : 0.8510638297872342  f1 after : 0.7142857142857143
Shapes --------------
(684,) (1612,)
f1 before : 0.8510638297872342  f1 after : 0.6349206349206349
Shapes --------------
(684,) (1607,)
f1 before : 0.8510638297872342  f1 after : 0.7692307692307692
Shapes --------------
(684,) (1602,)
f1 before : 0.8510638297872342  f1 after : 0.6909090909090909
Shapes --------------
(684,) (1597,)
f1 before : 0.8510638297872342  f1 after : 0.7142857142857143
Shapes --------------
(684,) (1592,)
f1 before : 0.8510638297872342  f1 after : 0.7407407407407406
Shapes --------------
(684,) (1587,)
f1 before : 0.8510638297872342  f1 after : 0.7037037037037037
Shapes --------------
(684,) (1582,)
f1 before 

f1 before : 0.8510638297872342  f1 after : 0.8510638297872342
Shapes --------------
(684,) (1387,)
f1 before : 0.8510638297872342  f1 after : 0.8510638297872342
Shapes --------------
(684,) (1387,)
f1 before : 0.8510638297872342  f1 after : 0.8510638297872342
Shapes --------------
(684,) (1387,)
f1 before : 0.8510638297872342  f1 after : 0.8510638297872342
Shapes --------------
(684,) (1387,)
f1 before : 0.8510638297872342  f1 after : 0.8510638297872342
Shapes --------------
(684,) (1387,)
f1 before : 0.8510638297872342  f1 after : 0.8510638297872342
Shapes --------------
(684,) (1387,)
f1 before : 0.8510638297872342  f1 after : 0.8510638297872342
Shapes --------------
(684,) (1387,)
f1 before : 0.8510638297872342  f1 after : 0.8510638297872342
Shapes --------------
(684,) (1387,)
f1 before : 0.8510638297872342  f1 after : 0.8510638297872342
Shapes --------------
(684,) (1387,)
f1 before : 0.8510638297872342  f1 after : 0.8510638297872342
Shapes --------------
(684,) (1387,)
f1 before 

f1 before : 0.1904761904761905  f1 after : 0.1904761904761905
Shapes --------------
(719,) (1213,)
f1 before : 0.1904761904761905  f1 after : 0.1904761904761905
Shapes --------------
(719,) (1213,)
f1 before : 0.1904761904761905  f1 after : 0.1904761904761905
Shapes --------------
(719,) (1213,)
f1 before : 0.1904761904761905  f1 after : 0.1904761904761905
Shapes --------------
(719,) (1213,)
f1 before : 0.1904761904761905  f1 after : 0.1904761904761905
Shapes --------------
(719,) (1213,)
f1 before : 0.1904761904761905  f1 after : 0.1904761904761905
Shapes --------------
(719,) (1213,)
f1 before : 0.1904761904761905  f1 after : 0.1904761904761905
Shapes --------------
(719,) (1213,)
f1 before : 0.1904761904761905  f1 after : 0.1904761904761905
Shapes --------------
(719,) (1213,)
f1 before : 0.1904761904761905  f1 after : 0.1904761904761905
Shapes --------------
(719,) (1213,)
f1 before : 0.1904761904761905  f1 after : 0.1904761904761905
Shapes --------------
(719,) (1213,)
f1 before 

f1 before : 0.16216216216216217  f1 after : 0.18181818181818182
adding instances ... 
Shapes --------------
(724,) (1198,)
f1 before : 0.18181818181818182  f1 after : 0.15384615384615383
Shapes --------------
(724,) (1193,)
f1 before : 0.18181818181818182  f1 after : 0.23655913978494622
adding instances ... 
Shapes --------------
(729,) (1188,)
f1 before : 0.23655913978494622  f1 after : 0.19999999999999998
Shapes --------------
(729,) (1183,)
f1 before : 0.23655913978494622  f1 after : 0.18518518518518517
Shapes --------------
(729,) (1178,)
f1 before : 0.23655913978494622  f1 after : 0.14678899082568808
Shapes --------------
(729,) (1173,)
f1 before : 0.23655913978494622  f1 after : 0.2178217821782178
Shapes --------------
(729,) (1168,)
f1 before : 0.23655913978494622  f1 after : 0.14545454545454545
Shapes --------------
(729,) (1163,)
f1 before : 0.23655913978494622  f1 after : 0.22448979591836735
Shapes --------------
(729,) (1158,)
f1 before : 0.23655913978494622  f1 after : 0.18

f1 before : 0.27999999999999997  f1 after : 0.27999999999999997
Shapes --------------
(734,) (1011,)
f1 before : 0.27999999999999997  f1 after : 0.27999999999999997
Shapes --------------
(734,) (1011,)
f1 before : 0.27999999999999997  f1 after : 0.27999999999999997
Shapes --------------
(734,) (1011,)
f1 before : 0.27999999999999997  f1 after : 0.27999999999999997
Shapes --------------
(734,) (1011,)
f1 before : 0.27999999999999997  f1 after : 0.27999999999999997
Shapes --------------
(734,) (1011,)
f1 before : 0.27999999999999997  f1 after : 0.27999999999999997
Shapes --------------
(734,) (1011,)
f1 before : 0.27999999999999997  f1 after : 0.27999999999999997
Shapes --------------
(734,) (1011,)
f1 before : 0.27999999999999997  f1 after : 0.27999999999999997
Shapes --------------
(734,) (1011,)
f1 before : 0.27999999999999997  f1 after : 0.27999999999999997
Shapes --------------
(734,) (1011,)
f1 before : 0.27999999999999997  f1 after : 0.27999999999999997
Shapes --------------
(734,

f1 before : 0.5833333333333334  f1 after : 0.5833333333333334
Shapes --------------
(744,) (946,)
f1 before : 0.5833333333333334  f1 after : 0.5833333333333334
Shapes --------------
(744,) (946,)
f1 before : 0.5833333333333334  f1 after : 0.5833333333333334
Shapes --------------
(744,) (946,)
f1 before : 0.5833333333333334  f1 after : 0.5833333333333334
Shapes --------------
(744,) (946,)
f1 before : 0.5833333333333334  f1 after : 0.5833333333333334
Shapes --------------
(744,) (946,)
f1 before : 0.5833333333333334  f1 after : 0.5833333333333334
Shapes --------------
(744,) (946,)
f1 before : 0.5833333333333334  f1 after : 0.5833333333333334
Shapes --------------
(744,) (946,)
f1 before : 0.5833333333333334  f1 after : 0.5833333333333334
Shapes --------------
(744,) (946,)
f1 before : 0.5833333333333334  f1 after : 0.5833333333333334
Shapes --------------
(744,) (946,)
f1 before : 0.5833333333333334  f1 after : 0.5833333333333334
Shapes --------------
(744,) (946,)
f1 before : 0.583333

f1 before : 0.5833333333333334  f1 after : 0.5833333333333334
Shapes --------------
(744,) (946,)
f1 before : 0.5833333333333334  f1 after : 0.5833333333333334
Shapes --------------
(744,) (946,)
[1m---------------Data Security---------------[0m
f1 before : 0.7010309278350515  f1 after : 0.6804123711340206
Shapes --------------
(744,) (941,)
f1 before : 0.7010309278350515  f1 after : 0.707070707070707
adding instances ... 
Shapes --------------
(749,) (936,)
f1 before : 0.707070707070707  f1 after : 0.7142857142857142
adding instances ... 
Shapes --------------
(754,) (931,)
f1 before : 0.7142857142857142  f1 after : 0.7142857142857142
Shapes --------------
(754,) (926,)
f1 before : 0.7142857142857142  f1 after : 0.7291666666666666
adding instances ... 
Shapes --------------
(759,) (921,)
f1 before : 0.7291666666666666  f1 after : 0.707070707070707
Shapes --------------
(759,) (916,)
f1 before : 0.7291666666666666  f1 after : 0.7216494845360825
Shapes --------------
(759,) (911,)
f1 

f1 before : 0.7291666666666666  f1 after : 0.7291666666666666
Shapes --------------
(759,) (886,)
f1 before : 0.7291666666666666  f1 after : 0.7291666666666666
Shapes --------------
(759,) (886,)
f1 before : 0.7291666666666666  f1 after : 0.7291666666666666
Shapes --------------
(759,) (886,)
f1 before : 0.7291666666666666  f1 after : 0.7291666666666666
Shapes --------------
(759,) (886,)
f1 before : 0.7291666666666666  f1 after : 0.7291666666666666
Shapes --------------
(759,) (886,)
f1 before : 0.7291666666666666  f1 after : 0.7291666666666666
Shapes --------------
(759,) (886,)
f1 before : 0.7291666666666666  f1 after : 0.7291666666666666
Shapes --------------
(759,) (886,)
f1 before : 0.7291666666666666  f1 after : 0.7291666666666666
Shapes --------------
(759,) (886,)
f1 before : 0.7291666666666666  f1 after : 0.7291666666666666
Shapes --------------
(759,) (886,)
f1 before : 0.7291666666666666  f1 after : 0.7291666666666666
Shapes --------------
(759,) (886,)
f1 before : 0.729166

f1 before : 0.5376344086021505  f1 after : 0.5376344086021505
Shapes --------------
(764,) (848,)
f1 before : 0.5376344086021505  f1 after : 0.5376344086021505
Shapes --------------
(764,) (848,)
f1 before : 0.5376344086021505  f1 after : 0.5376344086021505
Shapes --------------
(764,) (848,)
f1 before : 0.5376344086021505  f1 after : 0.5376344086021505
Shapes --------------
(764,) (848,)
f1 before : 0.5376344086021505  f1 after : 0.5376344086021505
Shapes --------------
(764,) (848,)
f1 before : 0.5376344086021505  f1 after : 0.5376344086021505
Shapes --------------
(764,) (848,)
f1 before : 0.5376344086021505  f1 after : 0.5376344086021505
Shapes --------------
(764,) (848,)
f1 before : 0.5376344086021505  f1 after : 0.5376344086021505
Shapes --------------
(764,) (848,)
f1 before : 0.5376344086021505  f1 after : 0.5376344086021505
Shapes --------------
(764,) (848,)
f1 before : 0.5376344086021505  f1 after : 0.5376344086021505
Shapes --------------
(764,) (848,)
f1 before : 0.537634

f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.818897

f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.8188976377952756  f1 after : 0.8188976377952756
Shapes --------------
(774,) (823,)
f1 before : 0.818897

f1 before : 0.6013071895424837  f1 after : 0.6013071895424837
Shapes --------------
(774,) (818,)
f1 before : 0.6013071895424837  f1 after : 0.6013071895424837
Shapes --------------
(774,) (818,)
f1 before : 0.6013071895424837  f1 after : 0.6013071895424837
Shapes --------------
(774,) (818,)
f1 before : 0.6013071895424837  f1 after : 0.6013071895424837
Shapes --------------
(774,) (818,)
f1 before : 0.6013071895424837  f1 after : 0.6013071895424837
Shapes --------------
(774,) (818,)
f1 before : 0.6013071895424837  f1 after : 0.6013071895424837
Shapes --------------
(774,) (818,)
f1 before : 0.6013071895424837  f1 after : 0.6013071895424837
Shapes --------------
(774,) (818,)
f1 before : 0.6013071895424837  f1 after : 0.6013071895424837
Shapes --------------
(774,) (818,)
f1 before : 0.6013071895424837  f1 after : 0.6013071895424837
Shapes --------------
(774,) (818,)
f1 before : 0.6013071895424837  f1 after : 0.6013071895424837
Shapes --------------
(774,) (818,)
f1 before : 0.601307

f1 before : 0.5360824742268041  f1 after : 0.5360824742268041
Shapes --------------
(774,) (818,)
f1 before : 0.5360824742268041  f1 after : 0.5360824742268041
Shapes --------------
(774,) (818,)
f1 before : 0.5360824742268041  f1 after : 0.5360824742268041
Shapes --------------
(774,) (818,)
f1 before : 0.5360824742268041  f1 after : 0.5360824742268041
Shapes --------------
(774,) (818,)
f1 before : 0.5360824742268041  f1 after : 0.5360824742268041
Shapes --------------
(774,) (818,)
f1 before : 0.5360824742268041  f1 after : 0.5360824742268041
Shapes --------------
(774,) (818,)
f1 before : 0.5360824742268041  f1 after : 0.5360824742268041
Shapes --------------
(774,) (818,)
f1 before : 0.5360824742268041  f1 after : 0.5360824742268041
Shapes --------------
(774,) (818,)
f1 before : 0.5360824742268041  f1 after : 0.5360824742268041
Shapes --------------
(774,) (818,)
f1 before : 0.5360824742268041  f1 after : 0.5360824742268041
Shapes --------------
(774,) (818,)
f1 before : 0.536082

f1 before : 0.7093333333333334  f1 after : 0.7093333333333334
Shapes --------------
(789,) (786,)
f1 before : 0.7093333333333334  f1 after : 0.7093333333333334
Shapes --------------
(789,) (786,)
f1 before : 0.7093333333333334  f1 after : 0.7093333333333334
Shapes --------------
(789,) (786,)
f1 before : 0.7093333333333334  f1 after : 0.7093333333333334
Shapes --------------
(789,) (786,)
f1 before : 0.7093333333333334  f1 after : 0.7093333333333334
Shapes --------------
(789,) (786,)
f1 before : 0.7093333333333334  f1 after : 0.7093333333333334
Shapes --------------
(789,) (786,)
f1 before : 0.7093333333333334  f1 after : 0.7093333333333334
Shapes --------------
(789,) (786,)
f1 before : 0.7093333333333334  f1 after : 0.7093333333333334
Shapes --------------
(789,) (786,)
f1 before : 0.7093333333333334  f1 after : 0.7093333333333334
Shapes --------------
(789,) (786,)
f1 before : 0.7093333333333334  f1 after : 0.7093333333333334
Shapes --------------
(789,) (786,)
f1 before : 0.709333

f1 before : 0.7968127490039841  f1 after : 0.7968127490039841
Shapes --------------
(789,) (786,)
f1 before : 0.7968127490039841  f1 after : 0.7968127490039841
Shapes --------------
(789,) (786,)
f1 before : 0.7968127490039841  f1 after : 0.7968127490039841
Shapes --------------
(789,) (786,)
f1 before : 0.7968127490039841  f1 after : 0.7968127490039841
Shapes --------------
(789,) (786,)
f1 before : 0.7968127490039841  f1 after : 0.7968127490039841
Shapes --------------
(789,) (786,)
f1 before : 0.7968127490039841  f1 after : 0.7968127490039841
Shapes --------------
(789,) (786,)
(789,) (786,) (680,)
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | 
[1mMultilabel Classifier Results[0m
[1mLinearSVM[0m
------------------------------
hamLoss: 0.08
Exact Match Ratio: 0.39
------------------------------
[1mClassification Report[0m
                                      precision    recall  f1-score   support

                      Dat

f1 before : 0.6104417670682731  f1 after : 0.5671641791044776
Shapes --------------
(964,) (18044,)
f1 before : 0.6104417670682731  f1 after : 0.5789473684210527
Shapes --------------
(964,) (18039,)
f1 before : 0.6104417670682731  f1 after : 0.5477941176470588
Shapes --------------
(964,) (18034,)
f1 before : 0.6104417670682731  f1 after : 0.5607476635514019
Shapes --------------
(964,) (18029,)
f1 before : 0.6104417670682731  f1 after : 0.5841392649903289
Shapes --------------
(964,) (18024,)
f1 before : 0.6104417670682731  f1 after : 0.5605786618444847
Shapes --------------
(964,) (18019,)
f1 before : 0.6104417670682731  f1 after : 0.5859375
Shapes --------------
(964,) (18014,)
f1 before : 0.6104417670682731  f1 after : 0.5291005291005291
Shapes --------------
(964,) (18009,)
f1 before : 0.6104417670682731  f1 after : 0.5538461538461539
Shapes --------------
(964,) (18004,)
f1 before : 0.6104417670682731  f1 after : 0.5422535211267605
Shapes --------------
(964,) (17999,)
f1 before

f1 before : 0.6104417670682731  f1 after : 0.526508226691042
Shapes --------------
(964,) (17629,)
f1 before : 0.6104417670682731  f1 after : 0.555984555984556
Shapes --------------
(964,) (17624,)
f1 before : 0.6104417670682731  f1 after : 0.5431654676258993
Shapes --------------
(964,) (17619,)
f1 before : 0.6104417670682731  f1 after : 0.5425531914893617
Shapes --------------
(964,) (17614,)
f1 before : 0.6104417670682731  f1 after : 0.5330948121645797
Shapes --------------
(964,) (17609,)
f1 before : 0.6104417670682731  f1 after : 0.5571955719557196
Shapes --------------
(964,) (17604,)
f1 before : 0.6104417670682731  f1 after : 0.5266903914590747
Shapes --------------
(964,) (17599,)
f1 before : 0.6104417670682731  f1 after : 0.5263157894736843
Shapes --------------
(964,) (17594,)
f1 before : 0.6104417670682731  f1 after : 0.5291970802919708
Shapes --------------
(964,) (17589,)
f1 before : 0.6104417670682731  f1 after : 0.4915254237288136
Shapes --------------
(964,) (17584,)
f1

f1 before : 0.3301587301587302  f1 after : 0.3322784810126582
adding instances ... 
Shapes --------------
(984,) (17227,)
f1 before : 0.3322784810126582  f1 after : 0.3165680473372781
Shapes --------------
(984,) (17222,)
f1 before : 0.3322784810126582  f1 after : 0.3134328358208955
Shapes --------------
(984,) (17217,)
f1 before : 0.3322784810126582  f1 after : 0.3175074183976261
Shapes --------------
(984,) (17212,)
f1 before : 0.3322784810126582  f1 after : 0.3095599393019727
Shapes --------------
(984,) (17207,)
f1 before : 0.3322784810126582  f1 after : 0.3220858895705521
Shapes --------------
(984,) (17202,)
f1 before : 0.3322784810126582  f1 after : 0.331306990881459
Shapes --------------
(984,) (17197,)
f1 before : 0.3322784810126582  f1 after : 0.31419939577039274
Shapes --------------
(984,) (17192,)
f1 before : 0.3322784810126582  f1 after : 0.32727272727272727
Shapes --------------
(984,) (17187,)
f1 before : 0.3322784810126582  f1 after : 0.3212121212121212
Shapes --------

f1 before : 0.3357452966714906  f1 after : 0.3137254901960784
Shapes --------------
(999,) (16822,)
f1 before : 0.3357452966714906  f1 after : 0.3085553997194951
Shapes --------------
(999,) (16817,)
f1 before : 0.3357452966714906  f1 after : 0.3259668508287293
Shapes --------------
(999,) (16812,)
f1 before : 0.3357452966714906  f1 after : 0.31158455392809586
Shapes --------------
(999,) (16807,)
f1 before : 0.3357452966714906  f1 after : 0.3159340659340659
Shapes --------------
(999,) (16802,)
f1 before : 0.3357452966714906  f1 after : 0.32222222222222224
Shapes --------------
(999,) (16797,)
f1 before : 0.3357452966714906  f1 after : 0.3138888888888889
Shapes --------------
(999,) (16792,)
f1 before : 0.3357452966714906  f1 after : 0.31043956043956045
Shapes --------------
(999,) (16787,)
f1 before : 0.3357452966714906  f1 after : 0.30465444287729193
Shapes --------------
(999,) (16782,)
f1 before : 0.3357452966714906  f1 after : 0.31966053748231965
Shapes --------------
(999,) (167

f1 before : 0.41562064156206413  f1 after : 0.40437158469945356
Shapes --------------
(1009,) (16418,)
f1 before : 0.41562064156206413  f1 after : 0.40591397849462363
Shapes --------------
(1009,) (16413,)
f1 before : 0.41562064156206413  f1 after : 0.41032608695652173
Shapes --------------
(1009,) (16408,)
f1 before : 0.41562064156206413  f1 after : 0.39726027397260266
Shapes --------------
(1009,) (16403,)
f1 before : 0.41562064156206413  f1 after : 0.41724617524339364
adding instances ... 
Shapes --------------
(1014,) (16398,)
f1 before : 0.41724617524339364  f1 after : 0.399452804377565
Shapes --------------
(1014,) (16393,)
f1 before : 0.41724617524339364  f1 after : 0.3988995873452545
Shapes --------------
(1014,) (16388,)
f1 before : 0.41724617524339364  f1 after : 0.4206241519674355
adding instances ... 
Shapes --------------
(1019,) (16383,)
f1 before : 0.4206241519674355  f1 after : 0.41644562334217505
Shapes --------------
(1019,) (16378,)
f1 before : 0.4206241519674355  f1

f1 before : 0.4514435695538057  f1 after : 0.4424083769633508
Shapes --------------
(1064,) (16023,)
f1 before : 0.4514435695538057  f1 after : 0.43243243243243246
Shapes --------------
(1064,) (16018,)
f1 before : 0.4514435695538057  f1 after : 0.4421326397919376
Shapes --------------
(1064,) (16013,)
f1 before : 0.4514435695538057  f1 after : 0.43669250645994834
Shapes --------------
(1064,) (16008,)
f1 before : 0.4514435695538057  f1 after : 0.44935064935064933
Shapes --------------
(1064,) (16003,)
f1 before : 0.4514435695538057  f1 after : 0.4421326397919376
Shapes --------------
(1064,) (15998,)
f1 before : 0.4514435695538057  f1 after : 0.44357976653696496
Shapes --------------
(1064,) (15993,)
f1 before : 0.4514435695538057  f1 after : 0.42288557213930345
Shapes --------------
(1064,) (15988,)
f1 before : 0.4514435695538057  f1 after : 0.45212765957446804
adding instances ... 
Shapes --------------
(1069,) (15983,)
f1 before : 0.45212765957446804  f1 after : 0.44702842377260976

f1 before : 0.46112600536193027  f1 after : 0.4464516129032257
Shapes --------------
(1084,) (15623,)
f1 before : 0.46112600536193027  f1 after : 0.45347313237221487
Shapes --------------
(1084,) (15618,)
f1 before : 0.46112600536193027  f1 after : 0.44386422976501305
Shapes --------------
(1084,) (15613,)
f1 before : 0.46112600536193027  f1 after : 0.4429882044560944
Shapes --------------
(1084,) (15608,)
f1 before : 0.46112600536193027  f1 after : 0.4318766066838046
Shapes --------------
(1084,) (15603,)
f1 before : 0.46112600536193027  f1 after : 0.4557291666666666
Shapes --------------
(1084,) (15598,)
f1 before : 0.46112600536193027  f1 after : 0.44386422976501305
Shapes --------------
(1084,) (15593,)
f1 before : 0.46112600536193027  f1 after : 0.44940867279894875
Shapes --------------
(1084,) (15588,)
f1 before : 0.46112600536193027  f1 after : 0.4518716577540108
Shapes --------------
(1084,) (15586,)
[1m---------------c15---------------[0m
f1 before : 0.26649076517150394  f1 

f1 before : 0.2854006586169045  f1 after : 0.2808145766345123
Shapes --------------
(1114,) (15231,)
f1 before : 0.2854006586169045  f1 after : 0.2836134453781513
Shapes --------------
(1114,) (15226,)
f1 before : 0.2854006586169045  f1 after : 0.2718651211801897
Shapes --------------
(1114,) (15221,)
f1 before : 0.2854006586169045  f1 after : 0.2799145299145299
Shapes --------------
(1114,) (15216,)
f1 before : 0.2854006586169045  f1 after : 0.2762201453790239
Shapes --------------
(1114,) (15211,)
f1 before : 0.2854006586169045  f1 after : 0.26243386243386246
Shapes --------------
(1114,) (15206,)
f1 before : 0.2854006586169045  f1 after : 0.273972602739726
Shapes --------------
(1114,) (15201,)
f1 before : 0.2854006586169045  f1 after : 0.27586206896551724
Shapes --------------
(1114,) (15196,)
f1 before : 0.2854006586169045  f1 after : 0.26906779661016944
Shapes --------------
(1114,) (15191,)
f1 before : 0.2854006586169045  f1 after : 0.2708333333333333
Shapes --------------
(1114

f1 before : 0.28540772532188846  f1 after : 0.2746331236897275
Shapes --------------
(1124,) (14826,)
f1 before : 0.28540772532188846  f1 after : 0.27184466019417475
Shapes --------------
(1124,) (14821,)
f1 before : 0.28540772532188846  f1 after : 0.2754880694143167
Shapes --------------
(1124,) (14816,)
f1 before : 0.28540772532188846  f1 after : 0.27419354838709675
Shapes --------------
(1124,) (14811,)
f1 before : 0.28540772532188846  f1 after : 0.2754237288135593
Shapes --------------
(1124,) (14806,)
f1 before : 0.28540772532188846  f1 after : 0.2796610169491526
Shapes --------------
(1124,) (14801,)
f1 before : 0.28540772532188846  f1 after : 0.2807017543859649
Shapes --------------
(1124,) (14796,)
f1 before : 0.28540772532188846  f1 after : 0.2745945945945946
Shapes --------------
(1124,) (14791,)
f1 before : 0.28540772532188846  f1 after : 0.28905419766206164
adding instances ... 
Shapes --------------
(1129,) (14786,)
f1 before : 0.28905419766206164  f1 after : 0.26559356136

f1 before : 0.6196172248803826  f1 after : 0.6168674698795181
Shapes --------------
(1209,) (14442,)
f1 before : 0.6196172248803826  f1 after : 0.6090047393364929
Shapes --------------
(1209,) (14437,)
f1 before : 0.6196172248803826  f1 after : 0.6099290780141844
Shapes --------------
(1209,) (14432,)
f1 before : 0.6196172248803826  f1 after : 0.6059171597633136
Shapes --------------
(1209,) (14427,)
f1 before : 0.6196172248803826  f1 after : 0.6137184115523466
Shapes --------------
(1209,) (14422,)
f1 before : 0.6196172248803826  f1 after : 0.617611580217129
Shapes --------------
(1209,) (14417,)
f1 before : 0.6196172248803826  f1 after : 0.6076555023923444
Shapes --------------
(1209,) (14412,)
f1 before : 0.6196172248803826  f1 after : 0.6100478468899521
Shapes --------------
(1209,) (14407,)
f1 before : 0.6196172248803826  f1 after : 0.6081730769230769
Shapes --------------
(1209,) (14402,)
f1 before : 0.6196172248803826  f1 after : 0.6192771084337351
Shapes --------------
(1209,) 

f1 before : 0.6291309669522644  f1 after : 0.605263157894737
Shapes --------------
(1234,) (14037,)
f1 before : 0.6291309669522644  f1 after : 0.6120481927710844
Shapes --------------
(1234,) (14032,)
f1 before : 0.6291309669522644  f1 after : 0.6211936662606578
Shapes --------------
(1234,) (14027,)
f1 before : 0.6291309669522644  f1 after : 0.6172539489671932
Shapes --------------
(1234,) (14022,)
f1 before : 0.6291309669522644  f1 after : 0.6119951040391677
Shapes --------------
(1234,) (14017,)
f1 before : 0.6291309669522644  f1 after : 0.6192771084337351
Shapes --------------
(1234,) (14012,)
f1 before : 0.6291309669522644  f1 after : 0.6140776699029125
Shapes --------------
(1234,) (14007,)
f1 before : 0.6291309669522644  f1 after : 0.6148325358851675
Shapes --------------
(1234,) (14002,)
f1 before : 0.6291309669522644  f1 after : 0.6047058823529413
Shapes --------------
(1234,) (13997,)
f1 before : 0.6291309669522644  f1 after : 0.6127864897466827
Shapes --------------
(1234,) 

f1 before : 0.3932683790965456  f1 after : 0.3739279588336192
Shapes --------------
(1249,) (13638,)
f1 before : 0.3932683790965456  f1 after : 0.3703703703703703
Shapes --------------
(1249,) (13633,)
f1 before : 0.3932683790965456  f1 after : 0.37709251101321584
Shapes --------------
(1249,) (13628,)
f1 before : 0.3932683790965456  f1 after : 0.3707482993197279
Shapes --------------
(1249,) (13623,)
f1 before : 0.3932683790965456  f1 after : 0.37229437229437234
Shapes --------------
(1249,) (13618,)
f1 before : 0.3932683790965456  f1 after : 0.3630077787381158
Shapes --------------
(1249,) (13613,)
f1 before : 0.3932683790965456  f1 after : 0.36915077989601386
Shapes --------------
(1249,) (13608,)
f1 before : 0.3932683790965456  f1 after : 0.3780068728522337
Shapes --------------
(1249,) (13603,)
f1 before : 0.3932683790965456  f1 after : 0.35893011216566006
Shapes --------------
(1249,) (13598,)
f1 before : 0.3932683790965456  f1 after : 0.3802938634399309
Shapes --------------
(12

f1 before : 0.3932683790965456  f1 after : 0.372093023255814
Shapes --------------
(1249,) (13233,)
f1 before : 0.3932683790965456  f1 after : 0.35683202785030455
Shapes --------------
(1249,) (13228,)
f1 before : 0.3932683790965456  f1 after : 0.36837532580364896
Shapes --------------
(1249,) (13223,)
f1 before : 0.3932683790965456  f1 after : 0.3666377063423111
Shapes --------------
(1249,) (13218,)
f1 before : 0.3932683790965456  f1 after : 0.3766122098022356
Shapes --------------
(1249,) (13213,)
f1 before : 0.3932683790965456  f1 after : 0.37043633125556547
Shapes --------------
(1249,) (13208,)
f1 before : 0.3932683790965456  f1 after : 0.380952380952381
Shapes --------------
(1249,) (13203,)
f1 before : 0.3932683790965456  f1 after : 0.37499999999999994
Shapes --------------
(1249,) (13198,)
f1 before : 0.3932683790965456  f1 after : 0.37799467613132204
Shapes --------------
(1249,) (13193,)
f1 before : 0.3932683790965456  f1 after : 0.36779661016949156
Shapes --------------
(12

f1 before : 0.5987261146496815  f1 after : 0.6002554278416348
adding instances ... 
Shapes --------------
(1334,) (12845,)
f1 before : 0.6002554278416348  f1 after : 0.59846547314578
Shapes --------------
(1334,) (12840,)
f1 before : 0.6002554278416348  f1 after : 0.5987261146496815
Shapes --------------
(1334,) (12835,)
f1 before : 0.6002554278416348  f1 after : 0.5846925972396486
Shapes --------------
(1334,) (12830,)
f1 before : 0.6002554278416348  f1 after : 0.5949367088607594
Shapes --------------
(1334,) (12825,)
f1 before : 0.6002554278416348  f1 after : 0.5977301387137453
Shapes --------------
(1334,) (12820,)
f1 before : 0.6002554278416348  f1 after : 0.5943877551020409
Shapes --------------
(1334,) (12815,)
f1 before : 0.6002554278416348  f1 after : 0.6012738853503184
adding instances ... 
Shapes --------------
(1339,) (12810,)
f1 before : 0.6012738853503184  f1 after : 0.5872020075282309
Shapes --------------
(1339,) (12805,)
f1 before : 0.6012738853503184  f1 after : 0.5921

f1 before : 0.6235446313065977  f1 after : 0.6201550387596899
Shapes --------------
(1389,) (12450,)
f1 before : 0.6235446313065977  f1 after : 0.6171574903969269
Shapes --------------
(1389,) (12445,)
f1 before : 0.6235446313065977  f1 after : 0.6177606177606177
Shapes --------------
(1389,) (12440,)
f1 before : 0.6235446313065977  f1 after : 0.6071428571428571
Shapes --------------
(1389,) (12435,)
f1 before : 0.6235446313065977  f1 after : 0.6209573091849935
Shapes --------------
(1389,) (12430,)
f1 before : 0.6235446313065977  f1 after : 0.6211340206185566
Shapes --------------
(1389,) (12425,)
f1 before : 0.6235446313065977  f1 after : 0.6110397946084724
Shapes --------------
(1389,) (12420,)
f1 before : 0.6235446313065977  f1 after : 0.6076923076923076
Shapes --------------
(1389,) (12415,)
f1 before : 0.6235446313065977  f1 after : 0.6177606177606177
Shapes --------------
(1389,) (12410,)
f1 before : 0.6235446313065977  f1 after : 0.6085858585858586
Shapes --------------
(1389,)

f1 before : 0.47225025227043393  f1 after : 0.4720244150559512
Shapes --------------
(1439,) (12191,)
f1 before : 0.47225025227043393  f1 after : 0.46446446446446443
Shapes --------------
(1439,) (12186,)
f1 before : 0.47225025227043393  f1 after : 0.46963562753036436
Shapes --------------
(1439,) (12181,)
f1 before : 0.47225025227043393  f1 after : 0.472986748216106
adding instances ... 
Shapes --------------
(1444,) (12176,)
f1 before : 0.472986748216106  f1 after : 0.46625766871165647
Shapes --------------
(1444,) (12171,)
f1 before : 0.472986748216106  f1 after : 0.4694932781799379
Shapes --------------
(1444,) (12166,)
f1 before : 0.472986748216106  f1 after : 0.47179487179487173
Shapes --------------
(1444,) (12161,)
f1 before : 0.472986748216106  f1 after : 0.46769230769230763
Shapes --------------
(1444,) (12156,)
f1 before : 0.472986748216106  f1 after : 0.46138415245737213
Shapes --------------
(1444,) (12151,)
f1 before : 0.472986748216106  f1 after : 0.4678243105209397
Shap

f1 before : 0.48140495867768596  f1 after : 0.48140495867768596
Shapes --------------
(1464,) (11791,)
f1 before : 0.48140495867768596  f1 after : 0.467741935483871
Shapes --------------
(1464,) (11786,)
f1 before : 0.48140495867768596  f1 after : 0.46534653465346537
Shapes --------------
(1464,) (11781,)
f1 before : 0.48140495867768596  f1 after : 0.4747162022703818
Shapes --------------
(1464,) (11776,)
f1 before : 0.48140495867768596  f1 after : 0.4766734279918864
Shapes --------------
(1464,) (11771,)
f1 before : 0.48140495867768596  f1 after : 0.47070506454816285
Shapes --------------
(1464,) (11766,)
f1 before : 0.48140495867768596  f1 after : 0.4697720515361744
Shapes --------------
(1464,) (11761,)
f1 before : 0.48140495867768596  f1 after : 0.4695304695304695
Shapes --------------
(1464,) (11756,)
f1 before : 0.48140495867768596  f1 after : 0.4719101123595506
Shapes --------------
(1464,) (11751,)
f1 before : 0.48140495867768596  f1 after : 0.4736318407960199
Shapes ----------

f1 before : 0.6820349761526232  f1 after : 0.6788844621513943
Shapes --------------
(1559,) (11413,)
f1 before : 0.6820349761526232  f1 after : 0.6810207336523126
Shapes --------------
(1559,) (11408,)
f1 before : 0.6820349761526232  f1 after : 0.6820349761526232
Shapes --------------
(1559,) (11403,)
f1 before : 0.6820349761526232  f1 after : 0.682615629984051
adding instances ... 
Shapes --------------
(1564,) (11398,)
f1 before : 0.682615629984051  f1 after : 0.6810897435897436
Shapes --------------
(1564,) (11393,)
f1 before : 0.682615629984051  f1 after : 0.6772908366533864
Shapes --------------
(1564,) (11388,)
f1 before : 0.682615629984051  f1 after : 0.68644747393745
adding instances ... 
Shapes --------------
(1569,) (11383,)
f1 before : 0.68644747393745  f1 after : 0.6837881219903692
Shapes --------------
(1569,) (11378,)
f1 before : 0.68644747393745  f1 after : 0.6875502008032129
adding instances ... 
Shapes --------------
(1574,) (11373,)
f1 before : 0.6875502008032129  f1 

f1 before : 0.6977886977886978  f1 after : 0.696574225122349
Shapes --------------
(1619,) (11013,)
f1 before : 0.6977886977886978  f1 after : 0.697292863002461
Shapes --------------
(1619,) (11008,)
f1 before : 0.6977886977886978  f1 after : 0.6972176759410803
Shapes --------------
(1619,) (11003,)
f1 before : 0.6977886977886978  f1 after : 0.6978653530377669
adding instances ... 
Shapes --------------
(1624,) (10998,)
f1 before : 0.6978653530377669  f1 after : 0.6933115823817292
Shapes --------------
(1624,) (10993,)
f1 before : 0.6978653530377669  f1 after : 0.6961506961506961
Shapes --------------
(1624,) (10988,)
f1 before : 0.6978653530377669  f1 after : 0.6930041152263374
Shapes --------------
(1624,) (10983,)
f1 before : 0.6978653530377669  f1 after : 0.6979423868312757
adding instances ... 
Shapes --------------
(1629,) (10978,)
f1 before : 0.6979423868312757  f1 after : 0.6995073891625615
adding instances ... 
Shapes --------------
(1634,) (10973,)
f1 before : 0.6995073891625

f1 before : 0.5098612125639154  f1 after : 0.5054945054945056
Shapes --------------
(1679,) (10626,)
f1 before : 0.5098612125639154  f1 after : 0.5036179450072359
Shapes --------------
(1679,) (10621,)
f1 before : 0.5098612125639154  f1 after : 0.5095168374816983
Shapes --------------
(1679,) (10616,)
f1 before : 0.5098612125639154  f1 after : 0.5094890510948906
Shapes --------------
(1679,) (10611,)
f1 before : 0.5098612125639154  f1 after : 0.5062179956108266
Shapes --------------
(1679,) (10606,)
f1 before : 0.5098612125639154  f1 after : 0.4938804895608351
Shapes --------------
(1679,) (10601,)
f1 before : 0.5098612125639154  f1 after : 0.4992826398852223
Shapes --------------
(1679,) (10596,)
f1 before : 0.5098612125639154  f1 after : 0.5113886847905951
adding instances ... 
Shapes --------------
(1684,) (10591,)
f1 before : 0.5113886847905951  f1 after : 0.5099191770756797
Shapes --------------
(1684,) (10586,)
f1 before : 0.5113886847905951  f1 after : 0.514074074074074
adding i

f1 before : 0.5246636771300449  f1 after : 0.5246636771300449
Shapes --------------
(1704,) (10326,)
f1 before : 0.5246636771300449  f1 after : 0.5246636771300449
Shapes --------------
(1704,) (10326,)
f1 before : 0.5246636771300449  f1 after : 0.5246636771300449
Shapes --------------
(1704,) (10326,)
f1 before : 0.5246636771300449  f1 after : 0.5246636771300449
Shapes --------------
(1704,) (10326,)
f1 before : 0.5246636771300449  f1 after : 0.5246636771300449
Shapes --------------
(1704,) (10326,)
f1 before : 0.5246636771300449  f1 after : 0.5246636771300449
Shapes --------------
(1704,) (10326,)
f1 before : 0.5246636771300449  f1 after : 0.5246636771300449
Shapes --------------
(1704,) (10326,)
f1 before : 0.5246636771300449  f1 after : 0.5246636771300449
Shapes --------------
(1704,) (10326,)
f1 before : 0.5246636771300449  f1 after : 0.5246636771300449
Shapes --------------
(1704,) (10326,)
f1 before : 0.5246636771300449  f1 after : 0.5246636771300449
Shapes --------------
(1704,)

f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,)

f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,) (10252,)
f1 before : 0.5184659090909092  f1 after : 0.5184659090909092
Shapes --------------
(1739,)

f1 before : 0.58169375534645  f1 after : 0.5792163543441227
Shapes --------------
(1829,) (9972,)
f1 before : 0.58169375534645  f1 after : 0.5748098055790363
Shapes --------------
(1829,) (9967,)
f1 before : 0.58169375534645  f1 after : 0.5750853242320818
Shapes --------------
(1829,) (9962,)
f1 before : 0.58169375534645  f1 after : 0.5721561969439729
Shapes --------------
(1829,) (9957,)
f1 before : 0.58169375534645  f1 after : 0.5716694772344014
Shapes --------------
(1829,) (9952,)
f1 before : 0.58169375534645  f1 after : 0.5697577276524645
Shapes --------------
(1829,) (9947,)
f1 before : 0.58169375534645  f1 after : 0.5771812080536912
Shapes --------------
(1829,) (9942,)
f1 before : 0.58169375534645  f1 after : 0.5807002561912895
Shapes --------------
(1829,) (9937,)
f1 before : 0.58169375534645  f1 after : 0.5755517826825127
Shapes --------------
(1829,) (9932,)
f1 before : 0.58169375534645  f1 after : 0.5794871794871794
Shapes --------------
(1829,) (9927,)
f1 before : 0.581693

f1 before : 0.5860306643952299  f1 after : 0.5784148397976392
Shapes --------------
(1839,) (9557,)
f1 before : 0.5860306643952299  f1 after : 0.5738255033557047
Shapes --------------
(1839,) (9552,)
f1 before : 0.5860306643952299  f1 after : 0.577927548441449
Shapes --------------
(1839,) (9547,)
f1 before : 0.5860306643952299  f1 after : 0.5762711864406779
Shapes --------------
(1839,) (9544,)
f1 before : 0.5860306643952299  f1 after : 0.5860306643952299
Shapes --------------
(1839,) (9544,)
f1 before : 0.5860306643952299  f1 after : 0.5860306643952299
Shapes --------------
(1839,) (9544,)
f1 before : 0.5860306643952299  f1 after : 0.5860306643952299
Shapes --------------
(1839,) (9544,)
f1 before : 0.5860306643952299  f1 after : 0.5860306643952299
Shapes --------------
(1839,) (9544,)
f1 before : 0.5860306643952299  f1 after : 0.5860306643952299
Shapes --------------
(1839,) (9544,)
[1m---------------c06---------------[0m
f1 before : 0.5256500351370343  f1 after : 0.52609308885754

f1 before : 0.5802197802197804  f1 after : 0.5802197802197804
Shapes --------------
(1941,) (9207,)
f1 before : 0.5802197802197804  f1 after : 0.5802197802197804
Shapes --------------
(1941,) (9207,)
f1 before : 0.5802197802197804  f1 after : 0.5802197802197804
Shapes --------------
(1941,) (9207,)
f1 before : 0.5802197802197804  f1 after : 0.5802197802197804
Shapes --------------
(1941,) (9207,)
f1 before : 0.5802197802197804  f1 after : 0.5802197802197804
Shapes --------------
(1941,) (9207,)
f1 before : 0.5802197802197804  f1 after : 0.5802197802197804
Shapes --------------
(1941,) (9207,)
f1 before : 0.5802197802197804  f1 after : 0.5802197802197804
Shapes --------------
(1941,) (9207,)
f1 before : 0.5802197802197804  f1 after : 0.5802197802197804
Shapes --------------
(1941,) (9207,)
f1 before : 0.5802197802197804  f1 after : 0.5802197802197804
Shapes --------------
(1941,) (9207,)
f1 before : 0.5802197802197804  f1 after : 0.5802197802197804
Shapes --------------
(1941,) (9207,)


f1 before : 0.46274509803921565  f1 after : 0.46386333771353483
adding instances ... 
Shapes --------------
(1961,) (9167,)
f1 before : 0.46386333771353483  f1 after : 0.46367239101717306
Shapes --------------
(1961,) (9162,)
f1 before : 0.46386333771353483  f1 after : 0.465300727032386
adding instances ... 
Shapes --------------
(1966,) (9157,)
f1 before : 0.465300727032386  f1 after : 0.4637873754152824
Shapes --------------
(1966,) (9152,)
f1 before : 0.465300727032386  f1 after : 0.4663143989431969
adding instances ... 
Shapes --------------
(1971,) (9147,)
f1 before : 0.4663143989431969  f1 after : 0.46041250831669994
Shapes --------------
(1971,) (9142,)
f1 before : 0.4663143989431969  f1 after : 0.46825396825396826
adding instances ... 
Shapes --------------
(1976,) (9137,)
f1 before : 0.46825396825396826  f1 after : 0.46794448116325177
Shapes --------------
(1976,) (9132,)
f1 before : 0.46825396825396826  f1 after : 0.46697798532354906
Shapes --------------
(1976,) (9127,)
f1 b

f1 before : 0.48816768086544965  f1 after : 0.48816768086544965
Shapes --------------
(2016,) (9032,)
f1 before : 0.48816768086544965  f1 after : 0.48816768086544965
Shapes --------------
(2016,) (9032,)
f1 before : 0.48816768086544965  f1 after : 0.48816768086544965
Shapes --------------
(2016,) (9032,)
f1 before : 0.48816768086544965  f1 after : 0.48816768086544965
Shapes --------------
(2016,) (9032,)
f1 before : 0.48816768086544965  f1 after : 0.48816768086544965
Shapes --------------
(2016,) (9032,)
f1 before : 0.48816768086544965  f1 after : 0.48816768086544965
Shapes --------------
(2016,) (9032,)
f1 before : 0.48816768086544965  f1 after : 0.48816768086544965
Shapes --------------
(2016,) (9032,)
f1 before : 0.48816768086544965  f1 after : 0.48816768086544965
Shapes --------------
(2016,) (9032,)
f1 before : 0.48816768086544965  f1 after : 0.48816768086544965
Shapes --------------
(2016,) (9032,)
f1 before : 0.48816768086544965  f1 after : 0.48816768086544965
Shapes -----------

f1 before : 0.5850178359096314  f1 after : 0.5828367103694874
Shapes --------------
(2086,) (8897,)
f1 before : 0.5850178359096314  f1 after : 0.5890083632019116
adding instances ... 
Shapes --------------
(2091,) (8892,)
f1 before : 0.5890083632019116  f1 after : 0.5884455032757595
Shapes --------------
(2091,) (8887,)
f1 before : 0.5890083632019116  f1 after : 0.5890083632019116
Shapes --------------
(2091,) (8882,)
f1 before : 0.5890083632019116  f1 after : 0.5856550088915234
Shapes --------------
(2091,) (8877,)
f1 before : 0.5890083632019116  f1 after : 0.5899280575539568
adding instances ... 
Shapes --------------
(2096,) (8872,)
f1 before : 0.5899280575539568  f1 after : 0.5883054892601431
Shapes --------------
(2096,) (8867,)
f1 before : 0.5899280575539568  f1 after : 0.5914817036592681
adding instances ... 
Shapes --------------
(2101,) (8862,)
f1 before : 0.5914817036592681  f1 after : 0.5913461538461539
Shapes --------------
(2101,) (8857,)
f1 before : 0.5914817036592681  f1

f1 before : 0.60984393757503  f1 after : 0.60984393757503
Shapes --------------
(2166,) (8556,)
f1 before : 0.60984393757503  f1 after : 0.60984393757503
Shapes --------------
(2166,) (8556,)
f1 before : 0.60984393757503  f1 after : 0.60984393757503
Shapes --------------
(2166,) (8556,)
f1 before : 0.60984393757503  f1 after : 0.60984393757503
Shapes --------------
(2166,) (8556,)
f1 before : 0.60984393757503  f1 after : 0.60984393757503
Shapes --------------
(2166,) (8556,)
f1 before : 0.60984393757503  f1 after : 0.60984393757503
Shapes --------------
(2166,) (8556,)
f1 before : 0.60984393757503  f1 after : 0.60984393757503
Shapes --------------
(2166,) (8556,)
f1 before : 0.60984393757503  f1 after : 0.60984393757503
Shapes --------------
(2166,) (8556,)
f1 before : 0.60984393757503  f1 after : 0.60984393757503
Shapes --------------
(2166,) (8556,)
f1 before : 0.60984393757503  f1 after : 0.60984393757503
Shapes --------------
(2166,) (8556,)
f1 before : 0.60984393757503  f1 after :

ValueError: Multioutput target data is not supported with label binarization

In [None]:
stop

In [None]:
from nltk.corpus import words
all_words = words.words()

In [None]:
words_5len = [word.lower() for word in all_words if len(word)==5]

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
data_vecs = vectorizer.fit_transform(data_words).toarray()

In [None]:
for word in words_5len:
    if 'h' in word and 'k' in word and 'n' in word:
        print(word)

In [None]:
from gensim.corpora.dictionary import Dictionary
common_dictionary = Dictionary(data_words)
common_corpus = [common_dictionary.doc2bow(text) for text in data_words]

In [None]:
common_corpus

In [None]:
data_vecs[0]

In [None]:
data_vecs

In [None]:
from scipy.stats import entropy
from scipy.spatial.distance import jensenshannon
from scipy.special import kl_div

In [None]:
for word in words_5len:
    if word.startswith('se') and 'r' in word:
        print(word)

In [None]:
letter_0 = ''
letter_1 = ''
letter_2 = 'a'
letter_3 = ''
letter_4 = ''

exist_letters = 'acs'
banned_letters = 'trdefou'

In [None]:
def KL_divergence(p, q):
        """ Compute KL divergence of two vectors, K(p || q)."""
        return sum(p[x] * log((p[x]) / (q[x])) for x in range(len(p)) if p[x] != 0.0 or p[x] != 0)

In [None]:
from numpy import zeros, array
from math import sqrt, log

In [None]:
jensenshannon(p, q)

In [None]:
filtered = [word for word in words_5len for e in exist_letters if e in word]
filtered

In [None]:
filtered = [word for word in filtered for b in banned_letters if b in word]
filtered = [word for word in filtered if letter_0 and word[0]==letter_0]
filtered = [word for word in filtered if letter_1 and word[0]==letter_1]
filtered = [word for word in filtered if letter_2 and word[0]==letter_2]
filtered = [word for word in filtered if letter_3 and word[0]==letter_3]
filtered = [word for word in filtered if letter_4 and word[0]==letter_4]
filtered

In [None]:
class JSD(object):
    def __init__(self):
        self.log2 = log(2)


    def KL_divergence(self, p, q):
        """ Compute KL divergence of two vectors, K(p || q)."""
        return sum(p[x] * log((p[x]) / (q[x])) for x in range(len(p)) if p[x] != 0.0 or p[x] != 0)

    def Jensen_Shannon_divergence(self, p, q):
        """ Returns the Jensen-Shannon divergence. """
        self.JSD = 0.0
        weight = 0.5
        average = zeros(len(p)) #Average
        for x in range(len(p)):
            average[x] = weight * p[x] + (1 - weight) * q[x]
            self.JSD = (weight * self.KL_divergence(array(p), average)) + ((1 - weight) * self.KL_divergence(array(q), average))
        return 1-(self.JSD/sqrt(2 * self.log2))

if __name__ == '__main__':
    J = JSD()
    p = [1.0/10, 9.0/10, 0]
    q = [0, 1.0/10, 9.0/10]
    p = data_vecs[0]
    q = data_vecs[1]
    print(J.Jensen_Shannon_divergence(p, q))

In [None]:
if letter_2:
    print('a')

In [None]:
for word in words_5len:
    if 'o' in word and 'u' in word and 'a' not in word and 'i' not in word and 'd' not in word:
        print(word)