
Originally created by Chelsey McGowan-Yallop, SAMS-UHI (sa06cm@sams.ac.uk)

Modified by Muriel Dunn for AFKABAN

This script uses model-predicted TS(f) spectra to train a machine learning
classifier, performs nested cross-validation, applies the classifier to
measured TS(f) spectra and outputs results files.

To use a different classifier, see the list of supported classifiers at:
https://github.com/hyperopt/hyperopt-sklearn and set as clf.

Sometimes the initial hyperparameter configuration selected by HyperOpt in each
split in the outer loop will be unsuccessful and all trials will fail. The
retry decorator forces it to try again until retry_limit is reached.

OUTPUT FILES:
    _NestedCV.pkl contains results of nested cross-validation procedure
    _Predictions.pkl contains measured TS(f) spectra with predicted labels
    _BestParams.pkl contains the optimal hyperparameters for the model
"""

In [13]:
import time
import os.path
import numpy as np
import pandas as pd
import pickle
import scipy
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import f1_score, confusion_matrix
#from sklearn.neighbors import KNeighborsClassifier
import hyperopt
from hyperopt import tpe
from hpsklearn import HyperoptEstimator, k_neighbors_classifier, svc, lightgbm_classification, gaussian_nb, any_preprocessing,min_max_scaler
import lightgbm
from datetime import timedelta, date
from tenacity import retry, stop_after_attempt
import AZKABANML
import sys, errno  


# Read the dataframes

In [2]:
# Set paths
path = 'F:/AFKABAN/'
classifypath = 'F:/AFKABAN/Classify/'

In [3]:
# Read pickle to open on Stokes
ppath = f'{path}Pcod_190123/select/'
p2path = f'{path}Pcod2_240123/select/'
apath = f'{path}Acod_200123/select/'
pbpath = f'{path}Pandalus_260123/select/'
kpath = f'{path}Krill_270123/'

In [4]:
a_df_120 = pd.read_feather(apath+'a_df_120.feather')
a_df_200 = pd.read_feather(apath+'a_df_200.feather')

p_df_120 = pd.read_feather(ppath+'p_df_120.feather')
p_df_200 = pd.read_feather(ppath+'p_df_200.feather')

p2_df_120 = pd.read_feather(p2path+'p2_df_120.feather')
p2_df_200 = pd.read_feather(p2path+'p2_df_200.feather')

pb_df_120 = pd.read_feather(pbpath+'pb_df_120.feather')
pb_df_200 = pd.read_feather(pbpath+'pb_df_200.feather')

## Organize the data into a single df

In [5]:
df_120 = pd.concat([a_df_120,p_df_120,pb_df_120])
df_120 = df_120.reset_index(drop=True)


df_200 = pd.concat([a_df_200,p_df_200,pb_df_200])
df_200 = df_200.reset_index(drop=True)



In [6]:
df_120.to_feather(f'{classifypath}/df_120.feather')
df_200.to_feather(f'{classifypath}/df_200.feather')

# Run different iterations
### No preprocessing

In [7]:
# -- USER-DETERMINED PARAMETERS -----------------------------------------------
path = 'F:/AFKABAN/'
classifypath = 'F:/AFKABAN/Classify/'
d1 = date.today().strftime("%d-%m-%Y")

# NESTED CROSS-VALIDATION
preprocessing = [] # List of sklearn pre-processing modules
ex_preprocessing = [] # As above, see help(HyperoptEstimator) for info
n_splits = 10 # Value of k for k-fold cross-validation in outer loop
n_folds = 10 # Value of k for k-fold cross-validation in inner loop
max_evals = 50 # No. of HyperOpt trials
timeout = 300 # HyperOpt trial timeout (seconds)
n_jobs = -1 # No. of jobs to run in parallel; -1 uses all processors
retry_limit = 3 # No. of times to retry before failing

In [17]:
#@retry(stop=stop_after_attempt(10))
def nested_cv(X, y, model, n_splits, n_folds, unique_id, le, path):
    
    """
    This function performs nested cross-validation with Bayesian hyperparameter
    optimisation. It uses stratified k-fold cross-validation in both the inner
    and outer loops. After each outer loop, it outputs the results to a .pkl
    file. As there is an element of randomness to the optimisation procedure,
    sometimes all trials will fail. If you re-run the script, it will import
    the incomplete .pkl file and try again.
    
    Note that this is a modified version that uses F1 score as the evaluation
    metric. It also calculates class-specific F1 scores and confusion matrices,
    which are added to the output dataframe.
    
    PARAMETERS:
        X: data minus labels
        y: labels
        model: HyperoptEstimator object
        n_splits: # of splits to use in outer K-fold cross-validation
        n_folds: # of folds to use in inner K-fold cross-validation
        unique_id: Unique name string for file output path
    Written by Chelsey McGowan-Yallop
    """
    cv = StratifiedKFold(n_splits=n_splits,
                         shuffle=True,
                         random_state=42) # Outer CV
    
    i_start = 0
    i_list = []
    results_df = None
    cv_path = path + unique_id + '_NestedCV.pkl'
        
    if os.path.isfile(cv_path) == True: # If CV is incomplete, resume
        results_df = pd.read_pickle(cv_path)
        i_start = results_df.Outer_fold.max() + 1
        print('Resuming cross-validation from fold ' + str(i_start + 1))
        
    # Generate indices to split data by StratifiedKFold
    # Append indices for each fold to list    
    for tr_i, te_i in cv.split(X,y):
        i_list.append([tr_i, te_i])
    
    # For each fold...
    for i in range(i_start, len(i_list)):
        results_list = []
        print('Beginning fold ' + str(i+1) + ' of ' + str(len(i_list)))
        
        # Split data into training and test tests
        X_train = X[i_list[i][0]]
        y_train = y[i_list[i][0]]
        X_test = X[i_list[i][1]]
        y_test = y[i_list[i][1]]

        start = time.time()
        
        # Fit the HyperoptEstimator to training data (optimise model)
        model.fit(X_train,
                  y_train,
                  n_folds=n_folds, # Inner stratified k-fold CV
                  cv_shuffle=True)
        
        end = time.time()
        duration = end - start

        # Use optimised model to predict labels for test data
        y_pred = model.predict(X_test)
        score = f1_score(y_test, y_pred, average='weighted') # Evaluate
        
        # Everything below: formats and/or calculates results for output file
        sorted_labels = np.sort(np.unique(y_test))
        unweighted_score = f1_score(y_test, y_pred,
                                    average=None,
                                    labels=sorted_labels)
        c_matrix = confusion_matrix(y_test, y_pred,
                                    labels=sorted_labels)

        for trial in range(len(model.trials.trials)):
                if model.trials.trials[trial].get('result').get('status') == 'ok':
                    trial_loss = model.trials.trials[trial].get('result').get('loss')
                    trial_duration = model.trials.trials[trial].get('result').get('duration')
                else:
                    trial_loss = np.nan
                    trial_duration = np.nan
            
                results_list.append([i,
                                     score,
                                     unweighted_score,
                                     le.inverse_transform(sorted_labels),
                                     c_matrix,
                                     duration,
                                     trial,
                                     trial_loss,
                                     trial_duration])
        
        append_df = pd.DataFrame(results_list,
                                 columns=['Outer_fold',
                                          'Outer_score',
                                          'Outer_unweighted_scores',
                                          'Outer_unweighted_score_labels',
                                          'Outer_confusion_matrix',
                                          'Outer_training_duration',
                                          'Trial',
                                          'Trial_loss',
                                          'Trial_duration'])
        if i == i_start:
            if results_df is not None:
                final_df = pd.concat([results_df,
                                      append_df],
                                      ignore_index=True)
            else:
                final_df = append_df
            final_df.to_pickle(cv_path)
        
        else:
            results_df = pd.read_pickle(cv_path)
            final_df = pd.concat([results_df,
                                  append_df],
                                  ignore_index=True)
            final_df.to_pickle(cv_path)
    return
        
            
def f1_loss(y_true, y_pred):
    """
    Custom loss function for HyperOpt.
    Uses F1 score instead of accuracy score, as the latter is inappropriate
    for multi-class classification.
    """
    return 1.0 - f1_score(y_true, y_pred, average='weighted')

def main_classify(df, clf, unique_id,path, preprocessing=[],  ex_preprocessing=[], timeout=300, n_jobs=-1, max_evals=50, n_splits = 10,
n_folds = 10):
    """
    Function to run nested cross validation then apply fit to whole dataset
    Uses F1 score instead of accuracy score, as the latter is inappropriate
    for multi-class classification.
    """
    
    # -- WRANGLE DATA ---------------------------------------------------------
    df_np = df.to_numpy()
    le = LabelEncoder() # Maps labels -> int (e.g. Atlantic cod -> 0, Polar cod -> 1)
    df['Species_le'] = le.fit_transform(df.Species)
    X = df_np[:,:-2] # Features, TS(f) only
    y = df['Species_le'].to_numpy() # Labels


    # -- NESTED CROSS-VALIDATION ----------------------------------------------

    model = HyperoptEstimator(classifier = clf,
                              preprocessing = preprocessing,
                              ex_preprocs = ex_preprocessing,
                              algo = tpe.suggest,
                              trial_timeout = timeout,
                              loss_fn = f1_loss,
                              max_evals = max_evals,
                              n_jobs = n_jobs)
    model

    nested_cv(X, y, model, n_splits, n_folds, unique_id, le, path)

    # -- RETRAIN MODEL --------------------------------------------------------

    print('Retraining model on full dataset')

    model = HyperoptEstimator(classifier = clf,
                              preprocessing = preprocessing,
                              ex_preprocs = ex_preprocessing,
                              algo = tpe.suggest,
                              trial_timeout = timeout,
                              loss_fn = f1_loss,
                              max_evals = max_evals,
                              n_jobs = n_jobs)

    model.fit(X, y, n_folds=n_folds, cv_shuffle=True)

    with open(path + unique_id + '_BestParams.pkl', 'wb') as handle:
        pickle.dump(model.best_model(), handle)
    return

def print_F1_mean(classifier):
    cv_df = classifier['cv_df']
    
    print('Mean class-weighted F1 score for : '
          + str(round(cv_df.Outer_score.mean(), 2))
          + ' ± '
          + str(round(cv_df.Outer_score.std(), 2)))

    mean_class_scores = np.mean(np.vstack(cv_df.Outer_unweighted_scores.values), axis=0)
    std_class_scores = np.std(np.vstack(cv_df.Outer_unweighted_scores.values), axis=0)

    for i, species in enumerate(cv_df.Outer_unweighted_score_labels.values[0]):
        print('Mean F1 score for ' + species + ': '
             + str(round(mean_class_scores[i], 2))
             + ' ± '
             + str(round(std_class_scores[i], 2)))
        
def read_results(unique_id ,pathh):
    ' read the classifier results and predictions from the selected classifier'
    
    main_path = f'{classifypath}/{unique_id}'
    cv_path = '_NestedCV.pkl'
    best_params = '_BestParams.pkl'

    # Load dataframes
    cv_df = pd.read_pickle(main_path + cv_path) # Nested CV results
    best_params = pd.read_pickle(main_path + best_params)

    return {'name':classifier, 'cv_df':cv_df, 'best_params':best_params}

#### kNN

In [19]:
# CLASSIFIER kNN 120
unique_id = 'kNN_test' # Unique ID for output file paths
clf = k_neighbors_classifier(unique_id)  # Classifier
main_classify(df_120, clf, unique_id, classifypath)

Beginning fold 1 of 10
100%|███████████████████████████████████████████████████████████████████| 1/1 [05:07<00:00, 307.48s/trial, best loss=?]


AllTrialsFailed: 

In [251]:
# CLASSIFIER kNN 200
unique_id = 'kNN_'+ d1 +'_200' # Unique ID for output file paths
clf = k_neighbors_classifier(unique_id)  # Classifier

main_classify(X_200, y_200, clf, unique_id, [])

Beginning fold 1 of 10
100%|██████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.95s/trial, best loss: 0.1459754433833561]
100%|██████████████████████████████████████████████████| 2/2 [00:03<00:00,  3.64s/trial, best loss: 0.1459754433833561]
100%|██████████████████████████████████████████████████| 3/3 [00:03<00:00,  3.61s/trial, best loss: 0.1459754433833561]
100%|██████████████████████████████████████████████████| 4/4 [00:05<00:00,  5.01s/trial, best loss: 0.1459754433833561]
100%|██████████████████████████████████████████████████| 5/5 [00:04<00:00,  4.78s/trial, best loss: 0.1459754433833561]
100%|██████████████████████████████████████████████████| 6/6 [00:03<00:00,  3.65s/trial, best loss: 0.1459754433833561]
100%|██████████████████████████████████████████████████| 7/7 [00:03<00:00,  3.85s/trial, best loss: 0.1459754433833561]
100%|██████████████████████████████████████████████████| 8/8 [00:04<00:00,  4.98s/trial, best loss: 0.1459754433833561]
100%|████████████

100%|█████████████████████████████████████████████████| 36/36 [00:04<00:00,  4.91s/trial, best loss: 0.096862210095498]
100%|█████████████████████████████████████████████████| 37/37 [00:03<00:00,  3.76s/trial, best loss: 0.096862210095498]
100%|█████████████████████████████████████████████████| 38/38 [00:03<00:00,  3.69s/trial, best loss: 0.096862210095498]
100%|█████████████████████████████████████████████████| 39/39 [00:03<00:00,  3.72s/trial, best loss: 0.096862210095498]
100%|█████████████████████████████████████████████████| 40/40 [00:04<00:00,  4.92s/trial, best loss: 0.096862210095498]
100%|█████████████████████████████████████████████████| 41/41 [00:03<00:00,  3.68s/trial, best loss: 0.096862210095498]
100%|█████████████████████████████████████████████████| 42/42 [00:03<00:00,  3.68s/trial, best loss: 0.096862210095498]
100%|█████████████████████████████████████████████████| 43/43 [00:03<00:00,  3.66s/trial, best loss: 0.096862210095498]
100%|███████████████████████████████████

100%|███████████████████████████████████████████████| 21/21 [00:04<00:00,  4.33s/trial, best loss: 0.10081743869209814]
100%|███████████████████████████████████████████████| 22/22 [00:03<00:00,  3.81s/trial, best loss: 0.10081743869209814]
100%|███████████████████████████████████████████████| 23/23 [00:03<00:00,  3.84s/trial, best loss: 0.10081743869209814]
100%|███████████████████████████████████████████████| 24/24 [00:03<00:00,  3.83s/trial, best loss: 0.10081743869209814]
100%|███████████████████████████████████████████████| 25/25 [00:03<00:00,  3.82s/trial, best loss: 0.10081743869209814]
100%|███████████████████████████████████████████████| 26/26 [00:03<00:00,  3.71s/trial, best loss: 0.10081743869209814]
100%|███████████████████████████████████████████████| 27/27 [00:03<00:00,  3.75s/trial, best loss: 0.10081743869209814]
100%|███████████████████████████████████████████████| 28/28 [00:03<00:00,  3.81s/trial, best loss: 0.10081743869209814]
100%|███████████████████████████████████

100%|█████████████████████████████████████████████████| 6/6 [00:05<00:00,  5.49s/trial, best loss: 0.10899182561307907]
100%|█████████████████████████████████████████████████| 7/7 [00:05<00:00,  5.32s/trial, best loss: 0.10899182561307907]
100%|█████████████████████████████████████████████████| 8/8 [00:05<00:00,  5.18s/trial, best loss: 0.10899182561307907]
100%|█████████████████████████████████████████████████| 9/9 [00:05<00:00,  5.16s/trial, best loss: 0.10899182561307907]
100%|███████████████████████████████████████████████| 10/10 [00:03<00:00,  3.87s/trial, best loss: 0.10899182561307907]
100%|███████████████████████████████████████████████| 11/11 [00:05<00:00,  5.27s/trial, best loss: 0.10899182561307907]
100%|███████████████████████████████████████████████| 12/12 [00:03<00:00,  3.80s/trial, best loss: 0.10899182561307907]
100%|███████████████████████████████████████████████| 13/13 [00:05<00:00,  5.39s/trial, best loss: 0.10899182561307907]
100%|███████████████████████████████████

100%|███████████████████████████████████████████████| 42/42 [00:03<00:00,  3.83s/trial, best loss: 0.12147239263803677]
100%|███████████████████████████████████████████████| 43/43 [00:03<00:00,  3.86s/trial, best loss: 0.12147239263803677]
100%|███████████████████████████████████████████████| 44/44 [00:05<00:00,  5.29s/trial, best loss: 0.12147239263803677]
100%|███████████████████████████████████████████████| 45/45 [00:03<00:00,  3.76s/trial, best loss: 0.12147239263803677]
100%|███████████████████████████████████████████████| 46/46 [00:05<00:00,  5.21s/trial, best loss: 0.12147239263803677]
100%|███████████████████████████████████████████████| 47/47 [00:03<00:00,  3.88s/trial, best loss: 0.12147239263803677]
100%|███████████████████████████████████████████████| 48/48 [00:05<00:00,  5.26s/trial, best loss: 0.12147239263803677]
100%|███████████████████████████████████████████████| 49/49 [00:05<00:00,  5.21s/trial, best loss: 0.12147239263803677]
100%|███████████████████████████████████

#### lightGBM
Takes 10x longer than kNN

In [252]:
# CLASSIFIER lightGBM 120
unique_id = 'lightGBM_'+ d1 +'_120' # Unique ID for output file paths
clf = lightgbm_classification(unique_id)  # Classifier
main_classify(X_120, y_120, clf, unique_id, [])

Beginning fold 1 of 10
100%|█████████████████████████████████████████████████| 1/1 [00:35<00:00, 35.37s/trial, best loss: 0.05292479108635095]
100%|█████████████████████████████████████████████████| 2/2 [00:27<00:00, 27.78s/trial, best loss: 0.05292479108635095]
100%|█████████████████████████████████████████████████| 3/3 [00:17<00:00, 17.05s/trial, best loss: 0.05292479108635095]
100%|█████████████████████████████████████████████████| 4/4 [00:11<00:00, 11.91s/trial, best loss: 0.05292479108635095]
100%|████████████████████████████████████████████████| 5/5 [02:36<00:00, 156.44s/trial, best loss: 0.05292479108635095]
100%|█████████████████████████████████████████████████| 6/6 [00:27<00:00, 27.58s/trial, best loss: 0.05292479108635095]
100%|█████████████████████████████████████████████████| 7/7 [00:16<00:00, 16.94s/trial, best loss: 0.05292479108635095]
100%|█████████████████████████████████████████████████| 8/8 [00:34<00:00, 34.36s/trial, best loss: 0.05292479108635095]
100%|████████████

100%|████████████████████████████████████████████████| 36/36 [00:48<00:00, 48.42s/trial, best loss: 0.0473537604456824]
100%|████████████████████████████████████████████████| 37/37 [00:31<00:00, 31.58s/trial, best loss: 0.0473537604456824]
100%|███████████████████████████████████████████████| 38/38 [02:44<00:00, 164.40s/trial, best loss: 0.0473537604456824]
100%|████████████████████████████████████████████████| 39/39 [00:28<00:00, 28.80s/trial, best loss: 0.0473537604456824]
100%|████████████████████████████████████████████████| 40/40 [00:33<00:00, 33.86s/trial, best loss: 0.0473537604456824]
100%|███████████████████████████████████████████████| 41/41 [01:48<00:00, 109.00s/trial, best loss: 0.0473537604456824]
100%|████████████████████████████████████████████████| 42/42 [00:09<00:00,  9.06s/trial, best loss: 0.0473537604456824]
100%|████████████████████████████████████████████████| 43/43 [00:09<00:00,  9.33s/trial, best loss: 0.0473537604456824]
100%|███████████████████████████████████

100%|███████████████████████████████████████████████| 21/21 [00:15<00:00, 15.76s/trial, best loss: 0.04317548746518107]
100%|███████████████████████████████████████████████| 22/22 [01:03<00:00, 63.18s/trial, best loss: 0.04317548746518107]
100%|███████████████████████████████████████████████| 23/23 [00:06<00:00,  6.18s/trial, best loss: 0.04317548746518107]
100%|███████████████████████████████████████████████| 24/24 [00:46<00:00, 46.78s/trial, best loss: 0.04317548746518107]
100%|███████████████████████████████████████████████| 25/25 [00:21<00:00, 21.37s/trial, best loss: 0.04317548746518107]
100%|███████████████████████████████████████████████| 26/26 [00:28<00:00, 28.67s/trial, best loss: 0.04317548746518107]
100%|███████████████████████████████████████████████| 27/27 [00:18<00:00, 18.54s/trial, best loss: 0.04038997214484674]
100%|███████████████████████████████████████████████| 28/28 [00:18<00:00, 18.80s/trial, best loss: 0.04038997214484674]
100%|███████████████████████████████████

100%|█████████████████████████████████████████████████| 6/6 [00:04<00:00,  4.90s/trial, best loss: 0.05563282336578579]
100%|█████████████████████████████████████████████████| 7/7 [00:58<00:00, 58.57s/trial, best loss: 0.05563282336578579]
100%|█████████████████████████████████████████████████| 8/8 [00:23<00:00, 23.35s/trial, best loss: 0.05563282336578579]
100%|████████████████████████████████████████████████| 9/9 [00:19<00:00, 19.89s/trial, best loss: 0.052851182197496516]
100%|█████████████████████████████████████████████| 10/10 [02:42<00:00, 162.59s/trial, best loss: 0.052851182197496516]
100%|██████████████████████████████████████████████| 11/11 [00:23<00:00, 23.51s/trial, best loss: 0.052851182197496516]
100%|██████████████████████████████████████████████| 12/12 [00:21<00:00, 21.37s/trial, best loss: 0.052851182197496516]
100%|█████████████████████████████████████████████| 13/13 [02:16<00:00, 136.69s/trial, best loss: 0.052851182197496516]
100%|███████████████████████████████████

100%|███████████████████████████████████████████████| 42/42 [00:19<00:00, 19.37s/trial, best loss: 0.04260651629072687]
100%|███████████████████████████████████████████████| 43/43 [00:37<00:00, 37.93s/trial, best loss: 0.04260651629072687]
100%|███████████████████████████████████████████████| 44/44 [00:52<00:00, 52.39s/trial, best loss: 0.04260651629072687]
100%|███████████████████████████████████████████████| 45/45 [00:10<00:00, 10.07s/trial, best loss: 0.04260651629072687]
100%|███████████████████████████████████████████████| 46/46 [00:34<00:00, 34.26s/trial, best loss: 0.04260651629072687]
100%|███████████████████████████████████████████████| 47/47 [00:19<00:00, 19.34s/trial, best loss: 0.04260651629072687]
100%|███████████████████████████████████████████████| 48/48 [00:28<00:00, 28.48s/trial, best loss: 0.04260651629072687]
100%|███████████████████████████████████████████████| 49/49 [00:12<00:00, 12.22s/trial, best loss: 0.04260651629072687]
100%|███████████████████████████████████

In [253]:
# CLASSIFIER lightGBM 200
unique_id = 'lightGBM_'+ d1 +'_200' # Unique ID for output file paths
clf = lightgbm_classification(unique_id)  # Classifier

main_classify(X_200, y_200, clf, unique_id, [])

Beginning fold 1 of 10
100%|█████████████████████████████████████████████████| 1/1 [00:26<00:00, 26.94s/trial, best loss: 0.12141882673942705]
100%|█████████████████████████████████████████████████| 2/2 [00:21<00:00, 21.16s/trial, best loss: 0.12141882673942705]
100%|█████████████████████████████████████████████████| 3/3 [00:25<00:00, 25.45s/trial, best loss: 0.08594815825375168]
100%|█████████████████████████████████████████████████| 4/4 [00:08<00:00,  8.71s/trial, best loss: 0.08594815825375168]
100%|████████████████████████████████████████████████| 5/5 [02:27<00:00, 147.29s/trial, best loss: 0.08594815825375168]
100%|█████████████████████████████████████████████████| 6/6 [00:30<00:00, 30.21s/trial, best loss: 0.08458390177353348]
100%|█████████████████████████████████████████████████| 7/7 [00:07<00:00,  7.93s/trial, best loss: 0.08458390177353348]
100%|█████████████████████████████████████████████████| 8/8 [00:20<00:00, 20.90s/trial, best loss: 0.08458390177353348]
100%|████████████

100%|███████████████████████████████████████████████| 36/36 [00:33<00:00, 33.99s/trial, best loss: 0.06548431105047747]
100%|███████████████████████████████████████████████| 37/37 [00:23<00:00, 23.52s/trial, best loss: 0.06548431105047747]
100%|███████████████████████████████████████████████| 38/38 [01:13<00:00, 73.10s/trial, best loss: 0.06548431105047747]
100%|███████████████████████████████████████████████| 39/39 [00:21<00:00, 21.71s/trial, best loss: 0.06548431105047747]
100%|███████████████████████████████████████████████| 40/40 [00:16<00:00, 16.67s/trial, best loss: 0.06548431105047747]
100%|███████████████████████████████████████████████| 41/41 [00:10<00:00, 10.83s/trial, best loss: 0.06548431105047747]
100%|███████████████████████████████████████████████| 42/42 [00:20<00:00, 20.05s/trial, best loss: 0.06548431105047747]
100%|███████████████████████████████████████████████| 43/43 [00:20<00:00, 20.56s/trial, best loss: 0.06548431105047747]
100%|███████████████████████████████████

100%|███████████████████████████████████████████████| 21/21 [00:23<00:00, 23.32s/trial, best loss: 0.06948228882833785]
100%|███████████████████████████████████████████████| 22/22 [00:44<00:00, 44.67s/trial, best loss: 0.06948228882833785]
100%|███████████████████████████████████████████████| 23/23 [00:43<00:00, 43.61s/trial, best loss: 0.06948228882833785]
100%|███████████████████████████████████████████████| 24/24 [00:57<00:00, 57.04s/trial, best loss: 0.06948228882833785]
100%|███████████████████████████████████████████████| 25/25 [00:42<00:00, 42.38s/trial, best loss: 0.06948228882833785]
100%|███████████████████████████████████████████████| 26/26 [00:06<00:00,  6.24s/trial, best loss: 0.06948228882833785]
100%|██████████████████████████████████████████████| 27/27 [03:53<00:00, 233.52s/trial, best loss: 0.06948228882833785]
100%|████████████████████████████████████████████████| 28/28 [00:43<00:00, 43.03s/trial, best loss: 0.0681198910081744]
100%|███████████████████████████████████

100%|█████████████████████████████████████████████████| 6/6 [00:40<00:00, 40.53s/trial, best loss: 0.12534059945504084]
100%|████████████████████████████████████████████████| 7/7 [03:08<00:00, 188.34s/trial, best loss: 0.06948228882833785]
100%|█████████████████████████████████████████████████| 8/8 [00:06<00:00,  6.12s/trial, best loss: 0.06948228882833785]
100%|█████████████████████████████████████████████████| 9/9 [00:27<00:00, 27.01s/trial, best loss: 0.06948228882833785]
100%|███████████████████████████████████████████████| 10/10 [00:16<00:00, 16.47s/trial, best loss: 0.06948228882833785]
100%|██████████████████████████████████████████████| 11/11 [02:55<00:00, 175.19s/trial, best loss: 0.06948228882833785]
100%|███████████████████████████████████████████████| 12/12 [01:31<00:00, 91.42s/trial, best loss: 0.06948228882833785]
100%|███████████████████████████████████████████████| 13/13 [00:26<00:00, 26.31s/trial, best loss: 0.06948228882833785]
100%|███████████████████████████████████

100%|███████████████████████████████████████████████| 42/42 [00:28<00:00, 28.09s/trial, best loss: 0.05153374233128838]
100%|███████████████████████████████████████████████| 43/43 [00:13<00:00, 13.15s/trial, best loss: 0.05153374233128838]
100%|███████████████████████████████████████████████| 44/44 [00:23<00:00, 23.94s/trial, best loss: 0.05153374233128838]
100%|██████████████████████████████████████████████| 45/45 [02:25<00:00, 145.66s/trial, best loss: 0.05153374233128838]
100%|███████████████████████████████████████████████| 46/46 [00:39<00:00, 39.66s/trial, best loss: 0.05153374233128838]
100%|███████████████████████████████████████████████| 47/47 [00:30<00:00, 30.33s/trial, best loss: 0.05153374233128838]
100%|███████████████████████████████████████████████| 48/48 [00:18<00:00, 18.77s/trial, best loss: 0.05153374233128838]
100%|███████████████████████████████████████████████| 49/49 [00:25<00:00, 25.33s/trial, best loss: 0.05153374233128838]
100%|███████████████████████████████████

#### Support vector machine

In [263]:
# CLASSIFIER SVC 120
unique_id = 'SVC_02-05-2023_120' # Unique ID for output file paths
clf = svc(unique_id)  # Classifier
main_classify(X_120, y_120, clf, unique_id, [])

Resuming cross-validation from fold 7
Beginning fold 7 of 10
100%|██████████████████████████████████████████████████| 1/1 [00:03<00:00,  3.77s/trial, best loss: 0.1044568245125348]
100%|██████████████████████████████████████████████████| 2/2 [00:03<00:00,  3.69s/trial, best loss: 0.1044568245125348]
100%|█████████████████████████████████████████████████| 3/3 [00:57<00:00, 57.59s/trial, best loss: 0.04317548746518107]
100%|█████████████████████████████████████████████████| 4/4 [00:05<00:00,  5.47s/trial, best loss: 0.04317548746518107]
100%|█████████████████████████████████████████████████| 5/5 [00:04<00:00,  4.00s/trial, best loss: 0.04317548746518107]
100%|█████████████████████████████████████████████████| 6/6 [00:04<00:00,  4.27s/trial, best loss: 0.04317548746518107]
100%|█████████████████████████████████████████████████| 7/7 [00:04<00:00,  4.03s/trial, best loss: 0.04317548746518107]
100%|█████████████████████████████████████████████████| 8/8 [00:03<00:00,  3.95s/trial, best loss: 

100%|███████████████████████████████████████████████| 36/36 [00:06<00:00,  6.80s/trial, best loss: 0.04728789986091797]
100%|███████████████████████████████████████████████| 37/37 [00:26<00:00, 26.43s/trial, best loss: 0.04728789986091797]
100%|███████████████████████████████████████████████| 38/38 [00:05<00:00,  5.06s/trial, best loss: 0.04728789986091797]
100%|███████████████████████████████████████████████| 39/39 [00:07<00:00,  7.87s/trial, best loss: 0.04728789986091797]
100%|███████████████████████████████████████████████| 40/40 [00:04<00:00,  4.90s/trial, best loss: 0.04728789986091797]
100%|███████████████████████████████████████████████| 41/41 [00:35<00:00, 35.67s/trial, best loss: 0.04728789986091797]
100%|███████████████████████████████████████████████| 42/42 [00:05<00:00,  5.00s/trial, best loss: 0.04728789986091797]
100%|███████████████████████████████████████████████| 43/43 [00:08<00:00,  8.40s/trial, best loss: 0.04728789986091797]
100%|███████████████████████████████████

job exception: C <= 0



 96%|███████████████████████████████████████████████████████████████████████   | 24/25 [00:04<?, ?trial/s, best loss=?]
Resuming cross-validation from fold 10
Beginning fold 10 of 10
100%|█████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.95s/trial, best loss: 0.09874826147426985]
100%|█████████████████████████████████████████████████| 2/2 [00:08<00:00,  8.60s/trial, best loss: 0.09874826147426985]
100%|█████████████████████████████████████████████████| 3/3 [00:08<00:00,  8.91s/trial, best loss: 0.09874826147426985]
100%|█████████████████████████████████████████████████| 4/4 [00:05<00:00,  5.30s/trial, best loss: 0.09874826147426985]
100%|█████████████████████████████████████████████████| 5/5 [00:04<00:00,  4.88s/trial, best loss: 0.09735744089012521]
100%|█████████████████████████████████████████████████| 6/6 [00:09<00:00,  9.40s/trial, best loss: 0.09735744089012521]
100%|█████████████████████████████████████████████████| 7/7 [00:05<00:00,  5.64s/trial, best loss

In [260]:
# CLASSIFIER SVC 200
unique_id = 'SVC_'+ d1 +'_200' # Unique ID for output file paths
clf = svc(unique_id)  # Classifier

main_classify(X_200, y_200, clf, unique_id, [])

Beginning fold 1 of 10
100%|██████████████████████████████████████████████████| 1/1 [00:08<00:00,  8.41s/trial, best loss: 0.2319236016371078]
100%|██████████████████████████████████████████████████| 2/2 [00:10<00:00, 10.54s/trial, best loss: 0.2319236016371078]
100%|██████████████████████████████████████████████████| 3/3 [00:04<00:00,  4.06s/trial, best loss: 0.2319236016371078]
100%|█████████████████████████████████████████████████| 4/4 [00:10<00:00, 10.60s/trial, best loss: 0.23055934515688947]
100%|█████████████████████████████████████████████████| 5/5 [00:04<00:00,  4.15s/trial, best loss: 0.23055934515688947]
100%|████████████████████████████████████████████████| 6/6 [02:46<00:00, 166.15s/trial, best loss: 0.07912687585266032]
100%|█████████████████████████████████████████████████| 7/7 [00:14<00:00, 14.20s/trial, best loss: 0.07912687585266032]
100%|█████████████████████████████████████████████████| 8/8 [00:03<00:00,  3.89s/trial, best loss: 0.07912687585266032]
100%|████████████

100%|███████████████████████████████████████████████| 36/36 [00:03<00:00,  3.73s/trial, best loss: 0.04502046384720326]
100%|███████████████████████████████████████████████| 37/37 [00:03<00:00,  3.99s/trial, best loss: 0.04502046384720326]
100%|███████████████████████████████████████████████| 38/38 [00:11<00:00, 11.18s/trial, best loss: 0.04502046384720326]
100%|███████████████████████████████████████████████| 39/39 [00:03<00:00,  3.68s/trial, best loss: 0.04502046384720326]
100%|███████████████████████████████████████████████| 40/40 [00:05<00:00,  5.01s/trial, best loss: 0.04502046384720326]
100%|███████████████████████████████████████████████| 41/41 [00:06<00:00,  6.99s/trial, best loss: 0.04502046384720326]
100%|███████████████████████████████████████████████| 42/42 [00:48<00:00, 48.49s/trial, best loss: 0.04502046384720326]
100%|███████████████████████████████████████████████| 43/43 [00:03<00:00,  3.83s/trial, best loss: 0.04502046384720326]
100%|███████████████████████████████████

100%|███████████████████████████████████████████████| 21/21 [00:11<00:00, 11.96s/trial, best loss: 0.08991825613079019]
100%|███████████████████████████████████████████████| 22/22 [00:03<00:00,  3.82s/trial, best loss: 0.08991825613079019]
100%|██████████████████████████████████████████████| 23/23 [04:53<00:00, 293.64s/trial, best loss: 0.07901907356948223]
100%|███████████████████████████████████████████████| 24/24 [00:04<00:00,  4.20s/trial, best loss: 0.07901907356948223]
100%|███████████████████████████████████████████████| 25/25 [00:04<00:00,  4.16s/trial, best loss: 0.07901907356948223]
100%|███████████████████████████████████████████████| 26/26 [00:14<00:00, 14.23s/trial, best loss: 0.07901907356948223]
100%|██████████████████████████████████████████████| 27/27 [05:03<00:00, 303.52s/trial, best loss: 0.07901907356948223]
100%|███████████████████████████████████████████████| 28/28 [00:03<00:00,  3.90s/trial, best loss: 0.07901907356948223]
100%|███████████████████████████████████

100%|█████████████████████████████████████████████████| 6/6 [03:19<00:00, 199.74s/trial, best loss: 0.0681198910081744]
100%|██████████████████████████████████████████████████| 7/7 [00:04<00:00,  4.21s/trial, best loss: 0.0681198910081744]
100%|██████████████████████████████████████████████████| 8/8 [00:17<00:00, 17.14s/trial, best loss: 0.0681198910081744]
100%|█████████████████████████████████████████████████| 9/9 [05:03<00:00, 303.56s/trial, best loss: 0.0681198910081744]
100%|████████████████████████████████████████████████| 10/10 [00:04<00:00,  4.09s/trial, best loss: 0.0681198910081744]
100%|████████████████████████████████████████████████| 11/11 [00:15<00:00, 15.14s/trial, best loss: 0.0681198910081744]
100%|████████████████████████████████████████████████| 12/12 [00:08<00:00,  8.67s/trial, best loss: 0.0681198910081744]
100%|████████████████████████████████████████████████| 13/13 [00:04<00:00,  4.17s/trial, best loss: 0.0681198910081744]
100%|███████████████████████████████████

100%|██████████████████████████████████████████████| 42/42 [00:07<00:00,  7.46s/trial, best loss: 0.053987730061349715]
100%|██████████████████████████████████████████████| 43/43 [00:03<00:00,  3.89s/trial, best loss: 0.053987730061349715]
100%|██████████████████████████████████████████████| 44/44 [00:03<00:00,  3.92s/trial, best loss: 0.053987730061349715]
100%|██████████████████████████████████████████████| 45/45 [00:09<00:00,  9.41s/trial, best loss: 0.053987730061349715]
100%|██████████████████████████████████████████████| 46/46 [00:04<00:00,  4.03s/trial, best loss: 0.053987730061349715]
100%|██████████████████████████████████████████████| 47/47 [00:03<00:00,  3.82s/trial, best loss: 0.053987730061349715]
100%|██████████████████████████████████████████████| 48/48 [00:03<00:00,  3.95s/trial, best loss: 0.053987730061349715]
100%|██████████████████████████████████████████████| 49/49 [00:09<00:00,  9.61s/trial, best loss: 0.053987730061349715]
100%|███████████████████████████████████

#### Gaussian Naive Bayes
Results were worst than kNN, LightGBM and SVC. Will not repeat.

In [264]:
# CLASSIFIER gNB 120
unique_id = 'gNB_'+ d1 +'_120' # Unique ID for output file paths
clf = gaussian_nb(unique_id)  # Classifier
main_classify(X_120, y_120, clf, unique_id, [])

Beginning fold 1 of 10
100%|█████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.01s/trial, best loss: 0.11699164345403901]
100%|█████████████████████████████████████████████████| 2/2 [00:04<00:00,  4.60s/trial, best loss: 0.11699164345403901]
100%|█████████████████████████████████████████████████| 3/3 [00:04<00:00,  4.32s/trial, best loss: 0.11699164345403901]
100%|█████████████████████████████████████████████████| 4/4 [00:04<00:00,  4.31s/trial, best loss: 0.11699164345403901]
100%|█████████████████████████████████████████████████| 5/5 [00:04<00:00,  4.14s/trial, best loss: 0.11699164345403901]
100%|█████████████████████████████████████████████████| 6/6 [00:04<00:00,  4.14s/trial, best loss: 0.11699164345403901]
100%|█████████████████████████████████████████████████| 7/7 [00:04<00:00,  4.05s/trial, best loss: 0.11699164345403901]
100%|█████████████████████████████████████████████████| 8/8 [00:04<00:00,  4.02s/trial, best loss: 0.11699164345403901]
100%|████████████

100%|███████████████████████████████████████████████| 36/36 [00:05<00:00,  5.32s/trial, best loss: 0.12116991643454034]
100%|███████████████████████████████████████████████| 37/37 [00:05<00:00,  5.42s/trial, best loss: 0.12116991643454034]
100%|███████████████████████████████████████████████| 38/38 [00:06<00:00,  6.08s/trial, best loss: 0.12116991643454034]
100%|███████████████████████████████████████████████| 39/39 [00:06<00:00,  6.13s/trial, best loss: 0.12116991643454034]
100%|███████████████████████████████████████████████| 40/40 [00:05<00:00,  5.57s/trial, best loss: 0.12116991643454034]
100%|███████████████████████████████████████████████| 41/41 [00:05<00:00,  5.43s/trial, best loss: 0.12116991643454034]
100%|███████████████████████████████████████████████| 42/42 [00:05<00:00,  5.40s/trial, best loss: 0.12116991643454034]
100%|███████████████████████████████████████████████| 43/43 [00:05<00:00,  5.65s/trial, best loss: 0.12116991643454034]
100%|███████████████████████████████████

100%|████████████████████████████████████████████████| 21/21 [00:05<00:00,  5.01s/trial, best loss: 0.1155988857938719]
100%|████████████████████████████████████████████████| 22/22 [00:04<00:00,  4.06s/trial, best loss: 0.1155988857938719]
100%|████████████████████████████████████████████████| 23/23 [00:04<00:00,  4.13s/trial, best loss: 0.1155988857938719]
100%|████████████████████████████████████████████████| 24/24 [00:04<00:00,  4.22s/trial, best loss: 0.1155988857938719]
100%|████████████████████████████████████████████████| 25/25 [00:03<00:00,  3.71s/trial, best loss: 0.1155988857938719]
100%|████████████████████████████████████████████████| 26/26 [00:04<00:00,  4.07s/trial, best loss: 0.1155988857938719]
100%|████████████████████████████████████████████████| 27/27 [00:04<00:00,  4.06s/trial, best loss: 0.1155988857938719]
100%|████████████████████████████████████████████████| 28/28 [00:03<00:00,  3.96s/trial, best loss: 0.1155988857938719]
100%|███████████████████████████████████

100%|█████████████████████████████████████████████████| 6/6 [00:03<00:00,  3.61s/trial, best loss: 0.12100139082058414]
100%|█████████████████████████████████████████████████| 7/7 [00:03<00:00,  3.72s/trial, best loss: 0.12100139082058414]
100%|█████████████████████████████████████████████████| 8/8 [00:03<00:00,  3.62s/trial, best loss: 0.12100139082058414]
100%|█████████████████████████████████████████████████| 9/9 [00:03<00:00,  3.56s/trial, best loss: 0.12100139082058414]
100%|███████████████████████████████████████████████| 10/10 [00:03<00:00,  3.55s/trial, best loss: 0.12100139082058414]
100%|███████████████████████████████████████████████| 11/11 [00:03<00:00,  3.60s/trial, best loss: 0.12100139082058414]
100%|███████████████████████████████████████████████| 12/12 [00:03<00:00,  3.62s/trial, best loss: 0.12100139082058414]
100%|███████████████████████████████████████████████| 13/13 [00:03<00:00,  3.62s/trial, best loss: 0.12100139082058414]
100%|███████████████████████████████████

100%|███████████████████████████████████████████████| 42/42 [00:04<00:00,  4.35s/trial, best loss: 0.11654135338345861]
100%|███████████████████████████████████████████████| 43/43 [00:04<00:00,  4.68s/trial, best loss: 0.11654135338345861]
100%|███████████████████████████████████████████████| 44/44 [00:04<00:00,  4.02s/trial, best loss: 0.11654135338345861]
100%|███████████████████████████████████████████████| 45/45 [00:04<00:00,  4.05s/trial, best loss: 0.11654135338345861]
100%|███████████████████████████████████████████████| 46/46 [00:04<00:00,  4.02s/trial, best loss: 0.11654135338345861]
100%|███████████████████████████████████████████████| 47/47 [00:04<00:00,  4.02s/trial, best loss: 0.11654135338345861]
100%|███████████████████████████████████████████████| 48/48 [00:03<00:00,  3.99s/trial, best loss: 0.11654135338345861]
100%|███████████████████████████████████████████████| 49/49 [00:04<00:00,  4.26s/trial, best loss: 0.11654135338345861]
100%|███████████████████████████████████

In [265]:
# CLASSIFIER gNB 200
unique_id = 'gNB_'+ d1 +'_200' # Unique ID for output file paths
clf = gaussian_nb(unique_id)  # Classifier

main_classify(X_200, y_200, clf, unique_id, [])

Beginning fold 1 of 10
100%|██████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.58s/trial, best loss: 0.2237380627557981]
100%|██████████████████████████████████████████████████| 2/2 [00:04<00:00,  4.37s/trial, best loss: 0.2237380627557981]
100%|██████████████████████████████████████████████████| 3/3 [00:04<00:00,  4.52s/trial, best loss: 0.2237380627557981]
100%|██████████████████████████████████████████████████| 4/4 [00:04<00:00,  4.44s/trial, best loss: 0.2237380627557981]
100%|██████████████████████████████████████████████████| 5/5 [00:04<00:00,  4.51s/trial, best loss: 0.2237380627557981]
100%|██████████████████████████████████████████████████| 6/6 [00:04<00:00,  4.42s/trial, best loss: 0.2237380627557981]
100%|██████████████████████████████████████████████████| 7/7 [00:04<00:00,  4.38s/trial, best loss: 0.2237380627557981]
100%|██████████████████████████████████████████████████| 8/8 [00:04<00:00,  4.44s/trial, best loss: 0.2237380627557981]
100%|████████████

100%|███████████████████████████████████████████████| 36/36 [00:04<00:00,  4.26s/trial, best loss: 0.21828103683492495]
100%|███████████████████████████████████████████████| 37/37 [00:04<00:00,  4.46s/trial, best loss: 0.21828103683492495]
100%|███████████████████████████████████████████████| 38/38 [00:04<00:00,  4.57s/trial, best loss: 0.21828103683492495]
100%|███████████████████████████████████████████████| 39/39 [00:04<00:00,  4.31s/trial, best loss: 0.21828103683492495]
100%|███████████████████████████████████████████████| 40/40 [00:04<00:00,  4.07s/trial, best loss: 0.21828103683492495]
100%|███████████████████████████████████████████████| 41/41 [00:04<00:00,  4.14s/trial, best loss: 0.21828103683492495]
100%|███████████████████████████████████████████████| 42/42 [00:04<00:00,  4.02s/trial, best loss: 0.21828103683492495]
100%|███████████████████████████████████████████████| 43/43 [00:04<00:00,  4.64s/trial, best loss: 0.21828103683492495]
100%|███████████████████████████████████

100%|████████████████████████████████████████████████| 21/21 [00:03<00:00,  3.61s/trial, best loss: 0.2316076294277929]
100%|████████████████████████████████████████████████| 22/22 [00:03<00:00,  3.58s/trial, best loss: 0.2316076294277929]
100%|████████████████████████████████████████████████| 23/23 [00:03<00:00,  3.62s/trial, best loss: 0.2316076294277929]
100%|████████████████████████████████████████████████| 24/24 [00:03<00:00,  3.73s/trial, best loss: 0.2316076294277929]
100%|████████████████████████████████████████████████| 25/25 [00:04<00:00,  4.14s/trial, best loss: 0.2316076294277929]
100%|████████████████████████████████████████████████| 26/26 [00:03<00:00,  3.59s/trial, best loss: 0.2316076294277929]
100%|████████████████████████████████████████████████| 27/27 [00:03<00:00,  3.71s/trial, best loss: 0.2316076294277929]
100%|████████████████████████████████████████████████| 28/28 [00:03<00:00,  3.68s/trial, best loss: 0.2316076294277929]
100%|███████████████████████████████████

100%|██████████████████████████████████████████████████| 6/6 [00:04<00:00,  4.18s/trial, best loss: 0.2220708446866485]
100%|██████████████████████████████████████████████████| 7/7 [00:04<00:00,  4.88s/trial, best loss: 0.2220708446866485]
100%|██████████████████████████████████████████████████| 8/8 [00:04<00:00,  4.04s/trial, best loss: 0.2220708446866485]
100%|██████████████████████████████████████████████████| 9/9 [00:03<00:00,  3.95s/trial, best loss: 0.2220708446866485]
100%|████████████████████████████████████████████████| 10/10 [00:03<00:00,  3.91s/trial, best loss: 0.2220708446866485]
100%|████████████████████████████████████████████████| 11/11 [00:03<00:00,  3.87s/trial, best loss: 0.2220708446866485]
100%|████████████████████████████████████████████████| 12/12 [00:03<00:00,  3.99s/trial, best loss: 0.2220708446866485]
100%|████████████████████████████████████████████████| 13/13 [00:04<00:00,  4.16s/trial, best loss: 0.2220708446866485]
100%|███████████████████████████████████

100%|███████████████████████████████████████████████| 42/42 [00:04<00:00,  4.19s/trial, best loss: 0.22699386503067487]
100%|███████████████████████████████████████████████| 43/43 [00:04<00:00,  4.06s/trial, best loss: 0.22699386503067487]
100%|███████████████████████████████████████████████| 44/44 [00:04<00:00,  4.07s/trial, best loss: 0.22699386503067487]
100%|███████████████████████████████████████████████| 45/45 [00:03<00:00,  3.96s/trial, best loss: 0.22699386503067487]
100%|███████████████████████████████████████████████| 46/46 [00:04<00:00,  4.17s/trial, best loss: 0.22699386503067487]
100%|███████████████████████████████████████████████| 47/47 [00:03<00:00,  3.99s/trial, best loss: 0.22699386503067487]
100%|███████████████████████████████████████████████| 48/48 [00:03<00:00,  3.94s/trial, best loss: 0.22699386503067487]
100%|███████████████████████████████████████████████| 49/49 [00:04<00:00,  4.04s/trial, best loss: 0.22699386503067487]
100%|███████████████████████████████████

## Preprocessing
Any! 

In [7]:
# -- USER-DETERMINED PARAMETERS -----------------------------------------------
path = 'F:/AFKABAN/'
classifypath = 'F:/AFKABAN/Classify/'
d1 = date.today().strftime("%d-%m-%Y")

# NESTED CROSS-VALIDATION
#preprocessing = [min_max_scaler(unique_id)] # List of sklearn pre-processing modules
ex_preprocessing = [] # As above, see help(HyperoptEstimator) for info
n_splits = 10 # Value of k for k-fold cross-validation in outer loop
n_folds = 10 # Value of k for k-fold cross-validation in inner loop
max_evals = 50 # No. of HyperOpt trials
timeout = 300 # HyperOpt trial timeout (seconds)
n_jobs = -1 # No. of jobs to run in parallel; -1 uses all processors
retry_limit = 3 # No. of times to retry before failing

### kNN

In [8]:
# CLASSIFIER kNN 120
unique_id = 'kNN_'+ d1 +'_120_anyPP' # Unique ID for output file paths
clf = k_neighbors_classifier(unique_id)  # Classifier
AZKABANML.main_classify(df_120, clf, unique_id, classifypath, preprocessing=any_preprocessing(unique_id))

Beginning fold 1 of 10
100%|██████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.44s/trial, best loss: 0.1044568245125348]
100%|█████████████████████████████████████████████████| 2/2 [00:04<00:00,  4.00s/trial, best loss: 0.10167130919220058]
100%|█████████████████████████████████████████████████| 3/3 [00:04<00:00,  4.43s/trial, best loss: 0.10167130919220058]
100%|█████████████████████████████████████████████████| 4/4 [00:06<00:00,  6.10s/trial, best loss: 0.10167130919220058]
100%|█████████████████████████████████████████████████| 5/5 [00:04<00:00,  4.58s/trial, best loss: 0.10167130919220058]
100%|█████████████████████████████████████████████████| 6/6 [00:04<00:00,  4.11s/trial, best loss: 0.07103064066852371]
100%|█████████████████████████████████████████████████| 7/7 [00:03<00:00,  3.97s/trial, best loss: 0.07103064066852371]
100%|█████████████████████████████████████████████████| 8/8 [00:03<00:00,  3.96s/trial, best loss: 0.07103064066852371]
100%|████████████

100%|███████████████████████████████████████████████| 36/36 [00:06<00:00,  6.56s/trial, best loss: 0.06128133704735372]
100%|███████████████████████████████████████████████| 37/37 [00:06<00:00,  6.24s/trial, best loss: 0.06128133704735372]
100%|███████████████████████████████████████████████| 38/38 [00:04<00:00,  4.31s/trial, best loss: 0.06128133704735372]
100%|███████████████████████████████████████████████| 39/39 [00:06<00:00,  6.78s/trial, best loss: 0.06128133704735372]
100%|███████████████████████████████████████████████| 40/40 [00:05<00:00,  5.60s/trial, best loss: 0.06128133704735372]
100%|███████████████████████████████████████████████| 41/41 [00:06<00:00,  6.04s/trial, best loss: 0.06128133704735372]
100%|███████████████████████████████████████████████| 42/42 [00:05<00:00,  5.62s/trial, best loss: 0.06128133704735372]
100%|███████████████████████████████████████████████| 43/43 [00:06<00:00,  6.32s/trial, best loss: 0.06128133704735372]
100%|███████████████████████████████████

100%|███████████████████████████████████████████████| 21/21 [00:07<00:00,  7.31s/trial, best loss: 0.07103064066852371]
100%|███████████████████████████████████████████████| 22/22 [00:04<00:00,  4.81s/trial, best loss: 0.07103064066852371]
100%|███████████████████████████████████████████████| 23/23 [00:04<00:00,  4.58s/trial, best loss: 0.07103064066852371]
100%|███████████████████████████████████████████████| 24/24 [00:06<00:00,  6.28s/trial, best loss: 0.07103064066852371]
100%|███████████████████████████████████████████████| 25/25 [00:04<00:00,  4.46s/trial, best loss: 0.07103064066852371]
100%|███████████████████████████████████████████████| 26/26 [00:04<00:00,  4.71s/trial, best loss: 0.07103064066852371]
100%|███████████████████████████████████████████████| 27/27 [00:04<00:00,  4.82s/trial, best loss: 0.07103064066852371]
100%|███████████████████████████████████████████████| 28/28 [00:04<00:00,  4.63s/trial, best loss: 0.07103064066852371]
100%|███████████████████████████████████

100%|█████████████████████████████████████████████████| 6/6 [00:06<00:00,  6.46s/trial, best loss: 0.07510431154381081]
100%|█████████████████████████████████████████████████| 7/7 [00:04<00:00,  4.24s/trial, best loss: 0.07510431154381081]
100%|█████████████████████████████████████████████████| 8/8 [00:04<00:00,  4.22s/trial, best loss: 0.07510431154381081]
100%|█████████████████████████████████████████████████| 9/9 [00:06<00:00,  6.19s/trial, best loss: 0.07510431154381081]
100%|███████████████████████████████████████████████| 10/10 [00:05<00:00,  5.99s/trial, best loss: 0.07510431154381081]
100%|███████████████████████████████████████████████| 11/11 [00:04<00:00,  4.57s/trial, best loss: 0.07510431154381081]
100%|███████████████████████████████████████████████| 12/12 [00:04<00:00,  4.49s/trial, best loss: 0.07510431154381081]
100%|███████████████████████████████████████████████| 13/13 [00:04<00:00,  4.33s/trial, best loss: 0.07510431154381081]
100%|███████████████████████████████████

100%|███████████████████████████████████████████████| 42/42 [00:04<00:00,  4.66s/trial, best loss: 0.06015037593984962]
100%|███████████████████████████████████████████████| 43/43 [00:05<00:00,  5.55s/trial, best loss: 0.06015037593984962]
100%|███████████████████████████████████████████████| 44/44 [00:06<00:00,  6.69s/trial, best loss: 0.06015037593984962]
100%|███████████████████████████████████████████████| 45/45 [00:06<00:00,  6.05s/trial, best loss: 0.06015037593984962]
100%|███████████████████████████████████████████████| 46/46 [00:05<00:00,  5.80s/trial, best loss: 0.06015037593984962]
100%|███████████████████████████████████████████████| 47/47 [00:04<00:00,  4.35s/trial, best loss: 0.06015037593984962]
100%|███████████████████████████████████████████████| 48/48 [00:06<00:00,  6.59s/trial, best loss: 0.06015037593984962]
100%|███████████████████████████████████████████████| 49/49 [00:04<00:00,  4.32s/trial, best loss: 0.06015037593984962]
100%|███████████████████████████████████

In [10]:
# CLASSIFIER kNN 200
unique_id = 'kNN_'+ d1 +'_200_anyPP' # Unique ID for output file paths
clf = k_neighbors_classifier(unique_id)  # Classifier

AZKABANML.main_classify(df_200, clf, unique_id, classifypath, preprocessing=any_preprocessing(unique_id))

Beginning fold 1 of 10
100%|█████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.56s/trial, best loss: 0.13778990450204642]
100%|█████████████████████████████████████████████████| 2/2 [00:05<00:00,  5.97s/trial, best loss: 0.13778990450204642]
100%|█████████████████████████████████████████████████| 3/3 [00:04<00:00,  4.46s/trial, best loss: 0.11459754433833558]
100%|█████████████████████████████████████████████████| 4/4 [00:04<00:00,  4.98s/trial, best loss: 0.09004092769440653]
100%|█████████████████████████████████████████████████| 5/5 [00:04<00:00,  4.57s/trial, best loss: 0.09004092769440653]
100%|█████████████████████████████████████████████████| 6/6 [00:06<00:00,  6.09s/trial, best loss: 0.09004092769440653]
100%|█████████████████████████████████████████████████| 7/7 [00:06<00:00,  6.52s/trial, best loss: 0.09004092769440653]
100%|█████████████████████████████████████████████████| 8/8 [00:04<00:00,  4.55s/trial, best loss: 0.09004092769440653]
100%|████████████

100%|███████████████████████████████████████████████| 36/36 [00:04<00:00,  4.41s/trial, best loss: 0.09413369713506137]
100%|███████████████████████████████████████████████| 37/37 [00:05<00:00,  5.85s/trial, best loss: 0.09413369713506137]
100%|███████████████████████████████████████████████| 38/38 [00:04<00:00,  4.62s/trial, best loss: 0.09413369713506137]
100%|███████████████████████████████████████████████| 39/39 [00:04<00:00,  4.65s/trial, best loss: 0.09413369713506137]
100%|███████████████████████████████████████████████| 40/40 [00:06<00:00,  6.05s/trial, best loss: 0.09413369713506137]
100%|███████████████████████████████████████████████| 41/41 [00:04<00:00,  4.47s/trial, best loss: 0.09413369713506137]
100%|███████████████████████████████████████████████| 42/42 [00:05<00:00,  5.77s/trial, best loss: 0.09413369713506137]
100%|███████████████████████████████████████████████| 43/43 [00:04<00:00,  4.70s/trial, best loss: 0.09413369713506137]
100%|███████████████████████████████████

100%|███████████████████████████████████████████████| 21/21 [00:04<00:00,  4.00s/trial, best loss: 0.08991825613079019]
100%|███████████████████████████████████████████████| 22/22 [00:05<00:00,  5.83s/trial, best loss: 0.08719346049046317]
100%|███████████████████████████████████████████████| 23/23 [00:06<00:00,  6.06s/trial, best loss: 0.08719346049046317]
100%|███████████████████████████████████████████████| 24/24 [00:06<00:00,  6.70s/trial, best loss: 0.08719346049046317]
100%|███████████████████████████████████████████████| 25/25 [00:06<00:00,  6.86s/trial, best loss: 0.08719346049046317]
100%|███████████████████████████████████████████████| 26/26 [00:06<00:00,  6.70s/trial, best loss: 0.08719346049046317]
100%|███████████████████████████████████████████████| 27/27 [00:04<00:00,  4.80s/trial, best loss: 0.08719346049046317]
100%|███████████████████████████████████████████████| 28/28 [00:07<00:00,  7.37s/trial, best loss: 0.08719346049046317]
100%|███████████████████████████████████

100%|██████████████████████████████████████████████████| 6/6 [00:07<00:00,  7.25s/trial, best loss: 0.1049046321525886]
100%|██████████████████████████████████████████████████| 7/7 [00:07<00:00,  7.09s/trial, best loss: 0.1049046321525886]
100%|██████████████████████████████████████████████████| 8/8 [00:06<00:00,  6.42s/trial, best loss: 0.1049046321525886]
100%|██████████████████████████████████████████████████| 9/9 [00:04<00:00,  4.42s/trial, best loss: 0.1049046321525886]
100%|████████████████████████████████████████████████| 10/10 [00:04<00:00,  4.44s/trial, best loss: 0.1049046321525886]
100%|████████████████████████████████████████████████| 11/11 [00:04<00:00,  4.78s/trial, best loss: 0.1049046321525886]
100%|████████████████████████████████████████████████| 12/12 [00:06<00:00,  6.64s/trial, best loss: 0.1049046321525886]
100%|████████████████████████████████████████████████| 13/13 [00:05<00:00,  5.89s/trial, best loss: 0.1049046321525886]
100%|███████████████████████████████████

100%|███████████████████████████████████████████████| 42/42 [00:04<00:00,  4.05s/trial, best loss: 0.09447852760736197]
100%|███████████████████████████████████████████████| 43/43 [00:06<00:00,  6.00s/trial, best loss: 0.09447852760736197]
100%|███████████████████████████████████████████████| 44/44 [00:04<00:00,  4.51s/trial, best loss: 0.09447852760736197]
100%|███████████████████████████████████████████████| 45/45 [00:05<00:00,  5.91s/trial, best loss: 0.09447852760736197]
100%|███████████████████████████████████████████████| 46/46 [00:06<00:00,  6.37s/trial, best loss: 0.09447852760736197]
100%|███████████████████████████████████████████████| 47/47 [00:04<00:00,  4.34s/trial, best loss: 0.09447852760736197]
100%|███████████████████████████████████████████████| 48/48 [00:05<00:00,  5.64s/trial, best loss: 0.09447852760736197]
100%|███████████████████████████████████████████████| 49/49 [00:05<00:00,  5.09s/trial, best loss: 0.09447852760736197]
100%|███████████████████████████████████

In [None]:
# CLASSIFIER lightGBM 120
unique_id = 'lightGBM_'+ d1 +'_120_anyPP' # Unique ID for output file paths
clf = lightgbm_classification(unique_id)  # Classifier
AZKABANML.main_classify(df_120, clf, unique_id, classifypath, preprocessing=any_preprocessing(unique_id))

Beginning fold 1 of 10
100%|█████████████████████████████████████████████████| 1/1 [01:38<00:00, 98.95s/trial, best loss: 0.25208913649025066]
100%|█████████████████████████████████████████████████| 2/2 [00:15<00:00, 15.67s/trial, best loss: 0.20334261838440115]
100%|█████████████████████████████████████████████████| 3/3 [01:01<00:00, 61.37s/trial, best loss: 0.07381615598885793]
100%|█████████████████████████████████████████████████| 4/4 [00:19<00:00, 19.65s/trial, best loss: 0.07381615598885793]
100%|█████████████████████████████████████████████████| 5/5 [00:11<00:00, 11.66s/trial, best loss: 0.07103064066852371]
100%|█████████████████████████████████████████████████| 6/6 [00:09<00:00,  9.12s/trial, best loss: 0.07103064066852371]
100%|█████████████████████████████████████████████████| 7/7 [00:26<00:00, 26.35s/trial, best loss: 0.06545961002785516]
100%|█████████████████████████████████████████████████| 8/8 [00:51<00:00, 51.51s/trial, best loss: 0.05988857938718661]
100%|████████████

In [None]:
# CLASSIFIER lightGBM 200
unique_id = 'lightGBM_'+ d1 +'_200_anyPP' # Unique ID for output file paths
clf = lightgbm_classification(unique_id)  # Classifier
AZKABANML.main_classify(df_200, clf, unique_id, classifypath, preprocessing=any_preprocessing(unique_id))