
Originally created by Chelsey McGowan-Yallop, SAMS-UHI (sa06cm@sams.ac.uk)

Modified by Muriel Dunn for AFKABAN then AZKABAN

This script uses model-predicted TS(f) spectra to train a machine learning
classifier, performs nested cross-validation, applies the classifier to
measured TS(f) spectra and outputs results files.

To use a different classifier, see the list of supported classifiers at:
https://github.com/hyperopt/hyperopt-sklearn and set as clf.

Sometimes the initial hyperparameter configuration selected by HyperOpt in each
split in the outer loop will be unsuccessful and all trials will fail. The
retry decorator forces it to try again until retry_limit is reached.

OUTPUT FILES:
    _NestedCV.pkl contains results of nested cross-validation procedure
    _Predictions.pkl contains measured TS(f) spectra with predicted labels
    _BestParams.pkl contains the optimal hyperparameters for the model
"""

In [1]:
import time
import os.path
import numpy as np
import pandas as pd
import pickle
import scipy
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import f1_score, confusion_matrix
#from sklearn.neighbors import KNeighborsClassifier
import hyperopt
from hyperopt import tpe
from hpsklearn import HyperoptEstimator, k_neighbors_classifier, svc, lightgbm_classification, gaussian_nb, any_preprocessing,min_max_scaler, normalizer
import lightgbm
from datetime import timedelta, date
from tenacity import retry, stop_after_attempt
import AZKABANML
import sys, errno  


# Read the dataframes

In [2]:
# -- USER-DETERMINED PARAMETERS -----------------------------------------------
path_df = 'C:/Users/mbd/OneDrive - Akvaplan-niva AS/PhD-APN/ChaptersandExperiments/AZKABAN-light/ZoopMix_paper/'

# Mesocosm measurements
df_SED = pd.read_pickle(path_df+'df_SED.pkl')
df_track = pd.read_pickle(path_df+'df_track.pkl')
df_trackavg = pd.read_pickle(path_df+'df_trackavg.pkl')

# Labelled training set (scattering model results with smoothed shape file)
df_sim_smooth = pd.read_pickle(path_df+'df_sim_smooth.pkl')
df_sim_smooth_a = pd.read_pickle(path_df+'df_sim_smooth_antarctica.pkl')

### Partition modeled target spectra

In [3]:
### select bandwith 200
df_sim_200 = df_sim_smooth.loc[:,185.0:255.0].copy()
species_data = df_sim_smooth.loc[:,'spec']
df_sim_200.loc[:,'Species'] = species_data

# 70 kHz
df_sim_70 = df_sim_smooth.loc[:,45.0:90.0].copy()
df_sim_70.loc[:,'Species'] = species_data

# 120 kHz
df_sim_120 = df_sim_smooth.loc[:,90.0:170.0].copy()
df_sim_120.loc[:,'Species'] = species_data

# 333 kHz
df_sim_333 = df_sim_smooth.loc[:,283.0:383.0].copy()
df_sim_333.loc[:,'Species'] = species_data

# full kHz
df_sim_full = df_sim_smooth.loc[:,45.0:383.0].copy()
df_sim_full.loc[:,'Species'] = species_data

# Run different iterations


## Preprocessing
Any! Give better results (+~0.2 on mean F1 score), either scale or min,max scaler or PCA.

In [4]:
# -- USER-DETERMINED PARAMETERS -----------------------------------------------
path = 'F:/Nya_AZKABAN/'
classifypath = 'F:/Nya-AZKABAN/Classify/'
d1 = '14-06-2023'#date.today().strftime("%d-%m-%Y")

# NESTED CROSS-VALIDATION
#preprocessing = [min_max_scaler(unique_id)] # List of sklearn pre-processing modules
ex_preprocessing = [] # As above, see help(HyperoptEstimator) for info
n_splits = 10 # Value of k for k-fold cross-validation in outer loop
n_folds = 10 # Value of k for k-fold cross-validation in inner loop
max_evals = 10 # No. of HyperOpt trials
timeout = 300 # HyperOpt trial timeout (seconds)
n_jobs = -1 # No. of jobs to run in parallel; -1 uses all processors
retry_limit = 3 # No. of times to retry before failing

### kNN

In [5]:
# CLASSIFIER kNN 200
unique_id = 'kNN_'+d1+'_smooth' # Unique ID for output file paths
clf = k_neighbors_classifier(unique_id)  # Classifier
AZKABANML.main_classify_all(df_sim_200, df_SED, df_track, df_trackavg, clf, unique_id, classifypath)

Resuming cross-validation from fold 11
Retraining model on full dataset
100%|██████████████████████████████████████████████████| 1/1 [00:16<00:00, 16.48s/trial, best loss: 0.3707062307642044]
100%|██████████████████████████████████████████████████| 2/2 [00:07<00:00,  7.40s/trial, best loss: 0.3573651632487215]
100%|██████████████████████████████████████████████████| 3/3 [00:07<00:00,  7.48s/trial, best loss: 0.3573651632487215]
100%|██████████████████████████████████████████████████| 4/4 [00:06<00:00,  6.05s/trial, best loss: 0.3573651632487215]
100%|██████████████████████████████████████████████████| 5/5 [00:06<00:00,  6.22s/trial, best loss: 0.3455052826036399]
100%|█████████████████████████████████████████████████| 6/6 [00:06<00:00,  6.18s/trial, best loss: 0.34287223749043083]
100%|█████████████████████████████████████████████████| 7/7 [00:18<00:00, 18.53s/trial, best loss: 0.34287223749043083]
100%|█████████████████████████████████████████████████| 8/8 [00:07<00:00,  7.36s/trial, 

In [6]:
# CLASSIFIER kNN normalizer
unique_id = 'kNN_'+d1+'_smooth_norm' # Unique ID for output file paths
clf = k_neighbors_classifier(unique_id)  # Classifier
AZKABANML.main_classify_all(df_sim_200, df_SED, df_track, df_trackavg, clf, unique_id, classifypath, preprocessing=[normalizer(unique_id, norm='l2')])

Resuming cross-validation from fold 11
Retraining model on full dataset
100%|██████████████████████████████████████████████████| 1/1 [00:07<00:00,  7.94s/trial, best loss: 0.3369440163389925]
100%|██████████████████████████████████████████████████| 2/2 [00:07<00:00,  7.48s/trial, best loss: 0.3018750182040394]
100%|██████████████████████████████████████████████████| 3/3 [00:06<00:00,  6.11s/trial, best loss: 0.3018750182040394]
100%|██████████████████████████████████████████████████| 4/4 [00:05<00:00,  5.73s/trial, best loss: 0.3018750182040394]
100%|██████████████████████████████████████████████████| 5/5 [00:07<00:00,  7.16s/trial, best loss: 0.3018750182040394]
100%|██████████████████████████████████████████████████| 6/6 [00:05<00:00,  5.90s/trial, best loss: 0.3018750182040394]
100%|██████████████████████████████████████████████████| 7/7 [00:07<00:00,  7.07s/trial, best loss: 0.3018750182040394]
100%|██████████████████████████████████████████████████| 8/8 [00:05<00:00,  5.88s/trial,

In [7]:
unique_id = 'lightGBM_'+d1+'_smooth_norm' #que ID for output file paths
clf = lightgbm_classification(unique_id)  # Classifier
AZKABANML.main_classify_all(df_sim_200, df_SED, df_track, df_trackavg, clf, unique_id, classifypath, preprocessing=[normalizer(unique_id, norm='l2')])

Resuming cross-validation from fold 9
Beginning fold 9 of 10
100%|███████████████████████████████████████████████████████████████████| 1/1 [05:03<00:00, 303.96s/trial, best loss=?]
Resuming cross-validation from fold 9
Beginning fold 9 of 10
100%|█████████████████████████████████████████████████| 1/1 [04:53<00:00, 293.13s/trial, best loss: 0.3579996052951868]
100%|█████████████████████████████████████████████████| 2/2 [05:04<00:00, 304.71s/trial, best loss: 0.3579996052951868]
100%|█████████████████████████████████████████████████| 3/3 [05:06<00:00, 306.18s/trial, best loss: 0.3579996052951868]
100%|█████████████████████████████████████████████████| 4/4 [05:04<00:00, 304.61s/trial, best loss: 0.3579996052951868]
100%|█████████████████████████████████████████████████| 5/5 [05:04<00:00, 304.40s/trial, best loss: 0.3579996052951868]
100%|██████████████████████████████████████████████████| 6/6 [01:23<00:00, 83.65s/trial, best loss: 0.3579996052951868]
100%|█████████████████████████████████

100%|██████████████████████████████████████████████| 15/15 [03:01<00:00, 181.30s/trial, best loss: 0.29349574685973434]
100%|██████████████████████████████████████████████| 16/16 [01:59<00:00, 119.51s/trial, best loss: 0.29349574685973434]
100%|██████████████████████████████████████████████| 17/17 [03:27<00:00, 207.59s/trial, best loss: 0.29349574685973434]
100%|██████████████████████████████████████████████| 18/18 [05:04<00:00, 305.00s/trial, best loss: 0.29349574685973434]
100%|██████████████████████████████████████████████| 19/19 [02:14<00:00, 134.17s/trial, best loss: 0.29349574685973434]
100%|███████████████████████████████████████████████| 20/20 [00:21<00:00, 21.05s/trial, best loss: 0.29349574685973434]
100%|██████████████████████████████████████████████| 21/21 [02:06<00:00, 126.43s/trial, best loss: 0.29349574685973434]
100%|███████████████████████████████████████████████| 22/22 [00:16<00:00, 16.01s/trial, best loss: 0.29349574685973434]
100%|███████████████████████████████████

100%|██████████████████████████████████████████████| 33/33 [03:33<00:00, 213.92s/trial, best loss: 0.28692327712021526]
100%|██████████████████████████████████████████████| 34/34 [05:04<00:00, 304.72s/trial, best loss: 0.28692327712021526]
100%|██████████████████████████████████████████████| 35/35 [02:23<00:00, 143.89s/trial, best loss: 0.28692327712021526]
100%|███████████████████████████████████████████████| 36/36 [01:34<00:00, 94.09s/trial, best loss: 0.28692327712021526]
100%|██████████████████████████████████████████████| 37/37 [05:05<00:00, 305.69s/trial, best loss: 0.28692327712021526]
100%|██████████████████████████████████████████████| 38/38 [02:24<00:00, 144.04s/trial, best loss: 0.28692327712021526]
100%|██████████████████████████████████████████████| 39/39 [05:04<00:00, 304.55s/trial, best loss: 0.28692327712021526]
100%|██████████████████████████████████████████████| 40/40 [05:04<00:00, 304.59s/trial, best loss: 0.28692327712021526]
100%|███████████████████████████████████

In [5]:
unique_id = 'SVC_'+d1+'_smooth_norm' #que ID for output file paths
clf = svc(unique_id)  # Classifier
AZKABANML.main_classify_all(df_sim_200, df_SED, df_track, df_trackavg, clf, unique_id, classifypath, preprocessing=[normalizer(unique_id, norm='l2')])

Resuming cross-validation from fold 10
Beginning fold 10 of 10
100%|██████████████████████████████████████████████████| 1/1 [00:15<00:00, 15.85s/trial, best loss: 0.7952679154398017]
100%|█████████████████████████████████████████████████| 2/2 [05:03<00:00, 303.82s/trial, best loss: 0.7952679154398017]
100%|█████████████████████████████████████████████████| 3/3 [05:04<00:00, 304.69s/trial, best loss: 0.7952679154398017]
100%|█████████████████████████████████████████████████| 4/4 [05:04<00:00, 304.73s/trial, best loss: 0.7952679154398017]
100%|██████████████████████████████████████████████████| 5/5 [00:12<00:00, 12.86s/trial, best loss: 0.7952679154398017]
100%|██████████████████████████████████████████████████| 6/6 [00:15<00:00, 16.00s/trial, best loss: 0.7952679154398017]
100%|██████████████████████████████████████████████████| 7/7 [00:16<00:00, 16.55s/trial, best loss: 0.7952679154398017]
100%|██████████████████████████████████████████████████| 8/8 [00:15<00:00, 15.41s/trial, best los

100%|████████████████████████████████████████████████| 18/18 [00:16<00:00, 16.34s/trial, best loss: 0.4392329499378651]
100%|████████████████████████████████████████████████| 19/19 [00:16<00:00, 16.97s/trial, best loss: 0.4392329499378651]
100%|████████████████████████████████████████████████| 20/20 [00:17<00:00, 17.77s/trial, best loss: 0.4392329499378651]
100%|████████████████████████████████████████████████| 21/21 [00:23<00:00, 23.92s/trial, best loss: 0.4392329499378651]
100%|████████████████████████████████████████████████| 22/22 [00:20<00:00, 20.32s/trial, best loss: 0.4392329499378651]
100%|████████████████████████████████████████████████| 23/23 [00:18<00:00, 18.87s/trial, best loss: 0.4215244088189638]
100%|████████████████████████████████████████████████| 24/24 [00:18<00:00, 18.03s/trial, best loss: 0.4165034327003232]
100%|███████████████████████████████████████████████| 25/25 [00:17<00:00, 17.97s/trial, best loss: 0.41519784958128025]
100%|███████████████████████████████████

## Bandwidth runs

In [6]:
# CLASSIFIER kNN with bandwidth chuncks
unique_id = 'kNN_'+ d1 +'_70' # Unique ID for output file paths
clf = k_neighbors_classifier(unique_id)  # Classifier
AZKABANML.main_classify(df_sim_70, clf, unique_id, classifypath, preprocessing=[normalizer(unique_id, norm='l2')])

Beginning fold 1 of 10
100%|██████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.13s/trial, best loss: 0.2473730997462995]
100%|██████████████████████████████████████████████████| 2/2 [00:05<00:00,  5.19s/trial, best loss: 0.2473730997462995]
100%|█████████████████████████████████████████████████| 3/3 [00:05<00:00,  5.63s/trial, best loss: 0.24309528844866446]
100%|█████████████████████████████████████████████████| 4/4 [00:12<00:00, 12.35s/trial, best loss: 0.24309528844866446]
100%|█████████████████████████████████████████████████| 5/5 [00:06<00:00,  6.91s/trial, best loss: 0.24309528844866446]
100%|█████████████████████████████████████████████████| 6/6 [00:05<00:00,  5.21s/trial, best loss: 0.23797832217561776]
100%|█████████████████████████████████████████████████| 7/7 [00:06<00:00,  6.85s/trial, best loss: 0.23797832217561776]
100%|█████████████████████████████████████████████████| 8/8 [00:05<00:00,  5.37s/trial, best loss: 0.23797832217561776]
100%|████████████

100%|█████████████████████████████████████████████████| 7/7 [00:04<00:00,  4.81s/trial, best loss: 0.23242583478025536]
100%|█████████████████████████████████████████████████| 8/8 [00:05<00:00,  5.90s/trial, best loss: 0.23242583478025536]
100%|██████████████████████████████████████████████████| 9/9 [00:04<00:00,  4.68s/trial, best loss: 0.2319861930152235]
100%|████████████████████████████████████████████████| 10/10 [00:04<00:00,  4.62s/trial, best loss: 0.2319861930152235]
Beginning fold 8 of 10
100%|█████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.90s/trial, best loss: 0.22473942967492921]
100%|█████████████████████████████████████████████████| 2/2 [00:04<00:00,  4.57s/trial, best loss: 0.22473942967492921]
100%|█████████████████████████████████████████████████| 3/3 [00:04<00:00,  4.78s/trial, best loss: 0.22473942967492921]
100%|█████████████████████████████████████████████████| 4/4 [00:05<00:00,  5.95s/trial, best loss: 0.22126578111321615]
100%|████████████

In [7]:
# CLASSIFIER kNN with bandwidth chuncks
unique_id = 'kNN_'+ d1 +'_120' # Unique ID for output file paths
clf = k_neighbors_classifier(unique_id)  # Classifier
AZKABANML.main_classify(df_sim_120, clf, unique_id, classifypath, preprocessing=[normalizer(unique_id, norm='l2')])

Beginning fold 1 of 10
100%|█████████████████████████████████████████████████| 1/1 [00:07<00:00,  7.68s/trial, best loss: 0.22371496796254065]
100%|█████████████████████████████████████████████████| 2/2 [00:07<00:00,  7.60s/trial, best loss: 0.22371496796254065]
100%|█████████████████████████████████████████████████| 3/3 [00:07<00:00,  7.65s/trial, best loss: 0.21276736599099366]
100%|█████████████████████████████████████████████████| 4/4 [00:07<00:00,  7.70s/trial, best loss: 0.19996580925401308]
100%|█████████████████████████████████████████████████| 5/5 [00:07<00:00,  7.61s/trial, best loss: 0.19996580925401308]
100%|█████████████████████████████████████████████████| 6/6 [00:08<00:00,  8.42s/trial, best loss: 0.19996580925401308]
100%|█████████████████████████████████████████████████| 7/7 [00:07<00:00,  7.92s/trial, best loss: 0.19581594377042788]
100%|█████████████████████████████████████████████████| 8/8 [00:17<00:00, 17.84s/trial, best loss: 0.19581594377042788]
100%|████████████

100%|█████████████████████████████████████████████████| 7/7 [00:05<00:00,  5.01s/trial, best loss: 0.19817463854754014]
100%|█████████████████████████████████████████████████| 8/8 [00:04<00:00,  4.92s/trial, best loss: 0.19817463854754014]
100%|█████████████████████████████████████████████████| 9/9 [00:11<00:00, 11.62s/trial, best loss: 0.19817463854754014]
100%|███████████████████████████████████████████████| 10/10 [00:04<00:00,  4.95s/trial, best loss: 0.19817463854754014]
Beginning fold 8 of 10
100%|██████████████████████████████████████████████████| 1/1 [00:14<00:00, 14.53s/trial, best loss: 0.1991963346088218]
100%|█████████████████████████████████████████████████| 2/2 [00:06<00:00,  6.28s/trial, best loss: 0.19207575835706958]
100%|█████████████████████████████████████████████████| 3/3 [00:06<00:00,  6.64s/trial, best loss: 0.19207575835706958]
100%|█████████████████████████████████████████████████| 4/4 [00:05<00:00,  5.07s/trial, best loss: 0.19207575835706958]
100%|████████████

In [9]:
# CLASSIFIER kNN with bandwidth chuncks
unique_id = 'kNN_'+ d1 +'_383' # Unique ID for output file paths
clf = k_neighbors_classifier(unique_id)  # Classifier
AZKABANML.main_classify(df_sim_333, clf, unique_id, classifypath, preprocessing=[normalizer(unique_id, norm='l2')])

Beginning fold 1 of 10
100%|██████████████████████████████████████████████████| 1/1 [00:06<00:00,  6.54s/trial, best loss: 0.3883369089452968]
100%|██████████████████████████████████████████████████| 2/2 [00:05<00:00,  5.52s/trial, best loss: 0.3883369089452968]
100%|██████████████████████████████████████████████████| 3/3 [00:05<00:00,  5.43s/trial, best loss: 0.3820894546507003]
100%|██████████████████████████████████████████████████| 4/4 [00:06<00:00,  6.05s/trial, best loss: 0.3820894546507003]
100%|███████████████████████████████████████████████████| 5/5 [00:04<00:00,  4.96s/trial, best loss: 0.376268370644946]
100%|███████████████████████████████████████████████████| 6/6 [00:06<00:00,  6.08s/trial, best loss: 0.376268370644946]
100%|███████████████████████████████████████████████████| 7/7 [00:05<00:00,  5.24s/trial, best loss: 0.376268370644946]
100%|██████████████████████████████████████████████████| 8/8 [00:05<00:00,  5.98s/trial, best loss: 0.3673612640079319]
100%|████████████

100%|██████████████████████████████████████████████████| 7/7 [00:06<00:00,  6.47s/trial, best loss: 0.3711626920706437]
100%|██████████████████████████████████████████████████| 8/8 [00:05<00:00,  5.02s/trial, best loss: 0.3711626920706437]
100%|██████████████████████████████████████████████████| 9/9 [00:05<00:00,  5.51s/trial, best loss: 0.3711626920706437]
100%|████████████████████████████████████████████████| 10/10 [00:06<00:00,  6.10s/trial, best loss: 0.3711626920706437]
Beginning fold 8 of 10
100%|██████████████████████████████████████████████████| 1/1 [00:06<00:00,  6.24s/trial, best loss: 0.4402972038463072]
100%|██████████████████████████████████████████████████| 2/2 [00:06<00:00,  6.48s/trial, best loss: 0.4034882743074233]
100%|██████████████████████████████████████████████████| 3/3 [00:05<00:00,  5.09s/trial, best loss: 0.4034882743074233]
100%|█████████████████████████████████████████████████| 4/4 [00:06<00:00,  6.40s/trial, best loss: 0.36377313918012755]
100%|████████████

In [10]:
# CLASSIFIER kNN with bandwidth chuncks
unique_id = 'kNN_'+ d1 +'_full' # Unique ID for output file paths
clf = k_neighbors_classifier(unique_id)  # Classifier
AZKABANML.main_classify(df_sim_full, clf, unique_id, classifypath, preprocessing=[normalizer(unique_id, norm='l2')])

Beginning fold 1 of 10
100%|█████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.71s/trial, best loss: 0.13445477881508905]
100%|█████████████████████████████████████████████████| 2/2 [00:09<00:00,  9.84s/trial, best loss: 0.13445477881508905]
100%|█████████████████████████████████████████████████| 3/3 [00:08<00:00,  8.15s/trial, best loss: 0.13445477881508905]
100%|█████████████████████████████████████████████████| 4/4 [00:08<00:00,  8.43s/trial, best loss: 0.09870827336822896]
100%|█████████████████████████████████████████████████| 5/5 [00:08<00:00,  8.30s/trial, best loss: 0.09870827336822896]
100%|█████████████████████████████████████████████████| 6/6 [00:09<00:00,  9.10s/trial, best loss: 0.09870827336822896]
100%|█████████████████████████████████████████████████| 7/7 [00:08<00:00,  8.90s/trial, best loss: 0.09348444160308644]
100%|█████████████████████████████████████████████████| 8/8 [00:09<00:00,  9.71s/trial, best loss: 0.09348444160308644]
100%|████████████

100%|█████████████████████████████████████████████████| 7/7 [00:09<00:00,  9.07s/trial, best loss: 0.10533545882816486]
100%|█████████████████████████████████████████████████| 8/8 [00:10<00:00, 10.73s/trial, best loss: 0.10533545882816486]
100%|█████████████████████████████████████████████████| 9/9 [00:09<00:00,  9.19s/trial, best loss: 0.10533545882816486]
100%|█████████████████████████████████████████████████| 10/10 [00:10<00:00, 10.98s/trial, best loss: 0.084174846230479]
Beginning fold 8 of 10
100%|█████████████████████████████████████████████████| 1/1 [00:08<00:00,  8.95s/trial, best loss: 0.10643718647218015]
100%|█████████████████████████████████████████████████| 2/2 [00:09<00:00,  9.17s/trial, best loss: 0.10643718647218015]
100%|██████████████████████████████████████████████████| 3/3 [00:10<00:00, 10.58s/trial, best loss: 0.0965753893061777]
100%|██████████████████████████████████████████████████| 4/4 [00:57<00:00, 57.15s/trial, best loss: 0.0965753893061777]
100%|████████████

## Linear
Balanced + PP