In [1]:
#!pip install torch --quiet
#!pip install ray --quiet
#!pip install pydantic --quiet

## Model definition 

In [2]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader, random_split
from sklearn.metrics import matthews_corrcoef
import numpy as np
# Define the model
class SP_MLP(nn.Module): #eredita da nn.module alcune caratteristiche come la capacità di memorizzare i pesi
    def __init__(self, input_size, hidden_sizes, output_size, dropout_p=0.5):
        super(SP_MLP, self).__init__()
        #  lista che contiene  tutti i layer
        layers = []
        current_input_size = input_size
        # iteri sulle dimensioni dei layer nascosti. E' utile per permettere al modello di avere un numero dinamico di hidden layers, che viene cambiato in base all'iperparametro num_layers.
        for i, hidden_size in enumerate(hidden_sizes):
            # layer lineare
            layers.append(nn.Linear(current_input_size, hidden_size))
            # layer RELU (è una funzione di attivazione, se un numero in input è negativo lo trasforma in 0, altrimenti lo lascia invariato. Permette di disegnare pattern piu complessi di semplici combinazioni di regressioni lineari. Il fatto di trattare i dati negativi come 0 non è una perdita di dati, poichè 0 significa nessuna ricorrenza in quei dati, non ti interessa sapere "quanto non è presente il pattern in quel dato".)
            layers.append(nn.ReLU())
            # dropout che 
            layers.append(nn.Dropout(p=dropout_p))#è una tecnica di regolarizzazione e previene l'overfitting, spegnendo casualmnente una percentuale (che in questo caso è dropout_p) dei neuroni di quel layer.
            # aggiorna la dimensione di input per il prossimo layer
            current_input_size = hidden_size
            # aggiungi il layer di output finale
        layers.append(nn.Linear(current_input_size, output_size))
        layers.append(nn.Sigmoid())
        #  nn.Sequential fa quello che ha fatto il prof ma in una volta sola, praticamente è il forward, mette i layer in una sequenza ordinata dove l'output di un layer diventa l'input per il prossimo
        self.net = nn.Sequential(*layers)
    def forward(self, x):
        return self.net(x) # chiamata semplice al contenitore Sequential


# Define a custom dataset
class HelixDataset(Dataset): #praticamente si tratta di tradurre i dati grezzi , ovvero le matrici numpy in formato che dataloader può capire e usare
    def __init__(self, X, y):
        self.X = torch.tensor(X, dtype=torch.float32) #converte la matrice x in un tensore di pytorch , ovvero la versione pytorch degli array numpy. I tensori sono oggetti particolari che possono essere spostati sulla GPU e essere usati per calcolare i gradienti.
        self.y = torch.tensor(y, dtype=torch.float32).reshape(-1, 1) #trasforma la matrice y di forma (4809,) in (4809,1) per renderla compatibile con l'output del modello che adotta questa forma.
    def __len__(self):
        return len(self.X) #risponde alla domanda "quanti campioni ci sono nel dataset?" e usa questo numero per sapere quanti batch può creare quando un'epoca è finita (ovvero quando ha guardato tutti i dati , ovvero ha terminato un epoca). Semplicemente divide la lunghezza totale del dataset per la dimensione del batch, per calcolarsi quanti batch completi corrispondono a un epoca. In ogni modo questa funzione fornsice la lunghezza del dataset per questo calcolo.

    def __getitem__(self, idx):
        return self.X[idx], self.y[idx] #raccoglie la i-esima riga nella matrice x e y, a ogni chiamata del dataloader (quando è in modalità shuffle, e quindi li pesca a caso è molto importante, perche grazie a questa funzione lui va a pescare il numero chiamato dallo shuffle, per riga di campione e classe).


#def train_val è la funzione che gestisce l'intero processo di addestramento e validazione. 
def train_val(model, #è il modello da addestrare
              train_loader, #i dati da studiare, diviso in batch
              val_loader, #il test da fare a fine  di ogni studio
              optimizer, #metodo di studio (adam, RMSprop ecc.. dice al modlelo come aggiornare le sue consocenze).
              criterion, #il correttore, che dice al modello di quanto ha sbagliato
              epochs, #quante volte il modello rileggerà i dati per impararne
              patience, #quante volte il modello può fare un esame di prova peggiore del precedente prima di interrompere le epoche in anticipo
              scorer = matthews_corrcoef,
              init_best_score = -1,
              output_transform = lambda x: (x > 0.5).float()): #come tradurre la probabilità del modello, praticamente trasforma i valori in 1 e 0
  best_val_score = init_best_score #inizializza il miglior punteggio
  epochs_without_improvement = 0 #contatore della patience utile per vedere quante volte di fila non migliora
  best_model_state_dict = None #prepara il cassetto dove inserirci il modello che ha performato meglio

  for epoch in range(epochs): #ripeti il processo per epoche volte. 
      # Training
      model.train()  #inizializzi il modello vuoto da allenare
      loss = 0 #inizializzi la variabile per la loss
      for batch_X, batch_y in train_loader: #questo for itera su tutti i batches
          batch_X, batch_y = batch_X.to(device), batch_y.to(device) #sposta eventualmente i dati del batch sulla gpu se disponibile per fare i calcoli piu velocemente
          optimizer.zero_grad() #azzera l'optimizer che era stato utilizzato per il batch precedente
          outputs = model(batch_X) #il modello legge il batch x e produce le risposte
          loss = criterion(outputs, batch_y) # il correttore calcola il singolo numero di errore confrontando le risposte date dal modello con quelle del batch y
          loss.backward() #funzione di pytorch che  si guarda quanto ogni peso ha contribuito a quell'errore  tramite il calcolo del gradiente quindi dice di quanto un peso deve scendere o salire.
          optimizer.step() #prende i calcoli della backward e aggiorna fisicamente i pesi del cervello per ridurre l'errore

      # Validation
      model.eval() #è cruciale perche mette il modello in fase di valutazione, spegnendo il dropout, ovvero quello che spegneva neuroni a caso per evitare overfitting
      val_preds = []
      val_labels = []
      with torch.no_grad(): #dice a pytorch di non calcolare gradienti, poiche siamo in fase di valutazione, rendendo il tutto piu veloce e consumando meno memoria
          for batch_X, batch_y in val_loader: #itera su tutti i batch del validation
              batch_X, batch_y = batch_X.to(device), batch_y.to(device)
              outputs = model(batch_X)
              #preds = (outputs > 0.5).float() #qui invece utilizzi direttamente questo modo per trasformare gli output in 0 e 1
              preds = output_transform(outputs) #utilizza il metodo di traformazione conenuto in output _transform permettendolo di variare a piacimento
              val_preds.extend(preds.cpu().numpy().flatten()) #aggiunge le risposte alle liste
              val_labels.extend(batch_y.cpu().numpy().flatten())
      val_score = scorer(val_labels, val_preds) #calcola il punteggio MCC alla fine di ogni test

      if val_score > best_val_score:
          best_val_score = val_score
          epochs_without_improvement = 0
          best_model_state_dict = model.state_dict()
          # print('Validation score improved to {:.4f}'.format(best_val_score))
      else:
          epochs_without_improvement += 1
          if epochs_without_improvement >= patience:
              # print('Early stopping at epoch {}'.format(epoch+1))
              break

      # print('Epoch [{}/{}], Loss: {:.4f}, Val score: {:.4f}'.format(epoch+1, epochs, loss.item(), val_score))
  return best_model_state_dict

def test(model, test_loader, scorer = matthews_corrcoef, output_transform = lambda x: (x > 0.5).float()):
  model.eval()
  all_preds = []
  all_labels = []
  with torch.no_grad():
      for batch_X, batch_y in test_loader:
          batch_X, batch_y = batch_X.to(device), batch_y.to(device)
          outputs = model(batch_X)
          preds = output_transform(outputs)
          all_preds.extend(preds.cpu().numpy().flatten())
          all_labels.extend(batch_y.cpu().numpy().flatten())

  score = scorer(all_labels, all_preds)
  return score


if torch.cuda.is_available():
    device = torch.device("cuda")
    print("GPU is available")
else:
    device = torch.device("cpu")
    print("GPU is not available")

GPU is not available


## Finding the best Hyperparameter

In [3]:
from ray import tune
from ray.tune import CLIReporter
from ray.tune.schedulers import ASHAScheduler
import os
import random


In [4]:
def generate_hidden_layer_size(config):
    pool = [1024, 512, 256, 128, 64, 32] #pool di dimensioni disponibili. modifica qui se vuoi cambiare le dimensioni possibili di ogni layer
    num_layers = config["num_layers"] 
    #imposta che se il numero di layer viene settato dall'utente maggiore dei pool, lo imposti come lunghezza massima il numero di pool (per evitare che due layer abbiano le stesse dimensioni)
    if num_layers > len(pool):
        num_layers = len(pool)
    chosen_dims = random.sample(pool, num_layers) 
    #permette di scegliere randomicamente se usare la struttura a imbuto (grande, piccolo, grande) o in ordine decrescente(come il prof, dal piu grande al piu piccolo)
    if random.choice([True, False]): # 50% di possibilità di essere True
        # SÌ, FUNNEL method (Stabile): Ordina dalla più grande alla più piccola
        final_dims = sorted(chosen_dims, reverse=True)
        # Questo testerà l'ipotesi di stabilità
    else:
        # NO, CLESSIDRA/FLESSIBILE: Mescola l'ordine
        random.shuffle(chosen_dims)
        final_dims = chosen_dims
    return final_dims

In [5]:
#set the configuration on the random search must work
config = {
    "base_dir": os.path.abspath("../Feature_Selection/"),
    "num_layers":tune.choice([2,3,4,5,6]), #sceglie randomicamente il numero di layers
    "hidden_sizes": tune.sample_from(generate_hidden_layer_size), #richiama la funzione per scegliere randomicamente le dimensioni di ciascuno dei layer
    "dropout": tune.uniform(0.1, 0.5), #dropout percentage
    "lr": tune.loguniform(1e-4, 1e-2), #learning rate
    "batch_size": tune.choice([64, 128, 256]) #batch size
}

In [6]:
#this function makes the 5-CV to evaluate the mean mcc for that configuration of hyperparameter
def test_config(config):
    # Esempio: usa i tuoi 5 split .npz per fare MCC medio
    mcc_scores = []
    base_dir = config["base_dir"]
    for i in range(1, 6):
        #this line define the folder where npz(s) files are contained and the respective path
        train_path = os.path.join(base_dir, f"training_features_{i}.npz")
        val_path   = os.path.join(base_dir, f"validation_features_{i}.npz")
        test_path  = os.path.join(base_dir, f"testing_features_{i}.npz")
    # load feature matrices and label vector
        #load train
        loaded_data_train = np.load(train_path)
        x_train = loaded_data_train['matrix']
        y_train = loaded_data_train['target']
        
        # load test
        loaded_data_test = np.load(test_path)
        x_test = loaded_data_test['matrix']
        y_test = loaded_data_test['target']
        
        # load validation
        loaded_data_validation = np.load(val_path)
        x_val = loaded_data_validation['matrix']
        y_val = loaded_data_validation['target']
    
            # Split the dataset into training, validation and test sets
        train_dataset = HelixDataset(x_train, y_train)
        val_dataset = HelixDataset(x_val, y_val)
        test_dataset = HelixDataset(x_test, y_test)

                # Create data loaders divided in batches
        batch_size = config["batch_size"]
        train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
        val_loader = DataLoader(val_dataset, batch_size=batch_size)
        test_loader = DataLoader(test_dataset, batch_size=batch_size)
        
        # Initialize the model
        input_size = x_train.shape[1]
        
        model = SP_MLP(
            input_size,
            config["hidden_sizes"],
            output_size=1,
            dropout_p=config["dropout"]).to(device)

        optimizer = optim.Adam(model.parameters(), lr=config["lr"]) #use adam optimized with learning rate chosen by random search
        criterion = nn.BCELoss()  #loss function for binary classification

        best_state = train_val(model, train_loader, val_loader,
                               optimizer, criterion,
                               epochs=100, patience=20)
        model.load_state_dict(best_state) #best state(with optimized weight) with chosen parameter 
        
        # calcoli MCC sul test di quel fold 
        mcc = test(model, test_loader)
        mcc_scores.append(mcc)

    mean_mcc = np.mean(mcc_scores)

    # raytune vuole che gli riporti un dizionario di metriche
    tune.report({"mcc": mean_mcc, "num_layers":config["num_layers"], "hidden_layers_size": config["hidden_sizes"]})


In [7]:
#run the hyperparameter tuning for 20 different random configuration combinations
result = tune.run(
    test_config,
    config=config,
    num_samples=50,      # how many combinations you try 
)

best_trial = result.get_best_trial("mcc", "max", "last") #search all trials (combination of configurations) and select the best one. It compares the last reported mcc from each trial and returns the trial that achieved the maximum mcc.
print("Best trial config:", best_trial.config) #take the best configuration
print("Best CV MCC:", best_trial.last_result["mcc"]) #take the best mcc


2025-11-14 09:35:59,805	INFO worker.py:2012 -- Started a local Ray instance.
2025-11-14 09:36:01,460	INFO tune.py:253 -- Initializing Ray automatically. For cluster usage or custom Ray initialization, call `ray.init(...)` before `tune.run(...)`.
2025-11-14 09:36:01,464	INFO tune.py:616 -- [output] This uses the legacy output and progress reporter, as Jupyter notebooks are not supported by the new engine, yet. For more information, please see https://github.com/ray-project/ray/issues/36949
2025-11-14 09:36:01,561	INFO tensorboardx.py:193 -- pip install "ray[tune]" to see TensorBoard files.


0,1
Current time:,2025-11-14 10:47:09
Running for:,01:11:07.65
Memory:,1.2/3.5 GiB

Trial name,status,loc,batch_size,dropout,lr,num_layers,iter,total time (s),mcc,num_layers.1
test_config_f3765_00000,TERMINATED,172.19.13.131:1993,256,0.496851,0.000102761,3,1,168.216,0.708085,3
test_config_f3765_00001,TERMINATED,172.19.13.131:1994,256,0.115204,0.0083123,4,1,230.078,0.79747,4
test_config_f3765_00002,TERMINATED,172.19.13.131:1992,256,0.100854,0.0018918,4,1,468.961,0.798635,4
test_config_f3765_00003,TERMINATED,172.19.13.131:1995,128,0.131729,0.00135792,4,1,515.223,0.79953,4
test_config_f3765_00004,TERMINATED,172.19.13.131:2235,256,0.258185,0.000420988,3,1,91.6305,0.769237,3
test_config_f3765_00005,TERMINATED,172.19.13.131:2321,256,0.49873,0.0025482,2,1,156.117,0.162353,2
test_config_f3765_00006,TERMINATED,172.19.13.131:2406,64,0.243464,0.00839974,5,1,466.802,0.751963,5
test_config_f3765_00007,TERMINATED,172.19.13.131:2495,128,0.142521,0.00112237,5,1,539.619,0.805884,5
test_config_f3765_00008,TERMINATED,172.19.13.131:2583,256,0.123555,0.00419856,2,1,93.0288,0.0,2
test_config_f3765_00009,TERMINATED,172.19.13.131:2666,128,0.33335,0.00778089,3,1,206.222,0.770211,3


[36m(pid=gcs_server)[0m [2025-11-14 09:36:29,085 E 1666 1666] (gcs_server) gcs_server.cc:302: Failed to establish connection to the event+metrics exporter agent. Events and metrics will not be exported. Exporter agent status: RpcError: Running out of retries to initialize the metrics agent. rpc_code: 14
[33m(raylet)[0m [2025-11-14 09:36:30,122 E 1741 1741] (raylet) main.cc:975: Failed to establish connection to the metrics exporter agent. Metrics will not be exported. Exporter agent status: RpcError: Running out of retries to initialize the metrics agent. rpc_code: 14
[2025-11-14 09:36:31,625 E 1642 1785] core_worker_process.cc:825: Failed to establish connection to the metrics exporter agent. Metrics will not be exported. Exporter agent status: RpcError: Running out of retries to initialize the metrics agent. rpc_code: 14
[36m(test_config pid=1994)[0m [2025-11-14 09:36:36,128 E 1994 2063] core_worker_process.cc:825: Failed to establish connection to the metrics exporter agent. M

Trial name,hidden_layers_size,mcc,num_layers
test_config_f3765_00000,"[256, 64, 1024]",0.708085,3
test_config_f3765_00001,"[512, 256, 128, 64]",0.79747,4
test_config_f3765_00002,"[1024, 512, 128, 64]",0.798635,4
test_config_f3765_00003,"[256, 1024, 128, 512]",0.79953,4
test_config_f3765_00004,"[128, 32, 256]",0.769237,3
test_config_f3765_00005,"[1024, 512]",0.162353,2
test_config_f3765_00006,"[1024, 512, 128, 64, 32]",0.751963,5
test_config_f3765_00007,"[1024, 512, 128, 64, 32]",0.805884,5
test_config_f3765_00008,"[1024, 512]",0.0,2
test_config_f3765_00009,"[32, 1024, 128]",0.770211,3


[36m(test_config pid=2235)[0m [2025-11-14 09:39:46,942 E 2235 2264] core_worker_process.cc:825: Failed to establish connection to the metrics exporter agent. Metrics will not be exported. Exporter agent status: RpcError: Running out of retries to initialize the metrics agent. rpc_code: 14[32m [repeated 4x across cluster] (Ray deduplicates logs by default. Set RAY_DEDUP_LOGS=0 to disable log deduplication, or see https://docs.ray.io/en/master/ray-observability/user-guides/configure-logging.html#log-deduplication for more options.)[0m
[36m(test_config pid=2321)[0m [2025-11-14 09:40:40,563 E 2321 2347] core_worker_process.cc:825: Failed to establish connection to the metrics exporter agent. Metrics will not be exported. Exporter agent status: RpcError: Running out of retries to initialize the metrics agent. rpc_code: 14
[36m(test_config pid=2406)[0m [2025-11-14 09:41:48,297 E 2406 2433] core_worker_process.cc:825: Failed to establish connection to the metrics exporter agent. Metri

Best trial config: {'base_dir': '/mnt/c/Users/chari/OneDrive - Alma Mater Studiorum Università di Bologna/Scuola/Università/MAGISTRALE/GitHub/LB2_project_Group_3/Feature_Selection', 'num_layers': 5, 'hidden_sizes': [1024, 512, 128, 64, 32], 'dropout': 0.1425212008345106, 'lr': 0.0011223658746105343, 'batch_size': 128}
Best CV MCC: 0.8058839862968288


## Benchmark set and final evaluation

In [8]:
print(best_trial.config)

{'base_dir': '/mnt/c/Users/chari/OneDrive - Alma Mater Studiorum Università di Bologna/Scuola/Università/MAGISTRALE/GitHub/LB2_project_Group_3/Feature_Selection', 'num_layers': 5, 'hidden_sizes': [1024, 512, 128, 64, 32], 'dropout': 0.1425212008345106, 'lr': 0.0011223658746105343, 'batch_size': 128}


In [9]:
from importnb import Notebook
import pandas as pd
import sys, io
# add the folder vonheijine that contains our vonheijine functions
sys.path.append('../Feature_Selection/')
with Notebook():
    import custom_features


In [10]:
def update_vonheijne(sets, matrix): 
    seq_features=[]
    for seq in sets:
        seq=seq.replace("X" , "")
        seq=seq.replace("U" , "C")
        vonhejine=custom_features.vonheijne_feature(matrix, seq) #get the von heijne feature for that sequence
        seq_features.append(vonhejine)
    hejine_col = np.array(seq_features) #transform the list that contains all the features in an array
    return hejine_col

In [11]:
#Load the npz files of training, testing and validation sets for each iteration
dataset = pd.read_csv("../Data_Preparation/train_bench.tsv", sep = "\t")
# load training
# 5th iteration was: validation set 1 , training set 2,3,4 , testing set 5
loaded_data_train = np.load('../Feature_Selection/training_features_5.npz')
x_train = loaded_data_train['matrix']
y_train = loaded_data_train['target']

# load test
loaded_data_test = np.load('../Feature_Selection/testing_features_5.npz')
x_test = loaded_data_test['matrix']
y_test = loaded_data_test['target']

# load validation
loaded_data_validation = np.load('../Feature_Selection/validation_features_5.npz')
x_validation = loaded_data_validation['matrix']
y_validation = loaded_data_validation['target']

#concatenation of the training, and test portion in one unique set, and update the von heijine feature for the new training set, and the validation set and encode the benchmark set.
#concatenate the matrices in the correct order
x_training_conc = np.concatenate((x_train , x_test), axis=0) #order is maintained: 1,2,3,4,5
y_training_conc = np.concatenate((y_train, y_test), axis=0)
#replace the old VonHejine feature with the new VonHejine basing on the updated PSWM
training= dataset.query(" Set=='2' or Set=='3' or Set=='4' or Set=='5'")
validation=dataset.query("Set=='1'")
matrix_training=custom_features.get_pswm(training , 13 , 2)
x_training_conc[:, 17] = update_vonheijne(training["Sequence"], matrix_training)
x_validation[:, 17]=update_vonheijne(validation["Sequence"],matrix_training)
#Load the benchmark set and encode it
benchmark=dataset.query("Set=='Benchmark'")
feature_set_benchmark , feature_order_training = custom_features.get_all_features(benchmark["Sequence"] , matrix_training, 15 )
vector_neg_pos = benchmark["Class"]
vector_proper = vector_neg_pos.map({"Positive": 1, "Negative": 0})
target_benchmark_vector = vector_proper.to_numpy()


In [12]:
#Save the sets for eventually future purposes and analysis
np.savez('benchmark_features.npz', matrix=feature_set_benchmark, target=target_benchmark_vector)
np.savez('training_features.npz', matrix=x_training_conc, target=y_training_conc)
np.savez('validation_features.npz', matrix=x_validation, target=y_validation)

In [13]:
# Split the dataset into training, validation and test sets
train_dataset = HelixDataset(x_training_conc, y_training_conc)
val_dataset = HelixDataset(x_validation, y_validation)
test_dataset = HelixDataset(feature_set_benchmark, target_benchmark_vector)

        # Create data loaders divided in batches
batch_size = best_trial.config["batch_size"]
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=batch_size)
test_loader = DataLoader(test_dataset, batch_size=batch_size)

# Initialize the model
input_size = x_training_conc.shape[1]

model = SP_MLP(
    input_size,
    best_trial.config["hidden_sizes"],
    output_size=1,
    dropout_p=best_trial.config["dropout"]).to(device)

optimizer = optim.Adam(model.parameters(), lr=best_trial.config["lr"]) #use adam optimized with learning rate chosen by random search
criterion = nn.BCELoss()  #loss function for binary classification

best_state = train_val(model, train_loader, val_loader,
                       optimizer, criterion,
                       epochs=100, patience=20)
model.load_state_dict(best_state) #best state(with optimized weight) with chosen parameter 

# calcoli MCC sul test di quel fold 
mcc = test(model, test_loader)

In [14]:
print("MCC on benchmark set:", mcc)

MCC on benchmark set: 0.8017616337762644
