### 1. Import Packages

In [1]:
# Librerie di base
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Librerie per la Data Imputation
from sklearn.impute import KNNImputer

# Librerie per la Hyperparameter Optimization
from sklearn.model_selection import GridSearchCV

# Librerie per il Machine Learning
import xgboost as xgb
import sklearn.metrics as metrics
from sklearn.model_selection import KFold, train_test_split, cross_val_score

# Librerie per la Features Selection
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

print('All packages successfully loaded')

All packages successfully loaded


### 2. Load Data & Peak Sheet

In [2]:
df = pd.read_excel('../../data/ST000369.xlsx')

# Rimuoviamo le colonne che non ci servono
df.drop(columns=["Idx", "SampleID", "Class"], inplace=True)

# Visualizziamo le prime 5 righe del dataset
df.head()

Unnamed: 0,SampleType,HealthState,SmokingStatus,Sex,M1,M2,M3,M4,M5,M6,...,M172,M173,M174,M175,M176,M177,M178,M179,M180,M181
0,Plasma,Adenocarcinoma,Former,F,194,168,77,105985,118,15489,...,195,1606,300,108,7203,43,59,1009,383,68
1,Plasma,Adenocarcinoma,Former,F,215,143,154,100462,133,13534,...,184,364,1364,160,11910,82,99,136,1021,165
2,Plasma,Adenocarcinoma,Current,F,104,67,45,75301,94,7390,...,189,157,884,73,6372,59,35,115,530,72
3,Plasma,Adenocarcinoma,Current,M,360,642,82,42097,84,50943,...,320,1621,461,104,14011,69,86,845,1309,127
4,Plasma,Adenocarcinoma,Current,M,96,137,95,112346,168,41987,...,84,769,266,158,18140,40,87,1213,1037,149


### 2.1 Data Cleaning

Per quanto riguarda la fase di Data Cleaning effettuiamo le stesse operazioni viste per l'algoritmo Random Forest (RF). 

In [3]:
# Effettuiamo la correzione dei valori errati
df["HealthState"] = df["HealthState"].str.replace('Adenocarcnoma', 'Adenocarcinoma')

# Eliminiamo le righe con valori nulli all'interno delle colonne "HealthState" e "Sex"
df = df.dropna(subset=["HealthState", "Sex"])

# Convertiamo i valori di natura categorica in valori numerici
df['Output'] = df['HealthState'].apply(lambda x: 1 if x in ['Adenosquamous', 'Adenocarcinoma'] else 0)
df['SmokingStatus'] = df['SmokingStatus'].apply(lambda x: 1 if x in ['Current'] else 0)
df['Sex'] = df['Sex'].apply(lambda x: 1 if x in ['F'] else 0)

# Visualizziamo le prime 5 righe del dataset
df.head()

Unnamed: 0,SampleType,HealthState,SmokingStatus,Sex,M1,M2,M3,M4,M5,M6,...,M173,M174,M175,M176,M177,M178,M179,M180,M181,Output
0,Plasma,Adenocarcinoma,0,1,194,168,77,105985,118,15489,...,1606,300,108,7203,43,59,1009,383,68,1
1,Plasma,Adenocarcinoma,0,1,215,143,154,100462,133,13534,...,364,1364,160,11910,82,99,136,1021,165,1
2,Plasma,Adenocarcinoma,1,1,104,67,45,75301,94,7390,...,157,884,73,6372,59,35,115,530,72,1
3,Plasma,Adenocarcinoma,1,0,360,642,82,42097,84,50943,...,1621,461,104,14011,69,86,845,1309,127,1
4,Plasma,Adenocarcinoma,1,0,96,137,95,112346,168,41987,...,769,266,158,18140,40,87,1213,1037,149,1


### 3. Extract X & Y

In [4]:
X = df.drop(columns=['SampleType', 'HealthState', 'Output'])
X_features_names = X.columns
y = df.Output

### 3.1 Data Imputation

In [5]:
# KNNImputer
imputer_knn = KNNImputer(n_neighbors=2)
imputer_knn.fit(X)
X[:] = imputer_knn.fit_transform(X)
X_knn = X.copy()

  X[:] = imputer_knn.fit_transform(X)


### 3.2 Train-test Split

In [6]:
X_train_knn, X_test_knn, y_train_knn, y_test_knn = train_test_split(X_knn, y, test_size=0.2, random_state=42)

### 4. Initial Model Build

In [7]:
# Definiamo il modello XGBoost con gli iperparametri di default
model = xgb.XGBClassifier()

# Addestriamo il modello
model.fit(X_train_knn, y_train_knn)

# Eseguiamo le previsioni sui dati di test
y_pred_knn = model.predict(X_test_knn)

### 5. Initial Model Evalutation

In [8]:
# Valutiamo le prestazioni del modello con gli iperparametri di default
accuracy_knn = metrics.accuracy_score(y_test_knn, y_pred_knn)
precision_knn = metrics.precision_score(y_test_knn, y_pred_knn)
recall_knn = metrics.recall_score(y_test_knn, y_pred_knn)
f1_knn = metrics.f1_score(y_test_knn, y_pred_knn)
roc_auc_knn = metrics.roc_auc_score(y_test_knn, y_pred_knn)

print(f'Accuratezza: {accuracy_knn}')
print(f'Precision: {precision_knn}')
print(f'Recall: {recall_knn}')
print(f'F1-score: {f1_knn}')
print(f'ROC AUC: {roc_auc_knn}')

Accuratezza: 0.6363636363636364
Precision: 0.6086956521739131
Recall: 0.8235294117647058
F1-score: 0.7
ROC AUC: 0.6305147058823529


Le prestazioni iniziali sono alquanto deludenti: abbiamo un'accuratezza del 63%, una Precision del 60% e una Recall dell'83%. Proviamo quindi a effettuare l'ottimizzazione dei vari parametri utilizzati per il problema.

### 6. Hyperparameters Optimization

L'**ottimizzazione degli iperparametri** è un passo fondamentale nello sviluppo di modelli predittivi robusti. Infatti, aderire ai parametri predefiniti impedisce ai modelli di raggiungere il massimo delle prestazioni. A tale scopo, utilizziamo la tecnica **Grid Search**.

### 6.1 K-Fold

Cerchiamo il numero di fold ideale per la K-Fold.

In [9]:
# Testiamo diverse configurazioni di K
max = 0
k_best = 0
for k in range(5, 11): 
    kfolds = KFold(n_splits=k, shuffle=True, random_state=42)
    model = xgb.XGBClassifier()
    scores = cross_val_score(model, X_knn, y, cv=kfolds)
    mean = np.mean(scores)
    if mean > max: 
        max = mean
        k_best = k
    print(f"K={k}, Accuratezza Media: {mean}")

print(f"K ottimale: {k_best}")

K=5, Accuratezza Media: 0.7181818181818181
K=6, Accuratezza Media: 0.7239858906525573
K=7, Accuratezza Media: 0.7008281573498965
K=8, Accuratezza Media: 0.7321428571428572
K=9, Accuratezza Media: 0.7131254061078622
K=10, Accuratezza Media: 0.75
K ottimale: 10


Abbiamo ottenuto le prestazioni migliori con un numero di fold pari a 10.

In [10]:
# Creiamo l'oggetto KFold per la Cross-Validation con il numero di fold ottimale
kfolds = KFold(n_splits=k_best, shuffle=True, random_state=42)

# Creiamo il modello XGBoost Classifier
model = xgb.XGBClassifier()

# Applichiamo la K-fold Cross-Validation
scores = cross_val_score(model, X_knn, y, cv=kfolds, scoring='accuracy')

# Visualizziamo i risultati della cross-validation
print(f'Accuratezza media: {scores.mean()}')
print(f'Deviazione standard: {scores.std()}')

Accuratezza media: 0.75
Deviazione standard: 0.09254195719148395


### 6.2 KNN Neighbors Optimization

Cerchiamo ora il numero ideale di neighbors per l'imputazione KNN.

In [11]:
imputer_knn = KNNImputer()

# Definiamo il dominio di ricerca
param_grid = {'n_neighbors': np.arange(1, 6)}

# Creiamo l'oggetto GridSearchCV
grid_search_imputer = GridSearchCV(imputer_knn, param_grid, cv=k_best, scoring='accuracy', n_jobs=-1)

# Addestriamo il modello sui dati
grid_search_imputer.fit(X_knn, y)

# Visualizziamo i risultati dell'ottimizzazione bayesiana
print("Migliore configurazione di parametri:", grid_search_imputer.best_params_)

Migliore configurazione di parametri: {'n_neighbors': 1}


Traceback (most recent call last):
  File "/Users/nova/Programming/anaconda3/envs/thesis/lib/python3.11/site-packages/sklearn/model_selection/_validation.py", line 813, in _score
    scores = scorer(estimator, X_test, y_test)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/Users/nova/Programming/anaconda3/envs/thesis/lib/python3.11/site-packages/sklearn/metrics/_scorer.py", line 266, in __call__
    return self._score(partial(_cached_call, None), estimator, X, y_true, **_kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/Users/nova/Programming/anaconda3/envs/thesis/lib/python3.11/site-packages/sklearn/metrics/_scorer.py", line 353, in _score
    y_pred = method_caller(estimator, "predict", X)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/Users/nova/Programming/anaconda3/envs/thesis/lib/python3.11/site-packages/sklearn/metrics/_scorer.py", line 86, in _cached_call
    result, _ = _get_response_values(
            

In [12]:
# Definiamo l'imputatore con la migliore configurazione di parametri
imputer_best = KNNImputer(n_neighbors=grid_search_imputer.best_params_['n_neighbors'])
imputer_best.fit(X)
X[:] = imputer_best.fit_transform(X)
X_best = X.copy()

Ripeto la ricerca del numero ottimale di fold con **K_best**.

In [13]:
# Testiamo diverse configurazioni di K
max = 0
k_best = 0
for k in range(5, 11): 
    kfolds = KFold(n_splits=k, shuffle=True, random_state=42)
    model = xgb.XGBClassifier()
    scores = cross_val_score(model, X_best, y, cv=kfolds)
    mean = np.mean(scores)
    if mean > max: 
        max = mean
        k_best = k
    print(f"K={k}, Accuratezza Media: {mean}")

print(f"K ottimale: {k_best}")

K=5, Accuratezza Media: 0.7181818181818181
K=6, Accuratezza Media: 0.7239858906525573
K=7, Accuratezza Media: 0.7008281573498965
K=8, Accuratezza Media: 0.7321428571428572
K=9, Accuratezza Media: 0.7131254061078622
K=10, Accuratezza Media: 0.75
K ottimale: 10


Il numero ottimale è ancora 10.

### 6.3 Model Hyperparameters

In [14]:
# Qui di seguito effetuiamo il tuning degli iperparametri del modello

# Creiamo un nuovo modello XGBClassifier
model_2 = xgb.XGBClassifier()

# GRID SEARCH

# Definiamo la griglia con i parametri da testare

"""" IPERPARAMETRI ORIGINALI (il mio computer non è riuscito a reggere la complessità)
param_grid = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 4, 5],
    'min_child_weight': [1, 2, 3],
    'gamma': [0, 0.1, 0.2],
    'subsample': [0.8, 0.9, 1.0],
    'colsample_bytree': [0.8, 0.9, 1.0],
    'colsample_bylevel': [0.8, 0.9, 1.0],
    'scale_pos_weight': [1, 2, 3]
}
"""

# IPERPARAMETRI RIDOTTI
param_grid = {
    'n_estimators': [100, 200],
    'learning_rate': [0.01, 0.1],
    'max_depth': [3, 4],
    'min_child_weight': [1, 2],
    'gamma': [0, 0.1],
    'subsample': [0.8, 0.9],
    'colsample_bytree': [0.8, 0.9],
    'colsample_bylevel': [0.8, 0.9],
    'scale_pos_weight': [1, 2]
}

# Creiamo l'oggetto BayesSearchCV
grid_search_model = GridSearchCV(model_2, param_grid, scoring='accuracy', cv=k_best, n_jobs=-1)
grid_search_model.fit(X_best, y)

# Visualizziamo i risultati dell'ottimizzazione bayesiana
best_params = grid_search_model.best_params_
print("Iperparametri migliori:", best_params)

Iperparametri migliori: {'colsample_bylevel': 0.8, 'colsample_bytree': 0.9, 'gamma': 0.1, 'learning_rate': 0.1, 'max_depth': 3, 'min_child_weight': 1, 'n_estimators': 200, 'scale_pos_weight': 1, 'subsample': 0.8}


In [15]:
# Utilizziamo gli iperparametri ottimizzati per creare un nuovo modello
best_model = xgb.XGBClassifier(**best_params)
best_model.fit(X_best, y)

In [16]:
# Valutiamo le prestazioni del modello con gli iperparametri di default
accuracy_knn = metrics.accuracy_score(y_test_knn, y_pred_knn)
precision_knn = metrics.precision_score(y_test_knn, y_pred_knn)
recall_knn = metrics.recall_score(y_test_knn, y_pred_knn)
f1_knn = metrics.f1_score(y_test_knn, y_pred_knn)
roc_auc_knn = metrics.roc_auc_score(y_test_knn, y_pred_knn)

print(f'Accuratezza: {accuracy_knn}')
print(f'Precision: {precision_knn}')
print(f'Recall: {recall_knn}')
print(f'F1-score: {f1_knn}')
print(f'ROC AUC: {roc_auc_knn}')

Accuratezza: 0.6363636363636364
Precision: 0.6086956521739131
Recall: 0.8235294117647058
F1-score: 0.7
ROC AUC: 0.6305147058823529
