### 1. Import Packages

In [8]:
# Librerie di base
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Librerie per la Hyperparameter Optimization
from sklearn.model_selection import GridSearchCV

# Librerie per il Machine Learning
import xgboost as xgb
import sklearn.metrics as metrics
from sklearn.model_selection import KFold, train_test_split, cross_val_score

# Librerie per la Features Selection
from sklearn.feature_selection import SelectKBest, f_classif
# Librerie per la PCA
from sklearn.decomposition import PCA

print('All packages successfully loaded')

All packages successfully loaded


### 2. Load Data & Peak Sheet

In [9]:
df = pd.read_csv('../../../data/ST001937.csv')

# Rimuoviamo le colonne che non ci servono
df.drop(columns=["Sample ID", "RAW_FILE_NAME"], inplace=True)

# Visualizziamo le prime 5 righe del dataset
df.head()

Unnamed: 0,Pheotypes,"1,3,5(10)-estratrien-3,6- beta-17-beta-triol","1,5-anhydroglucitol",17-alpha-20-alpha-dihydroxy-4-pregnen-3-one-1,17-alpha-20-alpha-dihydroxy-4-pregnen-3-one-2,17-alpha-20-alpha-dihydroxy-4-pregnen-3-one-3,17-alpha-20-alpha-dihydroxy-4-pregnen-3-one-4,17-alpha-20-alpha-dihydroxy-4-pregnen-3-one-5,17-alpha-20-alpha-dihydroxy-4-pregnen-3-one-6,1-hexadecanol,...,tyrosine-1,tyrosine-2,urea-1,urea-2,urea-3,urea-4,uridine,valine,xanthine,xanthosine
0,Benign SPNS,0.437408,0.663764,0.700609,0.096924,0.173891,0.799124,0.57352,1.10591,0.677833,...,0.689488,0.037373,0.595031,0.234936,0.589201,0.127788,0.11396,0.216687,0.77086,0.17406
1,Benign SPNS,5.064922,0.653161,0.883121,0.056551,0.932342,0.394648,0.772451,0.623514,0.769287,...,0.537845,0.016517,0.484474,0.564398,0.482784,0.119055,0.009865,0.164879,0.45674,0.320723
2,Benign SPNS,1.046057,0.79804,0.83863,0.283674,0.119269,0.032103,0.807268,0.339667,1.104029,...,0.679699,1.07972,0.901623,0.559234,0.866856,0.159342,0.026922,0.252849,0.473077,0.158255
3,Benign SPNS,2.5307,1.31884,1.074717,0.431186,1.773602,0.627714,2.042268,0.913226,0.741269,...,0.837193,0.522064,1.433745,1.442062,1.406062,0.231101,0.278952,0.301997,0.94099,1.095022
4,Benign SPNS,0.027033,1.031146,0.863596,0.201422,0.222126,0.928862,1.004769,0.403102,0.790744,...,0.826921,0.462153,1.040359,1.15485,1.034635,0.198105,0.868354,0.302138,1.208439,0.557425


### 2.1 Data Cleaning

Notiamo che il dataset non presenta alcun nullo, di conseguenza non dobbiamo effettuare nessuna operazione di imputazione. Dobbiamo soltanto modificare i valori testuali della feature Pheotypes in valori numerici.

In [10]:
# Visualizziamo le colonne con dati mancanti
print(df.isnull().sum())
print("----------------------------------------------------")
print(df.isnull().sum().sum())

df['Pheotypes'] = df['Pheotypes'].apply(lambda x: 0 if x == 'Healthy Controls' else 1 if x == 'Benign SPNS' else 2)

Pheotypes                                        0
1,3,5(10)-estratrien-3,6- beta-17-beta-triol     0
1,5-anhydroglucitol                              0
17-alpha-20-alpha-dihydroxy-4-pregnen-3-one-1    0
17-alpha-20-alpha-dihydroxy-4-pregnen-3-one-2    0
                                                ..
urea-4                                           0
uridine                                          0
valine                                           0
xanthine                                         0
xanthosine                                       0
Length: 546, dtype: int64
----------------------------------------------------
0


### 3. Extract X & Y

In [11]:
X = df.drop(columns=['Pheotypes'])
X_features_names = X.columns
y = df.Pheotypes

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### 4. Initial Model Build

In [12]:
# Definiamo il modello XGBoost con gli iperparametri di default
model = xgb.XGBClassifier()

# Addestriamo il modello
model.fit(X_train, y_train)

# Eseguiamo le previsioni sui dati di test
y_pred = model.predict(X_test)

### 5. Initial Model Evalutation

In [13]:
# Valutiamo l'accuratezza del modello con gli iperparametri di default
accuracy = metrics.accuracy_score(y_test, y_pred)

# Visualizziamo le metriche
print(f'Accuratezza: {accuracy}')

Accuratezza: 0.8620689655172413


Le prestazioni iniziali sono ottime: abbiamo un'accuratezza del 86%. Proviamo con la K-Fold Cross Validation.

In [14]:
# Testiamo diverse configurazioni di K
max = 0
k_best = 0
for k in range(5, 11): 
    kfolds = KFold(n_splits=k, shuffle=True, random_state=42)
    model = xgb.XGBClassifier()
    scores = cross_val_score(model, X, y, cv=kfolds)
    mean = np.mean(scores)
    if mean > max: 
        max = mean
        k_best = k
    print(f"K={k}, Accuratezza Media: {mean}")
    
print("-------------------------------------------")
print(f"K ottimale: {k_best}")
print(f"Accuratezza media massima: {max}")

K=5, Accuratezza Media: 0.8568965517241379
K=6, Accuratezza Media: 0.8594626355429731
K=7, Accuratezza Media: 0.8543472591665363
K=8, Accuratezza Media: 0.8525862068965517
K=9, Accuratezza Media: 0.8560642764857881
K=10, Accuratezza Media: 0.8560344827586206
-------------------------------------------
K ottimale: 6
Accuratezza media massima: 0.8594626355429731


Abbiamo ottenuto le prestazioni migliori con un numero di fold pari a 6.

In [15]:
# Creiamo l'oggetto K-Fold per la Cross-Validation con il numero di fold ottimale
kfolds = KFold(n_splits=k_best, shuffle=True, random_state=42)

### 6. Hyperparameters Optimization

L'**ottimizzazione degli iperparametri** è un passo fondamentale nello sviluppo di modelli predittivi robusti. Infatti, aderire ai parametri predefiniti impedisce ai modelli di raggiungere il massimo delle prestazioni. A tale scopo, utilizziamo la tecnica **Grid Search**.

In [16]:
# Creiamo un nuovo modello XGBClassifier
model_2 = xgb.XGBClassifier()

# Definiamo la griglia con i parametri da testare
param_grid = {
    'n_estimators': [100, 200],
    'learning_rate': [0.01, 0.1],
    'max_depth': [3, 4],
    'min_child_weight': [1, 2],
    'gamma': [0, 0.1],
    'subsample': [0.8, 0.9],
    'colsample_bytree': [0.8, 0.9],
    'colsample_bylevel': [0.8, 0.9],
}

# Creiamo l'oggetto GridSearchCV
grid_search_model = GridSearchCV(model_2, param_grid, scoring='accuracy', cv=kfolds, n_jobs=-1)
grid_search_model.fit(X, y)

# Visualizziamo i risultati
best_params = grid_search_model.best_params_
print("Iperparametri migliori:", best_params)

Iperparametri migliori: {'colsample_bylevel': 0.8, 'colsample_bytree': 0.9, 'gamma': 0, 'learning_rate': 0.1, 'max_depth': 3, 'min_child_weight': 2, 'n_estimators': 100, 'subsample': 0.8}


In [25]:
# Utilizziamo gli iperparametri ottimizzati per creare un nuovo modello
best_model = xgb.XGBClassifier(**best_params)

In [27]:
# Addestriamo il modello con gli iperparametri ottimizzati
best_model.fit(X_train, y_train)
y_pred = best_model.predict(X_test)

# Visualizziamo le metriche
print(f'Accuratezza: {metrics.accuracy_score(y_test, y_pred)}')
print(f'Precision: {metrics.precision_score(y_test, y_pred, average="macro", zero_division=1)}')
print(f'Recall: {metrics.recall_score(y_test, y_pred, average="macro")}')
print(f'F1: {metrics.f1_score(y_test, y_pred, average="macro")}')
print("--------------------------------")
print(f'Matrice di confusione \n{metrics.confusion_matrix(y_test, y_pred)}')


Accuratezza: 0.8577586206896551
Precision: 0.608058608058608
Recall: 0.6577924944812362
F1: 0.6302666302666302
--------------------------------
Matrice di confusione 
[[ 49   0   1]
 [  0   0  31]
 [  0   1 150]]


Valutiamo le prestazioni con la K-Fold Cross Validation.

In [19]:
# K-Fold Cross Validation
scores = cross_val_score(best_model, X, y, cv=kfolds, scoring='accuracy')
print(f'Accuratezza media: {scores.mean()}')

Accuratezza media: 0.866371098409985


### 7. Feature Selection

Per la feature selection, al contrario di altri dataset già esaminati, non possiamo utilizzare il test del chi-quadro in quanto esso supporta solo dati non negativi. Per questo motivo, proviamo a utilizzare la tecnica *F-Classif* calcola il valore *F-statistic* e il *p-value* associato per ogni feature rispetto alla variabile target. L'*F-statistic* misura la differenza tra le medie dei gruppi rispetto alla varianza dei dati all'interno dei gruppi. Il *p-value* è quindi utilizzato per valutare la significatività statistica della differenza osservata.

In [20]:
max_fs = 0 
k_fs = 0
best_features = []

for k in range(2, len(X.columns)):
    top_features = SelectKBest(score_func=f_classif, k=k).fit(X, y).get_support(indices=True)
    X_top = X.iloc[:, top_features]
    
    scores = cross_val_score(best_model, X_top, y, cv=kfolds, scoring='accuracy')
    mean = np.mean(scores)
    
    if mean > max_fs: 
        max_fs = mean
        k_fs = k
        best_features = X.columns[top_features].tolist()

    print(f"K={k}, Accuratezza Media: {mean}")

print(f"K ottimale: {k_fs}")
print(f"Accuratezza media ottimale: {max_fs}")
print(f"Features ottimali: {best_features}")

K=2, Accuratezza Media: 0.716321243523316
K=3, Accuratezza Media: 0.7611461282338907
K=4, Accuratezza Media: 0.8163559638908179
K=5, Accuratezza Media: 0.8301550843081745
K=6, Accuratezza Media: 0.8249781884870823
K=7, Accuratezza Media: 0.8301461816498407
K=8, Accuratezza Media: 0.8301550843081745
K=9, Accuratezza Media: 0.829291526449798
K=10, Accuratezza Media: 0.8387639549169382
K=11, Accuratezza Media: 0.841350177162901
K=12, Accuratezza Media: 0.8413679824795685
K=13, Accuratezza Media: 0.8422092836921106
K=14, Accuratezza Media: 0.8465270729839931
K=15, Accuratezza Media: 0.8465404269714938
K=16, Accuratezza Media: 0.8456724177839504
K=17, Accuratezza Media: 0.8456768691131172
K=18, Accuratezza Media: 0.8473995335007033
K=19, Accuratezza Media: 0.855162651567758
K=20, Accuratezza Media: 0.849990207075833
K=21, Accuratezza Media: 0.8508359596175419
K=22, Accuratezza Media: 0.848258640029913
K=23, Accuratezza Media: 0.848258640029913
K=24, Accuratezza Media: 0.8465493296298274
K=2

L'accuratezza più alta si ha con le migliori 541 features, solo 3 in meno rispetto a quelle originali. Il miglioramento di accuratezza è alquanto trascurabile.

In [28]:
X_top = X[best_features]
scores = cross_val_score(best_model, X_top, y, cv=kfolds, scoring='accuracy')
print(f'Accuratezza media: {scores.mean()}')

Accuratezza media: 0.8672346562683616


### 8. PCA

In [22]:
pca = PCA()
pca.fit(X)
cumsum = np.cumsum(pca.explained_variance_ratio_)
d = np.argmax(cumsum >= 0.99) + 1
print("Numero di componenti principali:", d)

pca = PCA(n_components=d)
X_reduced = pca.fit_transform(X)

Numero di componenti principali: 86


In [23]:
scores = cross_val_score(best_model, X_reduced, y, cv=kfolds, scoring='accuracy')
print(f'Accuratezza media: {scores.mean()}')

Accuratezza media: 0.797420009614871


La PCA non ci aiuta nelle nostre analisi. Infatti, è impossibile arrivare a plottare le componenti principali in quanto saranno sempre maggiori di 3.

### 9. Results

Visualizziamo i risultati migliori.

In [24]:
# Numero ottimale di fold 
kfolds = KFold(n_splits=k_best, shuffle=True, random_state=42)

# Modello eXtreme Gradient Boost con gli iperparametri ottimizzati
model = xgb.XGBClassifier(**best_params)

# K-Fold Cross Validation del modello con gli iperparametri ottimizzati
scores = cross_val_score(model, X, y, cv=kfolds, scoring='accuracy')
print(f'Accuratezza media: {scores.mean()}')

Accuratezza media: 0.866371098409985
