# Random Forest

## Inizializzazione variabili

In [11]:
import pandas as pd
import numpy as np
import os
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, StratifiedKFold
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score, ConfusionMatrixDisplay
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import KNNImputer, IterativeImputer
import matplotlib.pyplot as plt

# Percorso dove salvare l'excel
excel_path = "Excel/RandomForest_Results.xlsx"

In [79]:
# Genera il dataset
parte1 = pd.read_csv("Excel/Parte1.csv")
parte2 = pd.read_csv("Excel/parte2_v1.csv")

# Viene rinominata la feature ID in Patiene_ID per perettere il merge
parte2 = parte2.rename(columns={"ID": "Patient_ID"})

# Viene fatto un inner‐merge su Patient_ID:
df = parte1.merge(parte2, on="Patient_ID", how="inner")
df = df.drop(columns=["Patient_ID"])

# Dividi X e Y
Y = df['Has_Diagnostics']
X = df.drop(columns=['Has_Diagnostics'])

In [8]:
# Funzione per metriche
def get_metrics(y_true, y_predicted):
    matrix = confusion_matrix(y_true, y_predicted)
    accuracy = accuracy_score(y_true, y_predicted)
    precision = precision_score(y_true, y_predicted, average='weighted', zero_division=0)
    recall = recall_score(y_true, y_predicted, average='weighted', zero_division=0)
    f1score = f1_score(y_true, y_predicted, average='weighted', zero_division=0)
    return matrix, accuracy, precision, recall, f1score

### Riempimento valori null con la media

In [80]:
df_media = df.fillna(df.mean(numeric_only=True))

# Dividi X e Y
del X, Y
Y = df_media['Has_Diagnostics']
X = df_media.drop(columns=['Has_Diagnostics'])

### Riempimento valori null con la mediana

In [193]:
df_mediana = df.fillna(df.median(numeric_only=True))

# Dividi X e Y
del X, Y
Y = df_mediana['Has_Diagnostics']
X = df_mediana.drop(columns=['Has_Diagnostics'])

### Riempimento valori null con KNNImputer

In [98]:
# Rimuovi momentaneamente X e Y
df_temp = df.copy()

# Crea un imputatore KNN
imputer = KNNImputer(n_neighbors=5)

# Applica l'imputazione solo sulle colonne numeriche
df_imputed_array = imputer.fit_transform(df_temp.select_dtypes(include='number'))

# Ricrea il DataFrame con le stesse colonne
df_imputed = pd.DataFrame(df_imputed_array, columns=df_temp.select_dtypes(include='number').columns)

# Se ci sono colonne non numeriche, le aggiungiamo di nuovo (senza modificarle)
for col in df_temp.columns:
    if col not in df_imputed.columns:
        df_imputed[col] = df_temp[col]

# Dividi X e Y
del X, Y
Y = df_imputed['Has_Diagnostics']
X = df_imputed.drop(columns=['Has_Diagnostics'])

### Riempimento valori null con IterativeImputer

In [220]:
# Rimuovi momentaneamente X e Y
df_temp = df.copy()

# Crea un imputatore iterativo
imputer = IterativeImputer(max_iter=10, random_state=42)

# Applica l'imputazione solo sulle colonne numeriche
df_imputed_array = imputer.fit_transform(df_temp.select_dtypes(include='number'))

# Ricrea il DataFrame con le stesse colonne
df_imputed = pd.DataFrame(df_imputed_array, columns=df_temp.select_dtypes(include='number').columns)

# Se ci sono colonne non numeriche, le aggiungiamo di nuovo (senza modificarle)
for col in df_temp.columns:
    if col not in df_imputed.columns:
        df_imputed[col] = df_temp[col]

# Dividi X e Y
del X, Y
Y = df_imputed['Has_Diagnostics']
X = df_imputed.drop(columns=['Has_Diagnostics'])

In [111]:
Prova = 24
n_estimators = 300
max_depth = 5

## Metodo dell 80/20

In [112]:
print("=== VALIDAZIONE 80/20 ===")
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, stratify=Y, random_state=42)

clf = RandomForestClassifier(n_estimators=n_estimators, max_depth=max_depth, random_state=42)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

cm, acc, prec, rec, f1 = get_metrics(y_test, y_pred)

#print(f"Accuracy: {acc:.4f}")
#print(f"Precision: {prec:.4f}")
#print(f"Recall: {rec:.4f}")
#print(f"F1-Score: {f1:.4f}")

#disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=clf.classes_)
#disp.plot(cmap=plt.cm.Blues)
#plt.title("Confusion Matrix 80/20")
#plt.show()

# Calcola importanza delle feature
importances = clf.feature_importances_
features = X.columns
importances_dict = {f'Imp_{feat}': [imp] for feat, imp in zip(features, importances)}

# Prepara il DataFrame da salvare
df_split = pd.DataFrame({
    'Prova': [Prova],
    'n_estimators': [n_estimators],
    'max_depth': [max_depth],
    'Accuracy': [acc],
    'Precision': [prec],
    'Recall': [rec],
    'F1-Score': [f1],
    'Confusion_Matrix': [cm.tolist()],
    ' ': [None]
} | importances_dict)  # Unione dizionari

# Aggiungi a eventuali dati già presenti
if os.path.exists(excel_path):
    with pd.ExcelFile(excel_path) as reader:
        if 'Split_80_20_Test' in reader.sheet_names:
            prev_data = pd.read_excel(reader, sheet_name='Split_80_20_Test')
            df_split = pd.concat([prev_data, df_split], ignore_index=True)

# Scrivi sul file
with pd.ExcelWriter(excel_path, engine='openpyxl', mode='a', if_sheet_exists='replace') as writer:
    df_split.to_excel(writer, sheet_name='Split_80_20_Test', index=False)

print("✅ Risultati 80/20 salvati su Excel.")

=== VALIDAZIONE 80/20 ===
✅ Risultati 80/20 salvati su Excel.


## K-Fold cross recognition

In [113]:
print("=== VALIDAZIONE K-FOLD ===")

kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
fold_results = []

for i, (train_index, test_index) in enumerate(kf.split(X, Y), start=1):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = Y.iloc[train_index], Y.iloc[test_index]

    clf = RandomForestClassifier(n_estimators=n_estimators, max_depth=max_depth, random_state=42)
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)

    cm, acc, prec, rec, f1 = get_metrics(y_test, y_pred)

#    print(f"\n--- Fold {i} ---")
#    print(f"Accuracy: {acc:.4f}")
#    print(f"Precision: {prec:.4f}")
#    print(f"Recall: {rec:.4f}")
#    print(f"F1-Score: {f1:.4f}")

#    disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=clf.classes_)
#    disp.plot(cmap=plt.cm.Blues)
#    plt.title(f"Confusion Matrix Fold {i}")
#    plt.show()

    # Calcola importanza delle feature
    importances = clf.feature_importances_
    features = X.columns
    importances_dict = {f'Imp_{feat}': imp for feat, imp in zip(features, importances)}

    # Salva tutti i dati in un'unica riga
    fold_results.append({
        'Prova': Prova,
        'KFold' : i,
        'n_estimators': n_estimators,
        'max_depth': max_depth,
        'Accuracy': acc,
        'Precision': prec,
        'Recall': rec,
        'F1-Score': f1,
        'Confusion_Matrix': cm.tolist(),
        ' ': None,  # cella vuota per separare le metriche dalle importances
        **importances_dict
    })

df_kfold = pd.DataFrame(fold_results)

# Aggiungi a eventuali dati già presenti
if os.path.exists(excel_path):
    with pd.ExcelFile(excel_path) as reader:
        if 'KFold_CV_Test' in reader.sheet_names:
            prev_kfold = pd.read_excel(reader, sheet_name='KFold_CV_Test')
            df_kfold = pd.concat([prev_kfold, df_kfold], ignore_index=True)

# Scrivi sul file
with pd.ExcelWriter(excel_path, engine='openpyxl', mode='a', if_sheet_exists='replace') as writer:
    df_kfold.to_excel(writer, sheet_name='KFold_CV_Test', index=False)

print("✅ Risultati K-Fold salvati su Excel.")

=== VALIDAZIONE K-FOLD ===
✅ Risultati K-Fold salvati su Excel.


## TRAIN-FOLD / TEST-HOLDOUT validation

In [114]:
print("=== VALIDAZIONE TRAIN-FOLD / TEST-HOLDOUT ===")
val_results = []
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, stratify=Y, random_state=42)

for i, (train_idx, val_idx) in enumerate(kf.split(X_train, y_train), start=1):
    X_fold_train = X_train.iloc[train_idx]
    y_fold_train = y_train.iloc[train_idx]

    clf = RandomForestClassifier(n_estimators=n_estimators, max_depth=max_depth, random_state=42)
    clf.fit(X_fold_train, y_fold_train)

    # Si testa sempre sullo stesso 20%
    y_pred = clf.predict(X_test)

    cm, acc, prec, rec, f1 = get_metrics(y_test, y_pred)

#    print(f"\n--- Fold {i} (train su fold, test fisso) ---")
#    print(f"Accuracy: {acc:.4f}")
#    print(f"Precision: {prec:.4f}")
#    print(f"Recall: {rec:.4f}")
#    print(f"F1-Score: {f1:.4f}")

#    disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=clf.classes_)
#    disp.plot(cmap=plt.cm.Blues)
#    plt.title(f"Confusion Matrix Fold {i}")
#    plt.show()

    # Feature importances
    importances = clf.feature_importances_
    importances_dict = {f'Imp_{feat}': imp for feat, imp in zip(X.columns, importances)}

    # Salva i risultati del fold
    val_results.append({
        'Prova': Prova,
        'KFold' : i,
        'n_estimators': n_estimators,
        'max_depth': max_depth,
        'Accuracy': acc,
        'Precision': prec,
        'Recall': rec,
        'F1-Score': f1,
        'Confusion_Matrix': cm.tolist(),
        ' ': None,  # cella vuota per separare le metriche dalle importances
        **importances_dict
    })

# Crea il DataFrame
df_nested = pd.DataFrame(val_results)

# Se esiste già, aggiungi i dati al foglio
if os.path.exists(excel_path):
    with pd.ExcelFile(excel_path) as reader:
        if 'TrainFold_TestFixed_Test' in reader.sheet_names:
            prev_nested = pd.read_excel(reader, sheet_name='TrainFold_TestFixed_Test')
            df_nested = pd.concat([prev_nested, df_nested], ignore_index=True)
            
# Salva su Excel
with pd.ExcelWriter(excel_path, engine='openpyxl', mode='a', if_sheet_exists='replace') as writer:
    df_nested.to_excel(writer, sheet_name='TrainFold_TestFixed_Test', index=False)

print("✅ Risultati nested fold salvati su Excel.")

=== VALIDAZIONE TRAIN-FOLD / TEST-HOLDOUT ===
✅ Risultati nested fold salvati su Excel.


# Creazione dataset test per complicanze

In [15]:
import pandas as pd
from sklearn.model_selection import train_test_split

# 1) Vengono letti i due file
parte1 = pd.read_csv("Excel/Parte1.csv")
parte2 = pd.read_csv("Excel/parte2_v1.csv")

# 1.1) Viene rinominata la feature ID in Patiene_ID per perettere il merge
parte2 = parte2.rename(columns={"ID": "Patient_ID"})

# 1.2) Viene fatto un inner‐merge su Patient_ID:
clust = parte1.merge(parte2, on="Patient_ID", how="inner")
clust = clust.fillna(clust.mean(numeric_only=True))

# 2) Viene letto Diagnostics.csv per ricavare i codici associati a ciascun paziente
diag = pd.read_csv("Excel/Diagnostics.csv")

# 2.1) Per ogni paziente, viene prenso il Code con il maggior numero di occorrenze
diag_unique = (
    diag
    .groupby("Patient_ID")["Code"]
    .agg(lambda codes: codes.value_counts().idxmax())
    .reset_index()
    .rename(columns={"Code": "CodeStrat"})
)

# 2.2) Se hai codici troppo rari vengono raggruppati sotto "RARE" per evitare errori di stratify
code_counts = diag_unique["CodeStrat"].value_counts()
rare_codes = set(code_counts[code_counts < 2].index)
diag_unique["CodeStrat"] = diag_unique["CodeStrat"].apply(
    lambda c: "RARE" if c in rare_codes else c
)

# 3) Suddividi i soli pazienti “diagnosticati” 80/20, stratificando su CodeStrat
diag_train_patients, diag_test_patients = train_test_split(
    diag_unique["Patient_ID"],
    test_size=0.20,
    random_state=42,
    stratify=diag_unique["CodeStrat"]
)

# 4) Trova i pazienti in clust che NON compaiono in diag_unique (ossia “senza diagnosi”)
all_clust_patients = set(clust["Patient_ID"].unique())
diag_patients = set(diag_unique["Patient_ID"].unique())
no_diag_patients = list(all_clust_patients - diag_patients)
print(f"Numero pazienti senza diagnosi: {len(no_diag_patients)}")

# 5) Dividi i pazienti “senza diagnosi” (%) 80/20 in modo casuale
no_diag_train, no_diag_test = train_test_split(
    no_diag_patients,
    test_size=0.20,
    random_state=42
)

# 6) Costruisci la lista finale di test (diagnosticati nel 20% + senza diagnosi nel 20%)
test_patients  = set(diag_test_patients)  | set(no_diag_test)
train_patients = set(diag_train_patients) | set(no_diag_train)

# Verifica che non ci siano sovrapposizioni
assert train_patients.isdisjoint(test_patients), "Errore: un paziente è in entrambi i set!"

# 7) Filtra clust in base a Patient_ID: 
#    - se Patient_ID ∈ test_patients → va in df_test
#    - altrimenti va in df_train
df_train = clust[~clust["Patient_ID"].isin(test_patients)].copy()
df_test  = clust[ clust["Patient_ID"].isin(test_patients)].copy()

# 8) Rimuovi di nuovo la colonna Patient_ID, come richiesto, prima di salvare
df_train_final = df_train.drop(columns=["Patient_ID", "Complicanze"])
df_test_final  = df_test.drop(columns=["Complicanze"])

# 9) Salva i due file risultanti
df_train_final.to_csv("Excel/Classification_train.csv", index=False)
df_test_final.to_csv("Excel/Classification_test.csv",  index=False)

print("Suddivisione completata:")
print(f"  - Train (Classification_train.csv): {len(df_train_final)} righe")
print(f"  - Test  (Classification_test.csv):  {len(df_test_final)}  righe")

Numero pazienti senza diagnosi: 225
Suddivisione completata:
  - Train (Classification_train.csv): 581 righe
  - Test  (Classification_test.csv):  142  righe


## Greedy Search

In [17]:
train = pd.read_csv("Excel/Classification_train.csv")
test = pd.read_csv("Excel/Classification_test.csv")

test_patients1 = test['Patient_ID']
test = test.drop(columns=['Patient_ID'])

y_train = train['Has_Diagnostics']
y_test = test['Has_Diagnostics']
X_train = train.drop(columns=['Has_Diagnostics'])
X_test = test.drop(columns=['Has_Diagnostics'])

kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Definisci lo spazio di ricerca
n_estimators_list = [50, 100, 150, 200, 250, 300, 350, 400]
max_depth_list = [5, 10, 15, 20]

best_config = None
best_score = 0  

prova_counter = 1

for n_estimators in n_estimators_list:
    for max_depth in max_depth_list:
        print(f"▶️ Prova {prova_counter}: n_estimators={n_estimators}, max_depth={max_depth}")

        Prova = f"{prova_counter} - Est:{n_estimators}_Depth:{max_depth}"
        
        val_results = []

        for i, (train_idx, val_idx) in enumerate(kf.split(X_train, y_train), start=1):
            X_fold_train = X_train.iloc[train_idx]
            y_fold_train = y_train.iloc[train_idx]

            clf = RandomForestClassifier(n_estimators=n_estimators, max_depth=max_depth, random_state=42)
            clf.fit(X_fold_train, y_fold_train)

            y_pred = clf.predict(X_test)

            cm, acc, prec, rec, f1 = get_metrics(y_test, y_pred)
            importances = clf.feature_importances_
            importances_dict = {f'Imp_{feat}': imp for feat, imp in zip(X_train.columns, importances)}

            val_results.append({
                'Prova': Prova,
                'KFold': i,
                'n_estimators': n_estimators,
                'max_depth': max_depth,
                'Accuracy': acc,
                'Precision': prec,
                'Recall': rec,
                'F1-Score': f1,
                'Confusion_Matrix': cm.tolist(),
                ' ': None,
                **importances_dict
            })

        df_nested = pd.DataFrame(val_results)

        # Calcola media F1
        mean_f1 = df_nested['F1-Score'].mean()

        # Aggiorna il best
        if mean_f1 > best_score:
            best_score = mean_f1
            best_config = (n_estimators, max_depth)
            print(f"✅ Nuova configurazione migliore trovata! F1 medio = {mean_f1:.4f}")

        # Salva su Excel
        if os.path.exists(excel_path):
            with pd.ExcelFile(excel_path) as reader:
                if 'Final' in reader.sheet_names:
                    prev_nested = pd.read_excel(reader, sheet_name='Final')
                    df_nested = pd.concat([prev_nested, df_nested], ignore_index=True)

        with pd.ExcelWriter(excel_path, engine='openpyxl', mode='a', if_sheet_exists='replace') as writer:
            df_nested.to_excel(writer, sheet_name='Final', index=False)

        print(f"📁 Risultati prova {prova_counter} salvati.")
        prova_counter += 1

print(f"\n🏁 Greedy search terminata.")
print(f"⭐ Migliore configurazione: n_estimators={best_config[0]}, max_depth={best_config[1]}, con F1 medio = {best_score:.4f}")

▶️ Prova 1: n_estimators=50, max_depth=5
✅ Nuova configurazione migliore trovata! F1 medio = 0.5979
📁 Risultati prova 1 salvati.
▶️ Prova 2: n_estimators=50, max_depth=10
✅ Nuova configurazione migliore trovata! F1 medio = 0.6102
📁 Risultati prova 2 salvati.
▶️ Prova 3: n_estimators=50, max_depth=15
📁 Risultati prova 3 salvati.
▶️ Prova 4: n_estimators=50, max_depth=20
✅ Nuova configurazione migliore trovata! F1 medio = 0.6144
📁 Risultati prova 4 salvati.
▶️ Prova 5: n_estimators=50, max_depth=None


  df_nested = pd.concat([prev_nested, df_nested], ignore_index=True)


📁 Risultati prova 5 salvati.
▶️ Prova 6: n_estimators=100, max_depth=5
📁 Risultati prova 6 salvati.
▶️ Prova 7: n_estimators=100, max_depth=10
📁 Risultati prova 7 salvati.
▶️ Prova 8: n_estimators=100, max_depth=15
✅ Nuova configurazione migliore trovata! F1 medio = 0.6190
📁 Risultati prova 8 salvati.
▶️ Prova 9: n_estimators=100, max_depth=20
📁 Risultati prova 9 salvati.
▶️ Prova 10: n_estimators=100, max_depth=None


  df_nested = pd.concat([prev_nested, df_nested], ignore_index=True)


📁 Risultati prova 10 salvati.
▶️ Prova 11: n_estimators=150, max_depth=5
📁 Risultati prova 11 salvati.
▶️ Prova 12: n_estimators=150, max_depth=10
📁 Risultati prova 12 salvati.
▶️ Prova 13: n_estimators=150, max_depth=15
📁 Risultati prova 13 salvati.
▶️ Prova 14: n_estimators=150, max_depth=20
📁 Risultati prova 14 salvati.
▶️ Prova 15: n_estimators=150, max_depth=None


  df_nested = pd.concat([prev_nested, df_nested], ignore_index=True)


📁 Risultati prova 15 salvati.
▶️ Prova 16: n_estimators=200, max_depth=5
📁 Risultati prova 16 salvati.
▶️ Prova 17: n_estimators=200, max_depth=10
📁 Risultati prova 17 salvati.
▶️ Prova 18: n_estimators=200, max_depth=15
📁 Risultati prova 18 salvati.
▶️ Prova 19: n_estimators=200, max_depth=20
📁 Risultati prova 19 salvati.
▶️ Prova 20: n_estimators=200, max_depth=None


  df_nested = pd.concat([prev_nested, df_nested], ignore_index=True)


📁 Risultati prova 20 salvati.
▶️ Prova 21: n_estimators=250, max_depth=5
📁 Risultati prova 21 salvati.
▶️ Prova 22: n_estimators=250, max_depth=10
📁 Risultati prova 22 salvati.
▶️ Prova 23: n_estimators=250, max_depth=15
📁 Risultati prova 23 salvati.
▶️ Prova 24: n_estimators=250, max_depth=20
📁 Risultati prova 24 salvati.
▶️ Prova 25: n_estimators=250, max_depth=None


  df_nested = pd.concat([prev_nested, df_nested], ignore_index=True)


📁 Risultati prova 25 salvati.
▶️ Prova 26: n_estimators=300, max_depth=5
📁 Risultati prova 26 salvati.
▶️ Prova 27: n_estimators=300, max_depth=10
📁 Risultati prova 27 salvati.
▶️ Prova 28: n_estimators=300, max_depth=15
📁 Risultati prova 28 salvati.
▶️ Prova 29: n_estimators=300, max_depth=20
📁 Risultati prova 29 salvati.
▶️ Prova 30: n_estimators=300, max_depth=None


  df_nested = pd.concat([prev_nested, df_nested], ignore_index=True)


📁 Risultati prova 30 salvati.
▶️ Prova 31: n_estimators=350, max_depth=5
📁 Risultati prova 31 salvati.
▶️ Prova 32: n_estimators=350, max_depth=10
📁 Risultati prova 32 salvati.
▶️ Prova 33: n_estimators=350, max_depth=15
📁 Risultati prova 33 salvati.
▶️ Prova 34: n_estimators=350, max_depth=20
📁 Risultati prova 34 salvati.
▶️ Prova 35: n_estimators=350, max_depth=None


  df_nested = pd.concat([prev_nested, df_nested], ignore_index=True)


📁 Risultati prova 35 salvati.
▶️ Prova 36: n_estimators=400, max_depth=5
📁 Risultati prova 36 salvati.
▶️ Prova 37: n_estimators=400, max_depth=10
📁 Risultati prova 37 salvati.
▶️ Prova 38: n_estimators=400, max_depth=15
📁 Risultati prova 38 salvati.
▶️ Prova 39: n_estimators=400, max_depth=20
📁 Risultati prova 39 salvati.
▶️ Prova 40: n_estimators=400, max_depth=None


  df_nested = pd.concat([prev_nested, df_nested], ignore_index=True)


📁 Risultati prova 40 salvati.

🏁 Greedy search terminata.
⭐ Migliore configurazione: n_estimators=100, max_depth=15, con F1 medio = 0.6190


In [26]:
print("\n🔎 Analisi degli errori sulla configurazione migliore...")

# Ricrea il classificatore con i parametri migliori
n_estimators_best, max_depth_best = best_config
clf_best = RandomForestClassifier(n_estimators=n_estimators_best, max_depth=max_depth_best, random_state=42)
clf_best.fit(X_train, y_train)  # Allena sul full train

# Predizione su X_test
y_pred_best = clf_best.predict(X_test)

# Crea DataFrame con gli errori
df_resoults = pd.DataFrame({
    'Patient_ID': test_patients1,
    'True_Label': y_test,
    'Predicted_Label': y_pred_best
})
df_resoults['Errore'] = df_resoults['True_Label'] != df_resoults['Predicted_Label']

# Filtra solo gli errori
df_errors_only = df_resoults[df_resoults['Errore'] == True].copy()

diagnosi = pd.read_csv("Excel/Diagnostics.csv")

df_errors_only = df_errors_only.merge(diagnosi, on="Patient_ID", how="inner")

df_errors_only = df_errors_only.drop(columns=['True_Label', 'Predicted_Label', 'Errore'])

df_errors_only = df_errors_only.sort_values(['Code'])

print(f"❌ Trovati {len(df_errors_only)} errori su {len(df_resoults)} pazienti nel test set.")

# Salva su Excel
with pd.ExcelWriter(excel_path, engine='openpyxl', mode='a', if_sheet_exists='overlay') as writer:
    df_errors_only.to_excel(writer, sheet_name='Error_Analysis', index=False)

print("Errori salvati sul foglio 'Error_Analysis'")


🔎 Analisi degli errori sulla configurazione migliore...
❌ Trovati 27 errori su 142 pazienti nel test set.
Errori salvati sul foglio 'Error_Analysis'


In [31]:
diagnosi_filtrato = diagnosi[diagnosi["Code"].str.startswith("V")]
diagnosi_filtrato

Unnamed: 0,Patient_ID,Code,Description
23,LIB193276,V58.61,Long-term (current) use of anticoagulants
25,LIB193277,V24.2,Routine postpartum follow-up
26,LIB193277,V67.00,"Follow-up examination, following surgery, unsp..."
33,LIB193278,V49.70,Unspecified level lower limb amputation status
56,LIB193302,V25.2,Sterilization
...,...,...,...
1659,LIB194091,V72.32,Encounter for Papanicolaou cervical smear to c...
1677,LIB194095,V62.82,"Bereavement, uncomplicated"
1737,LIB194133,V14.0,Personal history of allergy to penicillin
1738,LIB194133,V15.0,"Allergy, other than to medicinal agents"
