## Pre-elaborazione dei dati

In questa sezione, viene eseguita la pre-elaborazione dei dati per la successiva addestramento della rete neurale. Il processo di pre-elaborazione comprende la lettura dei dati dal file CSV, la normalizzazione delle feature utilizzando la tecnica di MinMaxScaler e la suddivisione del dataset in set di addestramento, convalida e test.

- **Lettura dei dati**: I dati vengono letti dal file CSV utilizzando la libreria `pandas`. Il file `diabetes.csv` contiene le informazioni sulle analisi dei pazienti con diabete.

- **Normalizzazione delle feature**: Per garantire che tutte le feature abbiano la stessa scala, viene utilizzato il `MinMaxScaler` di scikit-learn per normalizzare le feature nel range [0, 1].

- **Suddivisione dei dati**: Il dataset normalizzato viene suddiviso in tre set: addestramento, convalida e test. Questo viene fatto utilizzando la funzione `train_test_split` di scikit-learn. In questo caso, il 70% dei dati viene utilizzato per l'addestramento, il 15% per la convalida e il restante 15% per il test.

- **Salvataggio dei dati**: I set di dati risultanti vengono salvati in file separati utilizzando la funzione `np.save` di NumPy. Vengono salvati i seguenti file:
    - `train_features.npy`: feature del set di addestramento
    - `train_labels.npy`: etichette del set di addestramento
    - `val_features.npy`: feature del set di convalida
    - `val_labels.npy`: etichette del set di convalida
    - `test_features.npy`: feature del set di test
    - `test_labels.npy`: etichette del set di test

In [4]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
import numpy as np
from sklearn.model_selection import train_test_split

# Leggi i dati dal file CSV
data = pd.read_csv('Dataset/diabetes.csv')

# Separate le features di input dalla classe di output
features = data.drop(['Outcome'], axis=1)
labels = data['Outcome']

# Crea un oggetto MinMaxScaler
scaler = MinMaxScaler()

# Adatta lo scaler sulle features di input
scaler.fit(features)

# Trasforma le features di input utilizzando lo scaler
features_normalized = scaler.transform(features)

# Suddivide i dati in training, validation e test set
train_features, test_features, train_labels, test_labels = train_test_split(features_normalized, labels, test_size=0.3, random_state=42)
val_features, test_features, val_labels, test_labels = train_test_split(test_features, test_labels, test_size=0.5, random_state=42)

# Salva i dati pre-processati nei file
np.save('Pre_Processed_Data/train_features.npy', train_features)
np.save('Pre_Processed_Data/train_labels.npy', train_labels)
np.save('Pre_Processed_Data/val_features.npy', val_features)
np.save('Pre_Processed_Data/val_labels.npy', val_labels)
np.save('Pre_Processed_Data/test_features.npy', test_features)
np.save('Pre_Processed_Data/test_labels.npy', test_labels)