In [None]:
# !pip install -U imbalanced-learn -> Not mandatory

### Import delle Librerie e Setup
Questa cella importa tutte le librerie necessarie per l'analisi, la pre-elaborazione dei dati e la costruzione di modelli di machine learning. Tra le librerie importate ci sono:
- **pandas, numpy, seaborn, matplotlib** per la manipolazione dei dati e la visualizzazione.
- **scikit-learn** per la divisione dei dati in set di addestramento e test, la valutazione dei modelli, l'imputazione di valori mancanti e la normalizzazione.
- **TensorFlow/Keras** per la costruzione e l'addestramento del modello di rete neurale.
- Configurazioni di matplotlib per migliorare la qualità delle immagini.

### Assignment per i Corsisti
- Verificate che tutte le librerie siano correttamente installate sul vostro ambiente eseguendo questa cella.
- Se necessario, installate eventuali librerie mancanti usando `!pip install <nome_libreria>`.


In [None]:
# Common libraries
import pickle
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import seaborn as sns


# Data preprocessing libraries
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, log_loss, accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, roc_curve, roc_auc_score, precision_recall_curve
from sklearn.metrics import ConfusionMatrixDisplay
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler, MinMaxScaler
from sklearn.utils import compute_class_weight

# Libraries to build our model
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.metrics import AUC
from tensorflow.keras.regularizers import l2


# matplotlib configs to show decent images
plt.rcParams["figure.dpi"] = 120
plt.rcParams['savefig.dpi'] = 300

# matplotlib_inline.backend_inline.set_matplotlib_formats('svg')

### Caricamento del Dataset e Esplorazione Iniziale
Questa cella carica il dataset principale relativo ai dati sanitari sui casi di ictus utilizzando `pandas`. L'indice del DataFrame è impostato sulla colonna "id" per identificare univocamente ogni riga. Dopo il caricamento, la cella stampa la dimensione del dataset e fornisce una panoramica delle colonne con `df.info()`.

### Assignment per i Corsisti
- Eseguite la cella per caricare il dataset e osservare la sua struttura.
- Annotate il numero di righe e colonne e verificate la presenza di eventuali valori nulli o tipi di dati non corretti.
- Come esercizio, provate a scrivere un comando per visualizzare le prime 5 righe del dataset e discutete le caratteristiche principali delle variabili.


### Reindicizzazione del DataFrame e Visualizzazione Iniziale
C'è bisogno di reindicizzare il DataFrame rimuovendo la colonna "id" come indice e utilizzando un nuovo indice numerico sequenziale, rendendo più agevole l'accesso alle righe. Successivamente, si utilizza il metodo `df.head()` per visualizzare le prime cinque righe del dataset e ottenere un'anteprima dei dati.

### Assignment per i Corsisti
- Scrivi il codice per reindicizzare il DataFrame e visualizzare le prime righe.
- Controllate la coerenza dei dati e verificate se ci sono valori anomali o formati non corretti.
- Come esercizio, provate a visualizzare informazioni statistiche di base sulle colonne numeriche utilizzando `df.describe()` per avere un'idea della distribuzione dei dati.


### Verifica dei Valori Unici per le Colonne di Tipo Oggetto
C'è bisogno di controllare i valori unici presenti nelle colonne di tipo `object` per comprendere meglio la distribuzione delle categorie e rilevare eventuali valori anomali o incongruenze. Questa operazione aiuta a preparare i dati per una successiva codifica o analisi.

### Assignment per i Corsisti
- Scrivi il codice per stampare i valori unici di ciascuna colonna categoriale del DataFrame.
- Osserva i valori unici per identificare eventuali anomalie o categorie non standard che potrebbero richiedere una pulizia o un trattamento specifico.
- Come esercizio, prova a sostituire eventuali valori mancanti o anomali con una categoria standard o un valore adeguato.


In [None]:
# Check unique values for object dtype columns



### Imputazione dei Valori Mancanti nella Colonna `bmi`
Per gestire i valori mancanti nella colonna `bmi`, è utile applicare l'imputazione utilizzando la strategia della media. In questo caso, si salva l'imputer come file `.sav` per poterlo riutilizzare in futuro. L'imputer viene adattato alla colonna `bmi` e applicato per sostituire i valori mancanti con la media calcolata.

### Assignment per i Corsisti
- Scrivi il codice per creare un oggetto `SimpleImputer` con la strategia della media e salvarlo come file per un uso successivo.
- Applica l'imputer alla colonna `bmi` per sostituire i valori mancanti e verifica il risultato.
- Come esercizio, prova a utilizzare una strategia diversa per l'imputazione (ad esempio, `median`) e confronta i risultati.


In [None]:
# print("Missing values before imputation:", df['bmi'].isnull().sum())

In [None]:
# Impute missing values

In [None]:
# print("Missing values after imputation:", df['bmi'].isnull().sum())

### Codifica delle Colonne Categoriali con One-Hot Encoding
Per poter utilizzare le colonne categoriali in modelli di machine learning, è essenziale trasformarle in un formato numerico. In questo caso, si usa `OneHotEncoder` per effettuare la codifica one-hot delle colonne di tipo `object`, creando nuove colonne binarie per ciascuna categoria unica. L'encoder è poi salvato come file `.sav` per un riutilizzo futuro.

### Assignment per i Corsisti
- Scrivi il codice per selezionare le colonne categoriali e applicare la codifica one-hot.
- Salva l'encoder addestrato in un file per usi futuri e stampa un'anteprima delle colonne codificate.
- Come esercizio, prova ad analizzare la dimensione del nuovo DataFrame con le colonne codificate e confronta il numero di colonne prima e dopo la codifica.


In [None]:
# Use scikit-learn OneHotEncoder to encode the categorical columns

### Aggiunta delle Colonne Codificate e Aggiornamento del DataFrame
Per incorporare le colonne codificate nel DataFrame originale, è necessario concatenare il DataFrame esistente con il DataFrame delle colonne codificate. Successivamente, si eliminano le colonne originali categoriali, poiché sono state sostituite dalle nuove colonne codificate. Infine, si aggiorna il DataFrame principale con il nuovo contenuto.

### Assignment per i Corsisti
- Scrivi il codice per unire il DataFrame originale con le colonne codificate e rimuovere le colonne categoriali originali.
- Assicurati che il DataFrame finale sia coerente e pronto per l'analisi successiva.
- Come esercizio, verifica il numero di colonne nel nuovo DataFrame e controlla che non ci siano duplicati o incongruenze.


In [None]:
# df.info()

### Normalizzazione e Visualizzazione delle Colonne Numeriche
È importante normalizzare le colonne numeriche per garantire che i dati siano su una scala simile, migliorando così le prestazioni dei modelli. Questa cella identifica le colonne numeriche selezionate, visualizza la loro distribuzione tramite boxplot, applica la standardizzazione usando `StandardScaler`, e salva lo scaler per un uso futuro. Infine, viene stampato il DataFrame aggiornato e viene visualizzata la nuova distribuzione dei dati normalizzati.

### Assignment per i Corsisti
- Scrivi il codice per visualizzare i boxplot delle colonne numeriche prima e dopo la normalizzazione.
- Applica la standardizzazione alle colonne numeriche selezionate e salva lo scaler in un file per il riutilizzo.
- Come esercizio, confronta i grafici per osservare come la distribuzione dei dati cambia dopo la normalizzazione e discuti le implicazioni per il modello.


In [None]:
# Show a boxplot of the numerical features

In [None]:
# Standardize the numnerical features

In [None]:
# Show a boxplot of the numerical features after the standardization

### Rimozione degli Outlier Utilizzando l'IQR
Per migliorare la qualità dei dati e ridurre l'influenza degli outlier sulle analisi e sui modelli, si applica il metodo dell'Interquartile Range (IQR). Questa cella calcola l'IQR per ciascuna colonna numerica selezionata, determina i limiti superiori e inferiori per identificare gli outlier, e rimuove le righe che contengono valori al di fuori di questi limiti. Infine, viene stampata la nuova dimensione del DataFrame aggiornato.

### Assignment per i Corsisti
- Scrivi il codice per calcolare l'IQR per ciascuna colonna numerica e identificare i limiti degli outlier.
- Rimuovi gli outlier e controlla come cambia la dimensione del DataFrame.
- Come esercizio, prova a variare la soglia di `outlier_threshold` e osserva come questa modifica influisce sul numero di righe eliminate e sulla distribuzione dei dati.


In [None]:
# Use IQR to delete the outliers

In [None]:
# Show a boxplot of the data after the IQR

In [None]:
# pd.plotting.scatter_matrix(df_encoded[float_columns], alpha=0.2)

### Visualizzazione della Distribuzione della Variabile Target
Per comprendere la distribuzione della variabile target `stroke`, si utilizza una tabella pivot per contare il numero di occorrenze di ciascuna classe e si visualizza il risultato sotto forma di grafico a barre. Questa analisi è utile per identificare eventuali squilibri nel dataset, che potrebbero richiedere tecniche di bilanciamento o adattamenti specifici durante l'addestramento del modello.

### Assignment per i Corsisti
- Scrivi il codice per creare una tabella pivot che mostri la distribuzione della variabile target e visualizza un grafico a barre per una comprensione rapida della distribuzione.
- Osserva se ci sono squilibri significativi nelle classi e discuti le possibili strategie per gestirli.
- Come esercizio, prova a calcolare anche la percentuale di distribuzione per ciascuna classe e visualizzala per un'analisi più dettagliata.


In [None]:
# y_fieldname = "stroke"



### Suddivisione del Dataset in Set di Addestramento e Test
Per preparare il dataset all'addestramento del modello, è necessario suddividerlo in set di addestramento e di test. Si utilizza la funzione `train_test_split` con stratificazione basata sulla variabile target `stroke` per mantenere la stessa distribuzione delle classi in entrambi i set. Successivamente, si rimuove la colonna della variabile target dai set di input.

### Assignment per i Corsisti
- Scrivi il codice per suddividere il dataset in set di addestramento e di test, mantenendo la stratificazione sulla variabile target.
- Rimuovi la colonna `stroke` dai set di input e verifica la dimensione dei set creati.
- Come esercizio, prova a modificare il parametro `test_size` per esplorare diverse proporzioni di addestramento/test e discuti l'impatto sui risultati del modello.


In [None]:
# use train_test_split

In [None]:
# X_train.pivot_table(index=y_fieldname, aggfunc="size").plot(kind='bar', title="Distribuzione")

In [None]:
# X_test.pivot_table(index=y_fieldname, aggfunc="size").plot(kind='bar', title="Distribuzione")

### Ripetizione del Preprocessing: Imputazione, Codifica One-Hot e Standardizzazione
Dopo aver capito come funzionano questi strumenti, rifacciamo tutto da capo! Per garantire un processo corretto di pre-elaborazione dei dati, dobbiamo ripetere l'imputazione dei valori mancanti e la codifica one-hot eseguendo `fit` solo sul dataset di train e applicando `transform` sia sul dataset di train che su quello di test. Lo stesso principio si applica alla standardizzazione, in cui il metodo `fit_transform` viene usato sul set di addestramento e `transform` sul set di test. Questo processo assicura che il set di test rimanga separato dal set di train, evitando il data leakage.

### Assignment per i Corsisti
- Scrivi il codice per eseguire l'imputazione e la codifica one-hot applicando `fit` sul set di train e `transform` sia sul set di train che sul set di test.
- Ripeti la standardizzazione con `fit_transform` sul set di train e `transform` sul set di test.
- Come esercizio, verifica che i set di train e test abbiano subito le stesse trasformazioni e siano coerenti per l'addestramento del modello.


### Creazione, Addestramento e Valutazione del Modello di Rete Neurale
In questa cella, si costruisce un modello di rete neurale sequenziale con due livelli densi e dropout per ridurre l'overfitting. Il modello è compilato utilizzando l'ottimizzatore Adam, la funzione di perdita `binary_crossentropy`, e l'AUC come metrica. I pesi di classe sono calcolati per bilanciare le classi nel dataset di training, e il modello viene addestrato con i dati di train e validato sui dati di test. Infine, si fanno predizioni sul set di test e si visualizza la matrice di confusione per valutare le prestazioni del modello.

### Assignment per i Corsisti
- Scrivi il codice per costruire un modello di rete neurale sequenziale con livelli densi e dropout.
- Compila il modello utilizzando una metrica di tua scelta e addestralo usando i set di training e test.
- Come esercizio, prova a variare l'architettura del modello (numero di livelli e neuroni) e osserva come cambiano le prestazioni. Visualizza la matrice di confusione per valutare i risultati.


### Calcolo e Visualizzazione della Matrice di Confusione
Per valutare le prestazioni del modello, è necessario calcolare e visualizzare la matrice di confusione. Questa matrice mostra il numero di predizioni corrette e incorrette per ciascuna classe, aiutando a comprendere meglio la precisione e il bilanciamento del modello. Una visualizzazione grafica della matrice facilita l'interpretazione dei risultati.

### Assignment per i Corsisti
- Scrivi il codice per calcolare e visualizzare la matrice di confusione per il set di test.
- Osserva i risultati della matrice per identificare il numero di falsi positivi, falsi negativi, veri positivi e veri negativi.
- Come esercizio, prova a variare la soglia di classificazione e confronta come questo influisce sulla matrice di confusione e sulle metriche del modello.


In [None]:
# plt.figure()
# plt.plot(history.history['loss'], label='Train Loss')
# plt.plot(history.history['val_loss'], label='Validation Loss')
# plt.title('Training and Validation Loss')
# plt.xlabel('Epochs')
# plt.ylabel('Loss')
# plt.legend()
# plt.show()

### Salvataggio del Modello Addestrato
Dopo aver addestrato il modello, è importante salvarlo per un uso futuro senza dover ripetere l'addestramento. Questa cella salva il modello addestrato in un file `.keras`, consentendo di caricarlo e utilizzarlo successivamente per predizioni o ulteriori valutazioni.

### Assignment per i Corsisti
- Scrivi il codice per salvare il modello addestrato in un file con estensione `.keras`.
- Verifica che il file sia stato salvato correttamente nella directory specificata.
- Come esercizio, prova a scrivere il codice per caricare il modello salvato e utilizzarlo per fare nuove predizioni su un insieme di dati.
