In [1]:
from IPython.display import Image

https://www.analyticsvidhya.com/blog/2021/06/5-techniques-to-handle-imbalanced-data-for-a-classification-problem/

# 5 tecniche per gestire dati sbilanciati per un problema di classificazione

## Introduzione
I problemi di classificazione sono piuttosto comuni nel mondo dell'apprendimento automatico.  
Nel problema di classificazione, proviamo a prevedere l'etichetta della classe studiando i dati di input o il predittore in cui la variabile di destinazione o di output è una variabile categoriale.  

Se hai già affrontato problemi di classificazione, devi aver riscontrato casi in cui una delle etichette di osservazione della classe target è significativamente più bassa di altre etichette di classe.  

Questo tipo di set di dati è denominato set di dati di classe sbilanciato, spesso indicato come squilibrio dei dati, ed è comune negli scenari pratici di classificazione. Qualsiasi approccio consueto per risolvere questo problema di apprendimento automatico spesso produce risultati inappropriati.

## Che cosa sono i dati sbilanciati e come gestirli?  

I dati sbilanciati si riferiscono a set di dati in cui la classe target ha una distribuzione non uniforme delle osservazioni, ovvero un'etichetta di classe ha un numero molto elevato di osservazioni e l'altra ha un numero carente di osservazioni.

Possiamo comprendere meglio la gestione sbilanciata del set di dati utilizzando un esempio.

Supponiamo che XYZ sia una banca che emette carte di credito ai propri clienti.  

Ora, la banca è preoccupata che siano in corso alcune transazioni fraudolente e, quando la banca controlla i loro dati, ha scoperto che per ogni 2000 transazioni vengono registrati solo 30 numeri di frode.  

Quindi, la frode per 100 transazioni è inferiore al 2% o superiore al 98% delle transazioni è "Nessuna frode".  

Qui, la classe "No Fraud" è chiamata la classe maggioritaria, e la classe "Fraud", molto più piccola, è chiamata la classe minoranza.

In [3]:
Image(url=r"https://editor.analyticsvidhya.com/uploads/29548class%20imbalance.JPG") 

### Perché i dati sbilanciati sono un problema?
Un set di dati sbilanciato è un problema perché può portare a modelli distorti e previsioni imprecise. Ecco perché:

1. **Distribuzione di classi asimmetriche   ** 
    Il set di dati sbilanciato si verifica quando una classe (la classe di minoranza) è significativamente sottorappresentata rispetto a un'altra classe (la classe di maggioranza) in un problema di classificazione. Questo può distorcere il processo di apprendimento del modello perché può dare priorità alla classe di maggioranza, portando a scarse prestazioni nella classe di minoranza.
2. **Addestramento di modelli distorti**  
    I modelli di apprendimento automatico mirano a ridurre al minimo gli errori, spesso misurati da metriche come l'accuratezza. Nei set di dati sbilanciati, un modello può ottenere un'accuratezza elevata semplicemente prevedendo la classe di maggioranza per tutte le istanze, ignorando completamente la classe di minoranza. Di conseguenza, il modello è sbilanciato verso la classe maggioritaria e non riesce a catturare accuratamente i modelli nella classe minoritaria.
3. **Scarsa generalizzazione**   
    I dati sbilanciati possono portare a modelli che generalizzano male a dati nuovi e invisibili, soprattutto per la classe minoritaria. Poiché il modello non ha appreso abbastanza sulla classe di minoranza a causa della sua scarsità nei dati di addestramento, potrebbe avere difficoltà a fare previsioni accurate per le istanze appartenenti a tale classe in scenari del mondo reale.
4. **Errori costosi**   
    In molte applicazioni del mondo reale, la classificazione errata delle istanze della classe di minoranza può essere più costosa o avere conseguenze più elevate rispetto alla classificazione errata delle istanze della classe di maggioranza. I dati sbilanciati aggravano questo problema perché il modello tende a commettere più errori sulla classe di minoranza, portando potenzialmente a impatti negativi significativi.
5. **Metriche di valutazione fuorvianti**   
    Le metriche di valutazione tradizionali come l'accuratezza possono essere fuorvianti in set di dati sbilanciati. Ad esempio, un modello che raggiunge un'elevata precisione può ottenere prestazioni scarse sulla classe di minoranza, che è spesso la classe di interesse. L'uso di metriche come precisione, richiamo, punteggio F1 o area sotto la curva ROC (AUC-ROC) può fornire una comprensione più sfumata delle prestazioni del modello in diverse classi.

## Tecniche per gestire il problema dell'insieme di dati sbilanciato
In rari casi,  
come il **rilevamento di frodi** o la **previsione di malattie**,  
è fondamentale identificare correttamente le classi minoritarie.  

Quindi, il modello non dovrebbe essere distorto per rilevare solo la classe di maggioranza, ma dovrebbe dare lo stesso peso o importanza anche alla classe di minoranza. Non esiste un metodo corretto o sbagliato per gestire il problema;  

**Tecniche diverse funzionano bene con altri problemi**.

### 1. Scegliere la metrica di valutazione corretta
L'accuratezza di un classificatore è il numero totale di stime corrette diviso per il numero totale di stime.  

Questo può essere sufficiente per una classe ben bilanciata, ma non l'ideale per un problema di classe sbilanciato.  

Altre metriche, ad esempio la **PRECISIONE**, misurano l'accuratezza della stima del classificatore di una classe specifica e il richiamo misura la capacità del classificatore di identificare una classe.

**Per un set di dati di classe sbilanciato, il punteggio F1 è una metrica più appropriata**.  

È il mezzo armonico della precisione e del richiamo e l'espressione è:

$$F_1=2 \cdot \frac{Precision \cdot Recall}{Precision + Recall}$$

Pertanto, se il classificatore prevede la classe di minoranza ma la stima è errata e il falso positivo aumenta, la metrica di precisione sarà bassa, così come il punteggio $F_1$.  

Inoltre, se il classificatore identifica male la classe di minoranza, cioè più di questa classe erroneamente prevista come classe di maggioranza, allora i falsi negativi aumenteranno, quindi il richiamo e il punteggio F1 saranno bassi.  

Il punteggio F1 aumenta solo se il numero e la qualità della previsione migliorano.

Il punteggio F1 mantiene l'equilibrio tra precisione e richiamo e migliora il punteggio solo se il classificatore identifica correttamente più di una determinata classe.

### 2. Ricampionamento (Sklearn.utils)
La seconda tecnica utilizzata per gestire i dati sbilanciati viene utilizzata per l'upsampling o il downsampling della classe di minoranza o maggioranza.  

Quando utilizziamo un set di dati sbilanciato, possiamo sovracampionare la classe di minoranza utilizzando la sostituzione.  

Questa tecnica utilizzata per gestire i dati sbilanciati è chiamata sovracampionamento.  

Allo stesso modo, possiamo eliminare casualmente le righe dalla classe di maggioranza per abbinarle alla classe di minoranza, che si chiama sottocampionamento.  

Dopo aver campionato i dati, possiamo ottenere un set di dati bilanciato sia per le classi di maggioranza che per quelle di minoranza.  

Quindi, quando entrambe le classi hanno un numero simile di record presenti nel set di dati, possiamo presumere che il classificatore darà uguale importanza a entrambe le classi.

In [10]:
display(Image(url=r"https://cdn.analyticsvidhya.com/wp-content/uploads/2024/09/image-100.png"))
display(Image(url=r"https://cdn.analyticsvidhya.com/wp-content/uploads/2024/09/96371undersample.webp")) 

Un esempio di questa tecnica utilizzando la libreria sklearn; È mostrato di seguito a scopo illustrativo.  

In questo caso, Is_Lead è la nostra variabile target. 

È stato osservato che la nostra classe target è squilibrata. Quindi, aumenteremo i dati in modo che la classe di minoranza corrisponda alla classe di maggioranza.

In [None]:
from sklearn.utils import resample
#create two different dataframe of majority and minority class 
df_majority = df_train[(df_train['Is_Lead']==0)] 
df_minority = df_train[(df_train['Is_Lead']==1)] 
# upsample minority class
df_minority_upsampled = resample(df_minority, 
                                 replace=True,    # sample with replacement
                                 n_samples= 131177, # to match majority class
                                 random_state=42)  # reproducible results
# Combine majority class with upsampled minority class
df_upsampled = pd.concat([df_minority_upsampled, df_majority])

Dopo l'upsampling, la distribuzione della classe viene bilanciata come segue:

In [19]:
display(Image(url=r"https://editor.analyticsvidhya.com/uploads/23369im-2.JPG")) 

Il ricampionamento di Sklearn.utils può essere utilizzato sia per il sottocampionamento della classe di maggioranza che per il sovracampionamento delle istanze della classe di minoranza.

## 3. SMOTE
La terza tecnica per gestire i dati sbilanciati è la tecnica di sovracampionamento sintetico delle minoranze o SMOTE, che è un'altra tecnica per sovracampionare la classe di minoranza. La semplice aggiunta di record duplicati di classi minoritarie spesso non apporta nuove informazioni al modello. In SMOTE, le nuove istanze vengono sintetizzate dai dati esistenti. Se lo spieghiamo in parole semplici, SMOTE esamina le istanze di classe minoritaria e usa k il vicino più vicino per selezionare un vicino più vicino casuale, e un'istanza sintetica viene creata casualmente nello spazio delle funzionalità.

## 4. BalancedBaggingClassifier  
Quando si tenta di utilizzare un classificatore usuale per classificare un set di dati sbilanciato,  
il modello favorisce la classe maggioritaria a causa della sua maggiore presenza di volume.  

Un BalancedBaggingClassifier è uguale a un classificatore sklearn, ma con bilanciamento aggiuntivo.  

Include un passaggio aggiuntivo per bilanciare il set di allenamento al momento dell'adattamento per un determinato campionatore.  

Questo classificatore accetta due parametri speciali, 
- sampling_strategy,  
    con cui decide il tipo di ricampionamento richiesto (ad esempio, "maggioranza" – ricampiona solo la classe di maggioranza, "tutti" – ricampiona tutte le classi, ecc.)
- sostituzione,  
    decide se si tratta di un campione con sostituzione o meno.

# RISORSE  
Vedere anche [Fitting Models on imbalanced datasets and how to fight Bias](https://imbalanced-learn.org/stable/auto_examples/applications/plot_impact_imbalanced_classes.html#sphx-glr-auto-examples-applications-plot-impact-imbalanced-classes-py).