In [None]:
from IPython.display import Image

https://www.analyticsvidhya.com/blog/2020/10/overcoming-class-imbalance-using-smote-techniques/ 

# SMOTE per la classificazione sbilanciata con Python  

### Introduzione  
I set di dati sbilanciati rappresentano una sfida comune per i professionisti dell'apprendimento automatico nei problemi di classificazione binaria.  

Questo scenario si verifica spesso in applicazioni aziendali pratiche come il 
- rilevamento delle frodi, 
- il filtro antispam, 
- la scoperta di malattie rare ,
- il rilevamento di guasti hardware.  

Per affrontare questo problema, una tecnica popolare è la tecnica di sovracampionamento sintetico delle minoranze (SMOTE).  

**SMOTE** (*Synthetic Minority Oversampling Technique*) è specificamente progettato per affrontare i set di dati sbilanciati **genera**ndo **campioni sintetici per la classe di minoranza**.
Mitigando i pregiudizi e catturando le caratteristiche importanti della classe di minoranza, SMOTE contribuisce a previsioni più accurate e a migliori prestazioni del modello.

### Qual è la funzione di Smote?  
1. **Identifica lo squilibrio**:  
    Si inizia riconoscendo che i dati appartengono a una classe minoritaria, come i casi di malattie rare in un set di dati medici.
2. **Crea** specificamente nuovi punti **dati** **per** la **classe minoritaria**,  
    non per la maggioranza.
3. **Crea campioni sintetici**:  
    Analizza i punti dati delle minoranze esistenti e ne genera di nuovi simili.
4. **Aumentare la minoranza**:  
    Aggiungendo questi campioni sintetici, SMOTE bilancia i dati, dando al modello una migliore possibilità di apprendere la classe di minoranza.

### Il paradosso dell'accuratezza

Supponiamo che tu stia lavorando su un problema di rilevamento delle frodi basato sull'assicurazione sanitaria.  

In tali problemi, generalmente osserviamo che su 100 richieste di risarcimento assicurativo, 99 di esse non sono fraudolente e 1 è fraudolenta. Pertanto, un modello di classificatore binario non deve essere un modello complesso per prevedere tutti i risultati come 0, ovvero non fraudolenti e raggiungere una grande precisione del 99%.  

Chiaramente, in questi casi in cui la distribuzione delle classi è distorta, la metrica di accuratezza è distorta e non preferibile.  


### Gestione dei dati sbilanciati  
Il ricampionamento dei dati è uno degli approcci più comunemente preferiti per gestire un set di dati sbilanciato.  

Esistono sostanzialmente due tipi di metodi per questo: 
1. Sottocampionamento, 
2. Sovracampionamento. 

Nella maggior parte dei casi, il *sovracampionamento è preferito alle tecniche di sottocampionamento*.  

Il motivo è che nel sottocampionamento tendiamo a rimuovere i casi dai dati che potrebbero contenere alcune informazioni importanti.  
Per questo motivo tratteremo di alcune tecniche speciali di sovracampionamento dell'aumento dei dati: SMOTE e le sue controparti correlate.

## Procedura di lavoro

All'inizio il totale n. di osservazioni di sovracampionamento, N è impostato.  

Generalmente, viene selezionato in modo che la distribuzione della classe binaria sia 1:1.  
Ma questo potrebbe essere regolato in base alle necessità.  

Quindi l'iterazione inizia selezionando prima un'istanza di classe positiva a caso.  

Successivamente, si ottengono i KNN (per impostazione predefinita 5) per quell'istanza.  

Alla fine, N di queste K istanze viene scelta per interpolare nuove istanze sintetiche. Per fare ciò, utilizzando qualsiasi metrica di distanza, viene calcolata la differenza di distanza tra il vettore di elementi e i suoi vicini.  

Ora, questa differenza viene moltiplicata per qualsiasi valore casuale in (0,1] e viene aggiunta al vettore di funzionalità precedente. Questo è rappresentato pittoricamente di seguito:

In [1]:
Image(url="https://cdn.analyticsvidhya.com/wp-content/uploads/2024/09/77417image1.webp") 

In [None]:
# %pip install imbalanced-learn
from imblearn.over_sampling import SMOTE
from collections import Counter

counter = Counter(y_train)
print('Before', counter)

# oversampling the train dataset using SMOTE
smt = SMOTE()
X_train_sm, y_train_sm = smt.fit_resample(X_train, y_train)

counter = Counter(y_train_sm)
print('After', counter)

### Limiti di SMOTE  
1. Le istanze sintetiche generate sono nella stessa direzione, cioè collegate da una linea artificiale le sue istanze diagonali. Questo a sua volta complica la superficie decisionale generata da pochi algoritmi di classificazione.
2. SMOTE tende a creare un grande no. di punti dati rumorosi nello spazio delle funzionalità.

# ADASYN: Approccio di campionamento sintetico adattivo
ADASYN è una forma generalizzata dell'algoritmo SMATE. Questo algoritmo mira anche a sovracampionare la classe minoritaria generando istanze sintetiche per essa. Ma la differenza qui è che considera la distribuzione della densità, rio che decide il n. di istanze sintetiche generate per campioni difficili da apprendere. Per questo motivo, aiuta a modificare in modo adattivo i limiti decisionali in base ai campioni difficili da imparare. Questa è la differenza principale rispetto a SMOTE.

In [None]:
from imblearn.over_sampling import ADASYN
from collections import Counter

# Counting the number of instances in each class before oversampling
counter = Counter(y_train)
print('Before', counter)

# Oversampling the train dataset using ADASYN
ada = ADASYN(random_state=130)
X_train_ada, y_train_ada = ada.fit_resample(X_train, y_train)

# Counting the number of instances in each class after oversampling
counter = Counter(y_train_ada)
print('After', counter)

# TECNICHE DI IBRIDAZIONE  
Le tecniche di ibridazione comportano la combinazione di tecniche di sottocampionamento e sovracampionamento.  
Questa operazione viene eseguita per ottimizzare le prestazioni dei modelli di classificatore per i campioni creati come parte di queste tecniche.
### SMOTE + Tomek Links  
Tecnica ibrida che mira a pulire i punti dati sovrapposti per ciascuna delle classi distribuite nello spazio campionario.  

**Dopo** che il sovracampionamento è stato effettuato da **SMOTE**, **i cluster di classi potrebbero invadere lo spazio l'uno dell'altro**.  

**Di conseguenza**, il modello di classificatore sarà in **overfitting**.  

Ora, i collegamenti Tomek sono i campioni accoppiati di classe opposta che sono i vicini più prossimi l'uno all'altro.  

Pertanto, la maggior parte delle osservazioni di classe da questi collegamenti vengono rimosse in quanto si ritiene che aumenti la separazione di classe vicino ai confini decisionali.  

Ora, per ottenere migliori cluster di classi, i collegamenti Tomek vengono applicati a campioni di classi di minoranza sovracampionate eseguite da SMOTE. Quindi, invece di rimuovere le osservazioni solo dalla classe di maggioranza, generalmente rimuoviamo entrambe le osservazioni di classe dai collegamenti di Tomek.

In [None]:
from imblearn.combine import SMOTETomek
from collections import Counter

# Counting the number of instances in each class before oversampling
counter = Counter(y_train)
print('Before', counter)

# Oversampling the train dataset using SMOTE + Tomek
smtom = SMOTETomek(random_state=139)
X_train_smtom, y_train_smtom = smtom.fit_resample(X_train, y_train)

# Counting the number of instances in each class after oversampling
counter = Counter(y_train_smtom)
print('After', counter)

### SMOTE + ENN

Altra tecnica ibrida in cui più no. delle osservazioni vengono rimossi dallo spazio campionario.  

In questo caso, l'ENN è un'altra tecnica di sottocampionamento in cui vengono stimati i vicini più prossimi di ciascuna della classe di maggioranza. Se i vicini più prossimi classificano erroneamente quella particolare istanza della classe di maggioranza, tale istanza viene eliminata.

L'integrazione di questa tecnica con i dati sovracampionati eseguiti da SMOTE aiuta a eseguire un'ampia pulizia dei dati. Qui, in caso di errata classificazione da parte di NN, i campioni di entrambe le classi vengono rimossi. **Ciò si traduce in una separazione delle classi più chiara e concisa.**

In [None]:
from imblearn.combine import SMOTETomek
from collections import Counter

# Counting the number of instances in each class before oversampling
counter = Counter(y_train)
print('Before', counter)

# Oversampling the train dataset using SMOTE + Tomek
smtom = SMOTETomek(random_state=139)
X_train_smtom, y_train_smtom = smtom.fit_resample(X_train, y_train)

# Counting the number of instances in each class after oversampling
counter = Counter(y_train_smtom)
print('After', counter)


In [4]:
Image(url="https://cdn.analyticsvidhya.com/wp-content/uploads/2024/09/19616image7.webp") 

# Analisi delle prestazioni dopo il ricampionamento  

Per comprendere l'effetto del sovracampionamento, utilizzerò un set di dati sull'abbandono dei clienti bancari.  

Si tratta di un dato sbilanciato in cui la variabile target, il churn ha l'81,5% di clienti che non abbandonano e il 18,5% di clienti che hanno abbandonato.

È stata effettuata un'analisi comparativa sul set di dati utilizzando 3 modelli di classificazione: regressione logistica, albero decisionale e foresta casuale.  

Come illustrato in precedenza, verrà ignorata la metrica di accuratezza per valutare le prestazioni del classificatore su questo set di dati sbilanciato. Qui, ci interessa di più sapere quali sono i clienti che sforneranno nei prossimi mesi.  

In questo modo, ci concentreremo su metriche come: 
- $Precisione=\frac{\text{Vero Positivi}}{\text{Vero Positivi + Falsi Positivi}}$
- $Richiamo=\frac{\text{Vero Positivi}}{\text{Vero Positivi + Falsi Negativi}}$, 
- $Punteggio F1=2 \cdot \frac{Precisione \cdot Richiamo}{\text{Precisione + Richiamo}}$  

per comprendere le prestazioni dei classificatori per determinare correttamente quali clienti abbandoneranno.

In [5]:
Image(url="https://cdn.analyticsvidhya.com/wp-content/uploads/2024/09/47903image8.webp") 

Sul **set di dati sbilanciato** effettivo, **tutti i modelli** di classificatori non sono stati in grado di generalizzare bene sulla classe di minoranza rispetto alla classe di maggioranza. Di conseguenza, la maggior parte dei campioni di classe negativi sono stati classificati correttamente.  

A causa di ciò, c'era meno FP rispetto a più FN.  

Dopo il sovracampionamento, si osserva un chiaro aumento del richiamo sui dati del test. Per capirlo meglio, di seguito viene mostrato un barplot comparativo per tutti e 3 i modelli:

In [6]:
Image(url="https://cdn.analyticsvidhya.com/wp-content/uploads/2024/09/24531image9.webp") 

C'è una diminuzione della precisione, ma ottenendo un richiamo molto che soddisfa l'obiettivo di qualsiasi problema di classificazione binaria. Inoltre, il punteggio AUC-ROC e F1 per ciascun modello rimangono più o meno gli stessi.