## Synthetic Minority Oversampling Technique (SMOTE)

El desbalance de clases al momento de entrenar un modelo de predicción puede ser crucial, al haber un desbalance el modelo se inclinará por la clase mayoritaria, ya que es lo más probable que suceda, y tendrá un rendimiento deficiente con la clase minoritaria, en algunos casos puede que la clase minoritaria sea la más importante para la clasificación.

Un enfoque para abordar conjuntos de datos desbalanceados es sobremuestrear (**oversampling**) la clase minoritaria. El enfoque más simple consiste en duplicar instancias en la clase minoritaria, aunque estos ejemplos no agregan ninguna información nueva al modelo.

En su lugar, se pueden sintetizar nuevas instancias a partir de los ejemplos existentes. Este es un tipo de aumento de datos (**data augmentation**) para la clase minoritaria y se conoce como **`Synthetic Minority Oversampling Technique`** (Técnica de sobremuestreo de minorías sintéticas)

Otro enfoque sería el de eliminar aleatoriamente instancias de la clase mayoritaria (**undersampling**)


#### Sampling:

- **Undersampling:** remover algunos patrones de la clase mayoritaria.

- **Oversampling:** crear patrones sintéticos que se agregan a la clase minoritaria.

- **Híbrido:** combinar **undersampling** y **oversampling**.


- Vamos a utilizar la libreria **imblearn**:

```python
pip install imblearn
```

### Algoritmo SMOTE


**1.** Elegir un patrón de la clase minoritaría al azar.

**2.** Encontrar los k-vecinos más cercanos del patrón elegido anteriormente.

**3.** Seleccionar un vecino al azar y crear un patrón sintético en un punto al azar entre el patrón elegido al inicio y un vecino seleccionado al azar. 

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Crea un dataset artificial 

from sklearn.datasets import make_classification

X, y = make_classification(n_samples            = 600,
                           n_features           = 2,
                           n_redundant          = 0,
                           n_clusters_per_class = 1,
                           weights              = [0.9, 0.10],
                           random_state         = 5)

In [None]:
from collections import Counter

Counter(y)

In [None]:
plt.figure(figsize = (10, 8))

# Puntos Clase 0 (mayoritaria)
plt.scatter(X[np.where(y == 0)[0], 0], X[np.where(y == 0), 1])

# Puntos Clase 1 (minoritaria)
plt.scatter(X[np.where(y == 1)[0], 0], X[np.where(y == 1), 1])

plt.show()

**SMOTE (oversampling)**

In [None]:
from imblearn.over_sampling import SMOTE 

oversampling = SMOTE()
X_balanceado, y_balanceado = oversampling.fit_resample(X, y) # Se obtienen nuevos X e y

In [None]:
Counter(y_balanceado)

In [None]:
plt.figure(figsize = (10, 8))

# Nuevos puntos, creados sinteticamente

# Puntos Clase 0
plt.scatter(X_balanceado[np.where(y_balanceado == 0)[0], 0], X_balanceado[np.where(y_balanceado == 0), 1])

# Puntos Clase 1 (SOMTE)
plt.scatter(X_balanceado[np.where(y_balanceado == 1)[0], 0], X_balanceado[np.where(y_balanceado == 1), 1])

# Puntos Clase 1 (originales)
plt.scatter(X[np.where(y == 1)[0], 0], X[np.where(y == 1), 1])

plt.show()

In [None]:
# Podemos elegir el porcentaje de la clase mayoritaria que se agrege a la clase minoritaría 

oversampling = SMOTE(sampling_strategy = 0.8)  # Queremos un 80% del tamaño de la clase mayoritaria
X_balanceado, y_balanceado = oversampling.fit_resample(X, y) # Se obtienen nuevos X e y


# Plot
plt.figure(figsize = (10, 8))

# Puntos Clase 0
plt.scatter(X_balanceado[np.where(y_balanceado == 0)[0], 0], X_balanceado[np.where(y_balanceado == 0), 1])

# Puntos Clase 1 (SOMTE)
plt.scatter(X_balanceado[np.where(y_balanceado == 1)[0], 0], X_balanceado[np.where(y_balanceado == 1), 1])

# Puntos Clase 1 (originales)
plt.scatter(X[np.where(y == 1)[0], 0], X[np.where(y == 1), 1])

plt.show()

In [None]:
Counter(y_balanceado) # 430 es un 80% de 538

**Undersampling**

In [None]:
X.shape, y.shape

In [None]:
Counter(y)

In [None]:
from imblearn.under_sampling import RandomUnderSampler

undersampling = RandomUnderSampler(sampling_strategy = 0.2) # Especificamos que la clase minoritaria represente el 80% de la clase mayoritaria
X_balanceado, y_balanceado = undersampling.fit_resample(X, y) # Se obtienen nuevos X e y

In [None]:
Counter(y_balanceado)

In [None]:
62/0.2

In [None]:
plt.figure(figsize = (10, 8))

# Nuevos puntos, creados sinteticamente

# Puntos Clase 0 (Undersampling)
plt.scatter(X_balanceado[np.where(y_balanceado == 0)[0], 0], X_balanceado[np.where(y_balanceado == 0), 1])

# Puntos Clase 1
plt.scatter(X_balanceado[np.where(y_balanceado == 1)[0], 0], X_balanceado[np.where(y_balanceado == 1), 1])

plt.show()

In [None]:
################################################################################################################################