# Análisis exploratorio de datos

## Unidad 8: Balanceo de datos

**Índice**   
1. [Datos desbalanceados: definición y problemas asociados](#id1)
2. [Métricas para evaluar datos desbalanceados](#id2)
3. [Algoritmos de balanceo de datos: sobremuestreo y submuestreo, generación de muestras sintéticas](#id3)

### 1. Datos desbalanceados: definición y problemas asociados <a name="id1"></a>


Nos encontramos con un problema de datos desbalanceados (no balanceados) cuando las clases o categorías que se están analizando no están representadas de manera equitativa en un conjunto de datos. Es decir, hay una clase de la variable con muchos ejemplos (entradas), y otra con pocos.

Un ejemplo de esta situación es un dataset de transacciones, con una columna que indica si la transacción es un fraude o no. En una situación normal, el porcentaje de fraude es bajo, por lo tanto, a lo mejor solo tenemos un 5% de entradas que han sido fraude, y el resto (95%), no.

Esta desigualdad en la representación de clases puede afectar negativamente el rendimiento de algunos algoritmos de machine learning, sobretodo si el objetivo es predecir las clases de la variable desbalanceada.

Volviendo al ejemplo anterior, un modelo que predijera todas las transacciones como **no fraude**, podría ser considerado bueno si se evalúa con una métrica como la *accuracy*, ya que el 95% de las entradas estarían correctamente clasificadas. Por tanto, si tenemos datos no balanceados, es importante también escoger una métrica adecuada o mirarlas en conjunto.

Por otro lado, el hecho de tener una clase con menos representación (la clase minoritaria) también dificulta su descripción, ya que tenemos menos ejemplos de ella.

### 2. Métricas para evaluar datos desbalanceados <a name="id2"></a>

Como se ha comentado, cuando trabajamos con datos desbalanceados tenemos que escoger las métricas adecuadas para evaluar nuestros modelos, para evitar sacar conclusiones erróneas de su rendimiento/resultado.

La recomendación principal es mirar distintas métricas y sacar conclusiones teniendo en cuenta el conjunto de ellas:

**Exactitud (Accuracy)**

La accuracy mide la proporción de predicciones correctas en relación con el total de predicciones. Aunque es una métrica intuitiva, puede ser engañosa en datos desbalanceados, ya que puede ser alta simplemente prediciendo la clase mayoritaria.

**Precisión**

La precisión se calcula como la proporción de verdaderos positivos (elementos correctamente clasificados como positivos) respecto a la suma de verdaderos positivos y falsos positivos. Es útil cuando nos interesa reducir los falsos positivos.

**Recall (Sensibilidad)**

Recall se calcula como la proporción de verdaderos positivos respecto a la suma de verdaderos positivos y falsos negativos. Es útil cuando queremos identificar la mayoría de las instancias de la clase positiva, incluso a costa de obtener más falsos positivos.

**F1-Score**

El F1-Score es la media armónica de precisión y recall. Es útil cuando se busca un equilibrio entre precisión y recall. Es una métrica muy completa, y se usa generalmente para tener una buena visión general del rendimiento del modelo.


**Área bajo la Curva ROC (AUC-ROC)**

La curva ROC y el área bajo la curva ROC (AUC-ROC) son métricas que evalúan la capacidad del modelo para discriminar entre clases. Pueden ser especialmente informativas en datos desbalanceados.

In [1]:
# Vamos a generar datos ficticios para mirar el impacto
# de los datos no balanceados en las métricas

# Cargamos las librerías necesarias
import numpy as np
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

# Ejemplo de predicciones y valores reales
# Las predicciones son todo 1s
# Solo hay 2 elementos con 1 en los valores reales (datos no balanceados)
y_true = [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1]
y_pred = [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1]

# Calculamos la accuracy
accuracy = accuracy_score(y_true, y_pred)
print("Accuracy:", accuracy)

# Calculamos la precisión
precision = precision_score(y_true, y_pred)
print("Precisión:", precision)

# Calculamos el recall
recall = recall_score(y_true, y_pred)
print("Recall:", recall)

# Calculamos el F1-Score
f1 = f1_score(y_true, y_pred)
print("F1-Score:", f1)

# Calculamos y mostramos la matriz de Confusión
conf_matrix = confusion_matrix(y_true, y_pred)
print("Matriz de Confusión:")
print(conf_matrix)


Accuracy: 0.9
Precisión: 0.5
Recall: 0.5
F1-Score: 0.5
Matriz de Confusión:
[[17  1]
 [ 1  1]]


En este ejemplo, tenemos 20 elementos, y de ellos solo 2 tiene valor 1. Por lo tanto, los datos estan desbalanceados y la categoría 1 es la clase minoritaria. Creamos unos valores de predicción que solo identifican correctamente uno de los dos elementos con valor 1. Al mirar la accuracy, podemos pensar que el modelo es muy bueno, ya que tiene un valor muy alto (0.9), sin embargo, cuando miramos las otras métricas podemos ver que los valores son bajos. Por lo tanto, el hecho de tener los datos no balanceados y solo mirar la accuracy podría llevarnos a considerar que el modelo es óptimo, cuando realmente su rendimiento a nivel de detectar los 1s es bastante bajo.

### 3. Algoritmos de balanceo de datos: sobremuestreo y submuestreo, generación de muestras sintéticas <a name="id3"></a>

Para tratar el problema de datos desbalanceados, existen varias técnicas de balanceo de datos que se pueden utilizar.

**Sobremuestreo (Oversampling)**
Esta técnica consiste en aumentar el número de instancias de la clase minoritaria generando copias adicionales de las observaciones existentes o generando instancias sintéticas.

**Submuestreo (Undersampling)**
Al contrario que el sobremuestreo, este método reduce el número de instancias de la clase mayoritaria eliminando algunas observaciones aleatorias.

La eleccion de una técnica u otra depende principalmente del contexto y de las características de los datos.

**Oversampling**

- El oversampling puede ser beneficioso cuando no hay suficientes datos en la clase minoritaria para entrenar un modelo de manera efectiva. Generar instancias sintéticas o duplicar muestras existentes puede ayudar a equilibrar las clases.

- Si la clase minoritaria tiene patrones complejos y el submuestreo podría llevar a la pérdida de información relevante, por lo tanto, es mejor usar el sobremuestreo.

**Undersampling**

- Si tienes suficientes datos, reducir la cantidad de instancias en la clase mayoritaria para mejorar el equilibrio (undersampling) es una técnica sencilla y eficaz.

- Si la clase mayoritaria contiene instancias que son redundantes se pueden eliminar estos ejemplos y así mejorar la repartición de las clases.

- El oversampling puede ser más costoso computacionalmente, especialmente si se generan instancias sintéticas. Si la eficiencia computacional es una consideración importante, el submuestreo puede ser mejor opción.

Las funciones para las técnicas de over y undersampling se pueden encontrar en la librería `imblearn`.

In [2]:
# Oversampling

# Importamos la función necesaria
from imblearn.over_sampling import RandomOverSampler

# Nos permite contar de manera eficiente
from collections import Counter

# Esta función descarga un dataset de ejemplo
# Con las características especificadas
from sklearn.datasets import make_classification
X, y = make_classification(
    n_classes=2, class_sep=2, weights=[0.1, 0.9],
    n_informative=3, n_redundant=1, flip_y=0,
    n_features=20, n_clusters_per_class=1,
    n_samples=1000, random_state=10)

# Inicializamos la función oversampling
oversampler = RandomOverSampler(sampling_strategy='auto')

# En este caso, se aplica la transformación tanto a las características (X)
# como a la variable a predecir (y)
X_oversampled, y_oversampled = oversampler.fit_resample(X, y)

# Mostramos los resultados por pantalla
print('Distribución de la variable y original %s' % Counter(y))
print('Distribución de la variable y después del oversampling %s' % Counter(y_oversampled))

Distribución de la variable y original Counter({1: 900, 0: 100})
Distribución de la variable y después del oversampling Counter({0: 900, 1: 900})


In [3]:
# Undersampling

# Importamos la función necesaria
from imblearn.under_sampling import RandomUnderSampler

# Inicializamos la función undersampling
undersampler = RandomUnderSampler(sampling_strategy='auto')

# En este caso, se aplica la transformación tanto a las características (X)
# como a la variable a predecir (y)
X_undersampled, y_undersampled = undersampler.fit_resample(X, y)

# Mostramos los resultados por pantalla
print('Distribución de la variable y original %s' % Counter(y))
print('Distribución de la variable y después del undersampling %s' % Counter(y_undersampled))

Distribución de la variable y original Counter({1: 900, 0: 100})
Distribución de la variable y después del undersampling Counter({0: 100, 1: 100})


In [4]:
# Generación de muestras aleatorias

# Importamos la función necesaria
from imblearn.over_sampling import SMOTE

# Inicializamos la función de SMOTE
smote = SMOTE(sampling_strategy='auto')

# En este caso, se aplica la transformación tanto a las características (X)
# como a la variable a predecir (y)
X_smote, y_smote = smote.fit_resample(X, y)


# Mostramos los resultados por pantalla
print('Distribución de la variable y original %s' % Counter(y))
print('Distribución de la variable y después de la generación de muestras aleatorias %s' % Counter(y_smote))

Distribución de la variable y original Counter({1: 900, 0: 100})
Distribución de la variable y después de la generación de muestras aleatorias Counter({0: 900, 1: 900})
