<a href="https://colab.research.google.com/github/jagvgithub/Classification_Regression_models/blob/main/SMOTE_Scikit_learn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Técnicas de remuestreo SMOTE (Synthetic Minority Over-sampling Technique) Scikit-learn

# 1. SMOTENC (SMOTE for Continuous and Categorical features)

_Definición:_

SMOTENC es una variante del algoritmo SMOTE que maneja tanto características continuas como categóricas. Aplica SMOTE en las características continuas y genera muestras sintéticas considerando las características categóricas.

_Ventajas:_

Maneja datasets mixtos con características continuas y categóricas.
Genera muestras sintéticas que respetan la naturaleza de las características categóricas.

_Desventajas:_

Puede ser computacionalmente costoso en datasets grandes.
Si no se seleccionan correctamente las características categóricas, puede introducir ruido.

# 2. SMOTEN (SMOTE for Nominal features)

_Definición:_

SMOTEN está diseñado específicamente para datasets con características categóricas. Genera nuevas muestras sintéticas basadas en las frecuencias y combinaciones de las categorías existentes en el dataset.

_Ventajas:_

Optimizado para manejar solo características categóricas.
Simple y eficiente en datasets categóricos.
Desventajas:

No es adecuado para datasets con características continuas.
Puede ser menos efectivo si las combinaciones de categorías son muy diversas o raras.

# 3. BorderlineSMOTE

_Definición:_

BorderlineSMOTE es una variante de SMOTE que se enfoca en los ejemplos cercanos a la frontera de decisión entre las clases. Genera nuevas muestras sintéticas solo para los ejemplos que están cerca de los límites de las clases.

_Ventajas:_

Mejora la precisión en las áreas críticas cercanas a las fronteras de decisión.
Reduce el riesgo de overfitting en regiones no críticas.

_Desventajas:_

Puede ser menos efectivo en datasets donde las fronteras de decisión no son claras.
Todavía puede generar ruido si las fronteras son muy complejas.

# 4. SVMSMOTE

_Definición:_

SVMSMOTE utiliza una máquina de soporte vectorial (SVM) para identificar los ejemplos frontera y luego aplica SMOTE para generar ejemplos sintéticos cerca de estas fronteras.

_Ventajas:_

Enfoca el sobremuestreo en las áreas más difíciles de clasificar.
Aprovecha la potencia de SVM para identificar las fronteras de decisión.

Desventajas:

Más complejo y computacionalmente costoso que otros métodos.
Requiere ajuste de parámetros del SVM, lo cual puede ser complicado.

# 5. ADASYN (Adaptive Synthetic Sampling)

_Definición:_

ADASYN ajusta la cantidad de ejemplos sintéticos generados para cada muestra minoritaria según la dificultad de la clasificación. Genera más ejemplos sintéticos para las muestras que son más difíciles de clasificar.

_Ventajas:_

Adapta dinámicamente la generación de muestras sintéticas según la necesidad.
Mejora la precisión en áreas donde la clasificación es más difícil.
Desventajas:

Puede ser computacionalmente costoso.
Puede introducir ruido si se generan demasiadas muestras sintéticas en áreas complejas.
# 6. KMeansSMOTE

_Definición:_

KMeansSMOTE aplica un agrupamiento (clustering) usando K-Means antes de aplicar SMOTE. Esto permite generar ejemplos sintéticos dentro de los clústeres identificados.

_Ventajas:_

Mejora la distribución de los datos sintéticos.
Puede reducir el riesgo de overfitting al generar muestras dentro de clústeres más naturales.

_Desventajas:_

Requiere determinar el número adecuado de clústeres.
Puede ser computacionalmente costoso debido al paso de clustering.


# Principales inconvenientes del SMOTE

_Overfitting (Sobreajuste):_

Al generar demasiadas muestras sintéticas de la clase minoritaria, se puede provocar que el modelo se ajuste demasiado a los datos de entrenamiento. Esto significa que el modelo podría aprender patrones específicos del conjunto de entrenamiento que no generalizan bien a datos nuevos o no vistos, lo que reduce la capacidad predictiva del modelo en situaciones reales.

_Ruido:_

Al crear muestras sintéticas, especialmente con métodos más agresivos, existe el riesgo de introducir ruido en los datos. Las muestras sintéticas pueden no representar correctamente la distribución real de la clase minoritaria, lo que podría llevar a decisiones erróneas por parte del modelo.

_Computational Complexity (Complejidad Computacional):_

El aumento significativo del tamaño del conjunto de datos debido a la generación de muchas muestras sintéticas puede incrementar la carga computacional para el entrenamiento del modelo. Esto puede resultar en tiempos de entrenamiento más largos y mayores requerimientos de memoria.


_Distorsión de la Distribución de Datos:_

Crear muchas muestras sintéticas puede distorsionar la distribución original de los datos, especialmente si las muestras sintéticas no capturan correctamente las características intrínsecas de la clase minoritaria. Esto puede llevar a un modelo que no sea representativo del problema real.

_False Confidence (Confianza Falsa):_

Al tener un conjunto de datos balanceado de manera sintética, el modelo podría mostrar una alta precisión en el conjunto de entrenamiento y validación debido a la similitud entre las muestras sintéticas y las originales. Sin embargo, en un entorno de producción con datos reales desbalanceados, el rendimiento del modelo puede no ser tan bueno como se esperaba.


# Mitigación de los Riesgos

Para mitigar estos riesgos, se pueden seguir algunas estrategias:

_Uso de Métodos de Sobremuestreo con Precaución:_

En lugar de igualar completamente las clases, se puede optar por reducir el desbalance en lugar de eliminarlo por completo. Esto ayuda a mantener una representación más realista de los datos.

_Combinación de Sobremuestreo y Submuestreo:_

Una combinación de técnicas de sobremuestreo para la clase minoritaria y submuestreo para la clase mayoritaria puede ayudar a alcanzar un equilibrio sin sobreajustar el modelo.

_Validación Cruzada:_

Utilizar validación cruzada durante el entrenamiento del modelo puede ayudar a asegurarse de que el modelo generaliza bien y no está sobreajustado a las muestras sintéticas.

_Ajuste de Hiperparámetros:_

Realizar una búsqueda de hiperparámetros para optimizar el rendimiento del modelo puede ayudar a encontrar el balance adecuado entre el ajuste a los datos de entrenamiento y la capacidad de generalización.

_Evaluación con Métricas Apropiadas:_

Utilizar métricas de evaluación adecuadas para problemas de clasificación desbalanceada, como la matriz de confusión, la precisión, la sensibilidad, la especificidad y el F1-score, en lugar de solo la precisión global.

Implementar estas estrategias puede ayudar a reducir los riesgos asociados con el balanceo extremo de clases y mejorar la robustez del modelo en situaciones del mundo real.



In [None]:
import pandas as pd
import numpy as np
from imblearn.over_sampling import SMOTENC, SMOTEN, BorderlineSMOTE, SVMSMOTE, ADASYN, KMeansSMOTE
from sklearn.cluster import KMeans

# Definir el número de filas
num_filas = 100

# Crear un DataFrame con características continuas y categóricas
data = {
    'columna_1': np.random.rand(num_filas),
    'columna_2': np.random.randint(0, 3, num_filas),  # Característica categórica
    'columna_3': np.random.rand(num_filas),
    'columna_4': np.random.randint(0, 3, num_filas),  # Característica categórica
    'columna_5': np.random.rand(num_filas),
    'columna_6': np.random.rand(num_filas),
    'columna_7': np.random.rand(num_filas),
    'columna_8': np.random.rand(num_filas),
    'columna_9': np.random.rand(num_filas)
}

df = pd.DataFrame(data)

# Crear una columna binaria con clase minoritaria (15% 1s y 85% 0s)
df['columna_binaria'] = np.where(np.random.rand(num_filas) < 0.15, 1, 0)

# Mostrar el balance inicial de clases
print("Balance inicial de clases:")
print(df['columna_binaria'].value_counts())

# Separar las características y la variable objetivo
X = df.drop('columna_binaria', axis=1)
y = df['columna_binaria']

# Lista de métodos SMOTE a aplicar
smote_methods = {
    'SMOTENC': SMOTENC(categorical_features=[1, 3], random_state=42),
    'SMOTEN': SMOTEN(random_state=42),
    'BorderlineSMOTE': BorderlineSMOTE(random_state=42),
    'SVMSMOTE': SVMSMOTE(random_state=42),
    'ADASYN': ADASYN(random_state=42),
    'KMeansSMOTE': KMeansSMOTE(kmeans_estimator=KMeans(n_clusters=10, random_state=42), random_state=42)
}

# Diccionario para almacenar los DataFrames resultantes
df_resampled = {}

# Aplicar cada método de SMOTE y almacenar los DataFrames resultantes
for method_name, smote_method in smote_methods.items():
    try:
        X_res, y_res = smote_method.fit_resample(X, y)
        df_res = pd.DataFrame(X_res, columns=X.columns)
        df_res['columna_binaria'] = y_res
        df_resampled[method_name] = df_res
        print(f"\nBalance de clases después de aplicar {method_name}:")
        print(df_res['columna_binaria'].value_counts())
    except RuntimeError as e:
        print(f"Error con {method_name}: {e}")

# Acceder a los DataFrames resultantes
df_smote_nc = df_resampled.get('SMOTENC')
df_smote_n = df_resampled.get('SMOTEN')
df_borderline_smote = df_resampled.get('BorderlineSMOTE')
df_svmsmote = df_resampled.get('SVMSMOTE')
df_adasyn = df_resampled.get('ADASYN')
df_kmeans_smote = df_resampled.get('KMeansSMOTE')

Balance inicial de clases:
columna_binaria
0    83
1    17
Name: count, dtype: int64

Balance de clases después de aplicar SMOTENC:
columna_binaria
0    83
1    83
Name: count, dtype: int64

Balance de clases después de aplicar SMOTEN:
columna_binaria
0    83
1    83
Name: count, dtype: int64

Balance de clases después de aplicar BorderlineSMOTE:
columna_binaria
0    83
1    83
Name: count, dtype: int64

Balance de clases después de aplicar SVMSMOTE:
columna_binaria
0    83
1    53
Name: count, dtype: int64

Balance de clases después de aplicar ADASYN:
columna_binaria
1    84
0    83
Name: count, dtype: int64
Error con KMeansSMOTE: No clusters found with sufficient samples of class 1. Try lowering the cluster_balance_threshold or increasing the number of clusters.


