| **Inicio** | **atrás 9** | **Siguiente 11** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./9_Tipos_de_Distancias.ipynb)| [⏩](./11_K-Vecinos.ipynb)|

# **10. Cómo crear Clasificadores de Machine Learning ante Clases Desbalanceadas asignando Pesos con Python**

## **Introducción al problema**

Cuando trabajamos con conjuntos de datos en los que las clases están desbalanceadas, es decir, una clase tiene muchas más muestras que las otras, es importante tomar medidas para manejar este desbalance. Una forma de abordar esto es asignar pesos diferentes a las clases durante el entrenamiento de un clasificador. Esto permite que el modelo penalice más los errores en la clase minoritaria y, por lo tanto, tenga un mejor rendimiento en términos de precisión y recall.

Aquí hay un ejemplo paso a paso de cómo crear clasificadores de Machine Learning ante clases desbalanceadas asignando pesos usando Python y la biblioteca Scikit-learn:

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

# Crear un conjunto de datos desbalanceado de ejemplo
X, y = make_classification(n_samples=1000, n_features=20, weights=[0.9, 0.1], random_state=42)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Crear un clasificador de regresión logística sin ajustar pesos
clf_unweighted = LogisticRegression(random_state=42)
clf_unweighted.fit(X_train, y_train)

# Crear un clasificador de regresión logística con pesos equilibrados
clf_weighted = LogisticRegression(class_weight='balanced', random_state=42)
clf_weighted.fit(X_train, y_train)

# Predecir en el conjunto de prueba
y_pred_unweighted = clf_unweighted.predict(X_test)
y_pred_weighted = clf_weighted.predict(X_test)

# Mostrar los informes de clasificación para ambos clasificadores
print("Clasificador sin pesos:")
print(classification_report(y_test, y_pred_unweighted))

print("\nClasificador con pesos equilibrados:")
print(classification_report(y_test, y_pred_weighted))

Clasificador sin pesos:
              precision    recall  f1-score   support

           0       0.94      0.97      0.95       270
           1       0.57      0.40      0.47        30

    accuracy                           0.91       300
   macro avg       0.75      0.68      0.71       300
weighted avg       0.90      0.91      0.90       300


Clasificador con pesos equilibrados:
              precision    recall  f1-score   support

           0       0.97      0.85      0.91       270
           1       0.37      0.77      0.49        30

    accuracy                           0.84       300
   macro avg       0.67      0.81      0.70       300
weighted avg       0.91      0.84      0.87       300



En este ejemplo, primero creamos un conjunto de datos desbalanceado de ejemplo usando `make_classification`. Luego, dividimos los datos en conjuntos de entrenamiento y prueba. A continuación, creamos dos clasificadores de regresión logística: uno sin ajustar pesos y otro con pesos equilibrados usando el parámetro `class_weight='balanced'`.

Finalmente, calculamos las predicciones en el conjunto de prueba para ambos clasificadores y mostramos los informes de clasificación que incluyen métricas como precisión, recall y F1-score para cada clase.

La gráfica de código se mostrará en una ventana emergente separada cuando ejecutes este código. Recuerda que el conjunto de datos utilizado aquí es solo un ejemplo, y en problemas reales, debes ajustar los parámetros y las técnicas según las características de tus datos.

## **Librerías y código de soporte**

En el ejemplo anterior, se utilizaron varias bibliotecas de Python para crear clasificadores de Machine Learning para datos desbalanceados. Aquí tienes una descripción de las bibliotecas utilizadas y el código de soporte en forma de funciones:

1. **Bibliotecas utilizadas:**
   - `numpy`: Biblioteca para operaciones numéricas eficientes en Python.
   - `matplotlib`: Biblioteca para crear gráficos y visualizaciones.
   - `sklearn.datasets`: Módulo de Scikit-learn para generar conjuntos de datos sintéticos.
   - `sklearn.model_selection`: Módulo de Scikit-learn para dividir conjuntos de datos en entrenamiento y prueba.
   - `sklearn.linear_model`: Módulo de Scikit-learn que contiene el modelo de regresión logística.
   - `sklearn.metrics`: Módulo de Scikit-learn que contiene funciones para evaluar métricas de rendimiento de modelos.

2. **Código de soporte:**

In [3]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

# Crear un conjunto de datos desbalanceado de ejemplo
X, y = make_classification(n_samples=1000, n_features=20, weights=[0.9, 0.1], random_state=42)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Función para evaluar y mostrar informe de clasificación
def evaluate_classifier(clf, X_test, y_test):
    y_pred = clf.predict(X_test)
    print(classification_report(y_test, y_pred))

# Crear un clasificador de regresión logística sin ajustar pesos
clf_unweighted = LogisticRegression(random_state=42)
clf_unweighted.fit(X_train, y_train)

# Crear un clasificador de regresión logística con pesos equilibrados
clf_weighted = LogisticRegression(class_weight='balanced', random_state=42)
clf_weighted.fit(X_train, y_train)

# Evaluar y mostrar informe de clasificación para ambos clasificadores
print("Clasificador sin pesos:")
evaluate_classifier(clf_unweighted, X_test, y_test)

print("\nClasificador con pesos equilibrados:")
evaluate_classifier(clf_weighted, X_test, y_test)

Clasificador sin pesos:
              precision    recall  f1-score   support

           0       0.94      0.97      0.95       270
           1       0.57      0.40      0.47        30

    accuracy                           0.91       300
   macro avg       0.75      0.68      0.71       300
weighted avg       0.90      0.91      0.90       300


Clasificador con pesos equilibrados:
              precision    recall  f1-score   support

           0       0.97      0.85      0.91       270
           1       0.37      0.77      0.49        30

    accuracy                           0.84       300
   macro avg       0.67      0.81      0.70       300
weighted avg       0.91      0.84      0.87       300



Este código de soporte contiene la función `evaluate_classifier` que toma un clasificador entrenado y evalúa su rendimiento en el conjunto de prueba utilizando el informe de clasificación. Luego, se crean los clasificadores de regresión logística y se evalúan utilizando esta función.

Recuerda que este es solo un ejemplo y que en situaciones reales, es posible que debas adaptar y ajustar los parámetros según tus necesidades específicas.

## **Datos de cáncer de mama**

Los datos de cáncer de mama son ampliamente utilizados en Machine Learning para tareas de clasificación y diagnóstico médico. Uno de los conjuntos de datos más populares es el conjunto de datos de Cáncer de Mama de Wisconsin (Breast Cancer Wisconsin dataset). Este conjunto de datos está disponible en la biblioteca Scikit-learn y también en el repositorio de Machine Learning de la UCI. A continuación, te mostraré cómo cargar y trabajar con este conjunto de datos utilizando Scikit-learn:

In [5]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Cargar el conjunto de datos de cáncer de mama
data = load_breast_cancer()
X = data.data
y = data.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Escalar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Crear y entrenar el modelo de regresión logística
clf = LogisticRegression(random_state=42, max_iter=1000)  # Aumentar max_iter
clf.fit(X_train_scaled, y_train)

# Predecir en el conjunto de prueba
y_pred = clf.predict(X_test_scaled)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo: {accuracy:.2f}")

Precisión del modelo: 0.98


En este ejemplo, cargamos el conjunto de datos de cáncer de mama utilizando `load_breast_cancer` de Scikit-learn. Luego, dividimos los datos en conjuntos de entrenamiento y prueba. Utilizamos un clasificador de regresión logística para predecir si un tumor es benigno (0) o maligno (1). Finalmente, evaluamos el rendimiento del clasificador utilizando el informe de clasificación.

Recuerda que este es solo un ejemplo básico. En aplicaciones más complejas, es posible que desees explorar otros algoritmos de clasificación, ajustar los hiperparámetros y realizar una validación cruzada para obtener una evaluación más sólida del rendimiento del modelo.

## **Técnica de asignación de pesos**

La técnica de asignación de pesos es una estrategia utilizada para tratar con conjuntos de datos desbalanceados, donde una clase tiene muchas más muestras que la otra. En tales casos, los algoritmos de aprendizaje automático pueden tener dificultades para aprender patrones en la clase minoritaria debido a su escasez. La asignación de pesos consiste en dar más importancia a las muestras de la clase minoritaria durante el entrenamiento, lo que ayuda a equilibrar la influencia de ambas clases en el modelo.

Aquí hay un ejemplo de cómo implementar la técnica de asignación de pesos en un clasificador de regresión logística utilizando el conjunto de datos de cáncer de mama:

In [6]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Cargar el conjunto de datos de cáncer de mama
data = load_breast_cancer()
X = data.data
y = data.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Escalar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Calcular los pesos de las clases
class_counts = np.bincount(y_train)
class_weights = {0: class_counts[1] / class_counts[0], 1: 1.0}  # Ajustar los pesos según la proporción

# Crear y entrenar el modelo de regresión logística con asignación de pesos
clf = LogisticRegression(random_state=42, max_iter=1000, class_weight=class_weights)
clf.fit(X_train_scaled, y_train)

# Predecir en el conjunto de prueba
y_pred = clf.predict(X_test_scaled)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo con asignación de pesos: {accuracy:.2f}")

Precisión del modelo con asignación de pesos: 0.98


En este ejemplo, los pesos de las clases se calculan en función de la proporción entre las clases en el conjunto de entrenamiento. Se utilizan estos pesos al crear el modelo de regresión logística utilizando el parámetro `class_weight`. La clase minoritaria recibe un peso mayor para darle más importancia durante el entrenamiento.

La asignación de pesos puede ser una estrategia efectiva para mejorar el rendimiento de los modelos en conjuntos de datos desbalanceados, ya que ayuda a que el modelo preste más atención a la clase minoritaria y evita la dominación de la clase mayoritaria en el proceso de aprendizaje. Sin embargo, es importante ajustar los pesos de manera adecuada según las características del conjunto de datos específico.

| **Inicio** | **atrás 9** | **Siguiente 11** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./9_Tipos_de_Distancias.ipynb)| [⏩](./11_K-Vecinos.ipynb)|