<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%204/Modulo_4_Ejercicio_2_Clasificacion_Desbalanceada.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Ejercicio 2: Evaluación de Métricas en un Problema de Clasificación Desbalanceado**
#### Análisis del impacto del desbalance de clases y aplicación de técnicas de balanceo en la predicción de fallas en sensores industriales

### **Introducción**
En este ejercicio, exploraremos cómo el **desbalance de clases** afecta la evaluación de un modelo de clasificación binaria y aplicaremos técnicas para manejar este problema.

El dataset utilizado contiene información sobre sensores industriales, con un 95% de sensores funcionales y solo un 5% de fallas. Este desbalance puede afectar la capacidad del modelo para detectar correctamente los sensores defectuosos.

Evaluaremos el modelo utilizando **Precisión, Recall, F1 Score y Curva ROC-AUC** antes y después de aplicar **SMOTE** para balancear las clases.

In [None]:
# Celda 1: Carga de librerías y configuración del entorno
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from imblearn.over_sampling import SMOTE
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, roc_curve, auc

# Configuración de gráficos
sns.set(style='whitegrid')

In [None]:
# Celda 2: Carga del dataset
dataset_path = 'https://github.com/dtoralg/IE_Calidad_ML/raw/main/Data/fallas_sensores.csv'
...

# Mostrar las primeras filas del dataset
...

In [None]:
# Celda 3: Información general del dataset
...

In [None]:
# Celda 4: Distribución de la variable objetivo
...

### **Preprocesamiento de los datos**
Se realizará un proceso estándar de preparación de datos que incluye:
- Eliminación de duplicados.
- Imputación de valores faltantes.
- Codificación de variables categóricas.
- Normalización de variables numéricas.

In [None]:
# Celda 5: Procesamiento de datos
# Eliminar duplicados
...

# Imputar valores faltantes con la mediana para variables numéricas
...

# Codificar variables categóricas con OneHotEncoder
...

# Codificar la variable objetivo (No=0, Sí=1)
...

# División en variables predictoras y objetivo
...

# División en entrenamiento y prueba
...

# Normalización de los datos
...

### **Entrenamiento del modelo sin balanceo**
Se entrenará un modelo de **Random Forest** en el dataset original para analizar el impacto del desbalance de clases.

In [None]:
# Celda 6: Entrenamiento del modelo de Random Forest
modelo = RandomForestClassifier(n_estimators=100, random_state=42)
modelo.fit(X_train, y_train)

# Hacer predicciones
y_pred = modelo.predict(X_test)

In [None]:
# Celda 7: Evaluación del modelo sin balanceo classification_report
...

### **Aplicación de SMOTE para balancear las clases**
El dataset original está desbalanceado, por lo que aplicaremos **SMOTE** para generar nuevas muestras sintéticas de la clase minoritaria y entrenaremos el modelo nuevamente.

In [None]:
# Celda 8: Aplicar SMOTE
...

# Verificar la nueva distribución de clases
sns.countplot(x=y_train_resampled)
plt.title('Distribución después de aplicar SMOTE')
plt.xlabel('Clase')
plt.ylabel('Cantidad')
plt.show()

In [None]:
# Celda 9: Entrenar modelo con datos balanceados
modelo_smote = RandomForestClassifier(n_estimators=100, random_state=42)
modelo_smote.fit(X_train_resampled, y_train_resampled)

# Hacer predicciones
y_pred_smote = modelo_smote.predict(X_test)

In [None]:
# Celda 10: Evaluación del modelo balanceado con classification_Report
...

### **Conclusiones**
- Se compararon dos modelos: uno con datos desbalanceados y otro con **SMOTE**. El modelo balanceado mostró mejoras en **Recall y F1 Score**, indicando una mejor detección de fallos reales.
- **Próximos pasos:** Ajustar hiperparámetros del modelo o probar modelos más avanzados como **XGBoost**.