<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%206/Modulo_6_Ejercicio_5_Clasificacion_Multiclase.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Ejercicio 5: Clasificación Multiclase con Redes Neuronales**
**Propósito**: Aplicar un modelo de red neuronal multicapa para abordar una tarea de clasificación multiclase en base a sensores industriales.

## Introducción

En los entornos industriales modernos, la recopilación masiva de datos a través de sensores ha abierto nuevas oportunidades para detectar, clasificar y prevenir fallos en sistemas de producción.

Este ejercicio aborda un problema de **clasificación multiclase** utilizando una **red neuronal multicapa (MLP)** para predecir el tipo de fallo presente en una línea de producción, a partir de variables físicas y transformadas extraídas de sensores industriales.

Trabajaremos con el dataset `Industrial_fault_detection.csv`, que contiene la variable objetivo `Fault_Type`, con múltiples clases representando tipos distintos de fallo, incluyendo también la clase `No Fault`.

Los objetivos principales de este ejercicio son:
- Aplicar técnicas de preparación de datos para clasificación multiclase.
- Entrenar una red neuronal multicapa con función `softmax`.
- Evaluar el rendimiento del modelo con métricas específicas: `F1 Macro`, matriz de confusión, curvas `ROC` por clase.
- Comparar los resultados obtenidos con modelos clásicos como Random Forest y Regresión Logística.

Este ejercicio forma parte del módulo de modelos avanzados y permite poner en práctica técnicas modernas de clasificación en un contexto industrial realista.


## Carga de librerías y configuración del entorno

In [None]:
# Celda 1
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import classification_report, confusion_matrix, f1_score, roc_curve, auc
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.utils import to_categorical

from imblearn.over_sampling import SMOTE
from collections import Counter

# Estilo visual
sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (10, 6)

## Descripción del dataset o datos de entrada

El dataset `Industrial_fault_detection.csv` simula un entorno industrial en el que múltiples sensores registran variables físicas y espectrales de piezas evaluadas durante el proceso de fabricación.

### Variables incluidas:
- **Sensores físicos**:
  - `Temperature`, `Pressure`, `Vibration`, `Voltage`, `Current`, `Flow`
- **Transformadas espectrales (FFT)**:
  - `FFT_Temp`, `FFT_Vib`, `FFT_Pres`
- **Variable objetivo**:
  - `Fault_Type`: representa diferentes tipos de fallo o la ausencia de fallo (`No Fault`)

Este dataset es ideal para tareas de clasificación multiclase por su estructura, número de observaciones y balance de clases.

## Carga del dataset

In [None]:
# Celda 2
url = "https://raw.githubusercontent.com/dtoralg/IE_Calidad_ML/refs/heads/main/Data/Modulo%206/Industrial_fault_detection.csv"
df = pd.read_csv(url)
df.head()

## Desarrollo del código paso a paso

**Codificación de clases, escalado y división de datos**

In [None]:
# Reparto de una variable categórica

# Cambia 'Fault_Type' por la variable que desees analizar
variable = 'Fault_Type'

# Recuento de clases
plt.figure(figsize=(8, 5))
sns.countplot(data=df, x=variable, order=df[variable].value_counts().index, palette='viridis')
plt.title(f"Distribución de la variable '{variable}'")
plt.xlabel(variable)
plt.ylabel("Frecuencia")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# Celda 3
X = ... # todas las columnas menos el target
y = ... #target

# División
X_train, X_test, y_train, y_test = ...

**Entrenamiento de red neuronal multicapa (MLP)**

In [None]:
# Escalado de variables X_train y X_test
...

In [None]:
# Crear y aplicar SMOTE sobre train
...

# Mostrar distribución balanceada
print("Distribución después de SMOTE:", Counter(y_train_smote))

In [None]:
# Enconding de la variable target antes de hacer el fit del modelo
le = LabelEncoder()
y_onehot = to_categorical(le.fit_transform(y_train_smote))

In [None]:
# Celda 4
# Prueba distintas combinaciones de capas para ver como afecta al resultado.
# Como inicio, puedes probar una capa Dense, una Dropout, y una capa Dense de salida
# Para la capa de salida, piensa en cuantas clases queremos predecir.
model = Sequential()
model.add(Dense(..., activation=..., input_shape=(X_train_smote.shape[1],)))
...
model.add(...) # 4 clases posibles

# Añade al compilador al menos el "optimizer", la función de pérdida y las métricas
model.compile(...)

history = model.fit(X_train_sm, y_onehot, epochs=..., batch_size=..., validation_split=..., verbose=...)

## Visualización de resultados

In [None]:
# Celda 5
y_pred_proba = model.predict(...)
y_pred = y_pred_proba.argmax(axis=1)

# Classification Report y F1 del modelo (para todas las clases)
print(...)
print("F1 Macro:", f1_score(...))

In [None]:
# Celda 6
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=le.classes_, yticklabels=le.classes_)
plt.title("Matriz de Confusión - Red Neuronal")
plt.xlabel("Predicción")
plt.ylabel("Real")
plt.show()

**Comparación con modelos clásicos**

In [None]:
# Celda 8 - Random Forest

# Entrena un modelo RandomForest, calcula sus predicciones y extrae el
# Classification_Report y el F1_score del modelo
...

In [None]:
# Celda 9 - Regresión Logística

# Entrena un modelo LogisticRegression, calcula sus predicciones y extrae el
# Classification_Report y el F1_score del modelo
...

## Conclusiones

- La red neuronal multicapa mostró un rendimiento sustancialmente mejor frente a modelos clásicos. Aún así la precisión general es baja debido al fuerte desbalanceo del dataset.
- El uso de `softmax` y codificación `one-hot` permitió abordar correctamente la clasificación multiclase.
- El `F1 Macro` permitió comparar modelos de forma justa frente al desbalance.

Este ejercicio refuerza el papel de las redes neuronales en aplicaciones industriales reales, donde la clasificación precisa de fallos puede mejorar la eficiencia y seguridad del proceso.

## Próximos pasos

- Incluir regularización L2 y Batch Normalization para mejorar la generalización del modelo.
- Implementar Grid Search para afinar hiperparámetros como tasa de dropout o tamaño de capas ocultas.
- Usar embeddings y datos temporales si se dispone de secuencias de sensores en el tiempo.

---

Dataset: Industrial_fault_detection.csv — Aplicaciones industriales reales.