<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%205/Modulo_5_Ejercicio_4_Early_Stopping_RandomForest.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Ejercicio 4: Regularización y Early Stopping con Random Forest — una simulación guiada**
**Explora cómo monitorear el sobreajuste y aplicar lógica de parada anticipada en Random Forest**

### **Introducción**
En este ejercicio vamos a explorar cómo los hiperparámetros de un modelo complejo como **Random Forest** pueden actuar como herramientas de **regularización**.

Simularemos un proceso de entrenamiento iterativo donde se evalúa el rendimiento del modelo conforme aumenta el número de árboles (`n_estimators`) y se ajustan otros parámetros como `max_depth` y `min_samples_leaf`.
El objetivo será aprender a **monitorizar** métricas como el **F1 Macro Score** y aplicar una lógica de **early stopping** manual basada en los resultados de validación cruzada.

In [None]:
# Celda 1: Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import f1_score
from sklearn.impute import SimpleImputer
sns.set(style='whitegrid')

In [None]:
# Celda 2: Cargar dataset y mostrar primeras filas
url = 'https://github.com/dtoralg/IE_Calidad_ML/raw/main/Data/defectos_productos.csv'
...

In [None]:
# Celda 3: Preprocesamiento de variables categóricas
...

In [None]:
# Celda 4: Separar variables predictoras y target
...

In [None]:
# Celda 5: Imputación de valores y escalado
...

In [None]:
# Celda 6: Dividir en entrenamiento y prueba
...

In [None]:
# Celda 7: Evaluar rendimiento en validación cruzada aumentando n_estimators
# Crea el StratifiedKFold con 3 splits
from sklearn.model_selection import StratifiedKFold
skf = ...

# Crea un rango entre 10 y 210 con intervalos de 10 unidades
n_estimators_range = ...
f1_scores = []

for n in n_estimators_range:
    rf = RandomForestClassifier(...)
    scores = cross_val_score(rf, X_train, y_train, cv=skf, scoring='f1_macro')
    f1_scores.append(scores.mean())

In [None]:
# Celda 8: Visualización del rendimiento vs número de árboles
plt.figure(figsize=(10,6))
plt.plot(n_estimators_range, f1_scores, marker='o')
plt.xlabel('Número de árboles (n_estimators)')
plt.ylabel('F1 Macro Score (validación cruzada)')
plt.title('Curva de rendimiento vs n_estimators')
plt.grid(True)
plt.tight_layout()
plt.show()

In [None]:
# Celda 9: Identificar el mejor valor y entrenar modelo final
best_n = n_estimators_range[np.argmax(f1_scores)]
print(f'Mejor número de árboles según validación cruzada: {best_n}')
modelo_final = RandomForestClassifier(n_estimators=best_n, max_depth=10, min_samples_leaf=3, random_state=42)
modelo_final.fit(X_train, y_train)
y_pred = modelo_final.predict(X_test)

In [None]:
# Celda 10: Evaluación final del modelo en conjunto de test con classification report
from sklearn.metrics import classification_report
print(...)

### **Conclusiones**
- Hemos utilizado **validación cruzada** para evaluar el rendimiento del modelo conforme aumenta el número de árboles (`n_estimators`).
- La métrica usada fue **F1 Macro Score**, adecuada para clasificación multiclase con clases desbalanceadas.
- A partir de cierto punto, aumentar `n_estimators` no aporta mejoras sustanciales → se puede aplicar una lógica de **early stopping manual**.
- También observamos cómo `max_depth` y `min_samples_leaf` actúan como formas de **regularización estructural**.

### **Preguntas para reflexionar**
- ¿Qué pasaría si usamos `max_depth=None` o `min_samples_leaf=1`?
- ¿En qué casos convendría automatizar el early stopping en lugar de evaluarlo manualmente?
- ¿Cómo afecta la semilla aleatoria (random_state) en los resultados de modelos como Random Forest?