<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%205/Modulo_5_Ejercicio_1_Sobreajuste_Arboles.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Ejercicio 1: ¿Cuándo un modelo se está sobreajustando? Visualízalo tú mismo**
**Diagnóstico visual del sobreajuste ajustando la profundidad de un árbol de decisión**

### **Introducción**
En este ejercicio vamos a analizar cómo la complejidad de un modelo de árbol de decisión puede llevar al fenómeno del **sobreajuste (overfitting)**.
Para ello, entrenaremos múltiples modelos variando el hiperparámetro `max_depth` y evaluaremos su rendimiento tanto en el conjunto de entrenamiento como en el de validación.

El objetivo es visualizar claramente cómo aumenta el error de validación cuando el modelo se vuelve demasiado complejo y deja de generalizar bien a nuevos datos.

In [None]:
# Celda 1: Carga de librerías y configuración del entorno
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import f1_score
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
sns.set(style='whitegrid')

In [None]:
# Celda 2: Cargar y explorar el dataset
url = 'https://github.com/dtoralg/IE_Calidad_ML/raw/main/Data/control_calidad_piezas_metalicas.csv'
...

In [None]:
# Celda 3: Descripción del dataset
...

In [None]:
# Celda 4: Preprocesamiento del dataset
# Separar X e y
...

# Identificar columnas categóricas y numéricas
...

# Preprocesamiento con imputación y onehot encoding
# Tip: Puedes usar un ColumnTransformer de la librería Pipeline para hacerlo
# de forma más eficiente
...

In [None]:
# Celda 5: División en train y test
...

In [None]:
# Celda 6: Entrenamiento con diferentes profundidades
# Crea un vector para almacenar los scores de train, otro para test.
...
depths = range(1, 21)

for depth in depths:
    clf = Pipeline([
        ('preproc', ...),
        ('model', ...)
    ])
    clf.fit(...)
    y_train_pred = ...
    y_test_pred = ...
    # Rellena train scores con el F1 de las predicciones
    train_scores.append(...)
    test_scores.append(...)

In [None]:
# Celda 7: Visualización del sobreajuste
plt.figure(figsize=(10,6))
plt.plot(depths, train_scores, label='F1 Score - Entrenamiento', marker='o')
plt.plot(depths, test_scores, label='F1 Score - Validación', marker='o')
plt.xlabel('max_depth')
plt.ylabel('F1 Score')
plt.title('Curva de validación: Complejidad vs Rendimiento')
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

### **Conclusiones**
- Al aumentar `max_depth`, el modelo mejora su rendimiento en el conjunto de entrenamiento, pero empieza a **perder capacidad de generalización** en el conjunto de prueba.
- El punto donde la curva de validación (F1 Score en test) empieza a descender es una señal clara de **sobreajuste**.
- Limitar la profundidad del árbol es una forma simple y efectiva de **regularización estructural**.

### **Preguntas para reflexionar**
- ¿Qué profundidad elegirías para este problema y por qué?
- ¿Qué otras formas de regularización podrían aplicarse a árboles de decisión?
- ¿Cómo podrías automatizar la búsqueda de la mejor profundidad?