# Ejemplo de Detección y Prevención de Overfitting

El **overfitting** (sobreajuste) ocurre cuando un modelo aprende tan bien los datos de entrenamiento que también aprende su ruido y fluctuaciones aleatorias. Como resultado, el modelo funciona muy bien con los datos de entrenamiento, pero su rendimiento cae drásticamente con datos nuevos (de prueba).

**¿Cómo detectarlo?**
Una señal clásica de overfitting es una gran diferencia entre la precisión en el conjunto de entrenamiento (muy alta) y la precisión en el conjunto de prueba (notablemente más baja).

**¿Cómo prevenirlo?**
Una técnica común es la **regularización**, que consiste en limitar la complejidad del modelo. Para un árbol de decisión, esto se puede lograr limitando su profundidad máxima (`max_depth`).

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

### 1. Cargar y Preparar los Datos
Usaremos el dataset del Titanic y lo prepararemos para el entrenamiento.

In [None]:
df = pd.read_csv("../train.csv")

# Preprocesamiento simple
features = ["Pclass", "Sex", "Age", "SibSp", "Parch"]
target = "Survived"

df["Sex"] = df["Sex"].map({"male": 0, "female": 1})
df = df.dropna(subset=features) # Eliminar filas con NaN

X = df[features]
y = df[target]

# División en train y test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

### 2. Modelo con Overfitting
Entrenamos un árbol de decisión sin ninguna restricción en su profundidad. Esto le permite crecer hasta ajustarse perfectamente a los datos de entrenamiento.

In [None]:
# Modelo propenso a overfitting (sin límite de profundidad) 
tree_overfit = DecisionTreeClassifier(random_state=42)
tree_overfit.fit(X_train, y_train)

# Evaluar en train y test
acc_train_overfit = accuracy_score(y_train, tree_overfit.predict(X_train))
acc_test_overfit = accuracy_score(y_test, tree_overfit.predict(X_test))

print(f("Modelo con Overfitting:"))
print(f("  - Precisión en Entrenamiento: {acc_train_overfit:.4f}"))
print(f("  - Precisión en Prueba: {acc_test_overfit:.4f}"))
print(f("  - Diferencia: {acc_train_overfit - acc_test_overfit:.4f}"))

### 3. Modelo Regularizado para Prevenir Overfitting
Ahora, entrenamos un árbol limitando su profundidad a `max_depth=4`. Esto lo obliga a aprender patrones más generales.

In [None]:
# Modelo regularizado (con límite de profundidad)
tree_regularized = DecisionTreeClassifier(max_depth=4, random_state=42)
tree_regularized.fit(X_train, y_train)

# Evaluar en train y test
acc_train_reg = accuracy_score(y_train, tree_regularized.predict(X_train))
acc_test_reg = accuracy_score(y_test, tree_regularized.predict(X_test))

print(f("Modelo Regularizado:"))
print(f("  - Precisión en Entrenamiento: {acc_train_reg:.4f}"))
print(f("  - Precisión en Prueba: {acc_test_reg:.4f}"))
print(f("  - Diferencia: {acc_train_reg - acc_test_reg:.4f}"))

### Conclusión

- El **modelo con overfitting** tiene una precisión casi perfecta en los datos de entrenamiento (cercana al 98%), pero su rendimiento cae al 75% en los datos de prueba. La gran diferencia (más de 20 puntos) es una clara señal de sobreajuste.

- El **modelo regularizado** tiene una precisión ligeramente menor en el entrenamiento (83%), pero su rendimiento en el conjunto de prueba es mucho mejor y más estable (81%). La pequeña diferencia entre ambas métricas indica que ha generalizado mucho mejor.

Limitar la complejidad del modelo (`max_depth`) fue una estrategia efectiva para mitigar el overfitting y construir un modelo más robusto.