![imagenes](logo.png)

# El papel fundamental de los conjuntos de entrenamiento y prueba en Machine Learning


Imagina que vas a evaluar el desempeño de un alumno en cierta materia escolar mediante un examen de 10 preguntas, proporcionando un cuestionario para que estudie. Si las 10 preguntas del examen están en el cuestionario, es obvio que el alumno tendrá una muy buena nota, pero esto puede deberse a que simplemente memorizó el cuestionario. En cambio, si el examen está formado por preguntas parecidas, pero no iguales, a las del cuestionario, la calificación reflejará con mayor exactitud si el alumno realmente estudió, aprendió o solamente memorízó.

Una de las ideas más fundamentales —y a menudo mal comprendidas— del aprendizaje automático es la necesidad de separar los datos en distintos subconjuntos para construir y evaluar modelos predictivos. Este capítulo está dedicado a explorar por qué hacemos esto, cómo se realiza correctamente, y qué implicaciones tiene para la calidad de nuestros modelos.

Cuando entrenamos un modelo de machine learning, lo que realmente hacemos es encontrar una función matemática (una línea, un plano, un árbol de decisiones, una red neuronal, etc.) que se ajuste a un conjunto de datos. Esa función es ajustada para minimizar una medida de error, como el error cuadrático medio (MSE), usando los datos disponibles.

Si luego evaluamos el desempeño del modelo utilizando ese mismo conjunto de datos, el modelo parecerá funcionar muy bien. Pero esto es una ilusión peligrosa: el modelo no solo ha aprendido los patrones reales en los datos, sino que también puede haber memorizado aspectos particulares del conjunto de entrenamiento, incluyendo ruido, errores o peculiaridades específicas. Esto es lo que se conoce como sobreajuste (overfitting).

La consecuencia es clara: aunque el modelo se desempeñe maravillosamente en los datos que ya ha visto, podría fallar estrepitosamente al enfrentarse a nuevos datos. Por eso, necesitamos simular ese escenario de "datos nuevos" y medir cómo se comporta el modelo en él.

## Entrenamiento y prueba: la estrategia básica

Para enfrentar este problema, la práctica estándar en machine learning consiste en dividir el conjunto total de datos en al menos dos subconjuntos:

**Conjunto de entrenamiento (training set):** es el subconjunto de datos que se utiliza para ajustar los parámetros del modelo. Aquí es donde el modelo aprende.

**Conjunto de prueba (test set):** es el subconjunto que se mantiene completamente separado y se utiliza exclusivamente para evaluar el rendimiento final del modelo.

Esta separación debe hacerse antes de entrenar el modelo, y debe mantenerse inviolable: jamás se deben usar los datos de prueba para ajustar el modelo. Solo así podemos obtener una estimación honesta de su capacidad de generalización.

![imagenes](im008.png)

# Entrenamiento

Durante el entrenamiento, el modelo utiliza los datos disponibles para ajustar sus parámetros internos. En una regresión lineal, por ejemplo, esto significa encontrar los coeficientes de la recta que minimizan el error cuadrático medio sobre el conjunto de entrenamiento. En una red neuronal, significa ajustar los pesos sinápticos mediante retropropagación. En todos los casos, el objetivo es el mismo: reducir el error de predicción en los datos conocidos.

Pero aquí está la trampa: el objetivo del entrenamiento no es predecir bien los datos de entrenamiento, sino predecir bien datos que el modelo nunca ha visto. Entrenar bien no garantiza generalizar bien.

## Evaluación: la prueba del mundo real

Después de entrenar, llega el momento crucial: probar el modelo. Esto se hace usando el conjunto de prueba. Como este subconjunto nunca fue utilizado durante el entrenamiento, representa un escenario más realista: así será el comportamiento del modelo cuando lo pongamos en producción, enfrentando nuevos casos.

La evaluación se realiza midiendo alguna métrica de error o desempeño, como el RMSE, MAE, o el coeficiente de determinación $R^2$. Si el modelo obtiene un bajo error en el conjunto de prueba, es señal de que ha aprendido bien los patrones subyacentes de los datos. Si, en cambio, el error es mucho mayor que en el conjunto de entrenamiento, probablemente el modelo se ha sobreajustado.

## Sobreajuste y subajuste

Esta tensión entre ajustar y generalizar es una de las piedras angulares del aprendizaje automático. Los modelos pueden caer en uno de dos extremos:

- **Sobreajuste (overfitting):** el modelo se ajusta demasiado a los datos de entrenamiento, incluyendo el ruido. Tiene bajo error en entrenamiento pero alto error en prueba. Es como un estudiante que memoriza todas las respuestas del examen de práctica, pero no entiende el tema.

- **Subajuste (underfitting):** el modelo es demasiado simple para capturar los patrones reales. Tiene alto error tanto en entrenamiento como en prueba. Es como un estudiante que no estudió lo suficiente y falla incluso en las preguntas que ya había visto.

El objetivo es encontrar un punto intermedio: un modelo suficientemente complejo para aprender, pero suficientemente general para no memorizar.

## ¿Cómo dividir los datos?

La división típica es entre un 70% u 80% para entrenamiento, y un 20% o 30% para prueba. Esta proporción puede variar dependiendo del tamaño del conjunto total. 

Si se dispone de muy pocos datos, usar una sola partición puede ser arriesgado. En esos casos, se recomienda usar técnicas como la validación cruzada, donde el conjunto de prueba rota, o el bootstrap, que crea muestras con reemplazo.

## Conclusión

Separar los datos en entrenamiento y prueba no es una formalidad: es un principio esencial para construir modelos que funcionen en el mundo real. Evaluar un modelo en los mismos datos con los que fue entrenado es como medir la eficacia de una medicina usando pacientes que no tomaron la medicina: los resultados serán engañosos y peligrosos.

La generalización es el verdadero objetivo del aprendizaje automático, y sin una evaluación honesta, no podemos saber si la hemos alcanzado.

Por eso, todo modelo bien construido debe ser evaluado rigurosamente en un conjunto de datos que no haya visto nunca antes, y de preferencia, bajo condiciones que simulen lo más fielmente posible su uso en la práctica.

