# Datos de entrenamiento, validación y prueba

Texto extraído de definiciones aportadas por `ChatGPT`:

## Datos de Entrenamiento, Validación y Prueba en Machine Learning

En el contexto de **machine learning**, los datos se dividen en tres conjuntos principales: **entrenamiento**, **validación** y **prueba**. Cada uno tiene un propósito específico para asegurar que el modelo sea capaz de generalizar bien a nuevos datos y no solo memorizar (sobreajustar) los datos con los que fue entrenado.

### 1. Datos de Entrenamiento
Son los datos que se usan para **entrenar** el modelo. El modelo aprende a partir de estos datos, ajustando sus parámetros (por ejemplo, los pesos en redes neuronales) para minimizar el error entre sus predicciones y las respuestas correctas en el conjunto de entrenamiento.

- **Propósito**: Enseñar al modelo a reconocer patrones y relaciones dentro de los datos.
- **Ejemplo**: En una tarea de clasificación de imágenes, las imágenes etiquetadas con la clase correcta (por ejemplo, "gato" o "perro") formarían este conjunto.

### 2. Datos de Validación
Son datos separados del conjunto de entrenamiento que se usan para **ajustar los hiperparámetros** del modelo (como la tasa de aprendizaje, la profundidad de un árbol de decisión, etc.) y para **evaluar el desempeño del modelo** durante el proceso de entrenamiento.

- **Propósito**: Evaluar cómo el modelo generaliza a datos no vistos durante el entrenamiento, ajustando parámetros sin usar el conjunto de prueba. Esto ayuda a evitar el sobreajuste.
- **Ejemplo**: Durante el entrenamiento de una red neuronal, el rendimiento del modelo en el conjunto de validación puede indicar si el modelo se está ajustando demasiado a los datos de entrenamiento (overfitting) o si está aprendiendo patrones generales.

### 3. Datos de Prueba
Son datos que el modelo nunca ha visto antes, ni durante el entrenamiento ni durante la validación. Después de que el modelo ha sido entrenado y ajustado, se evalúa en este conjunto para obtener una medida final de su desempeño.

- **Propósito**: Evaluar la **generalización** del modelo a datos nuevos, para verificar su capacidad de predecir correctamente sobre datos no vistos en ningún momento del proceso de desarrollo.
- **Ejemplo**: En el caso de las imágenes, un conjunto de imágenes que no se usaron en el entrenamiento ni en la validación se usaría para evaluar cuán bien el modelo puede clasificar nuevas imágenes.

### Resumen:
- **Entrenamiento**: Datos para enseñar al modelo.
- **Validación**: Datos para ajustar hiperparámetros y detectar sobreajuste.
- **Prueba**: Datos para evaluar el rendimiento final del modelo.

### Notas Importantes:
- **Sobreajuste (Overfitting)**: Ocurre cuando el modelo aprende demasiado bien los detalles y ruidos de los datos de entrenamiento, lo que hace que tenga un mal desempeño en nuevos datos. La validación ayuda a detectar esto.
- **Conjuntos disjuntos**: Los conjuntos de entrenamiento, validación y prueba deben ser mutuamente exclusivos y aleatorios. Esto significa que un dato que aparece en uno no debe aparecer en los otros, para garantizar que las evaluaciones sean justas.

En algunos casos, cuando no se dispone de suficientes datos, se puede usar la técnica de **validación cruzada**, que involucra dividir los datos en varios subconjuntos y entrenar/testear el modelo múltiples veces, lo que ayuda a hacer un uso más eficiente de los datos disponibles.


![Datos de entrenamiento, validacion y prueba](./img/entrenamiento_validacion_prueba1.png)

## Separación de Datos

In [13]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

### 60% Entrenamiento, 20% Validación, 20% Prueba

In [3]:
pacientes = pd.read_csv("../datos/problemas_del_corazon.csv")
pacientes # variable objetivo/target: cardiaco = 1 -> tiene problemas del corazon, 0 -> no tiene problemas del corazon

Unnamed: 0,edad,genero,presion,colesterol,diabetico,cardiaco
0,53,0,128,216,0,1
1,53,0,138,234,0,1
2,51,0,130,256,0,1
3,66,1,120,302,0,1
4,62,1,130,231,0,1
...,...,...,...,...,...,...
95,57,1,128,229,0,0
96,61,1,120,260,0,0
97,39,1,118,219,0,0
98,61,0,145,307,0,0


La siguiente función a utilizar sirve para fragmentar en forma aleatoria los datos en los conjuntos que necesito para entrenar mi modelo. Pero en este caso me devuelve solo dos conjuntos: el de entrenamiento y el de prueba.
Lo que se hará es indicar que fracciones los datos para que me devuelva un 20% de los datos para prueba, y el 80% restante luego se dividirá nuevamente para tener e 60% de los datos de entrenamiento y el 20% de los daros de validación.

In [10]:
resto, prueba, target_resto, target_prueba = train_test_split(
    pacientes[["edad", "genero", "presion", "colesterol", "diabetico"]], # variables para var indep
    pacientes["cardiaco"], # variable target
    test_size=0.2 
)

#resto
#prueba
#target_resto
#target_prueba

In [None]:
# Ahora dividimos los datos de entramiento para obtener los de validacion
entrenamiento, validacion, target_entrenamiento, target_validacion = train_test_split(
    resto[["edad", "genero", "presion", "colesterol", "diabetico"]], # variables para var indep
    target_resto, # variable target
    test_size=0.25 
)

De dónde sale el 0.25?

Originalmente teniamos 100 registros
60% -> 60 registros
20% -> 20 registros
20% -> 20 registros

El primer 20% ya lo tenemos con los datos de prueba. El otro 20% y el 60% están en el 80% de "resto".
Para el otro 20% de los 100 registros originales necesito 20 registros.

Entonces:

80 -> 100%

20 -> x = 20 * 100% / 80 = 25% = 0.25

## Agregado extra: entrenamiento y prueba

El siguiente sería un ejemplo de cómo se pueden obtener las métricas para saber qué tan eficiente es nuestro modelo.

IMPORTANTE: tener en cuenta que para este ejemplo en particular, por tener una cantidad de datos relativamente pequeña con solo 100 registros, posiblemente las métricas no arrojen los mejores resultados.

#### Interpretación de las métricas:

* Error Cuadrático Medio (MSE): Es la media de los errores al cuadrar las diferencias entre las predicciones y los valores reales. Un valor más bajo indica un modelo mejor.

* $R^2$ (Coeficiente de Determinación): Mide la proporción de la varianza total en los datos que es explicada por el modelo. Un valor cercano a 1 indica que el modelo explica bien los datos, mientras que un valor cercano a 0 sugiere un mal modelo.

In [16]:
modelo = LinearRegression()
regresion = modelo.fit(entrenamiento, target_entrenamiento)

In [19]:
# Hacer predicciones con el conjunto de validación
y_validacion_pred = modelo.predict(validacion)

# Evaluar el rendimiento usando métricas como el error cuadrático medio (MSE) y R²
mse_val = mean_squared_error(target_validacion, y_validacion_pred)
r2_val = r2_score(target_validacion, y_validacion_pred)

print(f'Error Cuadrático Medio (MSE) en Validación: {mse_val}')
print(f'R² en Validación: {r2_val}')

Error Cuadrático Medio (MSE) en Validación: 0.27165154717665757
R² en Validación: -0.09758200879457579


In [20]:
# Hacer predicciones con el conjunto de prueba
y_prueba_pred = modelo.predict(prueba)

# Evaluar el rendimiento usando métricas como el error cuadrático medio (MSE) y R²
mse_val = mean_squared_error(target_prueba, y_prueba_pred)
r2_val = r2_score(target_prueba, y_prueba_pred)

print(f'Error Cuadrático Medio (MSE) en Prueba: {mse_val}')
print(f'R² en Prueba: {r2_val}')

Error Cuadrático Medio (MSE) en Prueba: 0.14355409122401702
R² en Prueba: 0.40185795323326257
