# Datos de Entrenamiento, Validación y Prueba

- Para este proposito, normalmente se separan los datos en tres(3).

> 1. Datos de entrenamiento.
    >> Crear el modelo de aprendizaje de máquina.
>
> 2. Validación.
>
> 3. Prueba
>
- Vamos a ver de que va esto:
> 1. Imaginemos que tenemos cierto conjunto de instancias, cien(100) por ejemplo. Y que vamos a entrenar un modelo de aprendizaje de máquina **"redes neuronales"**. Si entrenamos esa red neuronal con esas 100 instancias y probamos esa red neuronal con algunas de esas instancias, lo más seguro es que los resultados que tengamos con este modelo sean los mejores.
    >> **¿Porque?** - Si vamos a una analogía en la que vamos a hacer un exámen de entrevista y de este conocemos todas las respuestas a su solución, lo más seguro es que nos vaya muuuuuuuuy bien en dicho exámen.
>
    >> Entonces es como si la red neuronal hubiera memorizado todas las preguntas con sus respectivas respuestas pero, si por algún motivo, le hacen una pregunta que no conocia o no fue usada dentro de los datos de entrenamiento, lo más probable es que la red neuronal no sea capaz de responder a la pregunta.
>
    >> De acá deriva la idea de tener separados los datos de pruebas.
>
- Ahora vamos a ver entonces incluyendo un conjunto de datos más, que sucede.
> 2. Tenemos un conjunto de datos del 100%. **Los dividimos en 2 partes donde el 80% de los datos son los datos de entrenamiento y el 20% restante son los datos de prueba.** Recordemos que estos datos deben ser excluyentes entre sí.
    >> Ahora en este caso, la red neuronal estaría estudiando del conjunto de datos de entrenamiento y probando del conjunto de datos de prueba.
>
    >> Esto da una representación más exacta de que tan bueno puede llegar a ser nuestro modelo, al generalizar ante nuevas instancias.
>
    >> Claro está que en este caso, ya al modelo quizá no le vaya tan bién en comparación con la idea anterior, ya que el modelo se está probando con instancias que no conoce.
>
- Ahora vamos a incluir otro conjunto de datos.
> 3. Ahora digamos que tenemos el conjunto de datos dividido en tres. **Donde tenemos el 60% de los datos son de entrenamientio, un 20% para las pruebas y el otro 20% para la validación.**
    >> Este es usado cuándo queremos hacer una validación mas robusta de nuestro modelo.
>
    >> Recordemos que una red neuronal tiene muchos hiperparámetros. Que sería como el número de capas de neuronas que conforman una red neuronal y dentro de cada una de esas capas tenemos un número determinado de neuronas.
>
    >> Con el conjunto de validación, ajustamos todos los hiperparámetros de nuestro modelo y presentamos un nuevo conjunto de pruebas cuando se hayan definido los hiperparámetros del modelo.
>
    >> Por lo que podemos ver que nuestro modelo ya no le va tan bién al resolver las preguntas. Pero, en este caso, vemos que podemos tener valores de métricas que son más cercanas a la realidad y reflejan la capacidad de generalización de nuestro modelo.
>
- Ahora, vamos a ver con la creación de un modelo en la vida real, que porcentaje realmente debemos usar en cada uno de ellos.
> No es de conocimiento muy exacto y depende mucho del contexto pero, podemos tener una guia que nos de una idea aproximada de los porcentajes que podemos usar.
    >> Entrenamiento    Validación     Prueba
            60%             20%          20%
            80%             10%          10%
            75%             15%          10%
            75%             0%           25%
            80%             0%           20%
            70%             0%           30%

>
>
# Ahora sí, vamos a ver esto en código

### Vamos a usar los datos con la siguiente separación
#### 60% Entrenamiento, 20% Validación y 20% Prueba

- Hacemos la importación de la librería a usar y nos traemos el archivo de datos
- Veremos que usamos una libreria llamada **train_test_split**, que solo usa entrenamiento y prueba. Como podemos recordar, si los datos no tienen hiperparametros que ajustar, no es necesario usar la validación por lo que no hay un método específico para separarlos en los 3 conjuntos de datos. Sin embargo, para este ejemplo vamos a usar los 3 métodos.

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split

pacientes = pd.read_csv("../Datos de entrada/problemas_del_corazon.csv")
pacientes

Unnamed: 0,edad,genero,presion,colesterol,diabetico,cardiaco
0,53,0,128,216,0,1
1,53,0,138,234,0,1
2,51,0,130,256,0,1
3,66,1,120,302,0,1
4,62,1,130,231,0,1
...,...,...,...,...,...,...
95,57,1,128,229,0,0
96,61,1,120,260,0,0
97,39,1,118,219,0,0
98,61,0,145,307,0,0


- Entonces, tenemos un conjunto de datos con 100 registros(instancias) en 6 columnas.
- Vamos a asumir que las **primeras 5 columnas** son las columnas con las características con las que vamos a entrenar un modelo.
- Vamos a asumir que la **última columna** será la clase objetivo. Vamos a asumir que es una clasificación.

#### Ahora, vamos a hacer la separación de los datos
> Veremos que esto nos regresará 4 conjuntos de datos.
    >> Nos entrega los datos de entrenamiento y los datos de prueba
    >> Nos entrega la clase de entrenamiento y la clase de prueba.

In [8]:
resto, prueba, resto_clase, prueba_clase = train_test_split(
    pacientes[["edad", "genero", "presion", "colesterol", "diabetico"]],
    pacientes["cardiaco"], test_size = 0.20)

#resto
#prueba
#resto_clase
prueba_clase

72    0
73    0
16    1
59    0
66    0
8     1
69    0
43    1
7     1
24    1
19    1
45    1
61    0
36    1
25    1
27    1
78    0
84    0
89    0
0     1
Name: cardiaco, dtype: int64

- Si vemos el resultado de la ejecución para resto por ejemplo, tenemos las 5 columnas destinadas para ello y a demás vemos que, los indices de los registros estan de manera aleatoria. Y a demás tenemos 80 registros.
- Si vemos el resultado de la ejecucion de prueba, veremos que tenemos efectivamente 20 registros para las mismas 5 columnas y que a demás su id es aleatorio.
- En resto_clase, vemos una serie de pandas donde tenemos una longitud de 80 y que a demás tiene el nombre de nuestra variable objetivo.
- Ya logramos hacer la separación de los datos de prueba, lo que nos falta es hacer la separación de los datos de validación y entrenamiento ya que aun están todos ahí mismo en resto.

In [13]:
entrena, valida, entrena_clase, valida_clase = train_test_split(
    resto[["edad", "genero", "presion", "colesterol", "diabetico"]],
    resto_clase, test_size = 0.25)

# Porque ponemos 0.25? -> Bueno, acá en los datos tenemos 80 registros y el 25% de 80 es 20. Con esto, garantizamos que se pongan 20 registros en valida y 60 registros en entrena.

#entrena
#entrena.shape[0]
#valida
valida.shape[0]

20

### Con esto, ya tenemos la separación aleatorizada de los datos en dentrenamiento y los datos de validación y prueba.