# Validación Cruzada

- Supongamos que tenemos un modelo y que este modelo, lo creamos con la totalidad de los datos que tenemos.
- Se utilizan datos de entrenamiento y de prueba.
- Los datos de entrenamiento son lo que se utilizan para crear el modelo y los datos de pruebas serán para probar el modelo.
- También es muy común que tengamos datos de entrenamiento y de validación.
- Los datos de validación recordemos que nos permiten ajustar los hiperparámetros de un modelo.
> Si suponemos que tenemos un modelo de **redes neuronales**. Un hiperparámetro de este modelo son por ejemplo **el número de neuronas y el número de capas que podría tener la red neuronal**.
>
    >> Entonces, creamos nuestro modelo de ML con los datos de entrenamiento y, con los datos de validación ajustamos esos parámetros. Qué tantas capas y qué tantas neuronas.
>
    >> Una vez encontrada la estructura idónea de nuestro modelo de ML, ahora sí, lo evaluamos con el conjunto de datos de prueba. Que serían datos que nunca ha visto nuestro modelo de ML.
>
>
### Evaluación con validación cruzada.
- Los datos disponibles son subdivididos en grupos o pliegues.
- **Supongamos que tenemos 5 grupos**.
- Los primeros 4 grupos son usados como el conjunto de datos de entrenamiento y el quinto grupo, es usado para evaluar el modelo. Esto es para la iteración 1.
- Para la iteración 2, tenemos 4 pliegues y un quinto pliegue pero diferente es usado para evaluar el modelo. Por ejemplo los primeros tres y el quinto son los datos de entrenamiento y el cuarto pliegue es para la evaluación del modelo.
- En la iteracion 3 tenemos el mismo caso pero, los primeros 2 y los dos últimos serían para el entrenamiento y el tercer grupo sería para la evaluación.
- Y asi continua para la iteración 4 y 5 hasta que ha sido usado cada uno de los subgrupos para evaluar el modelo.
> Ahora, la evaluación del desempeño del modelo es igual a la suma de todas las evaluaciones obtenidas para cada una de las iteraciones dividido entre el numero de iteraciones que en este caso es 5.

# Evaluación de Modelos
### Validación cruzada (Cross-Validation)

In [2]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
# podiamos usar cualquier tecnida de clasificación

In [3]:
# Traemos nuestros datos
personas = pd.read_csv("./salario.csv")
personas

Unnamed: 0,edad,estudio,ingreso
0,27,9,0
1,30,9,0
2,34,8,0
3,26,13,0
4,23,4,0
...,...,...,...
95,32,13,1
96,20,10,0
97,46,3,0
98,37,9,0


In [4]:
# Creamos nuestro bosque aleatorio
bosque = RandomForestClassifier()

# Ajustamos el modelo a los datos
bosque.fit(personas[["edad", "estudio"]].values,
           personas["ingreso"].values)

# Evaluamos el modelo(con los mismos datos que fueron usados para crearlo). Esto nos va a dar un valor de clasificación muy alto. Por lo que son las mismas preguntas(datos) que estudio el modelo. Es decir, las mismas preguntas que estudio el estudiante.
print(bosque.score(personas[["edad", "estudio"]].values,
                   personas["ingreso"].values))

0.97


In [9]:
# Ahora vamos a ver como se comporta el modelo usando validación cruzada. Como se comporta siendo entrenado ante instancias que nunca ha visto.
print(cross_val_score(bosque,
                      personas[["edad", "estudio"]].values,
                      personas["ingreso"].values,
                      cv = 5))

print(cross_val_score(bosque,
                      personas[["edad", "estudio"]].values,
                      personas["ingreso"].values,
                      cv = 5).mean())

[0.8  0.9  0.7  0.65 0.8 ]
0.7699999999999999
