## Ejemplo 4: Validación cruzada

### 1. Objetivos:
    - Aplicar la validación cruzada para evaluar un modelo predictivo
 
---
    
### 2. Desarrollo:

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
df = pd.read_csv('../../Datasets/diabetes-clean.csv', index_col=0)

df.head()

Unnamed: 0,pregnancies,glucose,blood_pressure,skin_thickness,insulin,bmi,diabetes_pedigree_function,age,outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [3]:
df = df.drop(columns=['outcome'])

In [4]:
X = df[['glucose', 'skin_thickness']]
y = df['insulin']

### Validación Cruzada de K-Iteraciones

Hay muchas maneras de aplicar esta técnica. El algoritmo que vamos a aprender hoy se llama Validación Cruzada de K-Iteraciones. Consta de los siguientes pasos:

1. Tomamos nuestro dataset y lo revolvemos aleatoriamente.

2. Decidimos un número `K` que va a ser el número de subdivisiones en el que vamos a dividir a nuestro dataset.

3. Para el primer entrenamiento, dejamos fuera la primera sección. Entrenamos usando la secciones restantes, probamos el modelo entrenado con la primera sección y evaluamos su desempeño.

4. Volvemos a entrenar nuestro modelo, pero esta vez dejando fuera la segunda sección como dataset prueba. Entrenamos, probamos con la segunda sección y evaluamos el desempeño del modelo.

5. Repetimos el proceso `K` veces. En cada iteración dejamos la sección siguiente como dataset de prueba.

6. Tomamos todas las evaluaciones de los `K` entrenamientos (que en el caso de una Regresión Lineal Múltiple podrían ser coeficientes de determinación) y sacamos el promedio y la desviación estándar. Esto servirá como una medida del "valor típico" de desempeño y la incertidumbre que tiene nuestro modelo.

In [5]:
from sklearn.model_selection import cross_validate
from sklearn.linear_model import LinearRegression

lr = LinearRegression()

In [6]:
scores = cross_validate(lr, X, y, scoring='r2')

In [7]:
scores

{'fit_time': array([0.00990915, 0.00205898, 0.00215578, 0.002069  , 0.00138402]),
 'score_time': array([0.00160193, 0.00093126, 0.00105429, 0.00079727, 0.00059485]),
 'test_score': array([0.36309888, 0.26517203, 0.29784786, 0.16315445, 0.26375667])}

Obtenemos la evaluación del modelo usando el promedio y la desviación estándar de los scores obtenidos:

In [8]:
print(f'Score del modelo: {scores["test_score"].mean():.3f} +/- {scores["test_score"].std():.3f}')

Score del modelo: 0.271 +/- 0.065
