# Validacion Cruzada LOO-CV

El metodo *Leave-One_Out Cross-Validation (LOO-CV)* es una tecnica muy exhaustiva que pertenece a la familia de metodos de validacion cruzada de tipo *leave-p-out*. Consiste en entrenar el modelo utilizando todas menos una de las observaciones y luego se evalua el modelo en la observacion que quedo afuera. El proceso se repite tantas veces como el numero total de observaciones en el conjunto de datos, usando una muestra diferente como conjunto de prueba en cada iteracion.

## Ventajas

- Todos los datos, excepto uno, se utilizan para entrenar el modelo en cada iteracion, por lo que es una de las formas mas eficientes de usar el conjunto de datos disponibles

- Proporciona una estimacion robusta del modelo, ya que se entrena y evalua en casi todas las muestras posibles.

- Es ideal aplicar cuando el conjunto de datos es pequeno y cada muestra es valiosa. Ejemplo, en problemas medicos o biologicos donde hay pocas observaciones.

- Cuando las observaciones individales pueden tener un impacto significativo en el rendimiento del modelo, este metodo puede ser muy util porque evalua el modelo para cada muestra detallando su comportamiento en situaciones extremas.

- Evita el sobreajuste en ciertos casos, ya que al dejar solo una muestra para la prueba, se asegura que el modelo no vea esa muestra durante el entrenamiento. Esto reduce la probabilidad de ajustar excesivamente el modelo.

## Desventajas

- Es costoso computacionalmente especialmente para conjuntos de datos grandes.

- Puede generar una alta varianza debido a que el modelo se entrena con solo una observacion de prueba en cada iteracion. Los resultados pueden ser muy sensibles a la eleccion de esa muestra lo que puede introducir varianza en las estimaciones de rendimiento.

## Proceso de LOO-CV

#### 1.- Dividir los datos
Para un conjunto de datos de $n$ observaciones, se crean $n$ subconjuntos, cada uno de los cuales contiene todas las muestras excepto una.

#### 2.- Entrenamiento y evaluacion del modelo
Para cada iteracion $i$, el modelo se entrena con las $n-1$ observaciones y se evalua en la observacion que quedo fuera.

#### 3.- Repeticion del proceso
El proceso se repite  $n$ veces, utilizando una observacion como conjunto de prueba en cada iteracion

#### 4.- Promediar los resultados
La metrica de evaluacion se calcula promediando los resultados de las $n$ evaluaciones.

## Implementacion Manual

Vamos a implementar el metodo de forma manual en un modelo de regresion lineal utilizando el conjunto de datos de diabetes que viene incluido en Scikit-learn.

In [1]:
# metodos y librerias a utilizar
import numpy as np
import pandas as pd
from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

Procedemos a cargar los datos de diabetes

In [2]:
# cargar datos
diabetes = load_diabetes()

# Caracteristicas y variable objetivo
X, y = diabetes.data, diabetes.target

# mostrar los datos en un dataframe para mejorar visualizacion
diabetes_df = pd.DataFrame(data=diabetes.data, columns=diabetes.feature_names)
# agregar la variable objetivo al df
diabetes_df['target'] = diabetes.target
# mostrar dataframe
diabetes_df


Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
0,0.038076,0.050680,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019908,-0.017646,151.0
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068330,-0.092204,75.0
2,0.085299,0.050680,0.044451,-0.005671,-0.045599,-0.034194,-0.032356,-0.002592,0.002864,-0.025930,141.0
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022692,-0.009362,206.0
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031991,-0.046641,135.0
...,...,...,...,...,...,...,...,...,...,...,...
437,0.041708,0.050680,0.019662,0.059744,-0.005697,-0.002566,-0.028674,-0.002592,0.031193,0.007207,178.0
438,-0.005515,0.050680,-0.015906,-0.067642,0.049341,0.079165,-0.028674,0.034309,-0.018118,0.044485,104.0
439,0.041708,0.050680,-0.015906,0.017282,-0.037344,-0.013840,-0.024993,-0.011080,-0.046879,0.015491,132.0
440,-0.045472,-0.044642,0.039062,0.001215,0.016318,0.015283,-0.028674,0.026560,0.044528,-0.025930,220.0


Inicializamos el modelo, creamos las listas para almacenar las metricas y definimos el numero total de observaciones

In [8]:
# inicializar modelo de regresion lineal
model = LinearRegression()

# lista para almacenar la metrica
mse_score = []
# lista para almacenar las predicciones
predicciones = []

# numero total de observaciones
n_obs = X.shape[0]

Ahora, aplicamos el proceso de LOO-CV de forma manual

In [9]:
# 3.- Repeticion del proceso
for i in range(n_obs):
    
    # 1.- Dividir los datos
    # seleccionar la muestra i como conjunto de prueba
    X_test = X[i, :].reshape(1, -1)
    y_test = y[i]
    
    # seleccionar todas las demas como conjunto de entrenamiento
    X_train = np.delete(X, i, axis=0)
    y_train = np.delete(y, i, axis=0)
    
    # 2.- Entrenamiento y evaluacion del modelo
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    predicciones.append(y_pred[0])
    mse = mean_squared_error([y_test], y_pred)
    mse_score.append(mse)
    
# 4.- Promediar resultados
mean_mse = np.mean(mse_score)
# calcular r2 sobre todas las predicciones
r2 = r2_score(y, predicciones)

# mostrar promedio de los resultados
print(f'Promedio del Error cuadratico medio: {mean_mse}')
print(f'R-cuadrado Global: {r2}')

Promedio del Error cuadratico medio: 3001.746231732946
R-cuadrado Global: 0.4937935079824348


De esta forma, obtenemos una evaluacion del modelo mucho mas precisa.

## Implementacion con Python

Para aplicar el metodo de forma directa, lo importamos de la libreria Scikit-learn. Veamos como implementarlo en los datos del ejemplo anterior: X e y

In [12]:
# importamos librerias requeridas
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import LeaveOneOut, cross_val_score
from sklearn.metrics import make_scorer, mean_squared_error, r2_score

Inicializamos el modelo, el objeto LeaveOneOut y definimos el scorer para el MSE el cual indica a *cross_val_score* que calcule el error cuadratico medio durante cada particion

In [13]:
# modelo
model = LinearRegression()

# LeaveOneOut
loo = LeaveOneOut()

# scorer para el MSE
mse_scorer = make_scorer(mean_squared_error)