# Validacion Cruzada

Es una tecnica de evaluacion del rendimiento de los modelos de Machine Learning que se utiliza para evaluar como se desempeña un modelo ante un conjunto de datos que no ha visto.

La idea principal es dividir los datos en varios subconjuntos, entrenar el modelo en algunos de estos subconjuntos y probarlo en los subconjuntos restantes.

## Tipos de Validacion Cruzada

Existen diferentes tipos de validacion cruzada que puede aplicarse a cualquier modelo de Machine Learning para evaluarlo. Entre los mas comunes tenemos:

1.- Validacion de Retencion Simple (Hold-Out Validation)

2.- Validacion Cruzada (Cross-Validation)

3.- Validacion Cruzada K-Fold

4.- Validacion Cruzada Estratificada (Stratified K-Fold Cross-Validation)

5.- Validacion Cruzada Leave-One-Out (LOOCV)

6.- Validacion Cruzada Leave-P-Out (LPOCV)

7.- Bootstrap

8.- Validacion Cruzada de Grupos.

En lo que sigue, vamos a desarrollar algunas de estas tecnica para entender su implementacion.

# 1.- Hold-Out Validation

Es la tecnica mas comun utilizada para entrenar y probar el modelo. Consiste en dividir los datos en dos partes: uno para entrenamiento y otro para prueba. El proceso general es el siguiente:

1.- **Dividir los datos**: Los datos se dividen en dos partes, generalmente una proporcion de 70-80% para entrenamiento y 20-30% para prueba.

2.- **Entrenar el modelo**: el modelo se entrena utilizando solo el conjunto de entrenamiento.

3.- **Evaluar el modelo**: el modelo entrenado se evalua en el conjunto de prueba para medir su rendimiento.

Su facilidad para implementar y entender y su bajo costo computacional hacen de esta tecnica una de las favoritas. 

Su desventaja es que el rendimiento del modelo puede variar significativamente dependiendo de como se dividen los datos; ademas, no todos los datos se utilizan para entrenar el modelo lo cual es un problema para conjuntos de datos pequeños.

## Implementacion de Hold-Out Validation

Vamos a crear un conjunto de datos simple para aplicar la hold-out validation manualmente

In [10]:
# librerias
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error,r2_score

Generamos datos aleatorios

In [2]:
# semilla
np.random.seed(42)

# 5 variables predictoras
X = pd.DataFrame({
    'var_1': np.random.rand(100),
    'var_2': np.random.rand(100),
    'var_3': np.random.rand(100),
    'var_4': np.random.rand(100),
    'var_5': np.random.rand(100),
})

# variable objetivo
# relacionada con algunas variables predictoras de manera lineal
y = 3*X['var_1'] + 2*X['var_2'] + X['var_3'] + np.random.rand(100)

La variable objetivo 'y' esta relacionada de manera lineal con las variables var_1, var_2 y var_3. De esta manera podemos tener certeza sobre los resultados esperados. Ahora realizamos el proceso de Hold-Out Validation

### **1.- Dividir los datos**
Dividimos los datos en conjunto de entrenamiento y de prueba. Para datos de entrenamiento le asignamos una proporcion del 80% y para datos de prueba, un 20%.

In [4]:
# proporcion de datos de entrenamiento
ratio_train = 0.8
# tamaño de los datos de entrenamiento
tam_train = int(len(X)*ratio_train)

Mezclamos los indices de las observaciones aleatoriamente para asegurar una distribucion aleatoria de los datos.

In [5]:
# genera una permutacion aleatoria de los indices de las filas del df X
mez_indices = np.random.permutation(len(X))

# seleccion de indices mezclados del conjunto de entrenamiento
train_indices = mez_indices[:tam_train]
# seleccion de indices mezclados del conjunto de prueba
test_indices = mez_indices[tam_train:]

Asignamos los valores de las variables predictoras previamente seleccionadas por los indices al conjunto de entrenamiento y de prueba

In [7]:
# variables predictoras de entrenamiento y prueba
X_train, X_test = X.iloc[train_indices], X.iloc[test_indices]
# variable objetivo de entrenamiento y prueba
y_train, y_test = y.iloc[train_indices], y.loc[test_indices]

### **2.-  Entrenar el modelo**
Creamos un modelo de regresion lineal, debido a la relacion lineal entre las variables predictoras y la variable objetivo, y los entrenamos con los datos de entrenamiento.

In [8]:
# creacion del modelo
model = LinearRegression()
# entrenamiento del modelo con los datos de entrenamiento
model.fit(X_train, y_train)

LinearRegression()

### **3.- Evaluar el modelo**
Para evaluarlo, obtenemos las predicciones con los datos de entrenamiento y de prueba y calculamos las metricas del modelo para comparar su desempeño con los datos de entrenamiento y con datos de prueba.

In [12]:
# predicciones con datos de entrenamiento
y_train_pred = model.predict(X_train)
# predicciones en el conjunto de prueba
y_test_pred = model.predict(X_test)

# R cuadrado para datos de entrenamiento
# pasamos las predicciones (y_train_pred) y los valores de entrenamiento reales (y_train)
r2_train = r2_score(y_train, y_train_pred)
# MSE para datos de entrenamiento
mse_train = mean_squared_error(y_train, y_train_pred)

# R cuadrado para datos de prueba
# pasamos las predicciones (y_test_pred) y los valores de prueba reales (y_train)
r2_test = r2_score(y_test, y_test_pred)
# MSE para datos de prueba
mse_test = mean_squared_error(y_test, y_test_pred)

# mostrar resultados
print(f'R^2 en datos de entrenamiento: {round(r2_train,4)}')
print(f'MSE en datos de entrenamiento: {round(mse_train,4)}')
print(f'R^2 en datos de prueba: {round(r2_test,4)}')
print(f'MSE en datos de prueba: {round(mse_test,4)}')



R^2 en datos de entrenamiento: 0.9327
MSE en datos de entrenamiento: 0.0842
R^2 en datos de prueba: 0.937
MSE en datos de prueba: 0.047


De esta manera vemos como se desempeña el modelo en el entrenamiento y en presencia de nuevo datos. Las metricas muestran que los valores de R cuadrado son muy similares en ambos caso lo que implica una buena generalizacion del modelo

### Importar librerias

In [1]:
import pandas as pd
import numpy as np
import io

### Cargar datos

In [2]:
df = pd.read_csv('./cancerdata.csv')
df

Unnamed: 0,id,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,...,radius_worst,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst
0,842302,M,17.99,10.38,122.80,1001.0,0.11840,0.27760,0.30010,0.14710,...,25.380,17.33,184.60,2019.0,0.16220,0.66560,0.7119,0.2654,0.4601,0.11890
1,842517,M,20.57,17.77,132.90,1326.0,0.08474,0.07864,0.08690,0.07017,...,24.990,23.41,158.80,1956.0,0.12380,0.18660,0.2416,0.1860,0.2750,0.08902
2,84300903,M,19.69,21.25,130.00,1203.0,0.10960,0.15990,0.19740,0.12790,...,23.570,25.53,152.50,1709.0,0.14440,0.42450,0.4504,0.2430,0.3613,0.08758
3,84348301,M,11.42,20.38,77.58,386.1,0.14250,0.28390,0.24140,0.10520,...,14.910,26.50,98.87,567.7,0.20980,0.86630,0.6869,0.2575,0.6638,0.17300
4,84358402,M,20.29,14.34,135.10,1297.0,0.10030,0.13280,0.19800,0.10430,...,22.540,16.67,152.20,1575.0,0.13740,0.20500,0.4000,0.1625,0.2364,0.07678
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,926424,M,21.56,22.39,142.00,1479.0,0.11100,0.11590,0.24390,0.13890,...,25.450,26.40,166.10,2027.0,0.14100,0.21130,0.4107,0.2216,0.2060,0.07115
565,926682,M,20.13,28.25,131.20,1261.0,0.09780,0.10340,0.14400,0.09791,...,23.690,38.25,155.00,1731.0,0.11660,0.19220,0.3215,0.1628,0.2572,0.06637
566,926954,M,16.60,28.08,108.30,858.1,0.08455,0.10230,0.09251,0.05302,...,18.980,34.12,126.70,1124.0,0.11390,0.30940,0.3403,0.1418,0.2218,0.07820
567,927241,M,20.60,29.33,140.10,1265.0,0.11780,0.27700,0.35140,0.15200,...,25.740,39.42,184.60,1821.0,0.16500,0.86810,0.9387,0.2650,0.4087,0.12400


### Seleccion de variables predictoras y objetivo

In [4]:
# dividimos las variables en predictoras y objetivo

# variables predictoras
X = df.iloc[:,2:]

# variable objetivo
y = df.iloc[:,1]

In [5]:
X.head()

Unnamed: 0,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,symmetry_mean,fractal_dimension_mean,...,radius_worst,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


In [6]:
y.head()

0    M
1    M
2    M
3    M
4    M
Name: diagnosis, dtype: object

### Distribucion de la variable objetivo

In [7]:
y.value_counts()

B    357
M    212
Name: diagnosis, dtype: int64

Vemos que hay muchas representaciones de ambas clases (Benigno y Maligno) lo cual es de suma importancia para un problemas de clasificacion ya que se podria entrenar un modelo de clasificacion de forma correcta

### Entrenar el modelo

In [8]:
# importar arbol de decision
from sklearn.tree import DecisionTreeClassifier
# importar libreria para dividir los datos
from sklearn.model_selection import train_test_split

In [9]:
# datos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=4)

# creacion del modelo
modelo = DecisionTreeClassifier()

# entrenamiento del modelo
modelo.fit(X_train, y_train)

# score del modelo
result = modelo.score(X_test, y_test)
result

0.9005847953216374

### Validacion cruzada k-Fold con Arbol de Decision 

In [10]:
# importamos validacion k-fold
from sklearn.model_selection import KFold

In [11]:
# crear modelo
modelo = DecisionTreeClassifier()

# numeros de muestras deseado. (habitualmente son 10)
kfold_validacion = KFold(10)

In [12]:
# importamos el score de la validacion cruzada
from sklearn.model_selection import cross_val_score

# score de la validacicon cruzada para el modelo de arbol de decision
resultados = cross_val_score(modelo, X, y, cv=kfold_validacion)
resultados

array([0.9122807 , 0.9122807 , 0.89473684, 0.94736842, 0.89473684,
       0.98245614, 0.9122807 , 0.96491228, 0.98245614, 0.92857143])

In [13]:
# obtenemos el promedio de los resultados
resultados.mean()

0.9332080200501253

### Valiacion cruzada k-Fold con Random Forest

In [14]:
# importamos el modelo de bosque aleatorio
from sklearn.ensemble import RandomForestClassifier

In [16]:
# crear modelo 
modelo_random_tree = RandomForestClassifier()

# numeros de muestras deseado. (habitualmente son 10)
kfold_validacion = KFold(10)

# score de la validacion cruzada para un modelo de bosque aleatorio
resultados_forest = cross_val_score(modelo_random_tree, X, y, cv=kfold_validacion)
resultados_forest

array([0.9122807 , 0.9122807 , 0.89473684, 0.98245614, 0.96491228,
       0.98245614, 0.96491228, 0.96491228, 0.98245614, 1.        ])

In [17]:
# obtenemos el promedio de los resultados
resultados_forest.mean()

0.956140350877193

Vemos que al utilizar un modelo de random forest tenemos mejores resultados que usando arbol de decision.

La validación cruzada es muy potente cuando usamos hiperparámetros en nuestros modelos, ya que aumenta la precisión considerablemente. Sin embargo es buena práctica balancear los datos, ya que en la vida real pasa siempre que tenemos una clase mayoritaria. La evalución con una matriz de decisión es sumamente importante para detetectar falsos positivos y faltos negativos en nuestro modelo.