# Validación cruzada

La validación cruzada o cross-validation es una técnica que permite evaluar el desempeño de un modelo de aprendizaje automático.

Ya sabemos que el entrenar un modelo con un conjunto de datos y probarlos en el mismo conjunto de datos es un error, es por eso que usualmente dividimos los datos en dos conjuntos: entrenamiento y prueba.

Es útil porque en lugar de dividir los datos en dos conjuntos estáticos de entrenamiento y prueba como normalmente estamos acostumbrados, esta técnica divide los datos en múltiples conjuntos llamados “<i>folds”</i> en inglés. 

Supongamos que tienes estos datos. Lo que hace crossvalidation es dividirlos en N grupos de tamaño más o menos similar.

Entonces la distribución de los datos queda así:

Después se va iterando sobre todas las combinaciones de estos datos, utilizando un conjunto de entrenamiento diferente para cada iteración y evaluando también sobre un conjunto diferente a cada vez. Esto nos va a dar como resultado N medidas de qué tan bueno es nuestro algoritmo.

Este método de entrenamiento es útil para tener una mejor estimación del modelo en datos no vistos, esto cobra mayor relevancia cuando no tenemos un conjunto de datos de gran tamaño.

El método por excelencia para aplicar y calcular la validación cruzada en scikit-learn es la función <code>cross_val_score</code>.

## La función <code><b>cross_val_score</b></code>

Una de las formas más fáciles de utilizar la validación cruzada es a través de la función <code>cross_val_score</code>. Esta es una función que entrena y prueba un modelo en todos y cada uno de los folds generados por la validación cruzada.

Lo que sucede dentro de la función es que a cada iteración se crea un y se entrena un nuevo modelo, luego se evalúa y la calificación que recibe se guarda en un arreglo. Arreglo que será regresado como resultado de la función.

Para verlo con un ejemplo, vamos a cargar un dataset y un modelo de machine learning. En una lección a futuro vamos a ver modelos mas a detalle, por ahora, simplemente ejecuta el código:

In [None]:
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier

In [None]:


iris_dataset = load_iris()
X, y = iris_dataset.data, iris_dataset.target

X[:10]

Ahora si, para usar <code>cross_val_score</code> hay que importar la función de <code>sklearn.model_selection</code>:

In [None]:
from sklearn.model_selection import cross_val_score

Y procedemos a usarla pasando como argumentos el modelo sin entrenar, los datos de entrada y la etiqueta:

In [None]:
model = RandomForestClassifier()

scores = cross_val_score(model, X, y, cv=5)

Dependiendo del tamaño de tus datos la función se puede tardar un poco de tiempo.

Recuerda lo que está sucediendo internamente, tus datos están siendo divididos en 5 segmentos, valor que en este caso estamos estableciendo con el argumento <code>cv</code>. Cada uno de estos segmentos será usado para probar el desempeño de un modelo entrenado en los segmentos restantes.

Si visualizamos el resultado de la función verás 5 valores.

In [None]:
scores

Cada uno de estos valores representa el puntaje del modelo en cada uno de estos segmentos de validación cruzada. En este caso, el modelo obtuvo un puntaje alto en la mayoría de los segmentos, lo que sugiere que el modelo que le pasamos a la función tiene un desempeño aceptable.

### ¿Cómo le hago para entrenar un modelo con <code>cross_val_score</code>?

Si bien la función entrena modelos, solamente lo realiza con la finalidad de evaluar el desempeño. Si todas las puntuaciones que te devolvió la función son aceptables, puedes proceder a entrenar un modelo final utilizando todos tus datos de entrenamiento, ese sería el modelo que tendrías que probar con tu conjunto de pruebas y posteriormente pasar a producción.

In [None]:
model.fit(X, y)

## Otros argumentos

Los argumentos base de la función son el estimador, o el modelo a probar, las variables de entrada y la etiqueta. Opcionalmente podemos especificar cuántos segmentos queremos utilizando el argumento <code>cv</code> pasándole un número entero.

Te estarás preguntando, ¿qué métrica está utilizando para medir el desempeño? – por default, <code>cross_val_score</code>
 utiliza una métrica de evaluación específica del estimador en cuestión. Por ejemplo, para un clasificador de regresión logística, la métrica predeterminada es la exactitud (<code>accuracy</code>), mientras que para un modelo de regresión, la métrica predeterminada es el coeficiente de determinación R-cuadrado (<code>R^2</code>). Sin embargo, se puede especificar una métrica diferente a través del argumento <code>scoring</code> si se desea utilizar una medida de evaluación diferente a la predeterminada.

Por ejemplo, digamos que quieres utilizar 6 segmentos y en lugar de utilizar <code>accuracy</code>, nos interesa más saber la precisión del modelo. Tendríamos que llamar a <code>cross_val_score</code> así:

In [None]:
model = RandomForestClassifier()

scores = cross_val_score(model, X, y, cv = 6, scoring='precision_macro', verbose = 3)

Si te das cuenta, también estoy especificando <code>verbose</code> igual a 3, que controla la cantidad de información que se imprime durante la validación cruzada. Un valor mayor de <code>verbose</code> imprime más información, mientras que un valor menor imprime menos información. Útil para cuando quieres saber qué es lo que está sucediendo.

## La función <code><b>cross_validate</b></code>

Existe otra función aún más genérica que <code>cross_val_score</code> pero que recibe los mismos argumentos. La gran diferencia entre ellos es que <code>cross_validate</code> permite especificar varias métricas para evaluar y regresa más información:

In [None]:
from sklearn.model_selection import cross_validate

In [None]:
model = RandomForestClassifier()

scores = cross_validate(model, X, y, cv = 6, 
	scoring=[
		'precision_macro', 
		'precision_micro',
		'accuracy'
	],
	verbose = 3)

Y el resultado es un diccionario con más información:

In [None]:
for key, values in scores.items():
    print(key)
    print(values)

Y pues ahí lo tienen, esta lección se trató sobre la validación cruzada y cómo es que se puede usar en scikit-learn, recuerda que esta es una técnica importante en aprendizaje automático y se recomienda utilizarla siempre que sea posible. Sin embargo, es importante tener en cuenta la complejidad computacional y los recursos que se consumirían cuando estemos trabajando con una gran cantidad de información. 

Es por eso que la validación cruzada es especialmente útil cuando se dispone de un conjunto de datos pequeño y se desea estimar el rendimiento de un modelo de forma fiable.