## Validacion cruzada
<br> La validación cruzada sirve para verificar que un modelo no overfitteo sus parametros a un cierto set de datos. Consiste en dividir el set de datos en varias particiones, usando, en cada iteracion, una particion como test y el resto com train, luego obteniendo el promedio de los scores de cada modelo correspondiente a cada iteración. Existen dos tipos de validacion cruzada: no exhaustiva y exhaustiva.<br>
<li>
<ul> $\textbf{Validación cruzada exhaustiva}$: Se exploran todas las posibles maneras en las que el set puede ser dividido en training y test sets. Ejemplo: Leave-One-Out-Cross Validation (LOOCV).</ul>
<ul> $\textbf{Validación cruzada no exhaustiva}$: Se divide el set de datos en una cierta cantidad de particiones y se utiliza, al menos una vez, cada particion como test set. Ejemplo: K-Fold-Cross Validation y Holdout- Crossvalidation.</ul>
</li>



### Hold Out cross validation
<br> Se basa simplemente en dividir el set de datos en dos, un training set y test set. Es la manera mas simple de hacer validación cruzada, pero tambien la que implica menor imparcialidad del modelo. <br>
<br> Una manera sencilla y rapida de implementarlo es con la funcion de sklearn.model_selection train_test_split, la cual separa un set de datos aleatoriamente en set de training y otro set de test.<br>

In [5]:
#ejemplo usando el data set iris de sklearn, viendo el score de una regresion logistica.
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns = iris.feature_names)
iris_df['Specie'] = iris.target 
iris_df.head(5)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Specie
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [6]:
from sklearn.model_selection import train_test_split
seed = 10012
x_train, x_test, y_train, y_test = train_test_split(iris_df.drop(['Specie'], axis=1), iris_df['Specie'], test_size = 0.2, random_state = seed)
print('Tamaño del set de train : {0}'.format(y_train.size))
print('Tamaño del set de test : {0}'.format(y_test.size))

Tamaño del set de train : 120
Tamaño del set de test : 30


In [7]:
print('Muestra del set de train: \n {0}\nLabels train:\n{1}'.format(x_train.head(5), y_train.head(5)))

Muestra del set de train: 
      sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
90                 5.5               2.6                4.4               1.2
144                6.7               3.3                5.7               2.5
45                 4.8               3.0                1.4               0.3
137                6.4               3.1                5.5               1.8
30                 4.8               3.1                1.6               0.2
Labels train:
90     1
144    2
45     0
137    2
30     0
Name: Specie, dtype: int64


In [8]:
print('Muestra del set de test: \n {0}\nLabels test:\n{1}'.format(x_test.head(5), y_test.head(5)))

Muestra del set de test: 
      sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
74                 6.4               2.9                4.3               1.3
54                 6.5               2.8                4.6               1.5
35                 5.0               3.2                1.2               0.2
24                 4.8               3.4                1.9               0.2
135                7.7               3.0                6.1               2.3
Labels test:
74     1
54     1
35     0
24     0
135    2
Name: Specie, dtype: int64


In [9]:
from sklearn.linear_model import LogisticRegression
log_reg = LogisticRegression()
log_reg.fit(x_train, y_train)
score_lr = log_reg.score(x_test, y_test)
print('La exactitud del modelo de regresion logistica fue: {0}%'.format(score_lr*100))
print('True:{0}'.format(y_test.ravel()))
print('Pred:{0}'.format(log_reg.predict(x_test)))

La exactitud del modelo de regresion logistica fue: 96.66666666666667%
True:[1 1 0 0 2 0 0 2 2 0 2 0 2 1 0 0 2 2 2 2 1 0 0 2 1 1 2 2 2 0]
Pred:[1 1 0 0 2 0 0 2 2 0 2 0 2 1 0 0 2 2 2 2 1 0 0 2 1 1 2 1 2 0]



### K-Fold cross validation
<br> La validación cruzada K-Folf es utilizada para evaluar diferentes modelos para un set de datos limitado. Se basa en dividir el set de datos en K grupos y generar un modelo usado cada uno de los grupos $K_{i}$ como test y el resto $K-1$ de los fold como train, usando asi todos los $K_{i}$ al menos una vez como test. Se guardan los scores cometidos por cada modelo para ser promediadas o combinadas para llegar a un resultado singular. Por lo general, usar K entre 5 y 10 es una medida aceptada. <br> 
<br> La funcion de sklearn.model_selection cross_val_score es la manera mas sencilla de implementar este metodo.  <br>  

In [14]:
#Viendo el score del modelo logistico con k-Fold de k = 10
from sklearn.model_selection import cross_val_score
import numpy as np

X = iris_df.drop('Specie', axis=1)
Y = iris_df['Specie']
k = 10
score = cross_val_score(log_reg, X, y=Y, cv=k)
print('El score del modelo logistico calculado con un K-Fold de k = 10 es : {0}%'.format(np.mean(score)*100))

El score del modelo logistico calculado con un K-Fold de k = 10 es : 0.9533333333333334%El score del modelo logistico calculado con un K-Fold de k = 10 es : 0.9533333333333334%El score del modelo logistico calculado con un K-Fold de k = 10 es : 0.9533333333333334%El score del modelo logistico calculado con un K-Fold de k = 10 es : 0.9533333333333334%El score del modelo logistico calculado con un K-Fold de k = 10 es : 0.9533333333333334%El score del modelo logistico calculado con un K-Fold de k = 10 es : 0.9533333333333334%El score del modelo logistico calculado con un K-Fold de k = 10 es : 0.9533333333333334%El score del modelo logistico calculado con un K-Fold de k = 10 es : 0.9533333333333334%El score del modelo logistico calculado con un K-Fold de k = 10 es : 0.9533333333333334%El score del modelo logistico calculado con un K-Fold de k = 10 es : 0.9533333333333334%El score del modelo logistico calculado con un K-Fold de k = 10 es : 0.9533333333333334%El score del modelo logistico ca

### Leave-One-Out-Cross Validation (LOOCV)
<br> Consiste en utilizar al menos una vez cada dato singular del set de datos como test y el resto como train set. Se producen K modelos donde K es el numero de datos que se tiene, donde en cada modelo $K_{i}$ se utiliza un dato en particular como test set y el resto $K-1$ datos como training. Se guardan los scores cometidos por cada modelo y se promedia. <br>
Es un metodo mas costoso computacionalmente.<br>
<br> Es sencillo de implementar usando la funcion LeaveOneOut de sklearn.model_selection. Esta devuelve los indices de la division de LOOCV.<br>

In [15]:
from sklearn.model_selection import LeaveOneOut

loo = LeaveOneOut()
scores = list()
for train, test in loo.split(X):
   log_reg.fit(X.iloc[train], Y[train])
   scores = np.append(scores, log_reg.score(X.iloc[test], Y[test]))
print('El score del modelo usando LOOCV es : {0}%'.format(np.mean(scores)*100))    


El score del modelo usando LOOCV es : 95.33333333333334%
