# 2.1 - Tecnicas de Evaluacion


* En este Notebook vamos a ver ***4 técnicas de evaluación***; es decir, de que manera se pueden dividir los datasets en conjuntos de datos de entrenamiento y test y como se ***implementaría*** esta división de datos con la librería de ***Scikit-Learn***.


<hr>

* Para evaluar los modelos obtenidos tras la aplicación de alguna de las técnicas de ML, es necesario disponer de un ***conjunto de datos*** (etiquetados o no) para ***generar el mejor modelo  posible y minimizar el error empírico***.


* Dado un conjunto de datos, podemos enumerar los siguientes ***métodos de evaluación*** en función de cómo se dividen los datos de entrenamiento y de test:
<span></span><br><br>
    - **[Resustitución](#M0)**: Todos los datos disponibles se utilizan como datos de test y de entrenamiento.
<span></span><br><br>
    - **[Partición (Hold Out)](#M1)**: Divide los datos en dos subconjuntos: uno de entrenamiento y uno de test.
<span></span><br><br>
    - **[Validación cruzada (Cross Validation)](#M2)**: Divide los datos aleatoriamente en ‘N’ bloques. Cada bloque se utiliza como test para un sistema entrenado por el resto de bloques.
<span></span><br><br>
    - **[Exclusión individual (Leave One Out)](#M3)**: Este método utiliza cada dato individual como dato único de test de un sistema entrenado con todos los datos excepto el de test.


<hr>



## Ejemplos


* Para ver ejemplos de estas técnicas de evaluación supongamos el siguiente conjunto de datos donde:
<span></span><br><br>
    - ***(i)***: índice del conjunto de datos.
    - ***X<sub>1</sub> y X<sub>2</sub>***: Variables de entrada.
    - ***y***: Variable de salida.


|(i)|X<sub>1</sub>|X<sub>2</sub>|y|
|---|---|---|---|
|1|0|1|1|
|2|1|1|4|
|3|1|2|6|
|4|2|1|7|
|5|2|2|9|
|6|3|1|10|
|7|3|2|12|
|8|3|3|14|
|9|1|3|8|
|10|2|3|11|


* En este ejemplo vamos a tener ***10 elementos*** en nuestro conjundo de datos y los vamos a pasar a un ***array de numpy***:

In [1]:
import numpy as np

X = np.array([[0,1],[1,1],[1,2],[2,1],[2,2],[3,1],[3,2],[3,3],[1,3],[2,3]])
y = np.array([1,4,6,7,9,10,12,14,8,11])

<hr>



## <a name="M0">1. Resustitución</a>


* Para el caso de la resustitución es muy sencilla; ***todos los datos del Dataset sirven para el Entrenamiento y el Test***.


* A modo didactico realizamos la siguiente asignación:

In [2]:
X_train = X
y_train = y

# modelo = Algoritmo_de_Aprendizaje.entrenar(X_train, y_train)

X_test = X
y_test = y

# evaluar_modelo = modelo.evaluar(X_test, y_test)

<hr>



## <a name="M1">2. Hold Out</a>


* La técnica de evaluación ***Hold Out*** divide el Dataset en un ***conjunto de datos de entrenamiento*** y otro ***conjunto de datos de test***, seleccionados a priori de manera aleatoria.


<img src="../imgs/2_01_01_tec_eval.png" style="width: 500px;"/>


* En Scikit utilizamos la función ***train_test_split(X,y,test_size)*** para que nos divida en dos conjuntos el Dataset, indicando como parámetro el porcentaje de datos de test que quermos obtener:


In [3]:
from sklearn.model_selection import train_test_split

# Seleccionamos un 20% de datos de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# modelo = Algoritmo_de_Aprendizaje.entrenar(X_train, y_train)

# evaluar_modelo = modelo.evaluar(X_test, y_test)


In [4]:
X_train

array([[3, 2],
       [2, 1],
       [1, 3],
       [3, 3],
       [2, 3],
       [1, 2],
       [2, 2],
       [1, 1]])

In [5]:
y_train

array([12,  7,  8, 14, 11,  6,  9,  4])

In [6]:
X_test

array([[0, 1],
       [3, 1]])

In [7]:
y_test

array([ 1, 10])

<hr>


## <a name="M2">3. Cross Validation</a>


* La técnica del ***Cross Validatión, divide el Dataset en 'N' conjuntos*** (o Folds como Scikit lo llama).


* Para cada uno de los ***'N'*** casos se utiliza un conjunto como datos de test y el resto de conjuntos como datos de entrenamiento.


* Esta técnica tiene sentido aplicarla cuando se quiere evaluar el modelo generado ***'N'*** veces.


<img src="../imgs/2_01_02_tec_eval.png" style="width: 600px;"/>


* En Scikit utilizamos la clase ***KFold(n_splits)*** para dividir el Dataset en ***'N'*** (n_splits) conjuntos.


* En este caso no vamos a obtener unos arrays con los datos de entrenamiento y test; si no, los ***índices de los elementos del Dataset que en cada paso actuarán como entrenamiento y como test***.

In [8]:
from sklearn.model_selection import KFold

# Dividimos el Dataset en 5 conjuntos de datos
k_fold = KFold(n_splits=5)

# Obtengo los índices de train y test para cada uno de los conjuntos
print("   Índices Train  -  Índices Test")
for train, test in k_fold.split(X,y):
    print("{} - {}".format(train, test))

   Índices Train  -  Índices Test
[2 3 4 5 6 7 8 9] - [0 1]
[0 1 4 5 6 7 8 9] - [2 3]
[0 1 2 3 6 7 8 9] - [4 5]
[0 1 2 3 4 5 8 9] - [6 7]
[0 1 2 3 4 5 6 7] - [8 9]


* Si se quiere ***acceder a los datos*** que es lo que interesa se tienen que pasar los índices a los numpy arrays:

In [9]:
from sklearn.model_selection import KFold

# Dividimos el Dataset en 5 conjuntos de datos
k_fold = KFold(n_splits=5)

# Ejemplo de como accedemos a los elementos de la variable de salida y
for train, test in k_fold.split(X,y):
    
    print('y_train: {}'.format(y[train]))
    # modelo = Algoritmo_de_Aprendizaje.entrenar(X[train], y[train])

    print('y_test: {}\n'.format(y[test]))
    # evaluar_modelo = modelo.evaluar(X[test], y[test])


y_train: [ 6  7  9 10 12 14  8 11]
y_test: [1 4]

y_train: [ 1  4  9 10 12 14  8 11]
y_test: [6 7]

y_train: [ 1  4  6  7 12 14  8 11]
y_test: [ 9 10]

y_train: [ 1  4  6  7  9 10  8 11]
y_test: [12 14]

y_train: [ 1  4  6  7  9 10 12 14]
y_test: [ 8 11]



<hr>


## <a name="M3">4. Leave One Out</a>


* La técnica del ***Leave One One*** es una técnica similar al Cross Validation, pero en este caso el Dataset se ***divide en tantos conjuntos como elementos tenga el Dataset***.


* Para cada uno de los ***'M'*** elemetos se utiliza un elemento como dato de test y el resto de elementos como datos de entrenamiento.


* Esta ***técnica es muy costosa de aplicar*** ya que se van a tener tantas iteracciones como elementos tenga el Dataset (***'M'*** veces).


* Puede tener sentido aplicar esta técnica cuando se tenga un Dataset pequeño y necesitemos evaluar muy a fondo el modelo.


<img src="../imgs/2_01_03_tec_eval.png" style="width: 600px;"/>


* En Scikit utilizamos la clase ***LeaveOneOut()*** para dividir el Dataseten tantos conjuntos como elementos tenga.


* En este caso no vamos a obtener unos arrays con los datos de entrenamiento y test; si no, los ***índices de los elementos del Dataset que en cada paso actuarán como entrenamiento y como test***.

In [10]:
from sklearn.model_selection import LeaveOneOut

loo = LeaveOneOut()

print("    Índices Train   -  Índices Test")
for train, test in loo.split(X):
    print("{} - {}".format(train, test))

    Índices Train   -  Índices Test
[1 2 3 4 5 6 7 8 9] - [0]
[0 2 3 4 5 6 7 8 9] - [1]
[0 1 3 4 5 6 7 8 9] - [2]
[0 1 2 4 5 6 7 8 9] - [3]
[0 1 2 3 5 6 7 8 9] - [4]
[0 1 2 3 4 6 7 8 9] - [5]
[0 1 2 3 4 5 7 8 9] - [6]
[0 1 2 3 4 5 6 8 9] - [7]
[0 1 2 3 4 5 6 7 9] - [8]
[0 1 2 3 4 5 6 7 8] - [9]


* Si se quiere ***acceder a los datos*** que es lo que interesa se tienen que pasar los índices a los numpy arrays:

In [11]:
from sklearn.model_selection import LeaveOneOut

loo = LeaveOneOut()

# Ejemplo de como accedemos a los elementos de la variable de salida y
for train, test in loo.split(X,y):

    print('y_train: {}'.format(y[train]))
    # modelo = Algoritmo_de_Aprendizaje.entrenar(X[train], y[train])

    print('y_test: {}\n'.format(y[test]))
    # evaluar_modelo = modelo.evaluar(X[test], y[test])

y_train: [ 4  6  7  9 10 12 14  8 11]
y_test: [1]

y_train: [ 1  6  7  9 10 12 14  8 11]
y_test: [4]

y_train: [ 1  4  7  9 10 12 14  8 11]
y_test: [6]

y_train: [ 1  4  6  9 10 12 14  8 11]
y_test: [7]

y_train: [ 1  4  6  7 10 12 14  8 11]
y_test: [9]

y_train: [ 1  4  6  7  9 12 14  8 11]
y_test: [10]

y_train: [ 1  4  6  7  9 10 14  8 11]
y_test: [12]

y_train: [ 1  4  6  7  9 10 12  8 11]
y_test: [14]

y_train: [ 1  4  6  7  9 10 12 14 11]
y_test: [8]

y_train: [ 1  4  6  7  9 10 12 14  8]
y_test: [11]



<hr>


Este Notebook ha sido desarrollado por **Ricardo Moya García** y registrado en Safe Creative como ***Atribución-NoComercial-CompartirIgual***.


<img src="../imgs/CC_BY-NC-SA.png" alt="CC BY-NC">