<img src="../img/crowdlearning-etic.png" alt="Logo ETIC" align="right">


<h1><font color="#004D7F" size=6>Evaluación y validación de modelos en SciKit Learn</font></h1>

<br>
<br>
<br>
<br>
<div style="text-align: right">
<font color="#004D7F" size=3>Antonio Jesús Gil</font><br>
<font color="#004D7F" size=3>Fundamentos de Machine Learning</font><br>

</div>

---
<a id="section1"></a>
# <font color="#004D7F"> 1. Introducción</font>

A partir de los ejemplos realizados con regresión lineal y logística, hemos visto que para crear un modelo es necesario utilizar una base de datos de la que extraemos un array bidimensional $X$ siendo $X.shape=(m,n)$ y que contiene para cada registro el valor de $n$ variables descriptivas; y un array $Y.shape=(m,)$ que contiene el valor de la variable clase para cada uno de los _m_ registros.

Al utilizar $X$ e $Y$ para aprender el array en un modelo de regresión lineal, se dice que $(X,Y)$ es el __conjunto de entrenamiento__: una serie de registros descritos por las variables en $X$, y para cada uno de estos registros conocemos el valor de la variable clase  gracias a que disponemos de $Y$.

Existen más modelos además de la regresión. Estos _modelos_, _clasificadores_ o _estimadores_ necesitan un conjunto de entrenamiento para aprender parámetros, reglas, proyección en el espacio de coordendas, etc., según el tipo de clasificador que se esté utilizando. A este proceso de aprendizaje se le conoce también como __estimación__, __construcción__, __entrenamiento__ o __ajuste__ del modelo.

- `.fit` Los modelos disponbiles en _SciKit Learn-learn_ son aprendidos a partir de la función disponible en todos ellos $.fit(X,Y)$.

Una vez construido un clasificador, queremos saber cómo de bueno es; es decir, evaluarlo. La __evaluación__ de un clasificador, una vez ya ha sido entrenado, consiste en comprobar cuál es su rendimiento al predecir la variable clase en datos nuevos no utilizados en el aprendizaje del model. Por supuesto los datos nuevos deben contener el mismo tipo y formato de las variables predictivas. Así, para evaluar un modelo dispondremos, en el caso más simple, de un conjunto de entrenamiento $(X_t,Y_t)$ y un conjunto de test $(X_T,Y_T)$. A partir de $X_T$ se estimará $\hat{Y}_T$ para después compararlo con $Y_T$

- `.score` Los modelos disponibles en _SciKit Learn-learn_ calculan su rendimiento sobre $(X_T,Y_T)$ a partir de la función disponible $.score(X_T,Y_T)$. La métrica que esta función devuelve es la tasa de aciertos (_accuracy_), con rango [0-1]

<div class="alert alert-block alert-danger">
<i class="fa fa-exclamation-triangle" aria-hidden="true"></i>
__OJO!__ Por muy tentador que sea, el conjunto de test nunca debe ser utilizado para entrenar nuestro modelo. Aunque conozcamos la variable clase $Y_T$, ésta solo debe ser utilizada para compararla con $\hat{Y}_T$ y así ver cómo de bueno es el clasificador construido.
</div>

---

<h3><font color="#004D7F" size=4> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#004D7F"></i> Ejercicio 1: Creación de $(X,Y)$, $(X_t,Y_t)$, $(X_T,Y_T)$ y validación train/test o holdout.</font></h3>


Cargamos la base de datos `Breast Cancer Wisconsin`.

In [None]:
import numpy as np
import sklearn.datasets
wisconsin = sklearn.datasets.load_breast_cancer()
wisconsin.keys()
wisconsin_data = wisconsin['data']
wisconsin_target = wisconsin['target']

In [None]:
print(wisconsin_data.shape, wisconsin_data.dtype)
print(wisconsin_target.shape, wisconsin_target.dtype)

¿Qué tasa de aciertos sería buena para esta base de datos? Para tener en mente una línea base, vamos a mirar la distribución de la clase. Después, calcula cuál sería la tasa de aciertos de un clasificador que siempre predice la clase mayoritaria.

In [None]:
counts = np.bincount(wisconsin_target)
print(counts)
acc_baseline=counts[0]*100 / wisconsin_target.shape[0]
print('Un clasificador debería obtener al menos una tasa de aciertos = {:.2f}%'.format(acc_baseline))

In [None]:
from sklearn.linear_model import LinearRegression, LogisticRegression

# Seleccionar modelo de regresión apropiado. ¿LinearRegression o LogisticRegression?
lr = ???

# Entrenar
lr. ???

# Evaluar el modelo con la misma base de datos con la que se ha entrenado
acc = lr.score(wisconsin_data,wisconsin_target)
print('{:.4f}'.format(acc))

# 0.9596

Hemos creado un modelo predictivo de cáncer de pecho con una tasa de aciertos = $95.96\%$, mucho mayor que nuestra línea base. Pero es que... __¡hemos hecho trampa!__ ¿Por qué?

Ahora crearemos un partición de la base de datos $(X,Y)$ de manera que obtengamos un conjunto de entrenamiento $(X_t,Y_t)$  con el 70% de los casos, y con el resto se creará el conjunto de test $(X_T,Y_T)$. Después, entrena y evalúa tu modelo de manera correcta.

In [None]:
from sklearn.model_selection import train_test_split

X_train,X_Test,Y_train,Y_Test = train_test_split(wisconsin_data,wisconsin_target,test_size=0.3, random_state=10)
# random_state, semilla para partición aleatoria

lr.???

acc = lr.???

print('{:.4f}'.format(acc))

# 0.9474

<div class="alert alert-block alert-info">
    <i class="fa fa-info-circle" aria-hidden="true"></i> La validación <b>holdout</b> o división <b>train/test</b> consite en dividir el conjunto de datos disponible $(X,Y)$ en un conjunto de entrenamiento $(X_t, Y_t)$ y otro de test $(X_T,Y_T)$.
</div>

Para comprobar si podemos fiarnos de la validación holdout, validaremos con 10 semillas diferentes a la hora de realizar la partición train/test:

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

lr = LogisticRegression()
K = 10
acc = np.empty(K)

for i in range(0,K):
    # usa como semilla de la partición la propia iteración i
    X_t, X_T, Y_t, Y_T = train_test_split(wisconsin_data, wisconsin_target, test_size=0.3, random_state=i*i) 
    lr.fit(X_t,Y_t)
    acc[i] = lr.score(X_T,Y_T)
    print('{:.4f}'.format(acc[i]))
print('\nAcc:{:.4f} Std:{:.4f}'.format(np.mean(acc),np.std(acc)))


<div class="alert alert-block alert-info">
    <i class="fa fa-info-circle" aria-hidden="true"></i> Se dice que un modelo <b>generaliza</b> bien cuando su rendimiento no empeora (mucho) al ser evaluado sobre el conjunto de test.
</div>

---

# <font color="#004D7F"> 2. Validación Cruzada</font>

Cuando se dispone de un conjunto muy grande de datos, la validación _holdout_ se considera apropiada para estimar el poder de generalización de un modelo; es decir, a __más datos disponibles tendremos una menor varianza__ del rendimiento del clasificador. Sin embargo, dicha base de datos debe ser especialmente larga (dependiendo del clasificador utilizado) para asegurarnos de que el rendimiento obtenido no es dependiente de la partición concreta que hemos hecho.

Hay 3 decisiones que debemos tomar a la hora de crear nuestros conjuntos de entrenamiento y test. Las 3 dependen de las características de nuestra base de datos.

- _Barajar_: es posible que los datos cargados estén ordenados por alguna variable concreta, y que ésta tenga relación con la variable clase a predecir. Por ello, al realizar particiones puede ser que aprendamos modelos muy diferentes según el punto de corte entre un conjunto de entrenamiento y el de test. Es por eso que siempre es recomendable barajar los registros de la base de datos antes de particionar. En el caso concreto de la función sklearn.model_selection.train_test_split, esto se indica mediante el parámetro `shuffle` (por defecto `shuffle=True`).


- _Estratificar_: Tanto antes como después de barajar nuestra base de datos, al extraer los conjuntos de entrenamiento y test es posible que la distribución de la variable clase sea muy diferente entre ($X_t,Y_t$) y ($X_T,Y_T$), lo cual haría imposible que nuestro modelo generalice bien. Además, crear particiones estratificadas parece lo más natural ya que se espera que lo que ocurre en un período de tiempo (entrenamiento) ocurra también en el futuro (test); aunque por supuesto esto no es siempre así cuando la clase tiene una dependencia temporal. En SciKit Learn-learn se puede utilizar el parámetro `stratify`en la función sklearn.model_selection.train_test_split, o directamente usar la función `StratifiedShuffleSplit.split` (devuelve los índices seleccionados de $X$ para crear los conjuntos de train y test).


- _Validación cruzada_: Si se dispone de pocos datos obtendremos un rendimiento del modelo que dependerá mucho de la semilla y tamaño seleccionados para crear los conjuntos de entrenamiento y test. También, no podemos saber a priori si tenemos datos suficientes para calcular el poder real de generalización de nuestro modelo (es posible que sea mejor cuantos más datos tengamos). Por ello, es muy frecuente utilizar la K-validación cruzada o __K-CV__.

<div class="alert alert-block alert-info">
    <i class="fa fa-info-circle" aria-hidden="true"></i> La <b>validación cruzada</b> o <b>K-CV</b> consiste en dividir (muestrear sin reemplazo) el conjunto de datos $(X,Y)$ de manera que tengamos K conjuntos disjuntos de test ($X_T^i,Y_T^i$), para $i={1,...,K}$. Dado un conjunto de test, el conjunto de entrenamiento será el resto de datos.
<br>
Es decir, $(X_t^i,Y_t^i) = (X,Y) - (X_T^i,Y_T^i)$. El rendimiento estimado del modelo será la media de las K validaciones realizadas, cada una utilizando el conjunto de entrenamiento y test $i$ correspondiente.
</div>

Figura de una 5-CV
    <img src="../img/5cv-Copy1.png" alt="5CV" align="center">


Siguiendo el ejercicio anterior, obtendremos una validación cruzada con una estratificación igual a 5.

In [None]:
import numpy as np
import sklearn.datasets
wisconsin = sklearn.datasets.load_breast_cancer()
wisconsin.keys()
wisconsin_data = wisconsin['data']
wisconsin_target = wisconsin['target']
from sklearn.model_selection import StratifiedKFold
from sklearn.linear_model import LogisticRegression

In [None]:
X = wisconsin_data
Y = wisconsin_target

K=5
acc = []
lr = LogisticRegression()
skf = StratifiedKFold(n_splits=K, random_state=1)

for train_indices, test_indices in skf.split(X,Y):
    X_train, X_test = X[train_indices], X[test_indices]
    Y_train, Y_test = Y[train_indices], Y[test_indices]
    lr.fit(X_train, Y_train)
    acc.append(lr.score(X_test, Y_test))
    print(acc[-1])

print('\nAcc:{:.4f} Std:{:.4f}'.format(np.mean(acc), np.std(acc)))

Puesto que con cada semilla se obtienen $(X_t,Y_t)$ y $(X_T,Y_T)$ diferentes, ninguna métrica de rendimiento puede ser considerada como un reflejo único del poder predictivo del modelo. Y, aunque hagamos la media de los valores obtenidos con cada semilla, los conjuntos de train/test que se obtienen por iteración no son disjuntos. Si queremos calcular el poder de generalización con una base de datos de tamaño normal o pequeña, la validación cruzada es una mejor opción.

<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i> Leave-out-out cross-validation o __LOOCV__ es cuando en nuestra K-CV establecemos $K = len(X) - 1$ 
</div>

---

### <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio 2 K-CV</font>

Utilizando la base de datos wisconsin, realiza una 10-CV con semilla = 1, utilizando la clase `StratifiedKFold` y su función `split`. Puedes ver la documentación de esta clase <a href=" http://SciKit Learn-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html"> aquí.</a>

In [None]:
#everything imported in previous example
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import StratifiedKFold

K=10
lr = LogisticRegression()
accuracies = []

# Semilla = 1
skf = ???
for train_indices, test_indices in skf.split(X, Y):
    X_t, X_T = X[train_indices], X[test_indices]
    Y_t, Y_T = Y[train_indices], Y[test_indices]
    lr.???
    accuracies.append(lr.score(X_T,Y_T))
    print(accuracies[-1])
    
print('\nAcc:{:.4f}  Std:{:.4f}'.format(np.mean(accuracies),np.std(accuracies)))

# <font color="#004D7F"> 3. Métricas de rendimiento más comunes.</font>

Hasta ahora hemos visto 2 métricas como indicadores de la bondad de nuestro modelo: ___accuracy___ o _tasa de aciertos_ en problemas de clasificación, y ___$R^2$___ en regresión. En regresión también es muy común utilizar ___error cuadrático medio___  o _rmse_ (disponible en `sklearn.metrics.mean_squared_error`), que es la función de coste en regresión lineal. 

---
<a id="section51"></a> 
## <font color="#004D7F">3.1 Matriz de Confusión. </font>

En el caso de los problemas de clasificación, hay una gran variedad de métricas que nos serán más o menos útiles según el aspecto de la capacidad predictiva de nuestro modelo que nos interese en un problema dado. Tanto la tasa de aciertos como el resto de métricas que veremos a continuación se pueden calcular a partir de la __matriz de confusion__, la cual expresa los aciertos y fallos para cada valor de la clase.

<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i> Dado un problema de clasificación con una variable clase $C$, la __matriz de confusión__ es una tabla de $|C|x|C|$ celdas, en las que para cada posible valor de la clase se indican la cantidad de casos del conjunto de test que se han clasificado como _Verdaderos Positivos (TP), Verdaderos Negativos (TN), Falsos Negativos (FN)_ y _Falsos Positivos (FP)_. <br> <br>


En concreto, en la diagonal principal de la matriz se indican los casos clasificados correctamente. Si la clase es binomial, los TP se refieren a los aciertos de la __clase positiva o de interés__, y los TN a la __clase negativa__. Si la clase es multinomial, los TP se refieren a los aciertos de la __clase de interés__ y los TN a los aciertos en cada una de los otros valores de la clase.
</div>

En la siguiente tabla se muestra la distribución de una matriz de confusión con clase binomial $C=\{Sí,No\}$.
<img src="../img/matriz confusion-Copy1.png" alt="confusion" align="center">

El recuento de los aciertos y fallos de las predicciones realizadas por el modelo se hace por supuesto sobre $(X_T,Y_T)$ en el caso de validación _holdout_, y sobre cada $(X_T^i,Y_T^i)$ en el caso de una _K-CV_ o _KxN-CV_, para luego realizar la media de la métrica obtenida en cada conjunto de test _i_.
En sklearn, podemos construir la matriz de confusión con la función `sklearn.metrics.confusion_matrix`.

In [None]:
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

Xt, XT, Yt, YT = train_test_split(X, Y, test_size=0.3, random_state=1)
lr = LogisticRegression()

lr.fit(Xt,Yt)
predicciones = lr.predict(XT)
mc = confusion_matrix(y_true=YT, y_pred=predicciones)
clases = np.unique(Y)
print(" Clase Real\n   {:}    {:}".format(clases[0],clases[1]))
print(mc)
print("\nTP={:d} TN={:d}".format(mc[0,0], mc[1,1]))
print("FP={:d} FN={:d}".format(mc[1,0], mc[0,1]))

En <a href="http://SciKit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix.html"> esta página</a> puedes ver un ejemplo de cómo crear en forma de gráfico una matriz de confusión, por si la quieres compartir en algún informe con aspecto más formal que una simple impresión de texto plano.