## Práctica de validación de modelos

- [Método Hold-out](#Método-Hold-out)
- [Método validación cruzada de k particiones](#Método-validación-cruzada-de-k-particiones)
- [Método Leave-One-Out](#Método-Leave-One-Out)
- [Selección de modelos](#Selección-de-modelos)

Importamos todas las librerías que vamos a utilizar durante la práctica.

In [None]:
# %load ../../standard_import.txt
import pandas as pd
import numpy as np
from nose.tools import assert_equal

pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 150)
pd.set_option('display.max_seq_items', None)
 
#%config InlineBackend.figure_formats = {'pdf',}
%matplotlib inline

La librería scikit-learn nos ofrece muchas funcionalidades para realizar procesos de aprendizaje automático. En esta práctica vamos a utilizar las funciones que realizan métodos de validación de modelos. Todas estas funciones están dentro de la librería cross_validation. Para ello utilizaremos algunos de los clasificadores vistos en clase y finalmente, realizaremos la selección de los valores más adecuados (de entre un conjunto de valores) para los parámetros de cada clasificador para resolver un problema dado.

En concreto, para desarrollar la práctica vamos a trabajar con el dataset Ionosphere. Este dataset contiene la información de un problema en el que un sistema de radar recoge información de 16 antenas con el objetivo de ver si los electrones presentan algún tipo de estructura en la ionosfera (Bueno) o no (Malo). Toda la información de este dataset se puede encontrar en la URL: https://archive.ics.uci.edu/ml/datasets/Ionosphere.

En el siguiente código se deben leer los datos del problema Ionosphere almacenados en un archivo ionosphere.csv. En este caso la variable de salida (la última, llamada Class) está codificada con strings puesto que es una variable discreta y, por lo tanto, debéis convertirla a valores numéricos (utilizando una codificación ordinal) para poder aplicar los métodos disponibles en Scikit-learn.

Realiza la lectura de los datos almacenados en el fichero ionosphere.dat y guardar el resultado en una variable llamada ion. A partir de la variable ion, generad las variables X (información de entrada) e y (información de salida).

In [None]:
# Se realiza la lectura del dataset sonar utilizando pandas
    # La primera línea contiene los nombres de las variables
    # header=None se utilizaría en caso de que no existiera una primera línea con los nombres para las variables

# ion = <RELLENAR>

# Generamos los datos de entrada y de salida: nos quedamos con las columnas correspondientes y la transformamos a un array de numpy
# X = <RELLENAR>
# Transformamos la variable de las clases (valores discretos: strings) en valores numéricos de acuerdo a una codificación ordinal
# y = <RELLENAR>

### Método Hold-out

El método de validación hold-out crea un conjunto de ejemplos de entrenamiento y uno de test a partir del conjunto de datos inicial. Para ello, se determina el porcentaje de ejemplos a utilizar como conjunto de entrenamiento. Estos ejemplos serán escogidos aleatoriamente. El resto de ejemplos (no asignados al conjunto de entrenamiento) serán asignados al conjuntos de test.

Como hemos dicho anteriormente, en la librería model_selection de scikit-learn podemos encontrar una función que realiza este proceso. Por tanto, en primer lugar, para poder utilizarla se debe importar dicha librería de este modo

    from sklearn import model_selection

Dentro de esta librería se encuentra la función llamada train_test_split que nos realiza el proceso de división de los datos aplicando la técnica Hold-out. Toda la información de esta función la podéis consultar en la URL: http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html#sklearn.model_selection.train_test_split

La función recibe varios parámetros de entrada y devuelve varios parámetros de salida, la llamada a dicha función es la siguiente:

    X_train, X_test, y_train, y_test = model_selection.train_test_split(inputData, outputData, train_size=porcentajeTrain)

* Los parámetros de entrada son:
    * inputData: los datos de entrada, el campo data del objeto dataset
    * outputData: los datos de salida, el campo target del objeto dataset
    * porcentajeTrain: la proporción de ejemplos de entrenamiento
* Los parámetros de salida son:
    * X_train: los datos de entrada del conjunto de entrenamiento
    * X_test: los datos de entrada del conjunto de test
    * y_train: los datos de salida del conjunto de entrenamiento
    * y_test: los datos de salida del conjunto de test
    
NOTA: Los ejemplos asignados a cada partición se escogen al azar por lo que de ejecución a ejecución los resultados pueden variar. Para evitar este comportamiento podemos determinar la semilla a utilizar a la hora de generar los números aleatorios. La semilla será un número entero que implica que el número aleatorio generado es siempre el mismo. Por tanto, los ejemplos irán siempre a la misma partición y los resultados serán siempre los mismo. Para fijar la semilla de Numpy, que es la utilizada, se utiliza la siguiente instrucción:

    np.random.seed(valorEntero)

Ejercicio: utilizar el método de validación hold-out para obtener el accuracy de entrenamiento y de test con el dataset Ionosphere y utilizando el árbol de decisión C4.5 con la configuración por defecto vista en la práctica anterior. Utilizar como semilla el número 12. 

Comprobar cómo cambian los resultados al variar el porcentaje de ejemplos de entrenamiento (50%, 60%, 70% y 80%).

In [None]:
# Se importan las 3 librerías necesarias para resolver el ejercicio
from sklearn import tree, metrics, model_selection

# Se fija la semilla de numpy para que la generación aleatoria siempre nos de los mismos números
np.random.seed(12)

# Listas para almacenar los resultados de accuracy en train y test
listaAccTrain = []
listaAccTest = []
# Para cada porcentaje de ejemplos a utilizar como entrenamiento
for porcentajeEjemplosTrain in [0.5,0.6,0.7,0.8]:
    # Lllamada a la función train_test_split y guardado del resultado
#     <RELLENAR>
    # Llamada al constructor del árbol de decisión con el parámetro necesario para que sea el C4.5
#     arbolDecision = <RELLENAR>
    # Entrenamiento del árbol de decisión C4.5
#     arbolDecision = <RELLENAR>
    # Predicción de los datos de entrenamiento
#     predictionTrain = <RELLENAR>
    # Cálculo del porcentaje de acierto en entrenamiento (entre 0.0 y 100.0)
#     accTrain = <RELLENAR>
    print('Utilizando el {}% de los ejemplos como train se obtiene un accuracy del {}% en entrenamiento'.format(porcentajeEjemplosTrain, accTrain))
    # Se almacena el resultado en entrenamiento para este porcentaje de ejemplos a utilizar como entrenamiento
    listaAccTrain.append(accTrain)
    # Predicción de los datos de test
#     predictionTest = <RELLENAR>
    # Cálculo del porcentaje de acierto en test (entre 0.0 y 100.0)
#     accTest = <RELLENAR>
    print('Utilizando el {}% de los ejemplos como train se obtiene un accuracy del {}% en test'.format(porcentajeEjemplosTrain, accTest))
    # Se almacena el resultado en test para este porcentaje de ejemplos a utilizar como entrenamiento
    listaAccTest.append(accTest) 

In [None]:
# ESTA CELDA DARÁ ERROR SI EL RESULTADO NO ES CORRECTO
    # EN CASO CONTRARIO NO TENDRÁ SALIDA
assert_equal(list(map(lambda x: round(x, 2), listaAccTest)), [86.93, 90.78, 92.45, 80.28])

### Método validación cruzada de k particiones

El método de validación cruzada de k particiones, divide el conjunto de ejemplos original en k particiones manteniendo la distribución de las clases. Posteriormente, para realizar el aprendizaje se fusionan 4 de estas particiones para formar el conjunto de entrenamiento y la partición restante se utiliza como conjunto de test. Este proceso se realiza k veces utilizando una partición diferente como conjunto de test cada vez. En scikit-learn, existe una función llamada StratifiedKFold (también en la librería model_selection) que realiza la división del conjunto de ejemplos original en particiones y forma los k conjuntos de entrenamiento y de test. La información de esta función la podéis encontrar en la URL: http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html#sklearn.model_selection.StratifiedKFold

La llamada al constuctor y sus principales parámetros de entrada son:

    validacionCruzada = model_selection.StratifiedKFold(n_splits=numeroParticiones, random_state=semilla)

Los parámetros de entrada son:
* numeroParticiones: valor entero que determina el número de particiones a generar. Por defecto es 3.
* semilla: valor que determina la semilla para la generación de números aleatorios.

Para generar los iteradores de índices se debe ejecutar el método split utilizando el objeto generado por el constructor (variable validacionCruzada). Al método split se le deben pasar tanto los datos se entrada como las clases (dos variables separadas por comas).

    iteradorIndices = validacionCruzada.split(X, y)
    
Una vez realizada esta instrucción se puede realizar el bucle para realizar las k iteraciones:
  
    for train_index, test_index in iteradorIndices:

De esta forma el bucle for se realizará K veces y en cada iteración tendremos:

* En la variable train_index estarán los índices de los ejemplos a utilizar como conjunto de entrenamiento. El conjunto de entrenamiento estará formado por todas las filas del campo data cuyos índices estén en train_index y todas las columnas (para las clases lo mismo pero con el campo target). Es decir, datos.data[train_index, :] y datos.target[train_index].
* En la variable test_index estarán los índices de los ejemplos a utilizar como conjunto de test. El conjunto de test estará formado por todas las filas del campo data cuyos índices estén en test_index y todas las columnas (para las clases lo mismo pero con el campo target). Es decir, datos.data[test_index, :] y datos.target[test_index].

Ejercicio: realizar el proceso de validación cruzada para el dataset Ionosphere y mostrar para cada partición (iteración del bucle for) el accuracy en train y en test. Probar 5 y 10 como valores de K. Utilizar como clasificador el árbol de decisión C4.5 con la configuración por defecto.

In [None]:
# Se fija la semilla de numpy para que la generación aleatoria siempre nos de los mismos números
np.random.seed(12)

# Listas para almacenar los resultados de accuracy en train y test
listaMediasTrain = []
listaMediasTest = []
# Para las dos validaciones cruzadas (de 5 y de 10 particiones)
for k in [5, 10]:
    # Llamada al constructor de la validación cruzada
#     skf = <RELLENAR>
    # Llamada a la función que nos da los iteradores con los índices de los ejemplos a utilizar en entrenamiento y en test
#     iteradorIndices = <RELLENAR>
    # Se crear las variables para almacenar los k resultados de entrenamiento y de test
    train = np.zeros(k)
    test = np.zeros(k)
    i = 0
    # Bucle para realizar la validación cruzada
    for train_index, test_index in iteradorIndices:
        # Llamada al constructor del árbol de decisión con el parámetro necesario para que sea el C4.5
#         arbolDecision = <RELLENAR>
        # Entrenamiento del árbol de decisión con los ejemplos de entrenamiento
            # Todas las filas correspondientes a los índices contenidos en train_index
#         arbolDecision = <RELLENAR>
        # Predicción de los ejemplos de entrenamiento
#         predictionTrain = <RELLENAR>
        # Cálculo del porcentaje de acierto en entrenamiento (entre 0.0 y 100.0)
#         train[i] = <RELLENAR>
        print('En la partición {} se obtiene un accuracy del {}% en entrenamiento'.format(i, train[i]))
        # Predicción de los ejemplos de test
            # Todas las filas correspondientes a los índices contenidos en test_index
#         predictionTest = <RELLENAR>
        # Cálculo del porcentaje de acierto en test (entre 0.0 y 100.0)
#         test[i] = <RELLENAR>
        print('En la partición {} se obtiene un accuracy del {}% en test'.format(i, test[i]))
        i += 1
    # Cálculo y guardado de las medias de las k particiones tanto de entrenamiento como de test
    mediaTrain = np.mean(train)
    print('La media de las {}% particiones en train es: {}%'.format(k, mediaTrain))
    listaMediasTrain.append(mediaTrain)
    mediaTest = np.mean(test)
    print('La media de las {}% particiones en test es: {}%'.format(k, mediaTest))
    listaMediasTest.append(mediaTest)

In [None]:
# ESTA CELDA DARÁ ERROR SI EL RESULTADO NO ES CORRECTO
    # EN CASO CONTRARIO NO TENDRÁ SALIDA
assert_equal(list(map(lambda x: round(x, 2), listaMediasTrain)), [100.00,100.00])
assert_equal(list(map(lambda x: round(x, 2), listaMediasTest)), [84.63,85.58])

### Método Leave-One-Out

El tercer método de validación es el leave-one-out. Es como el método de validación cruzada de k particiones cuando k es igual al número de ejemplos del dataset. La función de scikit-learn que realiza este proceso es LeaveOneOut y su información puede encontrarse en la URL: http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.LeaveOneOut.html#sklearn.model_selection.LeaveOneOut

Su llamada y su uso es el siguiente:

    loo = model_selection.LeaveOneOut()
    
Al igual que para la validación cruzada, para generar los iteradores de índices, se debe ejecutar el método split utilizando el objeto generado por el constructor (variable loo). En este caso, solamente es necesario pasar como parámetro de entrada los valores de entrada de los ejemplos (X).

    iteradorIndices = loo.split(X)
    
Una vez realizada esta instrucción se puede realizar el bucle para realizar las k iteraciones del mismo modo que anteriormente. La diferencia es que en cada iteración, en la variable test_index solo habrá un índice puesto que se usa un solo ejemplo para evaluar el modelo aprendido. Por tanto, para obtener el resultado en test se debe almacenar, en cada iteración del bucle for, la predicción del ejemplo de test (en un vector de tantos elementos como ejemplos del dataset) y al finalizar el bucle for se debe comparar este vector con las clases reales del problema (campo target) para obtener el accuracy rate.

Ejercicio: realizar el método de validación leave-one-out con el dataset Ionosphere utilizando C4.5 con la configuración por defecto y mostrar el accuracy obtenido en test.

In [None]:
# Se fija la semilla de numpy para que la generación aleatoria siempre nos de los mismos números
np.random.seed(12)

# Llamada al constructor del proceso leave one out
# loo = <RELLENAR>
# Llamada a la función que nos da los iteradores con los índices de los ejemplos a utilizar en entrenamiento y en test
# iteradorIndices = <RELLENAR>
# Se crea un array para almacenar la salida de la predicción de cada ejemplo
test = np.zeros(X.shape[0])
i = 0
# Para cada partición de ejemplos
for train_index, test_index in iteradorIndices:
    # Llamada al constructor del árbol de decisión con el parámetro necesario para que sea el C4.5
#     arbolDecision = <RELLENAR>
    # Entrenamiento del árbol de decisión con los ejemplos de entrenamiento
            # Todas las filas correspondientes a los índices contenidos en train_index
#     arbolDecision = <RELLENAR>
    # Predicción del ejemplo de test
#     test[i] = <RELLENAR>
    i += 1
# Cálculo del accuracy de las predicciones realizadas en test (entre 0.0 y 100.0)
# accTest = <RELLENAR>
print('El accuracy en test es: {}%'.format(accTest))

In [None]:
# ESTA CELDA DARÁ ERROR SI EL RESULTADO NO ES CORRECTO
    # EN CASO CONTRARIO NO TENDRÁ SALIDA
assert_equal(round(accTest, 2), 88.32)

### Selección de modelos

En prácticas anteriores hemos visto que los resultados de los clasificadores varían en función de los valores de sus parámetros. Para determinar los mejores valores (de entre un conjunto de valores posibles) para los parámetros vamos a utilizar el modelo de validación cruzada de 10 particiones. De esta forma, evaluaremos la calidad de cada configuración del clasificador (genera un modelo diferente) utilizando la validación cruzada y elegiremos la configuración con mejor rendimiento medio en test.

Este procedimiento se realizaría para determinar la mejor configuración de cualquier clasificador para un problema dado. En esta práctica vamos a utilizarlo para resolver el problema de Inosphere y determinar la mejor configuración del clasificador KNN y de los árboles de decisión. 

Para ello vamos a utilizar una función de scikit-learn que nos ayuda a realizar dicho proceso. Esta función también está dentro del paquete **model_selection** y se llama GridSearchCV. Toda la información de esta función la podéis consultar en la URL: http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html. Su llamada y sus parámetros principales son los siguientes:

    clasificadores = model_selection.GridSearchCV(clasificador, param_grid, scoring=tipoRendimiento, cv=numParticiones, return_train_score=devolverResultadosTrain)

* clasificador: es el clasificador del que deseamos conocer su mejor configuración. Es decir, la variable en la que almacenamos la llamada en la que definimos el clasificador (sin parámetros de entrada).
* param_grid: es un diccionario cuyas claves son los nombres de los parámetros a determinar su mejor configuración. Para cada clave su valor es una lista con los valores que se desean probar para dicho parámetro. Por ejemplo, para los dos clasificadores que vamos a "optimizar" podría ser:
    * KNN: {'n_neighbors': [1, 3, 5, 7, 9], 'weights': [‘uniform’, ‘distance’], ‘p’: [1, 2, 1.5, 3]}
    * Árboles de decisión:  {'criterion': [‘gini’, ‘entropy’], ‘min_samples_split': [2, 5, 10], ‘min_samples_leaf’: [1, 2, 4]}
* tipoRendimiento: determina el tipo de medida a utilizar para evaluar la calidad del clasificador. Si no se especifica se utiliza la que aplica el clasificador a optimizar (normalmente todos utilizar el accuracy). Los posibles valores de este parámetro son:
    * ’accuracy’: accuracy rate
    * ‘precision’: precisión
    * ‘recall’: recall o true positive rate
    * ‘roc_auc’: área bajo la curva ROC
* numParticiones: número de particiones a utilizar en el modelo de validación cruzada de k particiones. Por defecto su valor es 3.
* devolverResultadosTrain: variable booleana que determina si se devuelven los resultados de entrenamiento o no. Por defecto su valor es False.

El parámetro de salida es un conjunto de clasificadores (todas las posibles combinaciones de los parámetros a utilizar). Al igual que hacemos con un solo clasificador, debemos entrenar todos ellos con los datos de train (llamada a la función fit con la variable donde se almacena el conjunto de clasificadores). En este caso, la llamada al entrenamiento ya realiza internamente tanto el entrenamiento como la evaluación del rendimiento de los clasificadores. Por este motivo, tras entrenarlos (llamada a fit), ya se ha calculado internamente la mejor configuración. En concreto está almacenada en el campo best_params_ y su rendimiento asociado está almacenado en el campo best_score_. Podemos visualizarlos con print:

    print clasificadores.best_params_
    print clasificadores.best_score_

Además, por defecto (refit es True) se entrena un clasificador con la mejor configuración encontrada que permite utilizar directamente el método predict sobre la instancia de *GridSearchCV* (usando dicho clasificador). Este clasificador también lo tenemos disponible mediante el atributo 

    clasificadores.best_estimator_
    
Para comprobar que efectivamente la configuración mostrada es la mejor, podemos visualizar los resultados de todos los clasificadores considerados (todas las combinaciones de hiper-parámetros posibles). PAra que el siguiente código funcione debéis especificar que se devuelvan los resultados de entrenamiento en el constructor. Para ello se debe utilizar el siguiente código:

    resultadosMostrar = zip(clasificadores.cv_results_['params'],clasificadores.cv_results_['mean_test_score'],clasificadores.cv_results_['mean_train_score'])
    for params, mean_test_score, mean_train_score in resultadosMostrar:
        print("%0.3f (Train: %0.3f) for %r" % (mean_test_score, mean_train_score, params))
        print()

Se puede observar que en la variable *resultadosMostrar* estamos utilizando el atributo *cv_results_* (es un DataFrame) y seleccionando algunas de sus columnas para mostrar (podríamos incluir más información).

Ejercicio: realizar el proceso de validación cruzada (utilizando 10 particiones, cv=10) para aprender los mejores valores del clasificador KNN y de los árboles de decisión (con los grids de parámetros mostrados en la celda anterior) para resolver este problema de clasificación uso. ¿Cuál es la mejor configuración de cada uno de ellos?

In [None]:
# Se importan las librerías que vamos a utilizar en este ejercicio
from sklearn import neighbors

# Se fija la semilla de numpy para que la generación aleatoria siempre nos de los mismos números
np.random.seed(12)

# Realizamos el proceso para KNN por lo que hay que llamar al constructor de dicho clasificador
# knn = <RELLENAR>
# Se define el grid de parámetros a utilizar
    # Estos parámetros nos darán todas las posibles configuraciones del clasificador KNN
        # Cada combinación de parámetros es una configuración diferente
# param_grid = <RELLENAR>

# Llamada la función GridSearchCV que nos crea todas las cominaciones del grid anterior
# clasificadores = <RELLENAR>
# Entrenamiento de todos los clasificadores con todos los datos contenidos en ion (campos data y target)
# clasificadores = <RELLENAR>
# Se muestra la mejor confiugración y su accuracy asociado
print(clasificadores.best_params_)
print(clasificadores.best_score_)

# Se muestra el accuracy obtenido para cada posible combinación de parámetros
resultadosMostrar = zip(clasificadores.cv_results_['params'],clasificadores.cv_results_['mean_test_score'],clasificadores.cv_results_['mean_train_score'])
for params, mean_test_score, mean_train_score in resultadosMostrar:
    print("%0.3f (Train: %0.3f) for %r" % (mean_test_score, mean_train_score, params))
print()

In [None]:
# ESTA CELDA DARÁ ERROR SI EL RESULTADO NO ES CORRECTO
    # EN CASO CONTRARIO NO TENDRÁ SALIDA
assert_equal(round(clasificadores.best_score_, 4), 0.8860)
assert_equal(clasificadores.best_params_, {'n_neighbors': 1, 'weights': 'uniform', 'p': 1})

In [None]:
np.random.seed(12)

#Realizamos el proceso para los árboles de decisión por lo que hay que llamar al constructor de dicho clasificador
# arbolDecision = <RELLENAR>
# Cread el grid de parámetros
# param_grid = <RELLENAR>

# Llamada la función GridSearchCV que nos crea todas las combinaciones del grid anterior
# clasificadores = <RELLENAR>
# Entrenamiento de todos los clasificadores con todos los datos contenidos en ion (campos data y target)
# clasificadores = <RELLENAR>
# Se muestra la mejor configuración y su accuracy asociado
print(clasificadores.best_params_)
print(clasificadores.best_score_)

# Se muestra el accuracy obtenido para cada posible combinación de parámetros
resultadosMostrar = zip(clasificadores.cv_results_['params'],clasificadores.cv_results_['mean_test_score'],clasificadores.cv_results_['mean_train_score'])
for params, mean_test_score, mean_train_score in resultadosMostrar:
    print("%0.3f (Train: %0.3f) for %r" % (mean_test_score, mean_train_score, params))
print()

In [None]:
# ESTA CELDA DARÁ ERROR SI EL RESULTADO NO ES CORRECTO
    # EN CASO CONTRARIO NO TENDRÁ SALIDA
assert_equal(round(clasificadores.best_score_, 4), 0.8746)
assert_equal(clasificadores.best_params_, {'min_samples_split': 10, 'criterion': 'gini', 'min_samples_leaf': 1})