## Práctica de selección de variables

- [Método basados en filtros](#Método-basados-en-filtros)
- [Método basados en wrappers](#Método-basados-en-wrappers)
- [Pipelines](#Pipelines)

Importamos todas las librerías que vamos a utilizar durante la práctica.

In [None]:
# %load ../../standard_import.txt
import pandas as pd
import numpy as np
from nose.tools import assert_equal

pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 150)
pd.set_option('display.max_seq_items', None)
 
#%config InlineBackend.figure_formats = {'pdf',}
%matplotlib inline

Para desarrollar la práctica vamos a trabajar con el dataset Sonar. Este dataset contiene la información de un sonar (energía en diferentes bandas de frecuencia) para distinguir rocas (R) de minas (M). En concreto el dataset tiene 60 variables numéricas como entrada y la información de 208 ejemplos. Toda la información de este dataset se puede encontrar en la URL: http://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+%28Sonar%2C+Mines+vs.+Rocks%29.

Una forma habitual de guardar los datos es mediante archivos .csv como es el caso de esta práctica. Para leerlos se puede utilizar la función *read_csv* de la librería *pandas*: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html. Una vez leídos podemos dividir los datos en información de entrada y de salida. 

En caso de que alguna variable tenga valores discretos en muchos casos es necesario transformarlos a valores numéricos. Asignarles etiquetas utilizando una numeración ordinal se puede conseguir fácilmente utilizando la función *factorize* de *pandas*: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.factorize.html. 

En el siguiente código se deben leer los datos del problema sonar almacenados en un archivo .csv. En este caso la variable de salida (la última, llamada Type) está codificada con strings puesto que es una variable discreta y, por lo tanto, debéis convertirla a valores numéricos (utilizando una codificación ordinal) para poder aplicar los métodos disponibles en Scikit-learn.

In [None]:
# Se realiza la lectura del dataset sonar utilizando pandas
    # La primera línea contiene los nombres de las variables
    # header=None se utilizaría en caso de que no existiera una primera línea con los nombres para las variables

# datos = <RELLENAR>

# Generamos los datos de entrada y de salida: nos quedamos con las columnas correspondientes y la transformamos a un array de numpy
# X = <RELLENAR>
# Transformamos la variable de las clases (valores discretos: strings) en valores numéricos de acuerdo a una codificación ordinal
# y =  <RELLENAR>

#### Obtención del rendimiento con todas las variables

Para comprobar la calidad de las técnicas de selección de variables, en primer lugar vamos a calcular el rendimiento del clasificador KNN (con la configuración por defecto) si utilizamos todas las variables.

Para ello debéis aplicar el método hold-out para obtener los conjuntos de entrenamiento y de test (70% de datos para entrenar). Obtener el accuracy rate tanto para el conjunto de entrenamiento como para el conjunto de test.

NOTA: Recordar determinar la semilla para garantizar la reproducibilidad de los resultados.

In [None]:
# Se importan las 3 librerías necesarias para resolver el ejercicio
from sklearn import neighbors, metrics, model_selection

# Se fija la semilla de numpy para que la generación aleatoria siempre nos de los mismos números
np.random.seed(12)

# Lllamada a la función train_test_split y guardado del resultado
# X_train, X_test, y_train, y_test = <RELLENAR>

# Realizamos el proceso para KNN por lo que hay que llamar al constructor de dicho clasificador, entrenarlo y obtener los resultados de train y test
# knn = <RELLENAR>
# accTrain = <RELLENAR>
# accTest = <RELLENAR>

print('El rendimiento en entrenamiento con todas las variables es el {}%'.format(accTrain))
print('El rendimiento en test con todas las variables es el {}%'.format(accTest))

In [None]:
assert_equal(round(accTrain, 2), 86.21)
assert_equal(round(accTest, 2), 68.25)

### Método basados en filtros

La librería scikit-learn nos ofrece una librería para realizar la selección variables. Esta librería se llama feature_selection y toda su información se puede encontrar en la RUL: http://scikit-learn.org/stable/modules/feature_selection.html

Para poder utilizar todas las funcionalidades primero debemos importarla.

In [None]:
# Se importa la librería de selección de variables
from sklearn import feature_selection

En primer lugar vamos a aplicar técnicas basadas en filtros uni-variable. Los filtros uni-variables aplican una medida (habitualmente estadística) que determina la calidad de las variables individuales. Scikit-learn provee tres métricas de calidad de las variables para resolver problemas de clasificación:
* Chi cuadrado: función chi2, cuya información se encuentra en la URL http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html#sklearn.feature_selection.chi2
* ANOVA: función f_classif, cuya información se encuentra en la URL http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.f_classif.html#sklearn.feature_selection.f_classif
* Información mutua: función mutual_info_classif, cuya información se encuentra en la URL http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.mutual_info_classif.html#sklearn.feature_selection.mutual_info_classif

Para resolver problemas de regresión ofrece
* Correlación mutua: función f_regression, cuya información se encuentra en la URL http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.f_regression.html#sklearn.feature_selection.f_regression
* Información mutua: función mutual_info_regression, cuya información se encuentra en la URL http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.mutual_info_regression.html#sklearn.feature_selection.mutual_info_regression

En esta práctica vamos a utilizar solamente las de clasificación. 

Una vez conocida la calidad de cada variable se deben escoger las mejores. Para ello vimos en las clases teóricas que había varias opciones. La librería Scikit-learn ofrece dos de estas técnicas en forma de clases (con sus campos y sus métodos):
* Elegir las k mejores: http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html#sklearn.feature_selection.SelectKBest
    
    SelectKBest(score_func=funcionCalidad, k=valorK)
    
    
* Elegir las variables en base al percentil (el % de las variables): http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectPercentile.html#sklearn.feature_selection.SelectPercentile
    
    SelectPercentile(score_func=funcionCalidad, percentile=porcentajeVariables)

En ambas clases, elegir las k mejores o las que estén en el percentil deseado, en la llamada al constructor se debe especificar:
* La medida de calidad (funcionCalidad) de las variables. Es decir, cualquiera de las 3 funciones comentadas anteriormente
    * chi2
    * f_classif
    * mutual_info_classif
* El valor del parámetro k (valorK) para el método de las k mejores o el valor del percentil (porcentajeVariables) para el método de selección en base al percentil.

En ambas clases disponemos de los mismos métodos para realizar la selección de las variables:
* fit: Recibe como parámetro de entrada los datos de entrada (X) y de salida (Y). Esta función aplica la medida de calidad pasada como parámetro de entrada (funcionCalidad) sobre cada variable y establece la importancia de cada una de ellas.
* transform: Recibe como parámetro de entrada los datos de entrada (X). Esta función devuelve los datos de entrada con la selección de variables realizada (X'). Es decir, X' tendrá el mismo número de ejemplos pero menor número de variables (solamente las seleccionadas).
* fit_transform: Recibe como parámetro de entrada los datos de entrada (X) y de salida (Y). Esta función aplica secuencialmente las dos funciones anteriores.
* get_support: esta función devuelve un array de booleanos con tantos elementos como variables. En cada posición tendrá True si la variable asociada ha sido seleccionada y False en caso contrario.
* inverse_transform: Recibe como parámetro de entrada los datos de entrada con la selección de variables realizada (X'). Esta función deshace la selección de variables, es decir, devuelve el conjunto de datos original (X).

Utiliza el método de selección de las k mejores variables seleccionando las 10, 20 y 30 mejores variables aplicando Chi cuadrado como medida de calidad de las variables. Para ello se debe realizar el siguiente proceso:
* Realizar la selección de variables utilizando los ejemplos de entrenamiento obtenidos anteriormente.
* Utilizar el clasificador KNN con la configuración por defecto para obtener el accuracy rate con los ejemplos de entrenamiento y de test.
* Compara los resultados de las diferentes selecciones realizadas y con respecto a los resultados obtenidos al utilizar todas las variables.

In [None]:
# Listas para almacenar los resultados de accuracy en train y test
listaAccTrain = []
listaAccTest = []
for numVar in [10, 20, 30]:
    # Se llama al constructor que realiza la selección de las k mejores variables con los parámetros apropiados
#     tecnicaSeleccion = <RELLENAR>
    # Llamada a la función que aprende los parámetros de la selección de variables a partir de los datos de entrenamiento
#     tecnicaSeleccion = <RELLENAR>
    # Llamada a la función que transforma los datos de entrenamiento: realiza la selección de variables
#     X_train_seleccion = <RELLENAR>
    # Llamada a la función que transforma los datos de test: realiza la selección de variables
#     X_test_seleccion = <RELLENAR>
    # Realizamos el proceso para KNN por lo que hay que llamar al constructor de dicho clasificador, entrenarlo y obtener los rendimientos en train y test
#     knn = <RELLENAR>
#     accTrain = <RELLENAR>
#     accTest = <RELLENAR>
    listaAccTrain.append(accTrain)
    listaAccTest.append(accTest)
    print('Seleccionando las {} mejores variables se obtiene un accuracy del {}% en entrenamiento'.format(numVar, accTrain))
    print('Seleccionando las {} mejores variables se obtiene un accuracy del {}% en test'.format(numVar, accTest))

In [None]:
assert_equal(list(map(lambda x: round(x, 2), listaAccTrain)), [86.90, 88.97, 86.21], 'Valores de accuracy incorrectos')
assert_equal(list(map(lambda x: round(x, 2), listaAccTest)), [74.60, 76.19, 76.19], 'Valores de accuracy incorrectos')

Repetir el ejercicio anterior pero utilizando ANOVA para medir la calidad de las variables.

In [None]:
# <RELLENAR>

In [None]:
assert_equal(list(map(lambda x: round(x, 2), listaAccTrain)), [87.59, 88.28,87.59], 'Valores de accuracy incorrectos')
assert_equal(list(map(lambda x: round(x, 2), listaAccTest)), [76.19, 84.13,82.54], 'Valores de accuracy incorrectos')

Repetir el ejercicio anterior pero utilizando el método del percentil (10%, 20% y 30%) y Chi cuadrado para medir la calidad de las variables.

In [None]:
# <RELLENAR>

In [None]:
assert_equal(list(map(lambda x: round(x, 2), listaAccTrain)), [82.76, 87.59,86.21], 'Valores de accuracy incorrectos')
assert_equal(list(map(lambda x: round(x, 2), listaAccTest)), [79.37, 77.78,82.54], 'Valores de accuracy incorrectos')

Repetir el ejercicio anterior pero utilizando ANOVA para medir la calidad de las variables.

In [None]:
# <RELLENAR>

In [None]:
assert_equal(list(map(lambda x: round(x, 2), listaAccTrain)), [80.69, 83.45,86.90], 'Valores de accuracy incorrectos')
assert_equal(list(map(lambda x: round(x, 2), listaAccTest)), [82.54, 73.02,88.89], 'Valores de accuracy incorrectos')

### Método basados en wrappers

La librería Scikit-learn también nos ofrece una clase para poder implementar un Wrapper. Esta clase está dentro de la librería feature_selection y se llama RFE. Toda la información de la clase la podéis encontrar en la URL: http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html#sklearn.feature_selection.RFE

Esta clase corresponde al método Sequential Backward Selecion (SBS) explicado en clase de teoría. Es decir, es el método en el que se comienza con todas las variables del problema e iterativamente se va eliminando la peor variable de las que queden. En el caso de la implementación de esta clase lo que se hace es lo siguiente:
* Se aprende un clasificador (pasado como parámetro de entrada: clasificador) con todas las variables y se asignan pesos a cada una de las variables.
* Se elimina(n) variable(s) (el número de variables a eliminar se pasa como parámetro de entrada: numeroVariablesEliminarEnPaso) cuyos pesos en valor absoluto sean los menores.
* Luego se vuelve a entrenar con las variables que queden y se vuelven a calcular los pesos de dichas variables.
* Este proceso se repite hasta que se alcance el número de variables a mantener (pasado como parámetro de entrada: numeroVariablesMantener)

La llamada al constructor de la clase es la siguiente:

    RFE(clasificador, n_features_to_select=numeroVariablesMantener, step=numeroVariablesEliminarEnPaso)
    
Esta clase tiene varios métodos, entre ellos los mismos que se han explicado para los filtros uni-variables utilizados en la primera parte de la práctica:
* fit: Recibe como parámetro de entrada los datos de entrada (X) y de salida (Y). Esta función aplica la medida de calidad pasada como parámetro de entrada (funcionCalidad) sobre cada variable y establece la importancia de cada una de ellas.
* transform: Recibe como parámetro de entrada los datos de entrada (X). Esta función devuelve los datos de entrada con la selección de variables realizada (X'). Es decir, X' tendrá el mismo número de ejemplos pero menor número de variables (solamente las seleccionadas).
* fit_transform: Recibe como parámetro de entrada los datos de entrada (X) y de salida (Y). Esta función aplica secuencialmente las dos funciones anteriores.
* get_support: esta función devuelve un array de booleanos con tantos elementos como variables. En cada posición tendrá True si la variable asociada ha sido seleccionada y False en caso contrario.
* inverse_transform: Recibe como parámetro de entrada los datos de entrada con la selección de variables realizada (X'). Esta función deshace la selección de variables, es decir, devuelve el conjunto de datos original (X).

NOTA: el clasificador utilizado en el wrapper (evaluación de la importancia de las variables) tiene que actualizar el atributo coef_ de su clase correspondiente. En caso de que no lo haga no se puede utilizar como clasificador para la eliminación secuencial de variables.

Utiliza la clase RFE para realizar la selección de variables en el problema de Sonar. Para ello debes utilizar lo siguiente
* Como clasificador del Wrapper utiliza la regresión logística con la configuración por defecto.
    * Hay que importar la librería linear_model y utilizar la clase LogisticRegression: linear_model.LogisticRegression()
* Eliminar una variable cada vez (step=1)
* Probar diferentes valores de variables a mantener: 10, 20 y 30

Evalúa la calidad de la selección realizada utilizando la regresión logística con la configuración por defecto.

In [None]:
from sklearn import linear_model

# Listas para almacenar los resultados de accuracy en train y test
listaAccTrain = []
listaAccTest = []
for variablesMantener in [10, 20, 30]:
    # Se llama al constructor que realiza la selección de variables en base a la eliminación secuencial de variables
        # Utiliza los parámetros adecuados
#     tecnicaSeleccion = <RELLENAR>
    # Llamada a la función que aprende los parámetros de la selección de variables a partir de los datos de entrenamiento
#     tecnicaSeleccion = <RELLENAR>
    # Llamada a la función que transforma los datos de entrenamiento: realiza la selección de variables
#     X_train_seleccion = <RELLENAR>
    # Llamada a la función que transforma los datos de test: realiza la selección de variables
#     X_test_seleccion = <RELLENAR>
    # Realizamos el proceso para la regresión logística por lo que hay que llamar al constructor de dicho clasificador, entrenarlo y obtener los rendimientos en train y test
#     RL = <RELLENAR>
#     accTrain = <RELLENAR>
#     accTest = <RELLENAR>
    listaAccTrain.append(accTrain)
    listaAccTest.append(accTest)
    print('Manteniendo {} variables se obtiene un accuracy del {}% en entrenamiento'.format(variablesMantener, accTrain))
    print('Manteniendo {} variables se obtiene un accuracy del {}% en test'.format(variablesMantener, accTest))

In [None]:
assert_equal(list(map(lambda x: round(x, 2), listaAccTrain)), [76.55, 78.62, 78.62], 'Valores de accuracy incorrectos')
assert_equal(list(map(lambda x: round(x, 2), listaAccTest)), [80.95, 85.71, 88.89], 'Valores de accuracy incorrectos')

### Pipelines

Para finalizar la práctica vamos utilizar una clase que nos permite realizar una secuencia de transformaciones a los datos (pre-procesamiento) que finalmente se aplicarán para entrenar un clasificador. Es decir, vamos a crear una composición de varias fases de pre-procesamiento (todas las que queramos) junto con el aprendizaje de un clasificador sin tener que realizarlas independientemente.

La clase que nos ofrece esta posibilidad está dentro de la librería Pipeline y la clase tiene el mismo nombre, Pipeline. Toda la información de esta clase la podéis encontrar en la URL: http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html#sklearn.pipeline.Pipeline

La llamada al constructor de esta clase consiste en un conjunto de tuplas del tipo (nombreFase, objeto), cuyo significado es:
* nombreFase: string que establece el nombre de la fase. Por ejemplo 'filtroANOVA' o 'clasificadorKNN'
* objeto: variable en la que se almacena la llamada al constructor de lo que se desee hacer. Por ejemplo feature_selection.SelectKBest(feature_selection.f_regression, k=5) o neighbors.KNeighborsClassifier()

Es decir, si deseáramos combinar ambos procesos deberíamos realizar la siguiente llamada:

    combinado = Pipeline([('filtroANOVA', feature_selection.SelectKBest(feature_selection.f_classif, k=5)), ('clasificadorKNN', neighbors.KNeighborsClassifier())])
    
Hay que destacar que los objetos de todas las fases (excepto de la última) tienen que tener los métodos fit y transform, para que puedan aprender de los datos y transformarlos en consecuencia. El último objeto debe tener el método fit, para aprender de los datos, y el método predict para poder realizar nuevas predicciones. Es decir, el último objeto debe ser un modelo de clasificación o regresión.

El objeto combinado, la Pipeline generada, dispone de los siguientes métodos:
* fit: Recibe como parámetros de entrada los datos de entrada (X) y de salida (Y). Cada objeto de cada fase aprende en base a dichos datos.
* predict: Recibe como parámetro de entrada los datos de entrada (X). Realiza la predicción realizando lo siguiente:
    * Primero se aplican las transformaciones de datos por medio de los primeros objetos (llaman a sus respectivas funciones transform)
    * Finalmente, se aplica al objeto de la última fase (clasificador o modelo de regresión) para realizar la predicción correspondiente a los datos de entrada (llamada a su método predict). 

Realizar una Pipeline que combine:
* Selección de variables utilizando el filtro de ANOVA en base al percentil (seleccionar el 30% de las variables) 
    * feature_selection.SelectPercentile(feature_selection.f_classif, percentile=30)
* Clasificador KNN
    * neighbors.KNeighborsClassifier()

Para ello, utiliza los conjuntos de entrenamiento y test generados al comienzo de la práctica utilizando Hold-out.

Comprueba que los resultados son los mismos que los obtenidos cuando hemos utilizado por separado ambos objetos.

In [None]:
# Se importa la librería pipeline
from sklearn import pipeline

# Se crea la Pipeline con las fases deseadas
# combo = <RELLENAR>
    
# Se realiza el aprendizaje de los parámetros de todas las fases de la Pipeline
# combo = <RELLENAR>
# Se llama a la predicción de la pipeline sobre los datos de entrenamiento
# prediccionesTrain = <RELLENAR>
# Se calcula el accuracy para los datos de entrenamiento (entre 0.0 y 100.0)
# accTrain = <RELLENAR>
print('Resultado en entrenamiento: {}%'.format(accTrain))
# Se llama a la predicción de la pipeline sobre los datos de test
# prediccionesTest = <RELLENAR>
# Se calcula el accuracy para los datos de test (entre 0.0 y 100.0)
# accTest = <RELLENAR>
print('Resultado en test: {}%'.format(accTest))

In [None]:
assert_equal(round(accTrain, 2), 86.90, 'Valor de accuracy en train incorrecto')
assert_equal(round(accTest, 2), 88.89, 'Valor de accuracy en test incorrecto')

Por último, existe la posibilidad de buscar la mejor configuración de todo el proceso combinado. Es decir, del calificador compuesto creado por la Pipeline. Para ello, de forma similar al método visto para clasificación estándar, scikit-learn ofrece una clase llamada *GridSearchCV* dentro de la librería *model_selection* que realiza tal proceso de forma automática.

Una vez importado el paquete podemos usar la clase y para ello lo primero que hay que hacer es una llamada al constructor

    gs_clf = model_selection.GridSearchCV(clasificadorCompuesto, parametros, n_jobs=1)
    
Los parámetros de entrada son

* clasificadorCompuesto: el objeto con el clasificador compuesto a “optimizar”
* parametros: un diccionario con los nombres de los campos como claves y los valores de cada uno de ellos como valor. 
    * En este caso, al nombre del campo hay que insertarle como prefijo el componente al que hace referencia seguido de dos barras bajas (nombreComponente__campo: [valores]). 
    * Por ejemplo filtroANOVA __percentile: (10,20,30)
* n_jobs: número de procesadores a utilizar para paralelizar (-1 para que use todos)

Una vez generado el objeto, el siguiente paso es realizar el aprendizaje. Para ello se llama a la función fit. Este paso y la visualización de la mejor configuración los rendimientos asociados es igual a los vistos para la validación de clasificadores.

Utiliza la función GridSearchCV para buscar la configuración óptima del clasificador compuesto por el filtro ANOVA y el clasificador KNN. Los parámetros y valores a optimizar son:
* Para la selección de variables basado en el percentil y el filtro ANOVA
    * percentile: 10, 20, 30
* Para el clasificador KNN
    * n_neighbors: 1, 3, 5, 7, 9
    * weights: ‘uniform’, ‘distance’
    * p: [1, 2, 1.5, 3]

NOTAS:
* Utiliza todos los ejemplos del dataset sonar (campos data y target) para realizar el entrenamiento.
* Utiliza 10 particiones y el accuracy para realizar la validación cruzada.

In [None]:
# Se crea la Pipeline con las fases deseadas
# clf_compuesto = <RELLENAR>

# Se crea el grid de hyper-parámetros a "optimizar"
# parameters = <RELLENAR>

# Se llama al constructor de GridSearchCV para que genere todas las combinaciones ce los parámetros definidos anteriormente
# gridSearch_ClasCompuesto = <RELLENAR>
# Se realiza el aprendizaje de todos los clasificadores considerados (todas las configuraciones)
# gridSearch_ClasCompuesto = <RELLENAR>

# Se muestra la mejor configuración junto con su rendimiento
print(gridSearch_ClasCompuesto.best_score_)
print(gridSearch_ClasCompuesto.best_params_)

# Se muestra el accuracy obtenido para cada posible combinación de parámetros
resultadosMostrar = zip(gridSearch_ClasCompuesto.cv_results_['params'],gridSearch_ClasCompuesto.cv_results_['mean_test_score'],gridSearch_ClasCompuesto.cv_results_['mean_train_score'])
for params, mean_test_score, mean_train_score in resultadosMostrar:
    print("%0.3f (Train: %0.3f) for %r" % (mean_test_score, mean_train_score, params))
print()

In [None]:
assert_equal(round(gridSearch_ClasCompuesto.best_score_, 4), 0.7212, 'Valor de accuracy en train incorrecto')
assert_equal(gridSearch_ClasCompuesto.best_params_, {'KNN__p': 1.5, 'KNN__weights': 'uniform', 'KNN__n_neighbors': 5, 'filtroANOVA__percentile': 20}, 'Mejor configuración incorrecta')