## Práctica de análisis de correlaciones y PCA

- [Análisis de correlaciones](#Análisis-de-correlaciones)
- [PCA: Principal component analysis](#PCA:-Principal-component-analysis)
- [Pipelines](#Pipelines)

Importamos todas las librerías que vamos a utilizar durante la práctica.

In [None]:
# %load ../../standard_import.txt
import pandas as pd
import numpy as np
from nose.tools import assert_equal

pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 150)
pd.set_option('display.max_seq_items', None)
 
#%config InlineBackend.figure_formats = {'pdf',}
%matplotlib inline

Para desarrollar la práctica vamos a trabajar con el dataset Sonar. Este dataset contiene la información de un sonar (energía en diferentes bandas de frecuencia) para distinguir rocas (R) de minas (M). En concreto el dataset tiene 60 variables numéricas como entrada y la información de 208 ejemplos. Toda la información de este dataset se puede encontrar en la URL: http://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+%28Sonar%2C+Mines+vs.+Rocks%29.

Una forma habitual de guardar los datos es mediante archivos .csv como es el caso de esta práctica. Para leerlos se puede utilizar la función *read_csv* de la librería *pandas*: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html. Una vez leídos podemos dividir los datos en información de entrada y de salida. 

En caso de que alguna variable tenga valores discretos en muchos casos es necesario transformarlos a valores numéricos. Asignarles etiquetas utilizando una numeración ordinal se puede conseguir fácilmente utilizando la función *factorize* de *pandas*: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.factorize.html. 

En el siguiente código se deben leer los datos del problema sonar almacenados en un archivo .csv. En este caso la variable de salida (la última, llamada Type) está codificada con strings puesto que es una variable discreta y, por lo tanto, debéis convertirla a valores numéricos (utilizando una codificación ordinal) para poder aplicar los métodos disponibles en Scikit-learn.

In [None]:
# Se realiza la lectura del dataset sonar utilizando pandas
    # La primera línea contiene los nombres de las variables
    # header=None se utilizaría en caso de que no existiera una primera línea con los nombres para las variables

# datos = <RELLENAR>

# Generamos los datos de entrada y de salida: nos quedamos con las columnas correspondientes y la transformamos a un array de numpy
X = np.array(datos.iloc[:,:-1].copy())
# Transformamos la variable de las clases (valores discretos: strings) en valores numéricos de acuerdo a una codificación ordinal
# y = <RELLENAR>

### Obtención del rendimiento con todas las variables

Para comprobar la calidad del análisis de correlaciones (la influencia de eliminar variables correlacionadas), en primer lugar vamos a calcular el rendimiento del clasificador KNN (con la configuración por defecto) si utilizamos todas las variables. 

En primer lugar vamos a obtener los conjuntos de entrenamiento y de test (70% de datos para entrenar). 

Se debe determinar la semilla para garantizar la reproducibilidad de los resultados.

In [None]:
# Se importan la librería necesarias
from sklearn import model_selection

# Se fija la semilla de numpy para que la generación aleatoria siempre nos de los mismos números
np.random.seed(12)

# Lllamada a la función train_test_split y guardado del resultado
    # X_train e y_train contienen los ejemplo de entrenamiento
    # X_test e y_test contienen los ejemplo de test
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, train_size=0.7)

Obtener el accuracy rate tanto para el conjunto de entrenamiento (X_train) como para el conjunto de test (X_test).

In [None]:
# Se importan las 2 librerías necesarias para resolver el ejercicio
from sklearn import neighbors, metrics

# Realizamos el proceso para KNN por lo que hay que llamar al constructor de dicho clasificador
# knn =  <RELLENAR>
# Llamada a la función que realiza el aprendizaje del clasificador
# knn =  <RELLENAR>
# Llamada a la función que realiza la predicción de los datos de entrenamiento
# prediccionTrain =  <RELLENAR>
# Llamada a la función que calcula el porcentaje de acierto para los datos de entrenamiento
# accTrain =  <RELLENAR>
print('El rendimiento en entrenamiento con todas las variables es el {}%'.format(accTrain))
# Llamada a la función que realiza la predicción de los datos de test
# prediccionTest =  <RELLENAR>
# Llamada a la función que calcula el porcentaje de acierto para los datos de test
# accTest =  <RELLENAR>
print('El rendimiento en test con todas las variables es el {}%'.format(accTest))

In [None]:
# ESTA CELDA DARÁ ERROR SI EL RESULTADO NO ES CORRECTO
    # EN CASO CONTRARIO NO TENDRÁ SALIDA
assert_equal(round(accTrain, 2), 86.21)
assert_equal(round(accTest, 2), 68.25)

## Análisis de correlaciones

### Visualización de la matriz de correlaciones

En este apartado vamos a calcular y mostrar visualmente la matriz de correlaciones entre todas las variables de entrada junto con la variable a predecir. Para ello vamos a utilizar la librería Pandas y, en concreto, la función **corr** cuya información se puede encontrar en la URL: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.corr.html

In [None]:
import matplotlib.pyplot as plt
# Generamos el DataFrame a partir de los datos de entrada (X_train) y de salida (y_train)
datosC = pd.DataFrame(data=np.hstack((X_train, y_train.reshape(-1,1))))

# Calculamos la matriz de correlaciones con la función corr de pandas
# correlaciones = <RELLENAR>

# plot correlation matrix
fig = plt.figure(figsize=(50,50))
ax = fig.add_subplot(111)
cax = ax.matshow(correlaciones, vmin=-1, vmax=1, cmap=plt.cm.rainbow)
fig.colorbar(cax)
ticks = np.arange(0,61,1)
ax.set_xticks(ticks)
ax.set_yticks(ticks)
# Si quisiéramos mostrar los nombres de las variables en la figura
# names = list(datos.columns)
# ax.set_xticklabels(names)
# ax.set_yticklabels(names)
plt.show()

En este caso no se observa muy bien (puesto que la matriz es muy grande) que la matriz es simétrica (matriz triangular superior e inferior iguales). Además, se observa que la correlación entre una variable y ella misma es perfecta (diagonal con unos).

Como la matriz es muy grande, para facilitar la visualización podemos hacer una gráfica con la última columna ya que indica la correlación de cada variable con la variable a predecir.

In [None]:
# nos quedamos con la última columna del DataFrame correlaciones
    # (todas las filas de correlaciones menos la última porque es la correlación de la variable a predecir consigo misma)
# correlacionConClase = <RELLENAR>
# Mostramos la correlación mínima y máxima
print(correlacionConClase.min(), correlacionConClase.max())

# Creamos el rango de las variables para mostrar su "nombre"
rango = np.arange(0,60,1)

# Creamos la figura
plt.figure(figsize=(20,5))
plt.plot(rango, correlacionConClase)
plt.xticks(rango)
plt.ylim(-1,1)
plt.show()

En este caso podemos observar que no hay ninguna variable de entrada que esté altamente correlacionada con la variable a predecir.

Vamos a tratar de hacer las correlaciones entre las variables de entrada para descartar aquellas que estén altamente correlacionadas entre ellas y que, por tanto, no aporten información extra. Para obtener las variables correlacionadas vamos seleccionar las que tenga un valor de correlación mayor que un umbral (inicialmente lo asignamos a 0.8).

In [None]:
# Generamos un DataFrame con los datos de entrada (X_train)
# datos = <RELLENAR>
# Mostramos las dimensiones del problema
print(datos.shape)

# Creamos la matriz de correlación en valor absoluto: función abs (da igual se se correlacionan positiva o negativamente)
# corr_matrix = <RELLENAR>
# Seleccionamos el triángulo superior de la matriz de correlación
upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(np.bool))
# Umbral deseado para determinar variables correlacionadas
umbral = 0.8
# Obtenemos los índices de aquellas variables con correlación mayor al umbral deseado
variables_a_eliminar = [column for column in upper.columns if any(upper[column] > umbral)]

# Eliminamos las variables con alta correlación con algunda de las variables de entrada para los datos de entrenamiento
datos = datos.drop(datos.columns[variables_a_eliminar], axis=1)
# Mostramos las dimensiones del problema tras reducir las variables redundantes
print(datos.shape)

# Eliminamos las variables con alta correlación con algunda de las variables de entrada para los datos de test
# datosTest = <RELLENAR>
# datosTest = <RELLENAR>

In [None]:
# ESTA CELDA DARÁ ERROR SI EL RESULTADO NO ES CORRECTO
    # EN CASO CONTRARIO NO TENDRÁ SALIDA
assert_equal(datos.shape[1], 24)

Finalmente obtenemos el rendimiento de KNN con las variables seleccionadas. Recordad que con todas las variables el rendimiento en train es del 86.21% y en test del 68.25%.

In [None]:
# Realizamos el proceso para KNN por lo que hay que llamar al constructor de dicho clasificador
# knn = <RELLENAR>
# Llamada a la función que realiza el aprendizaje del clasificador con los datos tras eliminar las correlacionadas
# knn = <RELLENAR>
# Llamada a la función que realiza la predicción de los datos de entrenamiento (tras eliminar las correlacionadas)
# prediccionTrain = <RELLENAR>
# Llamada a la función que calcula el porcentaje de acierto para los datos de entrenamiento 
# accTrain = <RELLENAR>
print('El rendimiento en entrenamiento con las variables no redundantes es el {}%'.format(accTrain))
# Llamada a la función que realiza la predicción de los datos de test (tras eliminar las correlacionadas)
# # prediccionTest = <RELLENAR>
# Llamada a la función que calcula el porcentaje de acierto para los datos de test
# accTest = <RELLENAR>
print('El rendimiento en test con las variables no redundantes  es el {}%'.format(accTest))

In [None]:
# ESTA CELDA DARÁ ERROR SI EL RESULTADO NO ES CORRECTO
    # EN CASO CONTRARIO NO TENDRÁ SALIDA
assert_equal(round(accTrain, 2), 85.52)
assert_equal(round(accTest, 2), 71.43)

Podéis cambiar el umbral para seleccionar las variables correlacionadas (de las que nos quedamos una) y ver cómo cambian los resultados. Evidentemente, si se cambia el umbral las celdas de autocorrección fallarán. Dejad el umbral 0.8 en caso de que haya que entregar el Notebook.

### PCA: Principal component analysis

Una técnica muy habitual a la hora de realizar reducción de datos por medio de transformaciones de variables es el análisis de las componentes principales (PCA, de sus siglas en inglés). Scikit-learn nos ofrece dicha técnica implementada en la clase *PCA* de la librería *decomposition*. Toda la información de dicha clase se puede encontrar en el siguiente enlace: https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html. El constructor con los parámetros que vamos a utilizar en esta prñáctica es el siguiente:
    
    sklearn.decomposition.PCA(n_components: numCom, svd_solver='full')
    
El parámetro n_components puede tener diferentes valores al utilizar *svd_solver='full'*:
* Si *numCom* es un valor entero especifica el númerto de componentes principales a mantener.
* Si *numCom* es un valor real entre 0 y 1 especifica el porcentaje de la varianza que representan los  componentes principales seleccionados. 

El porcentaje de varianza que representa cada componente principal se puede encontrar en el atributo *explained_variance_ratio_* de la clase PCA. El número de componentes principales seleccionados se puede obtener en el atributo *n_components_* de la clase PCA.

Al igual que el resto de técnicas de preprocesamiento, para ejecutar PCA se debe llamar al constructor de la clase PCA, luego entrenarlo, método *fit*, con los ejemplos de entrenamiento y finalmente el objeto entrenado se puede utilizar para transformar ejemplos a la nueva base mediante el método *transform*.

En la siguiente celda debéis ejecutar PCA utilizando tantos componentes principales como sean necesarios para mantener el 95% de la varianza. Debéis entrenar PCA con los datos de entrenamiento obtenidos al comienzo de la práctica y transformar tanto los datos de entrenamiento como los de test. Dichos datos transformados serán utilizados para obtener el rendimiento de KNN tanto en entrenamiento como en test con su configuración por defecto.

In [None]:
from sklearn.decomposition import PCA

# Creamos y entrenamos el objeto de la clase PCA apropiado para realizar el ejercicio
# pca = <RELLENAR>

# Transformamos los datos de entrenamiento y de test
# X_train_pca = <RELLENAR>
# X_test_pca = <RELLENAR>

# Obtenemos el rendimiento de los datos transformados por PCA con el algoritmo KNN
# accTrain = <RELLENAR>
# accTest = <RELLENAR>

In [None]:
assert_equal(round(accTrain, 2), 86.90)
assert_equal(round(accTest, 2), 71.43)

Algo interesante de PCA es que podemos analizar la influencia del número de componentes principales utilizados. Scikit-learn nos devuelve los componentes principales ordenados por importancia (varianza de información que representan). Por este motivo, el primer componente principal será el más importante, luego el segundo, etc...

El objetivo de este ejercicio es que analicéis la influencia de los componentes principales. Para ello se debe crear un script que analice el rendimiento de KNN con los datos transformados por PCA al seleccionar desde un único componente principal hasta tantos como variables originales tenga el problema. Algo muy útil para analizar dicho rendimiento es crear una gráfica que muestre para cada posibiliad su porcentaje de información representada, su rendimietno en train y su rendimiento en test.

En la siguiente celda se debe crear el código necesario para crear dicha gráfica y poder analizar el comportamiento de PCA.

In [None]:
listaAccTrain = [] # lista para almancenar el rendimiento de las diferentes posibilidades en train
listaAccTest = [] # lista para almancenar el rendimiento de las diferentes posibilidades en test
listaPorInf = [] # lista para almancenar el porcentje de información representado por las diferentes posibilidades
for numPCs in range(X_train.shape[1]):
    # Cread y entrenad el objeto de PCA con el número de componentes apropiado (más 1 por empezar el bucle en 0)
    # Posteriormente, transformad los datos de entrenamiento y de test
#     pca = <RELLENAR>
#     X_train_pca = <RELLENAR>
#     X_test_pca = <RELLENAR>
    # Añadimos a la lista el porcentaje de varianza explicada por los componentes utilizados en la iteración
    listaPorInf.append(pca.explained_variance_ratio_.sum()*100.0)

    # Obtener el rendimiento de KNN con la configuración por defecto tanto en train como en test con los datos transformados
        # Aádir dichos rendimientos a las listas correspondientes
    # <RELLENAR>
# Mostramos en negro la varianza explicada, en rojo el rendimiento en train y en verde el rendimiento en test
plt.figure()
plt.plot(range(X_train.shape[1]), np.array(listaPorInf), 'k')
plt.plot(range(X_train.shape[1]), np.array(listaAccTrain), 'r')
plt.plot(range(X_train.shape[1]), np.array(listaAccTest), 'g')
plt.show()

In [None]:
# ESTA CELDA DARÁ ERROR SI EL RESULTADO NO ES CORRECTO
# assert_equal(list(map(lambda x: round(x, 2), np.array(listaPorInf)[::4])), [34.92, 75.49, 87.89, 93.08, 96.17, 97.78, 98.7, 99.22, 99.54, 99.75, 99.89, 99.96, 99.99, 100.0, 100.0])
assert_equal(list(map(lambda x: round(x, 2), np.array(listaAccTrain)[::4])), [75.17, 86.9, 87.59, 89.66, 86.21, 86.9, 85.52, 85.52, 86.21, 86.21, 86.21, 86.21, 86.21, 86.21, 86.21])
assert_equal(list(map(lambda x: round(x, 2), np.array(listaAccTest)[::4])), [42.86, 68.25, 66.67, 69.84, 74.6, 68.25, 68.25, 68.25, 68.25, 68.25, 68.25, 68.25, 68.25, 68.25, 68.25])

Del mismo modo que en el caso anterior se puede estudiar la influencia del porcentaje de información total (varianza) a representar por los componentes principales utilizados. Cread el código necesario para obtener el número de compomentes principales utilizados por los porcentajes de información 0.8, 0.85, 0.9 y 0.95 así como sus rendimientos en train y test. En este caso no hace falta realizar una gráfica pero debéis almacenar el número de componentes principales necesarios para alcanzar cada valor (variable *n_components_* del objeto de la clase PCA).

In [None]:
listaAccTrain = [] # lista para almancenar el rendimiento de las diferentes posibilidades en train
listaAccTest = [] # lista para almancenar el rendimiento de las diferentes posibilidades en test
listaNumPCs = [] # lista para almancenar el número de compomentes principales de cada opción
# <RELLENAR>

In [None]:
# ESTA CELDA DARÁ ERROR SI EL RESULTADO NO ES CORRECTO
# assert_equal(list(map(lambda x: x, listaNumPCs)), [7, 8, 11, 16])
assert_equal(list(map(lambda x: round(x, 2), listaAccTrain)), [91.03, 88.28, 86.9, 86.9])
assert_equal(list(map(lambda x: round(x, 2), listaAccTest)), [69.84, 69.84, 68.25, 71.43])

Finalmente, algo muy interesante es analizar qué variables influyen más en cada componente principal. Para ello, lo que se suele realizar es calcular la correlación entre las nuevas variables creadas por PCA (los valores de los ejemplos tras realizar la transformación) y las variables originales. Por ejemplo, para analizar las variables que más influyen al primer componente principal (PC1) deberemos realizar la correlación entre los valores de todos los ejemplos tras realizar la transformación con el PC1 y los valores de todos los ejemplos con cada variable original. De este modo, si una variable tiene correlación positiva el valor del PC1 crecerá conforme crezca dicha variable y decrecerá en caso de correlación negativa. Este hecho se puede mostrar muy fácilmente relizando una gráfica con el comando *plot*.

Para realizar la correlación entre las variables se puede utilizar la función *corrcoef* de Numpy: https://docs.scipy.org/doc/numpy/reference/generated/numpy.corrcoef.html. En este caso, la matiz de entrada tiene tantas filas como variables a calcular su correlación y tantas columnas como ejemplos.

En la siguiente celda vamos a analizar la influencia de las variables originales en los componentes principales obtenidos al mantener el 95% de la información.

In [None]:
# Obtener los componentes principales de PCA (95% varianza) utiliando X_train para entrenar el modelo y transformar los datos
# pca = <RELLENAR>
# X_train_pca = <RELLENAR>

# Concatenar verticalmente las matrices de ejemplos originales y transformados en ese orden (transpuestas para que las variables sean las filas)
variablesConPCs = np.vstack((X_train.T,X_train_pca.T))
# Obtener la matriz de correlaciones de la matriz anterior
# correlacionesPCs = <RELLENAR>
# Seleccionar las últimss n_components_ filas y las X_train.shape[1] primeras columnas de la matriz correlacionesPCs
# corrPCsVars = <RELLENAR>

# Figura que muestra la influencia de las variables originales en cada componente principal
fig = plt.figure(1, figsize=(24,70))
for i in range(corrPCsVars.shape[0]):
    fig.add_subplot(corrPCsVars.shape[0],1,i+1)
    plt.title("PC"+str(i+1))
    plt.ylim([-1,1])
    plt.bar(range(corrPCsVars.shape[1]),corrPCsVars[i,:])
plt.show()

### Pipelines

Para finalizar la práctica vamos utilizar una clase que nos permite realizar una secuencia de transformaciones a los datos (pre-procesamiento) que finalmente se aplicarán para entrenar un clasificador. Es decir, podemos crear una composición de varias fases de pre-procesamiento (todas las que queramos) junto con el aprendizaje de un clasificador sin tener que realizarlas independientemente.

La clase que nos ofrece esta posibilidad está dentro de la librería Pipeline y la clase tiene el mismo nombre, Pipeline. Toda la información de esta clase la podéis encontrar en la URL: http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html#sklearn.pipeline.Pipeline

La llamada al constructor de esta clase consiste en un conjunto de tuplas del tipo (nombreFase, objeto), cuyo significado es:
* nombreFase: string que establece el nombre de la fase. Por ejemplo 'PCA' o 'clasificadorKNN'
* objeto: variable en la que se almacena la llamada al constructor de lo que se desee hacer. Por ejemplo PCA(n_components=0.95, svd_solver='full') o neighbors.KNeighborsClassifier()

Es decir, si deseáramos combinar ambos procesos deberíamos realizar la siguiente llamada:

    combinado = Pipeline([('PCA', PCA(n_components=0.95, svd_solver='full'), ('clasificadorKNN', neighbors.KNeighborsClassifier())])
    
Hay que destacar que los objetos de todas las fases (excepto de la última) tienen que tener los métodos fit y transform, para que puedan aprender de los datos y transformarlos en consecuencia. El último objeto debe tener el método fit, para aprender de los datos, y el método predict para poder realizar nuevas predicciones. Es decir, el último objeto debe ser un modelo de clasificación o regresión.

El objeto combinado, la Pipeline generada, dispone de los siguientes métodos:
* fit: Recibe como parámetros de entrada los datos de entrada (X) y de salida (Y). Cada objeto de cada fase aprende en base a dichos datos.
* predict: Recibe como parámetro de entrada los datos de entrada (X). Realiza la predicción realizando lo siguiente:
    * Primero se aplican las transformaciones de datos por medio de los primeros objetos (llaman a sus respectivas funciones transform)
    * Finalmente, se aplica al objeto de la última fase (clasificador o modelo de regresión) para realizar la predicción correspondiente a los datos de entrada (llamada a su método predict). 

Realizar una Pipeline que combine:
* PCA para representar el 95% de la varianza
    * PCA(n_components=0.95, svd_solver='full')
* Clasificador KNN
    * neighbors.KNeighborsClassifier()

Para ello, utiliza los conjuntos de entrenamiento y test generados al comienzo de la práctica.

Comprueba que los resultados son los mismos que los obtenidos cuando hemos utilizado por separado ambos objetos.

In [None]:
# Se importa la librería pipeline
from sklearn import pipeline

# Se crea la Pipeline con las fases deseadas
# combo = <RELLENAR>   
# Se realiza el aprendizaje de los parámetros de todas las fases de la Pipeline
# combo = <RELLENAR>
# Se llama a la predicción de la pipeline sobre los datos de entrenamiento
# prediccionesTrain = <RELLENAR>
# Se calcula el accuracy para los datos de entrenamiento (entre 0.0 y 100.0)
# accTrain = <RELLENAR>
print('Resultado en entrenamiento: {}%'.format(accTrain))
# Se llama a la predicción de la pipeline sobre los datos de test
# prediccionesTest = <RELLENAR>
# Se calcula el accuracy para los datos de test (entre 0.0 y 100.0)
# accTest = <RELLENAR>
print('Resultado en test: {}%'.format(accTest))

In [None]:
# ESTA CELDA DARÁ ERROR SI EL RESULTADO NO ES CORRECTO
    # EN CASO CONTRARIO NO TENDRÁ SALIDA
assert_equal(round(accTrain, 2), 86.90)
assert_equal(round(accTest, 2), 71.43)

Realizar una Pipeline que combine el filtro ANOVA anterior, el clasificador KNN y además realice en primer lugar la normalización de datos utilizando el método de los mínimos y los máximos:
    * preprocessing.MinMaxScaler()

NOTA: recodar que hay que importar la librería preprocessing

In [None]:
# Se importa la librería de pre-procesamiento para hacer la normalización
from sklearn import preprocessing

# Se crea la Pipeline con las fases deseadas
# combo = <RELLENAR>
# Se realiza el aprendizaje de los parámetros de todas las fases de la Pipeline
# combo = <RELLENAR>
# Se llama a la predicción de la pipeline sobre los datos de entrenamiento
# prediccionesTrain = <RELLENAR>
# Se calcula el accuracy para los datos de entrenamiento (entre 0.0 y 100.0)
# accTrain = <RELLENAR>
print('Resultado en entrenamiento: {}%'.format(accTrain))
# Se llama a la predicción de la pipeline sobre los datos de test
# prediccionesTest = <RELLENAR>
# Se calcula el accuracy para los datos de test (entre 0.0 y 100.0)
# accTest = <RELLENAR>
print('Resultado en test: {}%'.format(accTest))

In [None]:
# ESTA CELDA DARÁ ERROR SI EL RESULTADO NO ES CORRECTO
    # EN CASO CONTRARIO NO TENDRÁ SALIDA
assert_equal(round(accTrain, 2), 91.72)
assert_equal(round(accTest, 2), 76.19)