# Análisis de Componentes Principales (PCA por sus siglas en inglés)

El PCA no es exactamente un modelo de aprendizaje de máquina completo.  En vez, es un algoritmo de aprendizaje supervisado. 

El PCA es simplemente la transformación de los datos e intenta encontrar qué variables (features) explican la mayor parte de la varianza de los datos, por ejemplo:

<img src='PCA.png' />

## Importación de librerías a utilizar

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import seaborn as sns
%matplotlib inline

## Los Datos

Trabajaremos con un conjunto de datos sobre Cancer que tiene una gran cantidad de variables.

El sklearn contiene otros conjuntos de datos.  Si quisieran ver qué tiene, pueden escribir:

**from sklearn.datasets import load_**     y luego darle un tabulador.

In [None]:
from sklearn.datasets import load_breast_cancer

In [None]:
cancer = load_breast_cancer()

Qué tipo de dato es este?

In [None]:
type(cancer)

Ciertamente es un tipo de dato que no conocemos, pero se puede trabajar, en parte, como que fuera un diccionario

In [None]:
cancer.keys()

Si tratamos de ver cada uno de estos:

In [None]:
cancer['DESCR']

Sale algo no muy ordenado...se visualiza mejor con un print()

In [None]:
print(cancer['DESCR'])

In [None]:
df = pd.DataFrame(cancer['data'], columns = cancer['feature_names'])
#(['DESCR', 'data', 'feature_names', 'target_names', 'target'])

In [None]:
df.head()

## Visualización del PCA

Es muy difícil visualizar datos de alta dimensionalidad (gran número de variables), podemos utilizar el PCA para encontrar un número deseado de componentes principales (para nuestro ejemplo buscaremos dos).  Habiendo reducido los datos a este espacio nuevo de dos dimensiones, es posible representarlos por medio de una gráfica de dispersión.  Sin embargo, antes de hacer esto, necesitamos escalar...o normalizar...los datos para que cada componente tenga una varianza unitaria.

In [None]:
from sklearn.preprocessing import StandardScaler

### Creamos un objeto de la clase StandardScaler y lo ajustamos a los datos

In [None]:
escalador = StandardScaler()
escalador.fit(df)

### Ahora transformaremos los datos

In [None]:
datos_escalados = escalador.transform(df)

El PCA con Scikit Learn utiliza un proceso similar a otras funciones de pre-procesamiento que vienen con SciKit Learn.  Instanciamos un objeto PCA, encontramos los componentes principales usando el método "fit" y luego aplicamos la rotación y reducción de dimensiones por medio de una llamada a "transform()".

También podemos especificar cuántos componentes deseamos conservar al crear el objeto PCA.

In [None]:
from sklearn.decomposition import PCA

In [None]:
pca = PCA(n_components=2)

In [None]:
pca.fit(datos_escalados)

Ahora podemos transformar los datos a los primeros 2 componentes principales.

In [None]:
x_pca = pca.transform(datos_escalados)

Veamos qué ocurrió acá:

La forma de los datos originales (normalizados) es:

In [None]:
datos_escalados.shape

La forma de los datos ya convertidos a componentes principales es:

In [None]:
x_pca.shape

Excelente ... redujimos 30 dimensiones a solo 2!   

Grafiquémoslos!

In [None]:
plt.figure(figsize=(8,6))
plt.scatter(x_pca[:,0],x_pca[:,1])
plt.xlabel('Primer componente principal')
plt.ylabel('Segundo componente principal');

### Solo así no vemos mucho!

No tenemos idea de qué hay en los componentes.

Pero veamos qué pasa agregando información de los datos meta, y un poco de color

In [None]:
plt.figure(figsize = (8, 6))
plt.scatter(x_pca[:, 0],x_pca[:, 1], c = cancer['target'], cmap = 'plasma')
plt.legend(cancer["target_names"], loc = "upper right")
plt.xlabel('Primer componente principal')
plt.ylabel('Segundo componente principal');

Claramente al utilizar estos dos componentes, fácilmente podemos separar las dos clases (Malignos y Benignos)

## Interpretación de los componentes

Desafortunadamente, con esta gran potencia de reducción dimensional, viene el costo de poder comprender fácilmente qué es lo que representan estos componentes.

Los componentes corresponden a combinaciones de las variables originales, los componentes mismos se almacenan como un attributo del objeto PCA ajustado:

In [None]:
pca.components_

En este arreglo numpy, cada fila representa un componente principal, y cada columna relaciona a las variables originales.  Podemos visualizar esta relación con un mapa de calor:

In [None]:
df_componentes = pd.DataFrame(pca.components_, columns = cancer['feature_names'])
df_componentes

In [None]:
plt.figure(figsize = (12, 6))
sns.heatmap(df_componentes, cmap = "viridis",)  # probar con cmap = "plasma", para otros colores

Este mapa de calor y la barra de colores básicamente representan la correlación entre las diferentes variables y los componentes principales.

## Conclusión

De nuevo, el PCA por sí solo solamente es un algoritmo para reducir la dimensionalidad de los conjuntos de datos.  Los más probable es que luego se querrán alimentar estos datos a un modelo de clasificación.