# Principal Component Analysis

El PCA, por sus siglas en inglés, es una técnica de reducción que se utiliza para preparar datos para ser visualizados o para ser utilizados en análisis y modelado.

PCA busca reducir la dimensionalidad de los datos al proyectarlos en un nuevo espacio de características que esté compuesto por las direcciones de máxima varianza de los datos originales.

El objetivo de PCA es encontrar una nueva representación de los datos que permita preservar la mayor cantidad de información posible a pesar de reducir el número de variables. Esto se logra mediante la identificación de las componentes principales, que son combinaciones lineales de las variables originales que explican la mayor cantidad de varianza en los datos.

Vamos a trabajar con el dataset de las flores Iris, este dataset tiene 4 dimensiones en donde cada una de ellas tiene una relación con el mundo real:

In [None]:
from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data
labels = iris.target

print(X.shape)
X[:10]

Los puedes visualizar con la siguiente función:

In [None]:
from utils import visualize_iris_pairplot

visualize_iris_pairplot(iris)

En Scikit-learn, para aplicar PCA a un conjunto de datos, se crea una instancia de la clase <code><b>PCA</b></code><b> </b>la cual hay que importar del módulo <code>sklearn.decomposition</code>:

In [None]:
from sklearn.decomposition import PCA

Uno de los hiperparámetros más importantes de PCA es la cantidad de componentes que queremos, este número, dado por el argumento <code>n_components</code> que te recomiendo especificar en la mayoría de los casos. Digamos que queremos reducir nuestro dataset a dos dimensiones únicamente:

In [None]:
pca = PCA(n_components=2)

Esto significa que de 4 dimensiones, vamos a convertirlo a dos – llamando al método <code>fit</code> y luego <code>transform</code>:

In [None]:
pca.fit(X)
X_reduced = pca.transform(X)

print(X_reduced.shape)
X_reduced[:10]

Y ahora podemos visualizar este nuevo dataset, que es una versión en baja dimension pero que captura las diferencias de los datos originales:

In [None]:
import matplotlib.pyplot as plt

# Graficar los datos transformados
plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=labels)
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.show()

Algo importante a señalar es que después de las transformaciones, estas dos nuevas dimensiones, estos valores no tienen relación alguna con ninguna propiedad física. Son solo “componentes”, aquí no podemos hablar de centímetros o pétalos, nada de eso.

## ¿Cómo medir qué tan bueno es PCA?

Es difícil por si solo poder cuantificar qué tan bueno es nuestra elección de hiperparámetros de PCA. A veces se suele medir el desempeño de PCA en conjunto con que tan bien es capaz de ayudar a mejorar el rendimiento de un modelo de aprendizaje automático que se entrena con los datos que salen de PCA, o si las gráficas que generamos con este son buenas o no.

Y pues ahí lo tienen el algoritmo de PCA es útil cuando necesitamso reducir la dimensión de nuestros datos ya sea para entrenar un nuevo modelo o simplemente visualizar datos.

Y pues ahí lo tienen, PCA es un algoritmo que tal vez por si mismo su utilidad no es tan evidente, pero cuando lo pones en conjunto con una gráfica o un modelo de machine learning, comienza a cobrar más importancia y su utilidad se hace evidente.