In [6]:
import numpy as np
from numpy.linalg import eig
from sklearn.decomposition import PCA

# Que es el Análisis de Componentes Principales

El análisis de componentes principales se trata de un método para reducir la dimensionalidad de los datos. Se trata de un método que usa operaciones matriciales y estadísticos para calcular una proyección de los datos originales en un número menor de dimensiones.

Se puede pensar como un método que proyecta nuestras m columnas (características) en un sub-espacio con m o menos columnas, mientras retiene la esencia de los datos originales.

$$A = \begin{pmatrix}a_{1,1} & a_{1,2}\\\ a_{2,1} & a_{2,2}\\\ a_{3,1} & a_{3,2}\end{pmatrix}$$

El primer paso consiste es calcular los valores medios para cada columna

$$ M = mean(A)$$

El siguiente paso, es centrar los valores de cada columna, para ellos le restamos a cada valor de cada columna la media de su columna correspondiente.

$$C = A - M$$

El siguiente paso es calcular la matriz de covarianza para nuestra matriz centrada C.

$$ V = cov(C) $$

Finalmente calculamos la descomposición en vectores y valores propios de nuestra matriz de covarianza.

$$value, vectors = eig(V)$$

Los vectores propios representan las direcciones o componentes para el subespacio reducido B, mientras que los valores propios representan las magnitudes de las direcciones.

Los vectores propios puede ser ordenados de forma descendente a partir del valor propio que les acompaña con el objetivo de proporcionar un ranking de las componentes o ejes del nuevo subespacio.

Si todos los valores propios tiene un valor similar, entonces podemos concluir que la representación actual está razonablemente comprimida y la proyección a un nuevo espacio no aportará en exceso.

Aquellos valores propios cercanos a cero nos indican aquellas componentes que podemos descartar para el nuevo subespacio B.

Idealmente queremos seleccionar k vectores propios, llamados componentes principales, que tienen k valores propios elevados.

$$B = select(values, vectors)$$

Una vez seleccionados estos vectores propios podemos proceder a proyectos nuestros datos originales en el nuevo subespacio, para esto:

$$P = B^{T}A$$

Donde A son los datos originales que deseamos proyectar, B es la matriz con los vectores propios seleccionados, finalmente P es la proyección de A.

# Calculando el análisis de componentes principales

A la hora de realizar esta cálculo mediante Python, tenemos dos opciones, si optamos por hacer uso de Numpy no disponemos de ninguna función que nos permita realizar este cálculo de forma directa, sin embargo si optamos por hacer uso de ScikitLearn, este módulo si que dispone de la clase PCA que nos permite calcular de forma directa el análisis de componentes principales. A continuación veamos como se realizaría este cálculo haciendo uso de Numpy.

In [4]:
#Generamos nuestro conjunto de datos A
A = np.array([[1,2], [3,4], [5,6]])

#Calculamos la media de cada una de las columnas 
A_mean_col = np.mean(A.T, axis = 1)

#Centramos restando la media
C = A - A_mean_col

#Calculamos la matriz de covarianza
V = np.cov(C.T)

#Descomponemos en vectores y valores propios
values, vectors = eig(V)
print(values)
print(vectors)

[8. 0.]
[[ 0.70710678 -0.70710678]
 [ 0.70710678  0.70710678]]


In [5]:
#Proyectamos los datos
P = vectors.T.dot(C.T)
print(P.T)

[[-2.82842712  0.        ]
 [ 0.          0.        ]
 [ 2.82842712  0.        ]]


# Calculando el análisis de componentes principales con Scikit-learn

Podemos calcular el análisis de componentes principales haciendo uso de la clase **PCA()** de la librería scikit-learn. El principal beneficio es que una vez es calculada la proyección, esta puede ser aplicada a los datos una y otra vez con bastante facilidad. Podemos especificar el número de componentes principales. 

In [8]:
#Generamos nuestro array
A = np.array([[1,2], [3,4], [5,6]])

#Creamos el modelo 
pca = PCA(2)

#Fijamos el modelo 
pca.fit(A)

#Vemos las componentes y la varianza explicada por cada componente
print(pca.components_)
print(pca.explained_variance_)

[[ 0.70710678  0.70710678]
 [ 0.70710678 -0.70710678]]
[8.00000000e+00 2.25080839e-33]


In [9]:
#Hacemos el transform
B = pca.transform(A)
print(B)

[[-2.82842712e+00  2.22044605e-16]
 [ 0.00000000e+00  0.00000000e+00]
 [ 2.82842712e+00 -2.22044605e-16]]
