# Capítulo 18. Análisis de Componentes Principales

En el aprendizaje automático es un método que se utiliza para la reducción de la dimensionalidad. Utiliza operaciones simples de matriz de álgebra lineal y estadísticas para calcular una proyección de los datos originales en el mismo número o menos dimensiones.

## ¿Qué es?

Principal Component Analysis, o PCA para abreviar, es un método para reducir la dimensionalidad de los datos. Se puede considerar como un método de proyección donde los datos con m-columns (características) se proyectan en un subespacio con m o menos columnas, mientras se conserva la esencia de los datos originales. El método PCA puede describirse e implementarse utilizando las herramientas del álgebra lineal.

PCA es una operación aplicada a un conjunto de datos, representada por una matriz n × m A que da como resultado una proyección de A que llamaremos B. Vamos a seguir los pasos de esta operación.

`B = PCA(A)`

El primer paso es calcular los valores medios de cada columna

`M = mean(A)`

A continuación, necesitamos centrar los valores de cada columna sustrayendo la media de cada valor de la columna.

`C = A − M`

El siguiente paso es calcular la matriz de covarianza de la matriz centrada C. La correlación es una medida normalizada de la cantidad y dirección (positiva o negativa) en que dos columnas cambian juntas. La covarianza es una versión generalizada y no normalizada de la correlación en varias columnas. Una matriz de covarianza es un cálculo de covarianza de una matriz dada con puntajes de covarianza para cada columna con cada otra columna, incluido ella misma.

`V = cov(C)`

Finalmente, calculamos la descomposición propia (eigendecomposition) de la matriz de covarianza V. Esto da como resultado una lista de valores propios (eigenvalues) y una lista de vectores propios (eigenvectors).

`values, vectors = eig(V)`

Los vectores propios representan las direcciones o componentes para el subespacio reducido de B, mientras que los valores propios representan las magnitudes de las direcciones. Los vectores propios se pueden ordenar por valores propios en orden descendente para proporcionar una clasificación de los componentes o ejes del nuevo subespacio para A. Si todos los valores propios tienen un valor similar, entonces sabemos que la representación existente puede estar razonablemente comprimida o es densa y que la proyección puede ofrecer poco. Si hay valores propios cercanos a cero, representan componentes o ejes de B que pueden descartarse. Se debe seleccionar un total de m o menos componentes para que comprendan el subespacio elegido. Idealmente, seleccionaríamos k vectores propios, llamados componentes principales, que tienen los k valores propios mas grandes.

`B = select(values, vectors)`

Se pueden usar otros métodos de descomposición de la matriz, como Descomposición de valores singulares o SVD. Como tal, generalmente los valores se denominan valores singulares y los vectores del subespacio se denominan componentes principales. Una vez elegidos, los datos pueden proyectarse en el subespacio a través de la multiplicación de la matriz.

P = B<sup>T</sup> · A

Donde A es los datos originales que deseamos proyectar, B es la transposición de los componentes principales elegidos y P es la proyección de A. Esto se conoce como la el método de covarianza para calcular el PCA, aunque existen formas alternativas de calcularlo.

## Cálculo del Análisis de Componentes Principales

No hay función pca() en NumPy, pero podemos calcular fácilmente el Análisis de Componentes Principales paso a paso usando las funciones de NumPy. El siguiente ejemplo define una pequeña matriz de 3 × 2, centra los datos en la matriz, calcula la matriz de covarianza de los datos centrados y luego la descomposición propia de la matriz de covarianza. Los vectores propios y valores propios se toman como componentes principales y valores singulares y se utilizan para proyectar los datos originales.

In [1]:
# principal component analysis
from numpy import array
from numpy import mean
from numpy import cov
from numpy.linalg import eig

# define matrix
A = array([
[1, 2],
[3, 4],
[5, 6]])

# column means
M = mean(A.T, axis=1)
M

array([3., 4.])

In [2]:
# center columns by subtracting column means
C = A - M
C

array([[-2., -2.],
       [ 0.,  0.],
       [ 2.,  2.]])

In [3]:
# calculate covariance matrix of centered matrix
V = cov(C.T)
V

array([[4., 4.],
       [4., 4.]])

In [4]:
# factorize covariance matrix
values, vectors = eig(V)
vectors

array([[ 0.70710678, -0.70710678],
       [ 0.70710678,  0.70710678]])

In [5]:
values

array([8., 0.])

In [6]:
# project data
P = vectors.T.dot(C.T)
P.T

array([[-2.82842712,  0.        ],
       [ 0.        ,  0.        ],
       [ 2.82842712,  0.        ]])

Curiosamente, podemos ver que solo se necesita el primer vector propio, lo que sugiere que podríamos proyectar nuestra matriz de 3 × 2 en una matriz de 3 × 1 con poca pérdida.

## Análisis de Componentes Principales en scikit-learn

Podemos calcular el Análisis de Componentes Principales en un dataset utilizando la clase PCA() en la biblioteca scikit-learn. El beneficio de este enfoque es que una vez que se calcula la proyección, se puede aplicar a los datos nuevos una y otra vez con bastante facilidad. Al crear la clase, la cantidad de componentes se puede especificar como parámetro. La clase se ajusta por primera vez al dataset llamando a la función fit(), y luego el dataset original u otros datos pueden proyectarse en un subespacio con el número elegido de dimensiones llamando a la función transform(). Una vez que estén ajustados, se puede acceder a los valores propios y componentes principales en la clase PCA a través de los atributos explained_variance_ y components_. El siguiente ejemplo demuestra el uso de esta clase creando primero una instancia, ajustándola en una matriz 3 × 2, accediendo a los valores y vectores de la proyección, y transformando los datos originales.

In [7]:
# principal component analysis with scikit-learn
from sklearn.decomposition import PCA

# create the transform
pca = PCA(2)

# fit transform
pca.fit(A)

PCA(copy=True, iterated_power='auto', n_components=2, random_state=None,
  svd_solver='auto', tol=0.0, whiten=False)

In [8]:
# access values and vectors
pca.components_

array([[ 0.70710678,  0.70710678],
       [ 0.70710678, -0.70710678]])

In [9]:
pca.explained_variance_

array([8.00000000e+00, 2.25080839e-33])

In [10]:
# transform data
B = pca.transform(A)
B

array([[-2.82842712e+00,  2.22044605e-16],
       [ 0.00000000e+00,  0.00000000e+00],
       [ 2.82842712e+00, -2.22044605e-16]])