# Implementación de PCA en NumPy

## Objetivos
* Implementación de PCA en NumPy paso a paso
* Comparación de resultados con Scikit-learn

## Implementación

1. Dado un dataset $X \in \mathbb{R}^{n, d}$, con $n$ muestras y $d$ features, queremos reducir sus dimensiones a $m$. Para ello, el primer paso es centrar el dataset (Hint: usen np.mean)

In [27]:
import numpy as np
from sklearn.decomposition import PCA

In [3]:
X=np.array([[0.8,0.7],[0.1,-0.1]])
    
X_norm= X - np.mean(X,axis=0)

2. Obtener la matriz de covarianza de $X^T$, revisar en la teoría por qué utilizamos la transpuesta. Buscar en la documentación de NumPy qué funciones se pueden utilizar.

In [5]:
S= np.cov(X_norm.transpose())/(X_norm.shape[0])

3. Calcular los autovalores y autovectores de la matriz de covarianza. Revisar la documentación de NumPy.

In [33]:
w,v=np.linalg.eig(S)

4. Ordernar los autovectores en el sentido de los autovalores decrecientes, revisar la teoría de ser necesario.

In [36]:
eigenvalues_order=np.argsort(w)
eigenvalues_order=eigenvalues_order[::-1]
w=w[eigenvalues_order]
v=v[:,eigenvalues_order]

[[-0.65850461 -0.75257669]
 [-0.75257669  0.65850461]]


5. Proyectar el dataset centrado sobre los $m$ autovectores más relevantes (Hint: usen np.dot).

In [38]:
m=1
b=v[:,0:m]
X_pca= np.matmul(b.transpose(),X_norm.transpose())

6. Consolidar los pasos anteriores en una función o clase PCA.

In [57]:
def my_pca(X, n_components):
    """
    Transformacion de vectores X segun PCA
    
    Args:
        X (numpy array): vectores
        n_components (int): cantidad de componentes a considerar
    Returns:
        numpy array: vecotres transformados
    """
    X_norm= X - np.mean(X,axis=0)
    S= np.cov(X_norm.transpose())/(X_norm.shape[0])
    w,v=np.linalg.eig(S)
    eigenvalues_order=np.argsort(w)
    eigenvalues_order=eigenvalues_order[::-1]
    w=w[eigenvalues_order]
    v=v[:,eigenvalues_order]

    b=v[:,0:n_components]
    X_pca= np.dot(b.transpose(),X_norm.transpose())
    
    return X_pca.transpose()

7. Comparar los resultados obtenidos con el modelo de PCA implementado en Scikit-learn ([ver documentación](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html)). Tomar como dataset:

$X=\begin{bmatrix}
0.8 & 0.7\\
0.1 & -0.1
\end{bmatrix}$

Se debe reducir a un componente. Verificar los resultados con np.testing.assert_allclose

In [58]:
X=np.array([[0.8,0.7],[0.1,-0.1]])
X_pca_1=my_pca(X,1)
X_norm= X - np.mean(X,axis=0)
pca = PCA(n_components=1)
X_pca_2 = pca.fit_transform(X_norm)
np.testing.assert_allclose(X_pca_1, X_pca_2, rtol=1e-7)
