# Implementación de PCA en NumPy

## Objetivos
* Implementación de PCA en NumPy paso a paso
* Comparación de resultados con Scikit-learn

## Implementación

1. Dado un dataset $X \in \mathbb{R}^{n, d}$, con $n$ muestras y $d$ features, queremos reducir sus dimensiones a $m$. Para ello, el primer paso es centrar el dataset (Hint: usen np.mean)

In [198]:
import numpy as np
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
N=10
D=4
X=np.random.rand(N*D).reshape(N,D) # Las filas son las muestras y las columnas son las features
X_centrado = X - X.mean(axis=0) # Saco la media de cada feature (columna) y se la resto a cada muestra

2. Obtener la matriz de covarianza de $X^T$, revisar en la teoría por qué utilizamos la transpuesta. Buscar en la documentación de NumPy qué funciones se pueden utilizar.

In [149]:
matriz_cov = np.cov(X.T, bias=True) #Uso bias = True para dividir en N y no en N-1

3. Calcular los autovalores y autovectores de la matriz de covarianza. Revisar la documentación de NumPy.

In [156]:
eigenvalues, eigenvectors = np.linalg.eig(matriz_cov)
# Los vectores propios son cada columna del array eigenvectors por lo que a eigenvalues[i] le corresponde el eigenvectors[:,i]

4. Ordernar los autovectores en el sentido de los autovalores decrecientes, revisar la teoría de ser necesario.

In [176]:
orden_eigenvalues = eigenvalues.argsort()[::-1]
eigenvalues_sorted = eigenvalues[orden_eigenvalues]
eigenvectors_sorted = eigenvectors.T[orden_eigenvalues]

5. Proyectar el dataset centrado sobre los $m$ autovectores más relevantes (Hint: usen np.dot).

In [182]:
m = 2
eigenvectors_selected = eigenvectors_sorted[0:m,:]
X_proyectado = np.dot (X_centrado, eigenvectors_selected.T) # Lo vuelvo a vectores columna para poder hacer la multiplicación

6. Consolidar los pasos anteriores en una función o clase PCA.

In [235]:
def pca_np(X, m):
    # Centro el dataset
    X_centrado = X - X.mean(axis=0)
    
    #Calculo la matriz de covarianza
    matriz_cov = np.cov(X_centrado.T, bias=True)
    
    #Calculo los autovectores y autovalores
    eigenvalues, eigenvectors = np.linalg.eig(matriz_cov)
    
    #Ordeno los autovalores y autovectores
    orden_eigenvalues = eigenvalues.argsort()[::-1]
    eigenvalues_sorted = eigenvalues[orden_eigenvalues]
    eigenvectors_sorted = eigenvectors[:, orden_eigenvalues] #Transpongo la matriz 
    
    #Selecciono los m autovectores más importantes
    eigenvectors_selected = eigenvectors_sorted[:,:m]

    #Proyecto el dataset en los autovectores elegidos
    X_proyectado = np.dot(X_centrado, eigenvectors_selected)
    
    return X_proyectado

7. Comparar los resultados obtenidos con el modelo de PCA implementado en Scikit-learn ([ver documentación](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html)). Tomar como dataset:

$X=\begin{bmatrix}
0.8 & 0.7\\
0.1 & -0.1
\end{bmatrix}$

Se debe reducir a un componente. Verificar los resultados con np.testing.assert_allclose

In [236]:
X1=np.array([[0.8,0.7], [0.1,-0.1]])

In [237]:
pca_np_result = pca_np(X=X1,m=1)

In [238]:
pca_sklearn = PCA(n_components=1)
X_std = StandardScaler(with_std=False).fit_transform(X1)
pca_sklearn_results = pca_sklearn.fit_transform(X_std)

In [239]:
pca_np_result

array([[-0.53150729],
       [ 0.53150729]])

In [240]:
pca_sklearn_results

array([[-0.53150729],
       [ 0.53150729]])