# Implementación de PCA en NumPy

## Objetivos
* Implementación de PCA en NumPy paso a paso
* Comparación de resultados con Scikit-learn

## Implementación

1. Dado un dataset $X \in \mathbb{R}^{n, d}$, con $n$ muestras y $d$ features, queremos reducir sus dimensiones a $m$. Para ello, el primer paso es centrar el dataset (Hint: usen np.mean)

In [80]:
import numpy as np

m = 1

# Cada columna es una muestra, cada fila una feature
X = np.array([[0.8,0.7],[0.1,-0.1]])

# Saco el promedio para cada feature
means = np.mean(X,axis=0)
X = X - means

# stds = np.std(X,axis=0)
#X = X / stds

2. Obtener la matriz de covarianza de $X^T$, revisar en la teoría por qué utilizamos la transpuesta. Buscar en la documentación de NumPy qué funciones se pueden utilizar.

In [81]:
# Transpongo porque me interesa la covarianza entre las features de mis muestras
C = np.cov(X.T) / X.shape[0]
# C2 = (X*X.T) / 2 #S

3. Calcular los autovalores y autovectores de la matriz de covarianza. Revisar la documentación de NumPy.

In [82]:
aVal, aVec = np.linalg.eig(C)

4. Ordernar los autovectores en el sentido de los autovalores decrecientes, revisar la teoría de ser necesario.

In [83]:
indexes = np.argsort(aVal * -1)
val = aVal[indexes]
vec = aVec[:,indexes]

5. Proyectar el dataset centrado sobre los $m$ autovectores más relevantes (Hint: usen np.dot).

In [86]:
B = vec[:,:m]
pX = X.dot(B)

6. Consolidar los pasos anteriores en una función o clase PCA.

In [98]:
def my_pca(X,m):
    means = np.mean(X,axis=0)
    X = X - means
    C = np.cov(X.T) / X.shape[0]
    aVal, aVec = np.linalg.eig(C)
    indexes = np.argsort(aVal * -1)
    val = aVal[indexes]
    vec = aVec[:,indexes]
    B = vec[:,:m] #revisar esto
    pX = X.dot(B)
    
    return pX

7. Comparar los resultados obtenidos con el modelo de PCA implementado en Scikit-learn ([ver documentación](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html)). Tomar como dataset:

$X=\begin{bmatrix}
0.8 & 0.7\\
0.1 & -0.1
\end{bmatrix}$

Se debe reducir a un componente. Verificar los resultados con np.testing.assert_allclose

In [99]:
from sklearn.decomposition import PCA

X = np.array([[0.8,0.7],[0.1,-0.1]])

pca = PCA(n_components=1)
rX = pca.fit_transform(X)

mX = my_pca(X,1)

np.testing.assert_allclose(mX, rX)