# Implementación de PCA en NumPy

## Objetivos
* Implementación de PCA en NumPy paso a paso
* Comparación de resultados con Scikit-learn

## Implementación

1. Dado un dataset $X \in \mathbb{R}^{n, d}$, con $n$ muestras y $d$ features, queremos reducir sus dimensiones a $m$. Para ello, el primer paso es centrar el dataset (Hint: usen np.mean)

In [105]:
X = np.array([[0.8, 0.7], [0.1, -0.1]])

means = np.mean(X, axis=0)
center_samples = X - means
center_samples

array([[ 0.35,  0.4 ],
       [-0.35, -0.4 ]])

2. Obtener la matriz de covarianza de $X^T$, revisar en la teoría por qué utilizamos la transpuesta. Buscar en la documentación de NumPy qué funciones se pueden utilizar.

In [106]:
covariance = np.cov(center_samples.T)
covariance

array([[0.245, 0.28 ],
       [0.28 , 0.32 ]])

3. Calcular los autovalores y autovectores de la matriz de covarianza. Revisar la documentación de NumPy.

In [107]:
eig_val, eig_vect = np.linalg.eig(covariance)
eig_val, eig_vect

(array([0.   , 0.565]),
 array([[-0.75257669, -0.65850461],
        [ 0.65850461, -0.75257669]]))

4. Ordernar los autovectores en el sentido de los autovalores decrecientes, revisar la teoría de ser necesario.

In [108]:
index_order = np.argsort(-eig_val)
eig_vect_ord = eig_vect[:, index_order]
eig_val_ord = eig_val[index_order]
eig_vect_ord

array([[-0.65850461, -0.75257669],
       [-0.75257669,  0.65850461]])

5. Proyectar el dataset centrado sobre los $m$ autovectores más relevantes (Hint: usen np.dot).

In [117]:
center_samples.dot(eig_vect_ord[:, :m])

array([[-0.53150729],
       [ 0.53150729]])

6. Consolidar los pasos anteriores en una función o clase PCA.

In [140]:
def pca(X, m):
    center_samples = X - np.mean(X, axis=0)
    covariance = np.cov(center_samples.T)
    eig_val, eig_vect = np.linalg.eig(covariance)
    index_order = np.argsort(-eig_val)
    eig_vect_ord = eig_vect[:, index_order]
    eig_val_ord = eig_val[index_order]
    return eig_val_ord[:m], center_samples.dot(eig_vect_ord[:m, :].T)
    
X = np.array([[0.8, 0.7], [0.1, -0.1]])
m = 1
pca_np = pca(X, m)
print("Los valores obtenidos utilizando numpy son {}".format(pca_np))

Los valores obtenidos utilizando numpy son (array([0.565]), array([[-0.53150729],
       [ 0.53150729]]))


7. Comparar los resultados obtenidos con el modelo de PCA implementado en Scikit-learn ([ver documentación](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html)). Tomar como dataset:

$X=\begin{bmatrix}
0.8 & 0.7\\
0.1 & -0.1
\end{bmatrix}$

Se debe reducir a un componente. Verificar los resultados con np.testing.assert_allclose

In [145]:
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

X = np.array([[0.8, 0.7], [0.1, -0.1]])
pca = PCA(n_components=1)
print(pca.fit_transform(X))
print(pca.explained_variance_)

np.testing.assert_allclose(pca.fit_transform(X), pca_np[1])


[[-0.53150729]
 [ 0.53150729]]
[0.565]
