# Implementación de PCA en NumPy

## Objetivos
* Implementación de PCA en NumPy paso a paso
* Comparación de resultados con Scikit-learn

## Implementación

1. Dado un dataset $X \in \mathbb{R}^{n, d}$, con $n$ muestras y $d$ features, queremos reducir sus dimensiones a $m$. Para ello, el primer paso es centrar el dataset (Hint: usen np.mean)

In [40]:
# INSERTAR CÓDIGO AQUÍ
import numpy as np
X = np.array([[0.8, 0.7] , [0.1, -0.1]])
# Centramos los datos
X[0] = X[0] - np.mean(X, axis=1)[0]
X[1] = X[1] - np.mean(X, axis=1)[1]
print(X)

[[ 0.05 -0.05]
 [ 0.1  -0.1 ]]


2. Obtener la matriz de covarianza de $X^T$, revisar en la teoría por qué utilizamos la transpuesta. Buscar en la documentación de NumPy qué funciones se pueden utilizar.

In [41]:
# INSERTAR CÓDIGO AQUÍ
cov=np.cov(X.T, rowvar=False)
print(cov)

[[0.005 0.01 ]
 [0.01  0.02 ]]


3. Calcular los autovalores y autovectores de la matriz de covarianza. Revisar la documentación de NumPy.

In [42]:
# INSERTAR CÓDIGO AQUÍ
v,w=np.linalg.eig(cov)
print(v)
print(w)

[0.    0.025]
[[-0.89442719 -0.4472136 ]
 [ 0.4472136  -0.89442719]]


4. Ordernar los autovectores en el sentido de los autovalores decrecientes, revisar la teoría de ser necesario.

In [43]:
# INSERTAR CÓDIGO AQUÍ
order = np.argsort(v, )[::-1]
print(order)
v_sorted = np.take_along_axis(v, order, axis = 0)
w_sorted = np.take_along_axis(w, np.array([order, order]), axis = 1)
print(w_sorted)

[1 0]
[[-0.4472136  -0.89442719]
 [-0.89442719  0.4472136 ]]


5. Proyectar el dataset centrado sobre los $m$ autovectores más relevantes (Hint: usen np.dot).

In [51]:
# INSERTAR CÓDIGO AQUÍ
proy = np.dot(w_sorted,X)
print(proy)

[[-1.11803399e-01  1.11803399e-01]
 [-1.00074749e-17  1.00074749e-17]]


6. Consolidar los pasos anteriores en una función o clase PCA.

In [58]:
# INSERTAR CÓDIGO AQUÍ
def pca_(X):
    X[0] = X[0] - np.mean(X, axis=1)[0]
    X[1] = X[1] - np.mean(X, axis=1)[1]
    cov=np.cov(X.T, rowvar=False)
    v,w=np.linalg.eig(cov)
    order = np.argsort(v, )[::-1]
    v_sorted = np.take_along_axis(v, order, axis = 0)
    w_sorted = np.take_along_axis(w, np.array([order, order]), axis = 1)
    proy = np.dot(w_sorted[0].T,X)
    return proy
    
    

7. Comparar los resultados obtenidos con el modelo de PCA implementado en Scikit-learn ([ver documentación](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html)). Tomar como dataset:

$X=\begin{bmatrix}
0.8 & 0.7\\
0.1 & -0.1
\end{bmatrix}$

Se debe reducir a un componente. Verificar los resultados con np.testing.assert_allclose

In [59]:
# INSERTAR CÓDIGO AQUÍ
import sklearn.decomposition as decomposition

In [60]:
x = np.array([[0.8, 0.7] , [0.1, -0.1]])
pca = decomposition.PCA()
pca.fit(x)

PCA()

In [61]:
pca.singular_values_

array([7.51664819e-01, 3.65543489e-17])

In [62]:
np.testing.assert_allclose(pca.singular_values_,pca_(x))

AssertionError: 
Not equal to tolerance rtol=1e-07, atol=0

Mismatched elements: 2 / 2 (100%)
Max absolute difference: 0.86346822
Max relative difference: 7.72309453
 x: array([7.516648e-01, 3.655435e-17])
 y: array([-0.111803,  0.111803])