# Implementación de PCA en NumPy

## Objetivos
* Implementación de PCA en NumPy paso a paso
* Comparación de resultados con Scikit-learn

## Implementación

1. Dado un dataset $X \in \mathbb{R}^{n, d}$, con $n$ muestras y $d$ features, queremos reducir sus dimensiones a $m$. Para ello, el primer paso es centrar el dataset (Hint: usen np.mean)

In [1]:
# INSERTAR CÓDIGO AQUÍ
import numpy as np
n, d = 10, 4
X = np.random.rand(n, d)
Xc = (X-np.mean(X, axis=0))
print(Xc)

[[ 0.34759055 -0.3745529   0.42449536  0.33557101]
 [ 0.11197924  0.19324905  0.30862306 -0.32827205]
 [-0.47216811 -0.28214419  0.07339552 -0.3548591 ]
 [ 0.4078188  -0.47912197 -0.35072809  0.40975087]
 [-0.28047819  0.2715794  -0.31194541 -0.12194819]
 [-0.0529189   0.03255979 -0.12219418  0.3493451 ]
 [-0.15741205  0.16120371 -0.10748035  0.17579962]
 [ 0.33317702  0.35885584 -0.04978823 -0.40612752]
 [-0.19685529  0.3747698   0.46248926 -0.03001922]
 [-0.04073306 -0.25639853 -0.32686693 -0.02924053]]


2. Obtener la matriz de covarianza de $X^T$, revisar en la teoría por qué utilizamos la transpuesta. Buscar en la documentación de NumPy qué funciones se pueden utilizar.

In [2]:
# INSERTAR CÓDIGO AQUÍ
covX = np.cov(Xc.T)
covX1 = 1/(n-1)*np.dot(Xc.T,Xc)
print(covX)
print(covX1)

[[ 0.08669806 -0.02419624  0.00233144  0.03048566]
 [-0.02419624  0.10250784  0.02013602 -0.04758059]
 [ 0.00233144  0.02013602  0.09453913 -0.01514082]
 [ 0.03048566 -0.04758059 -0.01514082  0.09430064]]
[[ 0.08669806 -0.02419624  0.00233144  0.03048566]
 [-0.02419624  0.10250784  0.02013602 -0.04758059]
 [ 0.00233144  0.02013602  0.09453913 -0.01514082]
 [ 0.03048566 -0.04758059 -0.01514082  0.09430064]]


3. Calcular los autovalores y autovectores de la matriz de covarianza. Revisar la documentación de NumPy.

In [3]:
# INSERTAR CÓDIGO AQUÍ
from numpy import linalg as LA
w, v = LA.eig(covX)
print(w)
print(v)

[0.17120511 0.09508466 0.06278689 0.04896901]
[[ 0.39264812 -0.50458889 -0.71893898 -0.27266141]
 [-0.63701711 -0.04951637 -0.52602755  0.56129525]
 [-0.27462179 -0.85453086  0.4401292   0.02541985]
 [ 0.60383734 -0.11276164  0.11272996  0.78099759]]


4. Ordernar los autovectores en el sentido de los autovalores decrecientes, revisar la teoría de ser necesario.

In [4]:
# INSERTAR CÓDIGO AQUÍ
ava_sort = -np.sort(-w)
idx = np.argsort(w)[::-1]
print(idx)
ave_sort = v[:, idx]
print(ava_sort)
print(ave_sort)

[0 1 2 3]
[0.17120511 0.09508466 0.06278689 0.04896901]
[[ 0.39264812 -0.50458889 -0.71893898 -0.27266141]
 [-0.63701711 -0.04951637 -0.52602755  0.56129525]
 [-0.27462179 -0.85453086  0.4401292   0.02541985]
 [ 0.60383734 -0.11276164  0.11272996  0.78099759]]


5. Proyectar el dataset centrado sobre los $m$ autovectores más relevantes (Hint: usen np.dot).

In [13]:
# INSERTAR CÓDIGO AQUÍ
m = 2
XcT = Xc.T
proy = np.dot(ave_sort[:, :m].T, XcT)
print(proy)

[[ 0.46113201 -0.36211205 -0.24009843  0.80907862 -0.27109982  0.20298515
  -0.02882624 -0.32933801 -0.46116599  0.21944475]
 [-0.55742775 -0.2927839   0.2295173   0.07144734  0.40839661  0.09011602
   0.14346797 -0.09754548 -0.31105258  0.31586447]]


6. Consolidar los pasos anteriores en una función o clase PCA.

In [41]:
# INSERTAR CÓDIGO AQUÍ
def pca_fun(x, m):
  mu = np.mean(x, axis=0)
  xc = x-mu
  covX = np.cov(xc.T)
  w, v = LA.eig(covX)
  ava_sort = -np.sort(-w)
  idx = np.argsort(w)[::-1]
  ave_sort = v[:, idx]
  xcT = xc.T
  ave_mT = ave_sort[:, :m].T
  print(ave_mT)
  zn = np.dot(ave_mT, xcT)
  znT = zn.T
  #print(zn)
  xr = np.dot(znT, ave_sort[:, :m].T)
  xrec = xr + mu
  #print(xr)
  return znT, xrec

#x=np.random.rand(10,5)
#z=pca_fun(x, 2)

7. Comparar los resultados obtenidos con el modelo de PCA implementado en Scikit-learn ([ver documentación](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html)). Tomar como dataset:

$X=\begin{bmatrix}
0.8 & 0.7\\
0.1 & -0.1
\end{bmatrix}$

Se debe reducir a un componente. Verificar los resultados con np.testing.assert_allclose

In [44]:
# INSERTAR CÓDIGO AQUÍ
from sklearn.decomposition import PCA
X0 = np.array([[0.8, 0.7], [0.1, -0.1]])
n_components = 1
pca = PCA(n_components)
pca.fit(X0)
#print(pca.explained_variance_ratio_)
#print(pca.singular_values_)
#print(pca.components_)
pca_sklearn = pca.transform(X0)
print(pca_sklearn) 

z, xr = pca_fun(X0, n_components)
print(z)
print(xr)
np.testing.assert_allclose(pca_sklearn, z)

[[-0.53150729]
 [ 0.53150729]]
[[-0.65850461 -0.75257669]]
[[-0.53150729]
 [ 0.53150729]]
[[ 0.8  0.7]
 [ 0.1 -0.1]]
