# Implementación de PCA en NumPy

## Objetivos
* Implementación de PCA en NumPy paso a paso
* Comparación de resultados con Scikit-learn

## Implementación

1. Dado un dataset $X \in \mathbb{R}^{n, d}$, con $n$ muestras y $d$ features, queremos reducir sus dimensiones a $m$. Para ello, el primer paso es centrar el dataset (Hint: usen np.mean)

In [None]:
X = X - np.mean(X , axis = 0)

2. Obtener la matriz de covarianza de $X^T$, revisar en la teoría por qué utilizamos la transpuesta. Buscar en la documentación de NumPy qué funciones se pueden utilizar.

In [None]:
cov = np.cov(X.T)

3. Calcular los autovalores y autovectores de la matriz de covarianza. Revisar la documentación de NumPy.

In [None]:
eigen_values, eigen_vectors = np.linalg.eig(cov)
print("Eigenvector: \n",eigen_vectors,"\n")
print("Eigenvalues: \n", eigen_values, "\n")

4. Ordernar los autovectores en el sentido de los autovalores decrecientes, revisar la teoría de ser necesario.

In [None]:
eigen_values_indexes = np.argsort(eigen_values*-1)
eigen_values = eigen_values[eigen_values_indexes]
eigen_vectors = eigen_vectors[:,eigen_values_indexes]

5. Proyectar el dataset centrado sobre los $m$ autovectores más relevantes (Hint: usen np.dot).

In [None]:
X.dot(eigen_vectors[:,:n_components])

6. Consolidar los pasos anteriores en una función o clase PCA.

In [44]:
import numpy as np

def z_score(X):
    mean = np.nanmean(X, axis=0)
    std = np.nanstd(X, axis=0) 
    return (X - mean) / std

class PCA_():
    
    def __init__(self, n_components):
        self.n_components = n_components
    
    def fit(self, X):
        standardized_X = (X - np.mean(X, axis=0)) / np.std(X, axis=0) 
        
        cov = np.cov(standardized_X.T)
        
        eigen_values, eigen_vectors = np.linalg.eig(cov)
        print("Eigenvector: \n",eigen_vectors,"\n")
        print("Eigenvalues: \n", eigen_values, "\n")
        
        eigen_values_indexes = np.argsort(eigen_values*-1)
        eigen_values = eigen_values[eigen_values_indexes]
        eigen_vectors = eigen_vectors[:,eigen_values_indexes]
        
        return standardized_X.dot(eigen_vectors[:,:self.n_components])

7. Comparar los resultados obtenidos con el modelo de PCA implementado en Scikit-learn ([ver documentación](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html)). Tomar como dataset:

$X=\begin{bmatrix}
0.8 & 0.7\\
0.1 & -0.1
\end{bmatrix}$

Se debe reducir a un componente. Verificar los resultados con np.testing.assert_allclose

In [45]:
X = np.array([[0.8, 0.7], [0.1, -0.1]])
X

array([[ 0.8,  0.7],
       [ 0.1, -0.1]])

In [46]:
my_pca = PCA_(n_components=1).fit(X)

Eigenvector: 
 [[ 0.70710678 -0.70710678]
 [ 0.70710678  0.70710678]] 

Eigenvalues: 
 [4.0000000e+00 4.4408921e-16] 



In [52]:
my_pca

array([[ 1.41421356],
       [-1.41421356]])

In [53]:
# PCA con Sklearn
from sklearn.decomposition import PCA

X = z_score(X)

sklearn_pca = PCA(n_components=1).fit_transform(X)

In [54]:
sklearn_pca

array([[-1.41421356],
       [ 1.41421356]])

In [59]:
def flip_signs(A, B):
    """
    utility function for resolving the sign ambiguity in SVD
    http://stats.stackexchange.com/q/34396/115202
    """
    signs = np.sign(A) * np.sign(B)
    return A, B * signs

np.allclose(*flip_signs(sklearn_pca, my_pca))

True

# Conclusiones:

## Con el dataset dado (X) se llegaron a los mismos resultados al disminuir a una sola dimensión en el PCA de sklearn y el PCA que se acaba de implementar.