# Implementación de PCA en NumPy

## Objetivos
* Implementación de PCA en NumPy paso a paso
* Comparación de resultados con Scikit-learn

In [None]:
import numpy as np

## Implementación

1. Dado un dataset $X \in \mathbb{R}^{n, d}$, con $n$ muestras y $d$ features, queremos reducir sus dimensiones a $m$. Para ello, el primer paso es centrar el dataset (Hint: usen np.mean)

In [None]:
def cent_dataset(x):
    """
    Esta funcion recibe un dataset y lo centra con el fin de que tenga media 0
    Devuelve el data set centrado y la matriz con los valores de la media de cada uno
    """
    media = x.mean(axis=1)
    return x - media[:,None] , media

2. Obtener la matriz de covarianza de $X^T$, revisar en la teoría por qué utilizamos la transpuesta. Buscar en la documentación de NumPy qué funciones se pueden utilizar.

In [None]:
def transpose_dataset(x)
    return x.transpose()

3. Calcular los autovalores y autovectores de la matriz de covarianza. Revisar la documentación de NumPy.

In [None]:
def covarianza_dataset(x)
    s = x.dot(x.transpose()) / x.shape[0]
    autovalores, autovectores = np.linalg.eigh(s)
        # np.linalg.eigh():
        # Return the eigenvalues and eigenvectors of a complex Hermitian
            #(conjugate symmetric) or a real symmetric matrix.
        # Returns two objects, a 1-D array containing the eigenvalues of a, 
            # and a 2-D square array or matrix (depending on the input type) 
            # of the corresponding eigenvectors (in columns).
    return s, autovalores, autovectores

4. Ordernar los autovectores en el sentido de los autovalores decrecientes, revisar la teoría de ser necesario.

In [None]:
def sort_eig(autovalores, autovectores):
    arg_sort = np.argsort(autovalores)[::-1]
    autovalores = autovalores[arg_sort]
    autovectores = autovectores[:,arg_sort]
    return autovalores, autovectores

5. Proyectar el dataset centrado sobre los $m$ autovectores más relevantes (Hint: usen np.dot).

In [None]:
def calculo_B(m, autovectores):
    """m debe ser menor o igual al numero de columanas de la matriz de autovectores"""
    return autovectores(:,:m)

6. Consolidar los pasos anteriores en una función o clase PCA.

In [None]:
def PCA_numpy(x):
    # centro el dataset
    media = x.mean(axis=1)
    x_cent = x.copy()
    x_cent = x_cent - media[:,None]
    
    s = x.dot(x.transpose()) / x.shape[0]
    autovalores, autovectores = np.linalg.eigh(s)
    
    arg_sort = np.argsort(autovalores)[::-1]
    autovalores = autovalores[arg_sort]
    autovectores = autovectores[:,arg_sort]
    
    m=1
    
    B = autovectores[:,:m]
    
    z = np.dot(np.transpose(B),x)
    x_recuperada = np.dot(B, z) + media

    return B, z, x_recuperada

7. Comparar los resultados obtenidos con el modelo de PCA implementado en Scikit-learn ([ver documentación](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html)). Tomar como dataset:

$X=\begin{bmatrix}
0.8 & 0.7\\
0.1 & -0.1
\end{bmatrix}$

Se debe reducir a un componente. Verificar los resultados con np.testing.assert_allclose

In [None]:
x = np.array([[0.8,0.7],[0.1, -0.1]])

B, z, x_recuperada = PCA_numpy(x)

from sklearn.decomposition import PCA

