## Importar librería

In [1]:
import numpy as np

## Definir clase con implementación de algoritmo PCA

Se usan 3 métodos:
- **__init__**: El constructor, que toma como argumento el número de componentes a considerar y se inicializan las variables de clase.
- **fit**: Método para calcular las direcciones o componentes principales que mejor capturan la varianza de los datos.
- **transform**: Método para proyectar datos en las direcciones principales a considerar.

### Constructor

Declara las variables:
   - *n_componentes*: Número de componentes a considerar (argumento de constructor)
   - *eigenvalues*: Vector con los eigenvalues de la matriz de covarianza, ordenados de mayor a menor.
   - *eigenvectors*: Matriz con los eigenvectors de la matriz de covarianza, ordenados de mayor a menor según *eigenvalues* correspondientes.
   - *promedio*: Vector con el promedio *feature* a *feature* de los datos iniciales.
   - *componentes*: Matriz con los *n_componentes eigenvectors* más importantes (mayor *eigenvalues*).
   
### Método Fit

En resumen, la implementación es la siguiente:
- Centrar los datos, restando a cada *datapoint* el promedio *feature* a *feature*.
- Calcular la matriz de covarianza.
- Calcular los *eigenvalues* y los *eigenvectors* de la matriz de covarianza.
- Ordenar *eigenvalues* de mayor a menor.
- Ordenar los *eigenvectors* de mayor a menor segun *eigenvalue* asociado.
- Guardar en una matriz los *n_componentes eigenvectors* más influyentes.

### Método Transform

Para aplicar el algoritmo sobre datos.

- Toma como argumento los datos a transformar.
- Se proyectan los datos a *n_componentes* dimensiones multiplicandolos (producto punto) con la matriz *componentes* que contiene los *eigenvectors* que más varianza aportan a los datos.

In [2]:
class PCA:
    
    def __init__(self, n_componentes):
        
        self.n_componentes = n_componentes
        self.eigenvalues= None
        self.eigenvectors = None
        self.promedio = None
        self.componentes = None
        
    def fit(self, X):# X matriz de datos con filas como datapoints y columnas como features
        
        # Calcular el promedio por cada columna (promedio por feature)
        self.promedio = np.mean(X, axis=0)
        # Restar a cada fila el promedio (resta a cada feature el promedio de esta)
        X = X - self.promedio
        # Calcular la matriz de covarianza (Transponer X porque espera filas como features y columnas como datapoints)
        matriz_covarianza = np.cov(X.T)
        # Calcular eigenvalues y eigenvectors (entrega vectores columna)
        eigenvalues, eigenvectors = np.linalg.eig(matriz_covarianza)
        # Indices para ordenar eigenvalues de mayor a menor
        idx_ordenados = np.argsort(eigenvalues)[::-1]
        # Ordenar de mayor a menor eigenvalue y transponer a fila
        self.eigenvalues = eigenvalues[idx_ordenados].T
        # Ordenar de mayor a menor segun eigenvalue asociado y transponer a fila
        self.eigenvectors = eigenvectors[idx_ordenados].T
        # Extraer los primero n_componentes eigenvectors
        self.componentes= self.eigenvectors[:self.n_componentes]
        
    def transform(self, X):# X matriz de datos con filas como datapoints y columnas como features
        promedio = np.mean(X, axis=0)
        # Centrar los datos
        X = X - promedio
        # Hacer X * componentes^T ya que dimension X es (N, D) y dimension de componentes es (n_componentes, D)
        # Asi se proyectan los datos a matriz de dimensiones (N, n_componentes)
        return np.dot(X, self.componentes.T)
        