# __Todo sobre el Analisis de Componentes Principales (PCA)__

## Como Funciona?

Supongamos que tenemos un dataset con solo 2 variables (x1 y x2) y 3 observaciones (A, B y C):

| Observación | x1 | x2 |
| ----------- | -- | -- |
| A           | 2  | 4  |
| B           | 0  | 0  |
| C           | -2 | -4 |

Vemos que x2 es el doble de x1 , es decir, ambas variables esta correlacionadas. PCA detectara esta correlacion.

### Paso 1: _Estandarizar los datos_

Realizamos este proceso para que PCA no esté sesgado por las escalas de las variables. Utilizamos la formula de la desviacion estandar ($z$) y de la varianza poblacional ($\sigma$) ya que son pocos datos:

$$z = \frac{x - \overline{x}}{\sigma}$$

$$\sigma = \sqrt{\frac{1}{n}\sum (x_{i} - \overline{x})^{2}}$$

Calculamos la media y desviacion estandar de cada variable:

- __Media de x1__: (2+0+(-2))/3 = 0
- __Media de x2__: (4+0+(-4))/3 = 0
- __std de x1__:
    - Resta la media a cada dato y elevar al cuadrado:
        
        (2-0)^2 = 4
        
        (0-0)^2 = 0
        
        (-2-0)^2 = 4
        
    - Promedia lo cuadrados dividiendo entre n
        
        varianza = (4 + 0 + 4)/3 = 8/3
        
    - Sacar la raiz cuadrada
        
        std = sqrt(varianza) = (8/3)^1/2 = 1.632
        
- __std de x2__:
    - Resta la media a cada dato y elevar al cuadrado:
        
        (4-0)^2 = 16
        
        (0-0)^2 = 0
        
        (-4-0)^2 = 16
        
    - Promedia lo cuadrados dividiendo entre n
        
        varianza = (16 + 0 + 16)/3 = 32/3
        
    - Sacar la raiz cuadrada
        
        std = sqrt(varianza) = (32/3)^1/2 = 3.266
        
    
Ahora, estandarizamos los datos

| Observación | x1\_std           | x2\_std           |
| ----------- | ----------------- | ----------------- |
| A           | 2 / 1.632 ≈ 1.225 | 4 / 3.266 ≈ 1.225 |
| B           | 0                 | 0                 |
| C           | -1.225            | -1.225            |



### Paso 2: _Calcular Matriz de Covarianza_

Es una matriz cuadrada donde cada valor muestra **cuánto varían dos variables juntas**: Los valores de la diagonal muestran la **varianza** de cada variable, mientras que los valores que estan fuera de la diagonal: muestra la **covarianza entre pares de variables**.

PCA busca encontrar **las direcciones (componentes)** donde los datos tienen mayor **varianza** y **menor redundancia**. Para eso, necesita saber:

- Qué variables están **correlacionadas**.
- Cuánta **varianza total** hay en el sistema.

 La **matriz de covarianza nos da exactamente esa información**.

Tomamos los datos estandarizados y formamos la matriz $Z$:

$$Z = \begin{bmatrix}
1.225  & 1.225 \\
 0 &  0\\
 -1.225 & -1.225 \\
\end{bmatrix}$$

La formula de la matriz de covarianza viene dada por:

$$Cov = \frac{1}{n-1}Z^{T}Z$$

donde:

- $Z^{T}$: es la transpuesta de $Z$.
- $n$: es el numero de observaciones (en este caso, 3).

Tranponemos la matriz $Z$, pasando filas a columnas y viceversa.

$$Z^{T} = \begin{bmatrix}
1.225 & 0 & -1.225 \\
1.225 & 0 & -1.225 \\
\end{bmatrix}$$

Realizamos la operacion de multiplicacion de matrices

$$Z^{T} = \begin{bmatrix}
1.225 & 0 & -1.225 \\
1.225 & 0 & -1.225 \\
\end{bmatrix}$$

Y calculamos cada elemento de la operacion:

- **[0,0]**: 1.2252+02+(−1.225)2=1.5+0+1.5=31.225^2 + 0^2 + (-1.225)^2 = 1.5 + 0 + 1.5 = 31.2252+02+(−1.225)2=1.5+0+1.5=3
- **[0,1]**: igual que [0,0] ⇒ 3
- **[1,0]**: también 3 (simétrico)
- **[1,1]**: también 3

Entonces,

$$ Z^{T}\cdot Z = \begin{bmatrix}
3 & 3 \\
3 & 3 \\
\end{bmatrix}$$

Ahora, dividimos por $n=3$ y obtenemos la Matriz de Covarianza

$$ Cov = C = \begin{bmatrix}
1 & 1 \\
1 & 1 \\
\end{bmatrix}$$


### Paso 3: _Calcular autovalores y autovectores_

Los autovectores nos dicen cuanta varianza captura cada componente; Mientra que lo autovectores indican la direccion de cada componente.

Para calcular los autovalores utilizamos la siguiente ecuacion:

$$det(\mathbf{C} - \lambda\mathbf{I}) = 0$$

donde

$$C = \begin{bmatrix}
1 & 1 \\
1 & 1 \\
\end{bmatrix}, \mathbf{I} = \begin{bmatrix}
1 & 0 \\
0 & 1 \\
\end{bmatrix}$$

Entonces,

$$\begin{vmatrix}
1-\lambda & 1 \\
1 &  1-\lambda\\
\end{vmatrix} = (1 - \lambda)^{2} - 1 = 0$$

Resolviendo la matriz tenemos:

$$(1 - \lambda)^{2} = 1 \Rightarrow  1 - \lambda = \pm  1$$

Por tanto, los autovalores son:

$$\lambda_{1} = 2, \lambda_{2} = 0$$

Ahora, procedemos a calcular los autovectores $\mathbf{v_{1}}$ y $\mathbf{v_{2}}$:

- **Para $\lambda_{1} = 2$**

$$(\mathbf{C} - \lambda_{1}\mathbf{I})\mathbf{v_{1}} = 0$$

$$\begin{bmatrix}
-1 & 1 \\
1 & -1 \\
\end{bmatrix} \cdot \begin{bmatrix}
\mathbf{v_{1}} \\ \mathbf{v_{2}}
\end{bmatrix} = \begin{bmatrix}
0 \\ 0
\end{bmatrix}$$

nos lleva a la ecuacion,

$$-v_{1} + v_{2} = 0 \Rightarrow v_{1} = v_{2}$$

Entonces,

$$\mathbf{v_{1}} = \begin{bmatrix}
1 \\ 1
\end{bmatrix}$$

Normalizando, obtenemos el autorvector $\mathbf{v_{1}}$, 

$$\mathbf{v_{1}} = \frac{1}{\sqrt{2}}\begin{bmatrix}
1 \\ 1
\end{bmatrix} = \begin{bmatrix}
0.707 \\ 0.707
\end{bmatrix}$$

- **Para $\lambda_{2} = 0$**

$$(\mathbf{C} - \lambda_{2}\mathbf{I})\mathbf{v_{2}} = \begin{bmatrix}
1 & 1 \\
1 & 1 \\
\end{bmatrix} \cdot \begin{bmatrix}
\mathbf{v_{1}} \\ \mathbf{v_{2}}
\end{bmatrix} = \begin{bmatrix}
0 \\ 0
\end{bmatrix}$$

nos lleva a la ecuacion,

$$v_{1} + v_{2} = 0 \Rightarrow v_{1} = -v_{2}$$

Un vector solucion seria,

$$\mathbf{v_{2}} = \begin{bmatrix}
1 \\ -1
\end{bmatrix}$$

Normalizando, obtenemos el autorvector $\mathbf{v_{2}}$

$$\mathbf{v_{2}} = \frac{1}{\sqrt{2}}\begin{bmatrix}
1 \\ -1
\end{bmatrix} = \begin{bmatrix}
0.707 \\ -0.707
\end{bmatrix}$$

### Paso 4: _Tranformar los datos_

Proyectamos los datos en los nuevos ejes dados por los componentes principales. Para ello, utilizamos la siguiente formula:

$$Z_{PCA} = Z \cdot \text{Matriz de autovectores}$$

Sustituyendo, tenemos:

$$Z_{PCA} = \begin{bmatrix}
1.225 & 1.225 \\
0 & 0 \\
-1.225 & -1.225 \\
\end{bmatrix} \cdot \begin{bmatrix}
0.707 & -0.707 \\
0.707 & 0.707 \\
\end{bmatrix} = \begin{bmatrix}
1.733 & 0 \\
0 & 0 \\
-1.733 & 0 \\
\end{bmatrix}$$

__Conclusiones__

A partir de la nueva matriz $Z_{PCA}$ podemos concluir lo siguiente:

- Solo la primer componente $(PC1)$ tiene valores ditinto de cero. Esto indica que toda la informacion esta en 1 sola dimension.
 
- La segunda componente $(PC2)$ no agrega nada util: toda su varianza es cero. 

- Esto implica que podemos reducir de 2 a 1 dimension sin perder informacion.