### PCA
El objetivo del PCA es explicar la mayor parte de la variabilidad en los datos con un número menor de variables que el conjunto de datos original. 

𝑝(𝑝−1)/2 diagramas posibles, con p variables

Cada una de las dimensiones encontradas por PCA es una combinación lineal de las características p 

Con esto en mente:

Sea $X$ una matriz de $n$ datos $d$-dimensionales, con cada componente  de media nula, i.e.

$$X = \begin{pmatrix}
x_{11} &...& x_{1d} \\
&...&\\
x_{n1}&...& x_{nd} \\
\end{pmatrix}
\quad donde \quad \bar{\bf{x}_j}=0, \quad j=1,...,d$$

Buscamos la dirección $w'=(w_1,...,w_d)$ tal que la proyección de $X$ sobre esta dirección maximice la varianza empírica de $Xw$: 

$$\max_w \hat{\sigma}^2(Xw) \quad \text{s. a} \quad \|w\|=1$$

Tenemos que:

$$\hat{\sigma}^2(Xw) =  w'X'Xw  - (\mathbb{E}(Xw))^2= w' \hat{\Sigma} w$$

donde  $\hat{\Sigma}$ es la varianza empírica de $X$:
$$\hat{\Sigma} = X'X = \begin{pmatrix}
\sum_{i=1}^n (x_{i1})^2 &...& \sum_{i=1}^n (x_{i1}x_{id}) \\
&...&\\
\sum_{i=1}^n (x_{id}x_{i1})&...& \sum_{i=1}^n (x_{id})^2  \\
\end{pmatrix}$$

Para maximizar la varianza $\hat{\sigma}^2(Xw)$, construimos el Lagrangiano:

$$L = w' \hat{\Sigma} w + \lambda (w'w-1)$$

La condición de máximo queda:

$$\frac{\partial L}{\partial w} = 2 \hat{\Sigma} w - 2\lambda w = 0 \quad \implies \quad \hat{\Sigma} w = \lambda w$$

Con lo cual $w$ es un vector propio de $\hat{\Sigma}$,  y por lo tanto

$$\hat{\sigma}^2(Xw) = w' \hat{\Sigma} w = w' (\lambda w) = \lambda$$

la dirección de máxima varianza es la dirección asociada al vector propio cuyo valor propio es máximo.

In [22]:
# PCA MANUAL

data("USArrests")

# # # Calcula varianzas para cada variable

# apply(USArrests, 2, var)
# apply(USArrests,2,mean)


# 1. # # Escalar datos (esto practicamente SIEMPRE SE HACE)

# scaled_df <- apply(USArrests, 2, scale)
# head(scaled_df)
# apply(scaled_df, 2, var)
# apply(scaled_df, 2, mean)


# 2. # # Calculando valores y vectores propios de la matriz de covarianzas empírica

# arrests.cov <- cov(scaled_df)
# arrests.eigen <- eigen(arrests.cov)
# arrests.eigen

# (EXTRA) # # Calcular peso de Componentes Principales

# PVE <- arrests.eigen$values / sum(arrests.eigen$values)
# round(PVE, 2)

# 3. # # Extrayendo los pesos de los dos primeras componentes principales 

# w <- -arrests.eigen$vectors[,1:2] 
# row.names(w) <- c("Murder", "Assault", "UrbanPop", "Rape")
# colnames(w) <- c("PC1", "PC2")
# w


# 4. # # Calcula proyección de los datos en cada componente principal 
# PC1 <- as.matrix(scaled_df) %*% w[,1]
# PC2 <- as.matrix(scaled_df) %*% w[,2]

# # # Crea nuevo dataframe con la proyección
# PC <- data.frame(State = row.names(USArrests), PC1, PC2)

In [23]:
# 1. # # Aplicando PCA con Funciones de R

# pca_res <- princomp(USArrests, cor= TRUE)
# # cambio direccion para col 2 y 4
# pca_res$loadings[,2] <- -pca_res$loadings[,2]
# pca_res$loadings[,4] <- -pca_res$loadings[,4]

# pca_res <- prcomp(data, scale = TRUE)
# names(pca_res)
# pca_res$sdev
# pca_res$rotation <- -pca_res$rotation
# pca_res$center
# pca_res$scale
# pca_res$x <- -pca_res$x


# 2. # # Graficando PCA con Biplot (Multivariable)
# biplot(pca_res, scale = 0)
