# Conceito PCA

Iremos apresentar um pouco sobre *Principal Component Analysis* de uma forma mais visual.

## Carregar pacotes

In [None]:
library(tidyverse)
library(magrittr)
library(plotly)
library(psych)

In [None]:
norm <- function(x){ (x - mean(x)) / sd(x) }

## Carregar dados

Iremos testar um dataset com 3 dimensões e reduzir para 2 dimensões

In [None]:
X <- data_frame( x1 = c(10, 11, 8, 3, 2, 1),
                 x2 = c(6, 4, 5, 3, 2.8, 1),
                 x3 = c(12, 9, 10, 2.5, 1.3, 2) )

In [None]:
X

## Análises

### Padronizar

Iremos padronizar os dados com objetivos de facilitar a visualização

In [None]:
X_std <- X %>% 
  mutate_all( funs( norm ) )

X_std

- O gráfico original

In [None]:
X %>%
    plot_ly(x = ~x1,
            y = ~x2,
            z = ~x3,
            type = 'scatter3d',
            mode = 'markers' )

- gráfico com dados padronizados

In [None]:
X_std %>%
    plot_ly(x = ~x1,
            y = ~x2,
            z = ~x3,
            type = 'scatter3d',
            mode = 'markers' )

### PCA

Neste dataset temos 3 dimensões, iremos reduzir para somente 2 dimensões: PC1 e PC2.

In [None]:
pca <- principal(X_std,
                 nfactors = 3,
                 rotate = 'none' )

In [None]:
pca

- Podemos traçar a primeira nova dimensão - PC1

In [None]:
pesos <- pca$loadings
p <- X_std %>%
    plot_ly(x = ~x1,
            y = ~x2,
            z = ~x3,
            type = 'scatter3d',
            mode = 'markers' )

k = 1

x <- c(-1*pesos[1,k], pesos[1,k])

y <- c(-1*pesos[2,k], pesos[2,k])

z <- c(-1*pesos[3,k], pesos[3,k])

p <- p %>% 
    add_trace(x = x, 
              y = y, 
              z = z,
              name = 'PC1',
              type = "scatter3d", 
              mode = "lines",
              line = list(width=8),
              opacity = 1)
p

- Traçamos a segunda nova dimensão PC2.

In [None]:
k = 2

x <- c(-1*pesos[1,k], pesos[1,k])

y <- c(-1*pesos[2,k], pesos[2,k])

z <- c(-1*pesos[3,k], pesos[3,k])

p <- p %>% 
    add_trace(x = x, 
              y = y, 
              z = z,
              name = 'PC2',
              type = "scatter3d", 
              mode = "lines",
              line = list(width=8),
              opacity = 1)
p

- Podemos simplificar para a visão 2D

In [None]:
pca$scores[,1:2] %>% 
    as_data_frame %>% 
    plot_ly(x = ~PC1, 
            y = ~PC2,
            type = "scatter", 
            mode = "markers",
           marker = list( size = 15) )