# Exemplo 1 - Redução de dimensão detalhado

Neste exemplo iremos analisar dados agregados do último censo.

Será que conseguiremos resumir os dados apresentados em poucas visualizações?

## Carregar pacotes

In [None]:
library(tidyverse)
library(magrittr)
library(plotly)
library(psych)

## Carregar dados

In [None]:
dados_municipios <- read_csv("/home/vm-data-science/dados/dados_municipios.csv")

In [None]:
dados_municipios %>% head

## *Principal Components Analysis* - PCA

1 - Analisar correlações

2 - Definir número de componentes a serem extraídos

3 - Interpretação genérica dos componentes extraídos

4 - Realizar as análises necessárias (Visualização ou *Machine Learning* supervisionado)

### 1 - Analisar correlações

In [None]:
correlacao <- dados_municipios %>% 
  select( contains('t_') ) %>% 
  cor() %>% 
  round(., 2)

correlacao

In [None]:
plot_ly( z = correlacao,
         x = colnames(correlacao),
         y = colnames(correlacao), 
         colorscale = "Greys", 
         type = "heatmap" )

### 2 - Definir número de componentes a serem extraídos

- Autovalores maiores que 1
- Screeplot
- Variância explicada

- Autovalores maiores que 1

Geramos o PCA deixando inicialmente o numero de dimensões igual ao número de variáveis, no caso 8.

In [None]:
pca_model <- principal(dados_municipios %>% 
                        select( contains('t_') ), 
                       nfactors = 8, 
                       rotate = "none" )

In [None]:
pca_model

In [None]:
pca_model$values %>% 
    as_data_frame %>% 
    mutate( dimensao = paste0('PC', 1:8) )

Vemos que somente o PC1 tem valor acima de 1. 

Seguindo somente este critério, somente utilizariamos um componente

- Screeplot

In [None]:
pca_model$values %>% 
    as_data_frame %>% 
    rename( autovalor = value ) %>% 
    mutate( dimensao = paste0('PC', 1:8) ) %>% 
    plot_ly(x = ~dimensao,
            y = ~autovalor,
            type = 'scatter',
            mode = 'lines+markers',
            marker = list(size = 10, color = 'red') )

Observamos forte decaimento do PC1 para o PC2. 

Neste caso podemos manter a regra do autovalor acima de 1 e ficar somente com o PC1.

Ou, podemos ficar com os componentes PC1 e PC2 devido que a partir de PC2 praticamente não há decaimento.

- Variância explicada

In [None]:
pca_model

Observamos os valores de ***"Proportion Explained"*** e ***"Cumulative Proportion"***.

Vemos que o PC1 tem proporção de 0.59 e o PC2 proporção de 0.11. Juntos acumulam explicação de 69% da variabilidade dos dados.

Do ponto de vista de economia e outras áreas de ciências sociais, valores entre 60% e 70% são razoáveis.

Neste caso, somente ficar com PC1 não seria a melhor escolha. Deste modo, poderíamos ficar com PC1 e PC2 ou PC1, PC2 e PC3.

### 3 - Interpretação

Para facilitar a interpretação, podemos rotacionar as cargas.

In [None]:
pca_model <- principal(dados_municipios %>% 
                        select( contains('t_') ), 
                       nfactors = 8, 
                       rotate = "varimax" )

In [None]:
pca_model

Vemos que após a rotação podemos melhor interpretar.

Agora os componentes a serem usados são RC1 e RC3.

As variáveis relacionadas com RC1 são os índices de analfabetismo e escolaridade.
As variáveis relacionadas com RC3 são os índices de atraso escolar.

In [None]:
dados_municipios %<>% 
  mutate( indice_atraso_escolar = pca_model$scores[,1],
          indice_qualidade_moradia = pca_model$scores[,2] )

dados_municipios %>% 
    head

In [None]:
dados_municipios %>% 
  group_by( estado ) %>% 
  summarise( indice_qualidade_moradia = mean(indice_qualidade_moradia), 
             indice_atraso_escolar = mean(indice_atraso_escolar) ) %>% 
  mutate( d_qual = ifelse( indice_qualidade_moradia > 0, 'moradia_alta', 'moradia_baixa'),
          d_atra = ifelse( indice_atraso_escolar > 0, 'atraso_alto', 'atraso_baixo'),
          quadrante = paste0(d_qual, ' - ', d_atra) ) %>% 
  plot_ly( x = ~indice_atraso_escolar,
           y = ~indice_qualidade_moradia,
           color = ~quadrante,
           marker = list( size = 15),
           type = 'scatter',
           mode = 'markers',
           text = ~paste( "</br> Estado: ", estado,
                          "</br> Moradia: ", d_qual,
                          "</br> Atraso: ", d_atra),
           hoverinfo = 'text',
           showlegend = TRUE ) %>% 
  layout( xaxis = list( title = "Índice de atraso escolar" ), 
          yaxis = list( title = "Índice de qualidade de moradia" ) )