# Exemplo Regressão Linear com PCA

Neste exemplo será utilizado os dados da pesquisa sobre *Nerdy Personality Attributes Scale*

## Carregar pacotes

In [None]:
library(tidyverse)
library(magrittr)
library(psych)
library(plotly)
library(bootStepAIC)

## Funções gerais

In [None]:
rmse <- function( real, prediction ){ sqrt( mean( (real - prediction)^2 ) ) }

## Carregar dados

In [None]:
load( '/home/vm-data-science/dados/dados_nerd_nomissings.RData' )

In [None]:
dados_nerd_train %>% 
    head()

In [None]:
dados_nerd_test %>% 
    head()

## Análise exploratória

In [None]:
# count em todas as colunas
dados_nerd_train %>% 
  map( ~count(data.frame(x=.x), x) )

In [None]:
# Histograma
dados_nerd_train %>% 
  ggplot( aes( x = nerdy ) ) +
  geom_histogram()

In [None]:
# outliers
dados_nerd_train %>% 
  dplyr::select( contains('Q') ) %>% 
  gather( key = variaveis, value = notas ) %>% 
  plot_ly( x = ~variaveis,
           y = ~notas,
           type = 'box' )

## Combinação de técnicas supervisionadas com não supervisionadas

1 - Aplicamos o algoritmo não supervisionado

2 - Geramos os novos atributos no banco de dados

3 - Aplicamos o algoritmo supervisionado com os atributos obtidos pelo não supervisionado

### 1 - Aplicamos o PCA

- Verificamos a correlação

In [None]:
correlacao <- dados_nerd_train %>% 
  dplyr::select( contains('Q') ) %>% 
  cor() %>% 
  round(., 2)

In [None]:
plot_ly( z = correlacao,
         x = colnames(correlacao),
         y = colnames(correlacao), 
         colorscale = "Greys", 
         type = "heatmap" )

- Aplicamos o PCA ( nfactors = 26 porque temos 26 questões)

In [None]:
pca_model <- principal(dados_nerd_train %>% 
                         dplyr::select( contains('Q') ), 
                       nfactors = 26, 
                       rotate = "none" )

- Verificamos o *screeplot*

In [None]:
pca_model$values %>% 
  as_data_frame %>% 
  rename( autovalor = value ) %>% 
  mutate( dimensao = 1:26 ) %>% 
  plot_ly(x = ~dimensao,
          y = ~autovalor,
          type = 'scatter',
          mode = 'lines+markers',
          marker = list(size = 10, color = 'red') )

- Verificamos a variância explicada

In [None]:
pca_model$Vaccounted %>% 
  as.data.frame() %>% 
  rownames_to_column( var = 'medidas' ) %>% 
  gather( key = PC, value = valores, -medidas ) %>% 
  spread( key = medidas, value = valores ) %>% 
  arrange( desc(`SS loadings`) )

- Pela observação do *screeplot* percebe-se que a partir do componente 7 não há grande variação. Porém, caso 7 componentes sejam escolhidos somente 58% da informação é explicada por estes dados.


- Diante disto, buscamos adicionar os componentes 8 a 11 para que 70% da informação seja explicada pelos componentes.

### 2 - Geramos os novos atributos no banco de dados

In [None]:
# Guardamos os componentes num objeto
scores_pca <- pca_model$scores[, 1:11] %>% 
  as_data_frame()

In [None]:
# Adicionamos os componentes no banco
dados_nerd_train_modelo <- dados_nerd_train %>% 
  bind_cols(., scores_pca )

In [None]:
dados_nerd_train_modelo %>% 
    head()

### 3 - Aplicamos o modelo de regressão linear

- Alguns ajustes importantes no banco de dados no R

In [None]:
dados_nerd_train_modelo %<>% 
  mutate( gender = as.factor(gender),
          education = as.factor(education),
          married = as.factor(married),
          ASD = as.factor(ASD) )

- Modelo 1: somente as 26 questões

In [None]:
modelo_reg_questoes <- lm( formula = nerdy ~ ., 
    data = dados_nerd_train_modelo %>% dplyr::select( nerdy, contains('Q') ) )

In [None]:
summary( modelo_reg_questoes )

- Modelo 2: somente os PC`s

In [None]:
modelo_reg_pca <- lm( formula = nerdy ~ ., 
                           data = dados_nerd_train_modelo %>% dplyr::select( nerdy, contains('PC') ) )

In [None]:
summary( modelo_reg_pca )

- Modelo 3: Tecnica de seleção de variáveis *stepwise* nas 26 questões

In [None]:
modelo_reg_questoes_stepwise <- boot.stepAIC(modelo_reg_questoes, 
                                            data = dados_nerd_train_modelo, 
                                            B = 10, 
                                            k = 2,
                                            direction = "both")

In [None]:
summary( modelo_reg_questoes_stepwise$OrigStepAIC )

- Modelo 4: Tecnica de seleção de variáveis stepwise nos PC`s

In [None]:
modelo_reg_pca_stepwise <- boot.stepAIC(modelo_reg_pca, 
                                       data = dados_nerd_train_modelo, 
                                       B = 10, 
                                       k = 2,
                                       direction = "both")

In [None]:
summary(modelo_reg_pca_stepwise$OrigStepAIC)

## Avaliação dos modelos

- Criamos os PC`s usando os dados da amostra de teste

In [None]:
scores_teste <- predict( pca_model, 
         dados_nerd_test %>% 
           dplyr::select( contains('Q') ) ) %>% 
  tbl_df()

- Adicionamos os PC`s na amostra de teste

In [None]:
dados_nerd_test_modelo <- dados_nerd_test %>% 
  bind_cols(., scores_teste[, 1:11] )

In [None]:
dados_nerd_test_modelo %>% 
    head()

- Geramos as previsoes para avaliação

In [None]:
amostra_avaliacao <- dados_nerd_test_modelo %>% 
  mutate( pred_nerdy_reg_questoes = predict( modelo_reg_questoes, . ),
          pred_nerdy_reg_pca = predict( modelo_reg_pca, . ),
          pred_nerdy_reg_questoes_stepwise = predict( modelo_reg_questoes_stepwise$OrigStepAIC, . ),
          pred_nerdy_reg_pca_stepwise = predict( modelo_reg_pca_stepwise$OrigStepAIC, . ) ) %>% 
  dplyr::select( nerdy, pred_nerdy_reg_questoes, pred_nerdy_reg_pca, 
         pred_nerdy_reg_questoes_stepwise, pred_nerdy_reg_pca_stepwise )

In [None]:
amostra_avaliacao %>% 
    head()

- Comparamos os modelos pelo RMSE

In [None]:
amostra_avaliacao %>% 
  summarise( Modelo_1_todas = rmse(nerdy, pred_nerdy_reg_questoes),
             Modelo_2_pca = rmse(nerdy, pred_nerdy_reg_pca),
             Modelo_3_stepwise = rmse(nerdy, pred_nerdy_reg_questoes_stepwise),
             Modelo_4_pca_stepwise = rmse(nerdy, pred_nerdy_reg_pca_stepwise) ) %>% 
  gather( key = modelos, value = rmse ) %>% 
  arrange( rmse )

- Apesar que o melhor modelo apresentou menor erro, os modelos utilizando número menor de questões apresentaram resultados similares.