# Exemplo Regressão Linear com Cluster

Neste exemplo será utilizado os dados da pesquisa sobre *Nerdy Personality Attributes Scale*

## Carregar pacotes

In [None]:
library(tidyverse)
library(magrittr)
library(clue)
library(plotly)

## Funções gerais

In [None]:
rmse <- function( real, prediction ){ sqrt( mean( (real - prediction)^2 ) ) }

In [None]:
padronizar <- function(x){ (x - min(x)) / (max(x) - min(x)) }

## Carregar dados

In [None]:
load( '/home/vm-data-science/dados/dados_nerd_nomissings.RData' )

In [None]:
dados_nerd_train %>% 
    head()

In [None]:
dados_nerd_test %>% 
    head()

## Análise exploratória

In [None]:
# count em todas as colunas
dados_nerd_train %>% 
  map( ~count(data.frame(x=.x), x) )

In [None]:
# Histograma
dados_nerd_train %>% 
  ggplot( aes( x = nerdy ) ) +
  geom_histogram()

In [None]:
# outliers
dados_nerd_train %>% 
  dplyr::select( contains('Q') ) %>% 
  gather( key = variaveis, value = notas ) %>% 
  plot_ly( x = ~variaveis,
           y = ~notas,
           type = 'box' )

## Combinação de técnicas supervisionadas com não supervisionadas

1 - Aplicamos o algoritmo não supervisionado

2 - Geramos os novos atributos no banco de dados

3 - Aplicamos o algoritmo supervisionado com os atributos obtidos pelo não supervisionado

### 1 - Aplicamos o algoritmo de descoberta de *clusters*

- padronizamos as variáveis

In [None]:
dados_nerd_train_padronizados <- dados_nerd_train %>% 
  dplyr::select( contains('Q') ) %>% 
  mutate_if( is.numeric, padronizar )

- aplicamos algoritmo hierárquico para auxiliar na obtenção do número de grupos

In [None]:
distancia <- dist( x = dados_nerd_train_padronizados, 
                   method =  'euclidian' )

modelo_cluster_hierarquico <- hclust( distancia,
                                      method = 'ward.D' )

- geramos o gráfico dos coeficientes de aglomeração (vamos considerar uma solução de 4 grupos, mas poderiamos também testar com 3 grupos)

In [None]:
data_frame( grupos = 31:1 + 1,
            aglomeracao = modelo_cluster_hierarquico$height[872:902] ) %>% 
  plot_ly( x = ~grupos,
           y = ~aglomeracao,
           type = 'scatter',
           mode = 'lines+markers',
           marker = list(size = 10, color = 'red') ) %>% 
  layout( xaxis = list( autorange="reversed") )

- Dendograma (como existem muitos casos, o dendograma será apresentado somente por objetivos educacionais)

In [None]:
plot(modelo_cluster_hierarquico)
rect.hclust( modelo_cluster_hierarquico, 
             k = 4, 
             border = "red" )

- obtenção dos centróides

In [None]:
centroides <- dados_nerd_train_padronizados %>% 
  mutate( grupos = cutree(modelo_cluster_hierarquico, 
                          k = 4 ) ) %>% 
  group_by( grupos ) %>% 
  summarise_if( is.numeric, mean )

- aplicamos o algoritmo não hierárquico

In [None]:
set.seed(123)
clusters_k4 <- kmeans(dados_nerd_train_padronizados , 
                      centers = centroides[-1] )

### 2 - Geramos os novos atributos no banco de dados

In [None]:
dados_nerd_train %<>% 
  mutate( grupos_final = as.factor(clusters_k4$cluster) )

In [None]:
# exemplo
dados_nerd_train %>% 
  dplyr::select( nerdy, Q1:Q5, grupos_final) %>% 
  head()

### 3 - Aplicamos o modelo de regressão linear

- Alguns ajustes importantes no banco de dados no R

In [None]:
dados_nerd_train %<>% 
  mutate( gender = as.factor(gender),
          education = as.factor(education),
          married = as.factor(married),
          ASD = as.factor(ASD) )

- Modelo 1: somente as 26 questões

In [None]:
modelo_reg_questoes <- lm( formula = nerdy ~ ., 
                           data = dados_nerd_train %>% dplyr::select( nerdy, contains('Q') ) )

In [None]:
summary( modelo_reg_questoes )

- Modelo 2: somente os *clusters*

In [None]:
modelo_reg_clus <- lm( formula = nerdy ~ ., 
                      data = dados_nerd_train %>% dplyr::select( nerdy, grupos_final ) )

In [None]:
summary( modelo_reg_clus )

- Modelo 3: questões e *clusters*

In [None]:
modelo_reg_questclus <- lm( formula = nerdy ~ ., 
                       data = dados_nerd_train %>% dplyr::select( nerdy, contains('Q'), grupos_final ) )

In [None]:
summary( modelo_reg_questclus )

## Avaliação dos modelos

- padronizamos as variáveis da amostra de teste

In [None]:
dados_nerd_test_padronizados <- dados_nerd_test %>% 
  dplyr::select( contains('Q') ) %>% 
  mutate_if( is.numeric, padronizar )

- criamos os *clusters* para a amostra de teste

In [None]:
clusters_teste <- cl_predict( clusters_k4, 
            newdata = dados_nerd_test_padronizados )

- Adicionamos os *clusters* na amostra de teste

In [None]:
dados_nerd_test %<>% 
  mutate( grupos_final = as.factor(clusters_teste) )

In [None]:
dados_nerd_test %>% 
    head()

- Geramos as previsoes para avaliação

In [None]:
amostra_avaliacao <- dados_nerd_test %>% 
  mutate( pred_nerdy_reg_quest = predict( modelo_reg_questoes, . ),
          pred_nerdy_reg_clus = predict( modelo_reg_clus, . ),
          pred_nerdy_reg_questclus = predict( modelo_reg_questclus, . ) ) %>% 
  dplyr::select( nerdy, pred_nerdy_reg_quest, pred_nerdy_reg_clus, pred_nerdy_reg_questclus)

In [None]:
amostra_avaliacao %>% 
    head()

- Comparamos os modelos pelo RMSE

In [None]:
amostra_avaliacao %>% 
  summarise( Modelo_1_questoes = rmse(nerdy, pred_nerdy_reg_quest),
             Modelo_2_clusters = rmse(nerdy, pred_nerdy_reg_clus),
             Modelo_3_questclust = rmse(nerdy, pred_nerdy_reg_questclus) ) %>% 
  gather( key = modelos, value = rmse ) %>% 
  arrange( rmse )