# Exemplo Modelo Árvore de regressão - *Prunning*

Neste exemplo iremos desenvolver um modelo para prever os gastos com cartão de uma pessoa.

Porém, desta vez iremos utilizar o modelo de Particionamento Recursivo (Árvore de decisão).

Iremos adicionar o processo de "Podar" a árvore.

## Carregar pacotes

In [None]:
library(tidyverse)
library(magrittr)
library(rpart)
library(plotly)
library(visNetwork)

## Carrega uma função para ajudar a criar os gráficos

In [None]:
accumulate_by <- function(dat, var) {
  var <- lazyeval::f_eval(var, dat)
  lvls <- plotly:::getLevels(var)
  dats <- lapply(seq_along(lvls), function(x) {
    cbind(dat[var %in% lvls[seq(1, x)], ], frame = lvls[[x]])
  })
  dplyr::bind_rows(dats)
}

## Carregar dados

In [None]:
dados_cartao <- read_csv( file = "/home/vm-data-science/dados/base_gastos_cartao.csv")

In [None]:
dados_cartao %>% 
    head()

Número de linhas e colunas no banco de dados (150 linhas e 5 colunas)

In [None]:
dados_cartao %>% dim

Ajuste na variável segmento

In [None]:
dados_cartao %<>%
    mutate( segmento = as.factor(segmento) )

## Análise exploratória

In [None]:
dados_cartao %>% 
    summarise_if( is.numeric, mean )

In [None]:
dados_cartao  %>% 
    count( segmento )

## Dividir amostras de treino, validação e teste

Aprendemos na aula que devemos gerar as regras na amostra de treino, validar o crescimento das regras na amostra de validação e realizar a avaliação final na amostra de teste.

### Primeiro dividimos as amostras de treinamento/validação e teste

In [None]:
# amostra de treino e validacao
set.seed(1)
dados_cartao_train_valid <- dados_cartao %>% 
                                sample_frac(., 0.70)

In [None]:
# amostra de teste
dados_cartao_test <- setdiff( dados_cartao, dados_cartao_train_valid )

### Depois dividimos a amostra de treinamento/validação

In [None]:
# amostra de treino
set.seed(1)
dados_cartao_train <- dados_cartao_train_valid %>% 
                                sample_frac(., 0.70)

In [None]:
# amostra de validacao
dados_cartao_valid <- setdiff( dados_cartao_train_valid, dados_cartao_train )

In [None]:
print( paste('o banco de dados tem ao todo', dim(dados_cartao)[1], 'linhas e', dim(dados_cartao)[2], 'colunas') )
print( paste('a amostra de treino tem', dim(dados_cartao_train)[1], 'linhas e', dim(dados_cartao_train)[2], 'colunas') )
print( paste('a amostra de validação tem', dim(dados_cartao_valid)[1], 'linhas e', dim(dados_cartao_valid)[2], 'colunas') )
print( paste('a amostra de teste tem', dim(dados_cartao_test)[1], 'linhas e', dim(dados_cartao_test)[2], 'colunas') )

## Treinamento do modelo

Parâmetros para controle:

- minsplit
- complexity parameter (cp)
- maxcompete
- maxdepth

## Análise dos parâmetros

antes de iniciarmos as análises, vamos conhecer um pouco o comportamento dos parâmetros.

### Análise do minsplit

In [None]:
dados_minsplit <- NULL

for ( split in 1:50){
    
    # treino 
    modelo <- rpart( gastos_cartao ~ ., 
                 data = dados_cartao_train,
                 control = list( minsplit = split) )
    
    # validacao
    rmse <- sqrt( mean( (predict( modelo, dados_cartao_valid) - dados_cartao_valid$gastos_cartao)^2 ) )
    
    dados <- data_frame( minsplit = split,
                         rmse = rmse )
    
    dados_minsplit <- bind_rows( dados_minsplit, dados)
}

In [None]:
dados_minsplit %>% 
    accumulate_by(~minsplit) %>% 
    plot_ly( x = ~minsplit,
             y = ~rmse,
             frame = ~frame,
             text = ~paste('</br> minsplit: ', minsplit,
                           '</br> rmse: ', rmse ),
             hoverinfo = 'text',
             type = 'scatter',
             mode = 'lines',
             showlegend = F,
             line = list(simplyfy = F) )

### Análise do cp

In [None]:
dados_cp <- NULL

for ( cp_val in seq( 0.001, 0.05, by = 0.001 ) ){
    
    # treino 
    modelo <- rpart( gastos_cartao ~ ., 
                 data = dados_cartao_train,
                 control = list( cp = cp_val) )
    
    # validacao
    rmse <- sqrt( mean( (predict( modelo, dados_cartao_valid) - dados_cartao_valid$gastos_cartao)^2 ) )
    
    dados <- data_frame( cp = cp_val,
                         rmse = rmse )
    
    dados_cp <- bind_rows( dados_cp, dados)
}

In [None]:
dados_cp %>% 
    accumulate_by(~cp) %>% 
    plot_ly( x = ~cp,
             y = ~rmse,
             frame = ~frame,
             text = ~paste('</br> cp: ', cp,
                           '</br> rmse: ', rmse ),
             hoverinfo = 'text',
             type = 'scatter',
             mode = 'lines',
             showlegend = F,
             line = list(simplyfy = F) )

### Análise do maxcompete

In [None]:
dados_maxcompete <- NULL

for ( max_c in 1:15 ){
    
    # treino 
    modelo <- rpart( gastos_cartao ~ ., 
                 data = dados_cartao_train,
                 control = list( maxcompete = max_c) )
    
    # validacao
    rmse <- sqrt( mean( (predict( modelo, dados_cartao_valid) - dados_cartao_valid$gastos_cartao)^2 ) )
    
    dados <- data_frame( maxcompete = max_c,
                         rmse = rmse )
    
    dados_maxcompete <- bind_rows( dados_maxcompete, dados)
}

In [None]:
dados_maxcompete %>% 
    accumulate_by(~maxcompete) %>% 
    plot_ly( x = ~maxcompete,
             y = ~rmse,
             frame = ~frame,
             text = ~paste('</br> maxcompete: ', maxcompete,
                           '</br> rmse: ', rmse ),
             hoverinfo = 'text',
             type = 'scatter',
             mode = 'lines',
             showlegend = F,
             line = list(simplyfy = F) )

### Análise do maxdepth

In [None]:
dados_depth <- NULL

for ( depth in 1:15 ){
    
    # treino 
    modelo <- rpart( gastos_cartao ~ ., 
                 data = dados_cartao_train,
                 control = list( maxdepth = depth ) )
    
    # validacao
    rmse <- sqrt( mean( (predict( modelo, dados_cartao_valid) - dados_cartao_valid$gastos_cartao)^2 ) )
    
    dados <- data_frame( maxdepth = depth,
                         rmse = rmse )
    
    dados_depth <- bind_rows( dados_depth, dados)
}

In [None]:
dados_depth %>% 
    accumulate_by(~maxdepth) %>% 
    plot_ly( x = ~maxdepth,
             y = ~rmse,
             frame = ~frame,
             text = ~paste('</br> maxdepth: ', maxdepth,
                           '</br> rmse: ', rmse ),
             hoverinfo = 'text',
             type = 'scatter',
             mode = 'lines',
             showlegend = F,
             line = list(simplyfy = F) )

## Modelos

### Modelo 1 - árvore completa

In [None]:
modelo_1 <- rpart( gastos_cartao ~ ., 
                   data = dados_cartao_train )

In [None]:
modelo_1 %>% 
  visTree(., rules = TRUE,
          fallenLeaves = TRUE,
          width = "100%",
          height = "850" ) %>% 
  visOptions(highlightNearest = TRUE, 
             nodesIdSelection = FALSE) %>% 
  visLegend( width = 0.1 )

### Modelo 2 - arvore ajustada

In [None]:
modelo_2 <- rpart( gastos_cartao ~ ., 
                   data = dados_cartao_train,
                   control = list( minsplit = 25,
                                   maxcompete = 5,
                                   cp = 0.001,
                                   maxdepth = 3 ) )

In [None]:
modelo_2 %>% 
  visTree(., rules = TRUE,
          fallenLeaves = TRUE,
          width = "100%",
          height = "850" ) %>% 
  visOptions(highlightNearest = TRUE, 
             nodesIdSelection = FALSE) %>% 
  visLegend( width = 0.1 )

### Análise amostra de teste

In [None]:
dados_cartao_test %<>% 
    mutate( gastos_cartao_pred_m1 = predict( modelo_1, .),
            gastos_cartao_pred_m2 = predict( modelo_2, .) )

In [None]:
dados_cartao_test %>% head

In [None]:
rmse <- function( previsto, real ) { sqrt( mean( (previsto - real)^2 ) ) }

In [None]:
dados_cartao_test %>% 
    summarise( erro_modelo_1 = rmse( gastos_cartao_pred_m1, gastos_cartao ),
               erro_modelo_2 = rmse( gastos_cartao_pred_m2, gastos_cartao ) )

### Regras

- Regras modelo 1

In [95]:
source('/home/vm-data-science/R_scripts/tree_rules.R')

In [96]:
tree_rules(modelo_1, model_type = 'regression')

IF  [impostos]< 375 AND [renda]< 2720 AND [idade]< 34.5 THEN \'483.529411764706\' 
ELSEIF [impostos]< 375 AND [renda]< 2720 AND [idade]>=34.5 THEN \'524\' 
ELSEIF [impostos]< 375 AND [renda]>=2720 THEN \'555.714285714286\' 
ELSEIF [impostos]>=375 AND [renda]< 4520 AND [renda]< 3640 THEN \'592.727272727273\' 
ELSEIF [impostos]>=375 AND [renda]< 4520 AND [renda]>=3640 AND [impostos]>=525 THEN \'623.846153846154\' 
ELSEIF [impostos]>=375 AND [renda]< 4520 AND [renda]>=3640 AND [impostos]< 525 THEN \'666.25\' 
ELSEIF [impostos]>=375 AND [renda]>=4520 THEN \'712.5\' 
END

- Regras modelo 2

In [97]:
source('/home/vm-data-science/R_scripts/tree_rules.R')

In [98]:
tree_rules(modelo_2, model_type = 'regression')

IF  [impostos]< 375 AND [renda]< 2720 AND [idade]< 34.5 THEN \'483.529411764706\' 
ELSEIF [impostos]< 375 AND [renda]< 2720 AND [idade]>=34.5 THEN \'524\' 
ELSEIF [impostos]< 375 AND [renda]>=2720 THEN \'555.714285714286\' 
ELSEIF [impostos]>=375 AND [renda]< 4520 AND [renda]< 3640 THEN \'592.727272727273\' 
ELSEIF [impostos]>=375 AND [renda]< 4520 AND [renda]>=3640 THEN \'640\' 
ELSEIF [impostos]>=375 AND [renda]>=4520 THEN \'712.5\' 
END'

- Quantas regras no modelo 1?
- Quantas regras no modelo 2?