# Exemplo Modelo de regressão

Neste exemplo iremos desenvolver um modelo para prever os gastos com cartão de uma pessoa.

## Carregar pacotes

In [None]:
library(tidyverse)
library(magrittr)

## Carregar dados

In [None]:
dados_cartao <- read_csv( file = "/home/vm-data-science/dados/base_gastos_cartao.csv")

In [None]:
dados_cartao %>% 
    head()

## Análise exploratória

In [None]:
dados_cartao %>% 
    summarise_if( is.numeric, mean )

In [None]:
dados_cartao  %>% 
    count( segmento )

## Dividir amostra de treino e teste

In [None]:
# amostra de treino
dados_cartao_train <- dados_cartao %>% 
                        sample_frac(., 0.75)

In [None]:
# amostra de teste
dados_cartao_test <- setdiff( dados_cartao, dados_cartao_train )

In [None]:
print( paste('o banco de dados tem ao todo', dim(dados_cartao)[1], 'linhas e', dim(dados_cartao)[2], 'colunas') )
print( paste('a amostra de treino tem', dim(dados_cartao_train)[1], 'linhas e', dim(dados_cartao_train)[2], 'colunas') )
print( paste('a amostra de teste tem', dim(dados_cartao_test)[1], 'linhas e', dim(dados_cartao_test)[2], 'colunas') ) 

## Treinamento do modelo

Conforme aprendemos na aula, vamos testar o seguinte:

- Modelo somente utilizando a variável renda
- Modelo com todas as variáveis, inclusive as categóricas
- Modelo contendo efeitos quadráticos
- Modelo contendo efeitos multiplicativos (interação)

### Modelo 1 - somente renda

In [None]:
modelo_1 <- lm( formula = gastos_cartao ~ renda, 
                data = dados_cartao_train)

In [None]:
summary( modelo_1 )

### Modelo 2 - todas as variáveis

In [None]:
modelo_2 <- lm( formula = gastos_cartao ~ ., 
    data = dados_cartao_train)

In [None]:
summary( modelo_2 )

### Modelo 3 - efeitos quadráticos (idade)

In [None]:
modelo_3 <- lm( formula = gastos_cartao ~ idade + renda + impostos + segmento + I(idade^2), 
                data = dados_cartao_train)

In [None]:
summary( modelo_3 )

#### Modelo 4 - efeitos multiplicativos

In [None]:
modelo_4 <- lm( formula = gastos_cartao ~ idade + renda + impostos + segmento + 
                          I( c(segmento == 'B') * renda ) + I( c(segmento == 'C') * renda ), 
                data = dados_cartao_train )

In [None]:
summary( modelo_4 )

### Teste dos modelos

Para realizar os testes dos modelos, devemos seguir pelo menos 2 passos:

1 - Realizar as previsões.

2 - Realizar os testes.

### Previsões

In [None]:
dados_cartao_test %<>% 
    mutate( gastos_cartao_pred_m1 = predict( modelo_1, .),
            gastos_cartao_pred_m2 = predict( modelo_2, .),
            gastos_cartao_pred_m3 = predict( modelo_3, .),
            gastos_cartao_pred_m4 = predict( modelo_4, .) )

### Teste

In [None]:
rmse <- function( previsto, real ) { sqrt( mean( (previsto - real)^2 ) ) }

In [None]:
dados_cartao_test %>% 
    summarise( erro_modelo_1 = rmse( gastos_cartao_pred_m1, gastos_cartao ),
               erro_modelo_2 = rmse( gastos_cartao_pred_m2, gastos_cartao ),
               erro_modelo_3 = rmse( gastos_cartao_pred_m3, gastos_cartao ),
               erro_modelo_4 = rmse( gastos_cartao_pred_m4, gastos_cartao ) )

## Qual modelo apresentou melhor desempenho na amostra de teste?