# Exemplo Regressão Linear

Neste exemplo iremos apresentar um modelo de regressão linear. O dataset utilizado será o Hatco, este banco de dados está presente no Livro de Hair, Joseph F. Multivariate Data Analysis. 6th ed. Upper Saddle River, N.J.: Pearson Prentice Hall, 2006.

A Hatco é uma empresa fictícia de fornecimento para indústrias, os dados representam uma pesquisa de satisfação realizada com clientes da empresa. Por meio de várias características observadas, podemos criar um modelo que irá prever o quanto um consumidor está satisfeito com tais serviços.

O modelo a ser ajustado será: 

$$
\begin{equation}
nivelsatisfacao_i = \beta_0 + \beta_1 caracteristicas + \epsilon_i
\tag{1}
\end{equation}
$$

## Carregar pacotes

In [None]:
library(tidyverse)
library(magrittr)
library(Hmisc)

## Carregar dados

In [None]:
dados_hatco <- read_csv2( file = "/home/vmsenac/dados/hatco_csv.csv" )
dados_hatco

## Análises

Antes de iniciarmos as análises, observam-se dados faltantes (*missings*) no banco de dados. Desta forma, vamos ajustar este problema para depois estimarmos os modelos de regressão.

Para o caso de variáveis categóricas iremos utilizar o método do valor mais frequente. Para as variáveis quantitativas iremos imputar a média. (na prática, utilizamos vários métodos e escolhemos o que resultará num menor erro do modelo)

### Ajustar *missings* variáveis categóricas - Valor mais frequente

As variáveis categóricas são:
- tamanho_firma;
- area_industria.

In [None]:
# tamanho da firma
dados_hatco %>% 
  count( tamanho_firma )

In [None]:
# area industria
dados_hatco %>% 
  count( area_industria )

Para tamanho da firma, a categoria "pequena" foi a mais frequente. No caso de area_industria, temos a categoria "outra_area".

In [None]:
dados_hatco %<>% 
  mutate(tamanho_firma_2 = impute( tamanho_firma, 'pequena' ),
         area_industria_2 = impute( area_industria, 'outra_area' ) )

### Ajustar *missings* variáveis quantitativas - Média

As variáveis quantitativas são:
- velocidade_entrega;
- nivel_preco;
- flexibilidade_preco;
- imagem_fornecedor;
- qualidade_servico;
- imagem_forca_vendas;
- qualidade_produto;
- nivel_satisfacao.

In [None]:
dados_hatco %<>% 
  mutate(velocidade_entrega_2 = impute( velocidade_entrega, mean ),
         nivel_preco_2 = impute( nivel_preco, mean ),
         flexibilidade_preco_2 = impute( flexibilidade_preco, mean ),
         imagem_fornecedor_2 = impute( imagem_fornecedor, mean ),
         qualidade_servico_2 =  impute( qualidade_servico, mean ),
         imagem_forca_vendas_2 =  impute( imagem_forca_vendas, mean ),
         qualidade_produto_2 =  impute( qualidade_produto, mean ),
         nivel_satisfacao_2 =  impute( nivel_satisfacao, mean ) )

### Divisão das amostras treinamento e teste

Primeiramente vamos manter no banco somente as variáveis que serão utilizadas, depois iremos dividir em amostra de treino e teste.

In [None]:
dados_hatco_sem_missings <- dados_hatco %>% 
                                select( contains('_2') )

In [None]:
# amostra de treino
dados_hatco_train <- dados_hatco_sem_missings %>% 
                        sample_frac(., 0.7)

In [None]:
# amostra de teste
dados_hatco_test <- setdiff( dados_hatco_sem_missings, dados_hatco_train )

### Treinamento modelo de regressão linear

- modelo 1: modelo sem variáveis

In [None]:
model_null <- lm( formula = nivel_satisfacao_2 ~ 1, 
                  data = dados_hatco_train )
summary(model_null)

- modelo 2: modelo com todas as variáveis

In [None]:
model_full <- lm( formula = nivel_satisfacao_2 ~ ., 
                  data = dados_hatco_train )
summary(model_full)

- modelo 3: método de seleção backward

In [None]:
model_backward <- step( model_full, 
                        scope = list( lower = model_null, upper = model_full ), 
                        direction = "backward")
summary(model_backward)

- modelo 4: método de seleção forward

In [None]:
model_forward <- step( model_null, 
                       scope = list( lower = model_null, upper = model_full ), 
                       direction = "forward")
summary(model_forward)

- modelo 5: método de seleção stepwise

In [None]:
model_stepwise <- step( model_null, 
                       scope = list( lower = model_null, upper = model_full ), 
                       direction = "both")
summary(model_stepwise)

### Teste dos modelos de regressão linear

Para os problemas de regressão linear, iremos utilizar a métrica RMSE (*Root Mean Squared Error*) para validação dos modelos.

- Gera as previsões

In [None]:
dados_hatco_test %<>% 
    mutate( previsao_model_null = predict( model_null, .),
            previsao_model_full = predict( model_full, .),
            previsao_model_backward = predict( model_backward, .),
            previsao_model_forward = predict( model_forward, .),
            previsao_model_stepwise = predict( model_stepwise, .) )

- Realiza os testes

In [None]:
dados_hatco_test %>% 
    summarise( rmse_model_null = sqrt( mean( (previsao_model_null - nivel_satisfacao_2)^2 ) ),
               rmse_model_full = sqrt( mean( (previsao_model_full - nivel_satisfacao_2)^2 ) ),
               rmse_model_backward = sqrt( mean( (previsao_model_backward - nivel_satisfacao_2)^2 ) ),
               rmse_model_forward = sqrt( mean( (previsao_model_forward - nivel_satisfacao_2)^2 ) ),
               rmse_model_stepwise = sqrt( mean( (previsao_model_stepwise - nivel_satisfacao_2)^2 ) ) )

No presente caso, o modelo 2 (utiliza todas as variáveis) apresentou menor erro na amostra de teste, sendo considerado o melhor.