# **CASE: VENDA DE VEÍCULOS**

---

### Leitura da base de dados

In [None]:
dados_veiculos <- read.table(file   = "Venda_Veiculos.txt",
                             sep    = "\t",
                             header = TRUE)

### Visualização da base de dados

In [None]:
View(dados_veiculos)

### Análise exploratória breve

In [None]:
# Medidas resumo
summary(dados_veiculos)

In [None]:
# Histograma do tempo de experiência dos vendedores
hist(dados_veiculos$Tempo_Experiencia,
     main = "Tempo de experiência dos vendedores (anos)",
     col = "darkturquoise",
     border = "white",
     xlab = "Tempo de experiência",
     ylab = "Frequência",
     breaks = 10)

In [None]:
# Histograma do valor médio mensal em vendas
hist(dados_veiculos$Valor_Medio_Mensal_Vendas,
     main = "Valor médio mensal em vendas (R$)",
     col = "darkturquoise",
     border = "white",
     xlab = "Tempo de experiência",
     ylab = "Frequência",
     breaks = 10)

### Análise bivariada: variável resposta vs. variáveis explicativas

In [None]:
# Gráfico de dispersão
plot(x    = dados_veiculos$Tempo_Experiencia,
     y    = dados_veiculos$Valor_Medio_Mensal_Vendas,
     pch  = 19,
     col  = "darkturquoise",
     xlab = "Tempo de experiência (anos)",
     ylab = "Valor médio mensal em vendas (R$)",
     main = "Valor médio mensal em vendas vs. tempo de experiência")

In [None]:
# Coeficiente de correlação
cor(dados_veiculos$Tempo_Experiencia, dados_veiculos$Valor_Medio_Mensal_Vendas)

### Modelo de regressão linear simples

In [None]:
# Comando auxiliar para para omitir notação científica nos p-valores e controlar largura dos outputs na tela do Colab
options(scipen = 999, width = 200)

In [None]:
# Ajuste do modelo
regressao <- lm(Valor_Medio_Mensal_Vendas ~ Tempo_Experiencia,
                data = dados_veiculos)

summary(regressao)

### Intervalos de confiança

In [None]:
# Intercepto (beta 0)
print("Limite inferior")
as.numeric(regressao$coefficients[1] - 1.96 * coef(summary(regressao))[1, "Std. Error"])
print("Limite superior")
as.numeric(regressao$coefficients[1] + 1.96 * coef(summary(regressao))[1, "Std. Error"])

In [None]:
# Ângulo (beta 1)
print("Limite inferior")
as.numeric(regressao$coefficients[2] - 1.96 * coef(summary(regressao))[2, "Std. Error"])
print("Limite superior")
as.numeric(regressao$coefficients[2] + 1.96 * coef(summary(regressao))[2, "Std. Error"])

### Gráfico de dispersão com reta ajustada

In [None]:
plot(x    = dados_veiculos$Tempo_Experiencia,
     y    = dados_veiculos$Valor_Medio_Mensal_Vendas,
     pch  = 19,
     col  = "darkturquoise",
     xlab = "Tempo de experiência (anos)",
     ylab = "Valor médio mensal em vendas (R$)",
     main = "Valor médio mensal em vendas vs. tempo de experiência")
points(abline(regressao,
              col = "red"))

### Qualidade de ajuste

In [None]:
# Coeficiente de determinação (R²)
summary(regressao)$r.squared

In [None]:
# MAE
sum(abs(regressao$residuals))/nrow(dados_veiculos)

In [None]:
# MAPE
sum(abs(regressao$residuals/dados_veiculos$Valor_Medio_Mensal_Vendas))/nrow(dados_veiculos)

### Análise de resíduos

In [None]:
# Histograma dos resíduos
hist(x      = regressao$residuals,
     main   = "Histograma dos resíduos",
     col    = "darkturquoise",
     border = "white")

In [None]:
# QQ plot dos resíduos
qqnorm(y    = regressao$residuals,
       main = "QQ-plot dos resíduos",
       col  = "darkturquoise",
       pch  = 19)
qqline(y    = regressao$residuals,
       col  = "red")

In [None]:
# Resíduos vs. tempo de experiência
plot(x    = dados_veiculos$Tempo_Experiencia,
     y    = regressao$residuals,
     pch  = 19,
     col  = "darkturquoise",
     xlab = "Tempo de experiência (anos)",
     ylab = "Resíduos",
     main = "Resíduos vs. tempo de experiência")

### Exemplo de uso (aplicação) do modelo

In [None]:
# Criação de base de dados com um novo vendedor, com 12 anos de experiência
# Obs.: o nome de coluna deve ser idêntico ao da base utilizada para construção do modelo ("Tempo_Experiencia")
novos_dados <- data.frame(Tempo_Experiencia = c(12))

In [None]:
# Aplicação do modelo
novos_dados$Tempo_Experiencia_Predito <- predict(regressao, novos_dados)
View(novos_dados)