# **CASE: FATURAMENTO EM** ***E-COMMERCE***
---

### Leitura da base de dados

In [None]:
dados_faturamento <- read.table(file   = "Faturamento.txt",
                                sep    = "\t",
                                header = TRUE)

### Visualização da base de dados

In [None]:
View(dados_faturamento)

### Análise exploratória breve

In [None]:
# Medidas resumo
summary(dados_faturamento)

In [None]:
# Comando auxiliar para para omitir notação científica nos p-valores e no eixo vertical dos histogramas e controlar largura dos outputs na tela do Colab
options(scipen = 999, width = 200)

In [None]:
# Histograma do investimento em mídias
hist(dados_faturamento$INVESTIMENTO,
     main = "Investimento em mídias (R$)",
     col = "darkturquoise",
     border = "white",
     xlab = "Investimento em mídias (R$)",
     ylab = "Frequência",
     breaks = 10)

In [None]:
# Histograma do faturamento
hist(dados_faturamento$FATURAMENTO,
     main = "Faturamento (R$)",
     col = "darkturquoise",
     border = "white",
     xlab = "Faturamento (R$)",
     ylab = "Frequência",
     breaks = 10)

### Análise bivariada: variável resposta vs. variáveis explicativas

In [None]:
# Gráfico de dispersão
plot(x    = dados_faturamento$INVESTIMENTO,
     y    = dados_faturamento$FATURAMENTO,
     pch  = 19,
     col  = "darkturquoise",
     xlab = "Investimento em mídias (R$)",
     ylab = "Faturamento (R$)",
     main = "Faturamento vs. investimento em mídias")

In [None]:
# Coeficiente de correlação
cor(dados_faturamento$INVESTIMENTO,
    dados_faturamento$FATURAMENTO)

### Modelo de regressão linear simples

In [None]:
# Ajuste do modelo
regressao <- lm(FATURAMENTO ~ INVESTIMENTO,
                data = dados_faturamento)

summary(regressao)

### Intervalos de confiança

In [None]:
# Intercepto (beta 0)
print("Limite inferior")
as.numeric(regressao$coefficients[1] - 1.96 * coef(summary(regressao))[1, "Std. Error"])
print("Limite superior")
as.numeric(regressao$coefficients[1] + 1.96 * coef(summary(regressao))[1, "Std. Error"])

In [None]:
# Ângulo (beta 1)
print("Limite inferior")
as.numeric(regressao$coefficients[2] - 1.96 * coef(summary(regressao))[2, "Std. Error"])
print("Limite superior")
as.numeric(regressao$coefficients[2] + 1.96 * coef(summary(regressao))[2, "Std. Error"])

### Gráfico de dispersão com reta ajustada

In [None]:
plot(x    = dados_faturamento$INVESTIMENTO,
     y    = dados_faturamento$FATURAMENTO,
     pch  = 19,
     col  = "darkturquoise",
     xlab = "Investimento em mídias (R$)",
     ylab = "Faturamento (R$)",
     main = "Faturamento vs. investimento em mídias")
points(abline(regressao,
              col = "red"))

### Qualidade de ajuste

In [None]:
# Coeficiente de determinação (R²)
summary(regressao)$r.squared

In [None]:
# MAE
sum(abs(regressao$residuals))/nrow(dados_veiculos)

In [None]:
# MAPE
sum(abs(regressao$residuals/dados_faturamento$FATURAMENTO))/nrow(dados_faturamento)

### Análise de resíduos

In [None]:
# Histograma dos resíduos
hist(x      = regressao$residuals,
     main   = "Histograma dos resíduos",
     col    = "darkturquoise",
     border = "white")

In [None]:
# QQ plot dos resíduos
qqnorm(y    = regressao$residuals,
       main = "QQ-plot dos resíduos",
       col  = "darkturquoise",
       pch  = 19)
qqline(y    = regressao$residuals,
       col  = "red")

In [None]:
# Resíduos vs. investimento em mídias
plot(x    = dados_veiculos$INVESTIMENTO,
     y    = regressao$residuals,
     pch  = 19,
     col  = "darkturquoise",
     xlab = "Investimento em mídias (R$)",
     ylab = "Resíduos",
     main = "Resíduos vs. investimento em mídias")

### Exemplo de uso (aplicação) do modelo

In [None]:
# Criação de base de dados com um novo produto, com 18.000 reais de investimento em mídias
# Obs.: o nome de coluna deve ser idêntico ao da base utilizada para construção do modelo ("INVESTIMENTO")
novos_dados <- data.frame(INVESTIMENTO = c(18000))

In [None]:
# Aplicação do modelo
novos_dados$INVESTIMENTO_PREDITO <- predict(regressao, novos_dados)
View(novos_dados)