### Classificador Naive Bayes - Parte 2

#### Motivaçao:
 - Analisando o pacote naivebayes
 - Avaliaçao do ROI da campanha
 - Mudando o ponto de corte do modelo
 - Area Under the Curve (AUC) ROC
 - KPIs da matriz de confusao

_____________________________________________

### Bibliotecas

In [None]:
library(tidyverse)
#install.packages("naivebayes")
library(naivebayes)
library(caret)
library(ggplot2)

In [None]:
# Para a area sob a curva
#install.packages("ROCR")
library(ROCR)

_____________________________________________

### Carregando a base de dados e fazendo o oversampling

In [None]:
# Muda o diretorio de trabalho

setwd('C:/Users/engle/OM Na Pratica/R/Bases de Dados')

In [None]:
# Importando arquivos do tipo CSV - funcao read.table

bank_data <- read.table("bank-full.csv", 
                 header = TRUE, sep = ";")

In [None]:
bank_oversample <- upSample(bank_data, bank_data$y)

str(bank_oversample)

In [None]:
bank_oversample %>% count(Class)

_____________________________________________

### Treinamento do modelo

In [None]:
set.seed(42)

# Sem oversampling

inTrain <- createDataPartition(bank_data$y, p = 0.7, list = FALSE)

train <- bank_data[inTrain, ]

test <- bank_data[-inTrain, ]

dim(train)
dim(test)

#Com oversampling

inTrain1 <- createDataPartition(bank_oversample$Class, p = 0.7, list = FALSE)

train1 <- bank_oversample[inTrain1, ]

test1 <- bank_oversample[-inTrain1, ]

dim(train1)
dim(test1)

In [None]:
# Usando o novo Naive Bayes
?naive_bayes

In [None]:
# Treinamento do Modelo

nb1 = naive_bayes(Class ~ . , laplace = 1, usekernel = F, data = train1)

In [None]:
# Previsao na base de treinamento

nb_train_pred1 <- predict(nb1, train1, type = "class")

confusionMatrix(nb_train_pred1, train1$Class, positive = 'yes')

In [None]:
# Previsao na base de teste sem oversampling

nb_test_pred1 <- predict(nb1, test, type = "class")

confusionMatrix(nb_test_pred1, test$y, positive = 'yes')

_____________________________________________

### Calculando o retorno esperado da campanha

In [None]:
# Os custos e lucros de realizar uma campanha como esta
custo <- 15
lucro <- 100

In [None]:
# Analisando o retorno sobre o investimento - ROI - Return on Investiment

# Quando a prediction é yes, eu mandei a campanha
c <- ifelse(nb_test_pred1 == "yes" , custo, 0) 

# Quando a prediction é yes e y é yes, eu tenho lucro
l <- ifelse((test$y == "yes" & nb_test_pred1 == "yes"), lucro, 0) 

# Quando a prediction é no e y é yes, eu deixer de ganhar
custo_oportunidade <- sum(ifelse((test$y == "yes" & nb_test_pred1 == "no"), (lucro-custo), 0) )

In [None]:
# O calculo do ROI em percentual

lucro_liquido <- round(sum(l)-sum(c),2)

custo_total <- round(sum(c),2)

ROI <- round((sum(l)/sum(c)-1)*100,2)

print(paste("O lucro liquido é: R$", lucro_liquido))

print(paste("O custo total é: R$", custo_total))

print(paste("O ROI é: ", ROI, "%"))

print(paste("Custo de oportunidade: R$", custo_oportunidade))

_____________________________________________

### Otimizaçao do retorno da campanha

In [None]:
# Também é possivel mudar a saida de type para prob - e mudar o ponto de corte para trabalhar melhor a acuracia

probabilidades <- predict(nb1, type ='prob', test) 

In [None]:
probabilidades[1:5,]

In [None]:
# Previsao com mudança no ponto de corte - base de teste sem oversampling

nb_cutoff <- as.factor(ifelse(probabilidades[,2] > 0.62, "yes", "no"))

confusionMatrix(nb_cutoff, test$y, positive = 'yes')

In [None]:
# Analisando o retorno sobre o investimento - ROI - Return on Investiment com o cut-off modificado

# Quando a prediction é yes, eu mandei a campanha
c_new <- ifelse(nb_cutoff == "yes" , custo, 0) 

# Quando a prediction é yes e y é yes, eu tenho lucro
l_new <- ifelse((test$y == "yes" & nb_cutoff == "yes"), lucro, 0) 

# Quando a prediction é no e y é yes, eu deixer de ganhar
custo_oportunidade_new <- sum(ifelse((test$y == "yes" & nb_cutoff == "no"), (lucro-custo), 0) )

In [None]:
# O calculo do novo ROI em percentual

lucro_liquido_new <- round(sum(l_new)-sum(c_new),2)

custo_total_new <- round(sum(c_new),2)

ROI_new <- round((sum(l_new)/sum(c_new)-1)*100,2)

print(paste("O lucro liquido é: R$", lucro_liquido_new))

print(paste("O custo total é: R$", custo_total_new))

print(paste("O novo ROI é: ", ROI_new, "%"))

print(paste("Custo de oportunidade: R$", custo_oportunidade_new))

In [None]:
# Lembrando o anterior

print(paste("O lucro liquido é: R$", lucro_liquido))

print(paste("O custo total é: R$", custo_total))

print(paste("O ROI é: ", ROI, "%"))

print(paste("Alteraçao nos lucros previstos: ", round((sum(l_new)/sum(l)-1)*100,2), " %"))

print(paste("Alteraçao nos custos previstos: ", round((sum(c_new)/sum(c)-1)*100,2), " %"))

print(paste("Custo de oportunidade: R$", custo_oportunidade))

_____________________________________________

### Entendendo a area sob a curva

In [None]:
#Avaliacao do Modelo pelo AUC

#Plota a AUC
probabilidades <- predict(nb1, type ='prob', test) 

nb1_probs <- prediction(probabilidades[,2], test$y)
plot(performance(nb1_probs, "tpr", "fpr"), col = "red", main = "Area Under the Curve - AUC")
abline(0,1, lty = 8, col = "grey")

#AUC
auc <- performance(nb1_probs, "auc")
valor_auc <- slot(auc, "y.values")[[1]]
print("Auc")
valor_auc


In [None]:
confusionMatrix(nb_cutoff, test$y, positive = 'yes')

![image.png](attachment:image.png)

- https://en.wikipedia.org/wiki/Receiver_operating_characteristic