<H1 style='text-align:center'>Detecção Spam utilizando Naive Bayes</H1>

O Classificador Naive bayes é denominador ingênuo (naive) por assumir que os atributos são i.i.d (independentes e identicamente distribuídos), ou seja, a informação de um evento não é informativa sobre nenhum outro. Apesar deste premissa "ingênua" e simplista, o classificador reporta o melhor desempenho em várias tarefas de classificação. 

*"All models are wrong but some are useful"* (George E. P. Box)

Até as primeiras décadas do século XVIII, problemas relacionados a probabilidade de certos eventos, dadas certas condições, estavam bem resolvidos. Por exemplo, dado um número específico de bolas negras e brancas em uma urna, qual é a probabilidade de eu sortear uma bola preta? Tais problemas são chamados de problemas de "foward probability". Porém, logo, o problema inverso começou a chamar a atenção dos matemáticos da época: Dado que uma ou mais bolas foram sorteadas, o que pode ser dito sobre o número de bolas brancas e pretas na urna?

É exatamente este pensamento inverso que busamos ao treinar um classificador de textos. Dado que temos exemplos de texto de cada classe, o que podemos inferir sobre o processo gerador destes textos?

<p style='text-align:right'>Adaptado de <a href='https://www.maxwell.vrac.puc-rio.br/9947/9947_5.PDF'>PUC-RIO</a></p>

<hr>

Para exemplificar a eficacia e utilização do algoritmo Naive Bayes foi escolhido o problema de detecção de SPAM em e-mails. Para isto, 4601 e-mails foram previamente processados gerando uma matriz que descreve o problema. Esta matriz ttem cada linha correspondente a um e-mail e suas 56 primeiras colunas a frequências das principais palavras em cada documento. Mais detalhes sobre como este dado foi formado pode ser encontrado no <a href='https://archive.ics.uci.edu/ml/datasets/spambase'>Link</a>.

<hr>

In [3]:
require(e1071)

Leitura dos dados salvos em um arquivo CSV

In [4]:
data = read.csv('data/spambase.data')

Exibe os dados que foram lidos.<br>
Observe que a coluna 'X1' é a coluna que determina se o e-mail correspondente àquela linha é ou não spam

In [5]:
head(data)

X0,X0.64,X0.64.1,X0.1,X0.32,X0.2,X0.3,X0.4,X0.5,X0.6,⋯,X0.41,X0.42,X0.43,X0.778,X0.44,X0.45,X3.756,X61,X278,X1
0.21,0.28,0.5,0,0.14,0.28,0.21,0.07,0.0,0.94,⋯,0.0,0.132,0,0.372,0.18,0.048,5.114,101,1028,1
0.06,0.0,0.71,0,1.23,0.19,0.19,0.12,0.64,0.25,⋯,0.01,0.143,0,0.276,0.184,0.01,9.821,485,2259,1
0.0,0.0,0.0,0,0.63,0.0,0.31,0.63,0.31,0.63,⋯,0.0,0.137,0,0.137,0.0,0.0,3.537,40,191,1
0.0,0.0,0.0,0,0.63,0.0,0.31,0.63,0.31,0.63,⋯,0.0,0.135,0,0.135,0.0,0.0,3.537,40,191,1
0.0,0.0,0.0,0,1.85,0.0,0.0,1.85,0.0,0.0,⋯,0.0,0.223,0,0.0,0.0,0.0,3.0,15,54,1
0.0,0.0,0.0,0,1.92,0.0,0.0,0.0,0.0,0.64,⋯,0.0,0.054,0,0.164,0.054,0.0,1.671,4,112,1


Separa os dados em duas partes:
* spam = coluna que identifica se o email em questão é ou não SPAM
* data = tabela que contem a frequência das palavras 

In [6]:
spam = as.factor(data$X1)
data = data[,which(names(data) != 'X1')]

Como forma de avaliar o modelo do Naive Bayes, separamos os dados em duas partes: Treino e Teste. O objetivo é treinar o nosso modelo em 70% dos dados (treino) e avaliar se o nosso modelo está acertando nos demais 30% que ainda não foram observados.

Como os nossos dados já estavam anteriormente separados entre treino e teste, com esta nova separação acabamos com 4 segmentos de dados:
* train.data : Tabela de dados do treino
* train.spam : informação que identifica se os e-mail do treino são ou não SPAM
* teste.data : Tabela de dados do teste
* teste.spam : informação que identifica se os e-mail do teste são ou não SPAM

In [42]:
idx = runif(nrow(data)) > 0.7

train.data = data[idx,]
train.spam = spam[idx]

teste.data = data[!idx,]
teste.spam = spam[!idx]

O Objetivo de qualquer classificador da área de aprendizado de máquinas é inferir sua classe (em nosso contexto SPAM ou Não) por meio de suas variáveis explicativas (em nosso contexto a frequência das palavras). 

In [43]:
nb = naiveBayes(x = train.data, y = train.spam)

Dado o modelo calculado anteriormente, infere sobre ser ou não SPAM nos dados de teste

In [44]:
teste.pred = predict(nb, teste.data)

Acurácia determina qual a porcentagem de e-mails que o modelo, em nosso contexto o Naive Bayes, de fato acertou classifando como sendo ou não SPAM.

In [54]:
acc = length(which(teste.spam == teste.pred))/length(teste.spam)
cat(sprintf("Taxa de acerto na base de teste: %.2f", acc))

Taxa de acerto na base de teste: 0.69

Matriz de confusão:

In [45]:
table(teste.spam, teste.pred)

          teste.pred
teste.spam    0    1
         0  997  929
         1   69 1207

<hr>

Desenvolvido por:<br>
Felipe Duarte - <a href='mailto:felipe.duarte@itau-unibanco.com.br'>felipe.duarte@itau-unibanco.com.br</a><br>
Edilson Anselmo - <a href='mailto:edilson.anselmo-correa@itau-unibanco.com.br'>edilson.anselmo-correa@itau-unibanco.com.br</a><br>