<img src="./img/logo.png" alt="Drawing" style="width: 700px;"/>
<br>
<h1 style='text-align: center;'> Construção de um classificador para deteção de SPAm em e-mails</h1>
<br>
<p style='text-align: center;'>Aula ministrada na semana da Matemática - UFPR (04/04/2018)</p>

<hr>

Carregando bibliotecas necessárias

In [1]:
library(tm) # Biblioteca de Mineracao de texto (Text Mining)
library(SnowballC) # Snowball stemmers baseado na biblioteca C libstemmer UTF-8
library(parallel) # Biblioteca utilizada para computação paralela
library(mlr) # Biblioteca de Machine Learning
library(tictoc) # Bibliotea para calculo do tempo de execução

Loading required package: NLP
Loading required package: ParamHelpers


Definição de variáveis de configuração

In [2]:
data.folder   = "./data"
target.file   = "./SPAMTrain.label"
classificador = "classif.naiveBayes"

<h1>1. Text Mining</h1><br>

Carrega para a memória do computador todos os e-mails presentes na pasta configurada acima (data.folder) criando assim um corpus (coleção de documentos).

In [3]:
tic('carregando corpus')
corpus = tm::SimpleCorpus(DirSource(data.folder))
toc()

carregando corpus: 4.645 sec elapsed


Este corpus por sua vez precisa ser pré-processado com o intuito de tirar algumas irregularidades nos e-mails e facilitar o processo de aprendizagem de máquina. Fizemos os seguintes pré-processamentos:
* Remoção de todos os espaços em branco desnecessários, ou seja, deixa apenas um espaço separando as palavras do email.
* Remove todas as pontuações do documento como.
* Substitui todas as letras maiusculas por minusculas.
* Remove artigos, preposições e palavras que não agregam ao contexto do problema (Stopwords)
* Reduz todos os verbos para seu radical, por exemplo, "comprei, comprando e comprarei" seriam todos substituidos por comprar

Um exemplo de como todo este processamento funciona pode ser visto na tabela abaixo:

<img src="./img/img_001.png" alt="Drawing" style="width: 700px;"/>

In [4]:
tic('pre-processamento')
corpus = tm::tm_map(corpus, tm::content_transformer(tolower))
corpus = tm::tm_map(corpus, tm::removePunctuation)
corpus = tm::tm_map(corpus, tm::removeNumbers)
corpus = tm::tm_map(corpus, tm::stripWhitespace)
corpus = tm::tm_map(corpus, tm::removeWords, c("the", "and", tm::stopwords("english")))
corpus = tm::tm_map(corpus, tm::stemDocument)
toc()

pre-processamento: 9.171 sec elapsed


No modelo vetorial (Salton et al., 1975), também chamado representação bag-of-words, cada documento é descrito como um vetor de frequências dos termos que nele ocorrem, desconsiderando a gramática e a ordem entre os termos. Para um conjunto de $N$ documentos $D = \{d_1, d_2, \ldots , d_N\}$ que inclui $M$ termos $T = \{t_1, t_2, \ldots , t_M\}$. Cada documento $d_i$ é um vetor $\vec{v}(d_i) = \{freq_{i1}, freq_{i2}, \ldots , freq_{iM}\}$, no qual o valor $freq_{ij}$ é alguma medida que determina a influência do termo $t_j$ no documento $d_i$.

O valor $freq_{ij}$ pode ser calculado de várias maneiras. A seguir encontram-se algumas das mais utilizadas:

* <b>boolean:</b> A medida booleana indica que o termo $t_i$ ocorre no documento $d_j$ quando o valor de $freq_{ij} = 1$, caso contrário $freq_{ij} = 0$.
* <b>terms frequency (tf):</b> A medida terms frequency (tf) conta o número de ocorrências do termo $t_j$ no documento $d_i$:
\begin{align}
freq_{ij} = tf(t_j, d_i) = freq(t_j, d_i)
\end{align}
* <b>terms frequency inverse document frequency(tf-idf):</b> Um termo muito frequente na coleção pode ocorrer em muitos documentos, oferecendo pouco poder de discriminação entre os documentos da coleção. Assim, um fator de ponderação chamado inverse document frequency (idf), definido pela Equação abaixo, pode ser utilizado para, ao estimar a frequência, favorecer termos que aparecem em poucos documentos:
\begin{align}
idf(t_i) = \log \frac{N}{d(t_j)}
\end{align}
onde $N$ é o número de documentos da coleção e $d(t_j)$ é o número de documentos na coleção nos quais o termo $t_j$ ocorre. O valor do fator $idf$ de um termo raro, que oferece maior poder de discriminação, é alto, enquanto para um termo frequente o fator $idf$ tende a ser um valor baixo. Assim, o fator de ponderação $idf$ pode ser combinado com a medida $tf$ em uma nova medida chamada term frequency inverse document frequency (tf-idf), calculada pela Equação:
\begin{align}
tf-idf(t_j,d_i) = tf(t_j,d_i)\times idf(t_j) = freq(t_j, d_i)\times\log\frac{N}{d(t_j}
\end{align}

In [5]:
tic('criacao TF-IDF')
tfidf = DocumentTermMatrix(corpus, control = list(weighting = weightTfIdf))
toc()

criacao TF-IDF: 0.938 sec elapsed


A matriz da representação vetorial pode apresentar uma alta dimensionalidade para coleções de documentos maiores, pois o vetor que representa cada documento contém, a princípio, todos os termos utilizados em toda a coleção. Matrizes com alta-dimensionalidade também tendem a ser mais esparsas, pois a frequência de muitos termos será possivelmente nula. Além disso, a alta dimensionalidade aumenta o custo do processamento. Dessa forma, é necessário que técnicas de pré-processamento (como as apresentadas anteriormente) sejam utilizadas previamente a geração do modelo vetorial bem como remoção e termos com grande esparsidade, pois assim somente os termos mais informativos do vocabulário serão retidos. Essa prática melhora a qualidade da representação vetorial e também reduz sua dimensionalidade.

In [6]:
tic('Removendo alta esparsidade')
tfidf = removeSparseTerms(tfidf, 0.99)
head(as.matrix(tfidf))
toc()

Unnamed: 0,abl,absolut,action,ago,alon,also,anyth,assist,back,battl,⋯,rank,shall,woman,tom,somebodi,declar,jim,spammer,ground,qualifi
1,0.02360003,0.01575454,0.01502203,0.01351869,0.01780602,0.006628367,0.01183063,0.01579271,0.009272161,0.01959328,⋯,0,0,0,0,0,0,0,0,0,0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,⋯,0,0,0,0,0,0,0,0,0,0
3,0.0,0.0,0.0,0.0,0.0,0.01126146,0.0,0.0,0.0,0.0,⋯,0,0,0,0,0,0,0,0,0,0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,⋯,0,0,0,0,0,0,0,0,0,0
5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,⋯,0,0,0,0,0,0,0,0,0,0
6,0.0,0.0,0.0,0.0,0.0,0.028298028,0.0,0.0,0.0,0.0,⋯,0,0,0,0,0,0,0,0,0,0


Removendo alta esparsidade: 0.85 sec elapsed


<h1>2. Classificação: Naive Bayes</h1>

<h2>2.1. Dataprep</h2>

Em todo processo de aprendizado de máquinas, há a necessidade de preparação dos dados para se adequar a alguma estrutura de dados exigida pela linguagem utilizada (em nosso caso o R), para se adequar a alguma particularidade da técnica e/ou para remover e corrigir alguma inconsistência ou defeito nos dados.  


In [7]:
data = as.data.frame(as.matrix(tfidf), optional = T)
colnames(data) = unlist(lapply(1:ncol(data), function(i){paste('X',i,sep='')}))
head(data)

X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,⋯,X1885,X1886,X1887,X1888,X1889,X1890,X1891,X1892,X1893,X1894
0.02360003,0.01575454,0.01502203,0.01351869,0.01780602,0.006628367,0.01183063,0.01579271,0.009272161,0.01959328,⋯,0,0,0,0,0,0,0,0,0,0
0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,⋯,0,0,0,0,0,0,0,0,0,0
0.0,0.0,0.0,0.0,0.0,0.01126146,0.0,0.0,0.0,0.0,⋯,0,0,0,0,0,0,0,0,0,0
0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,⋯,0,0,0,0,0,0,0,0,0,0
0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,⋯,0,0,0,0,0,0,0,0,0,0
0.0,0.0,0.0,0.0,0.0,0.028298028,0.0,0.0,0.0,0.0,⋯,0,0,0,0,0,0,0,0,0,0


Leitura do arquivo que indica para cada e-mail se:
* <b>0:</b> SPAM
* <b>1:</b> Não SPAM

In [8]:
tar.f  = read.table(target.file, header = F, stringsAsFactors = FALSE)
head(tar.f)

V1,V2
0,TRAIN_00000.eml
0,TRAIN_00001.eml
1,TRAIN_00002.eml
0,TRAIN_00003.eml
0,TRAIN_00004.eml
1,TRAIN_00005.eml


<p style='color: red'> ATENÇÃO: </p>Especificamente no R, nos problemas de classificação, a target deve ser armazenada como "Factor".

In [9]:
target = as.factor(unlist(tar.f[1]))

<h2>2.2. Configuração do processo de modelagem</h2>

Para o correto funcionamento do pacote MLR 4 conjuntos de configurações precisam ser criados, são eles:

* <b>learner:</b> Define o tipo de problema a ser abordado (classificação, regressão, agrupamento, ...) e suas caracteristicas
* <b>task:</b> Define a caracteristicas dos dados e da tarefa que será executada.
* <b>resample:</b> Define qual metodologia de valiadação deve ser utilizada bem como suas caracteristicas (em nossa caso utilizaremos a validação cruzada K-Fold com 5 pastas)
* <b>measures:</b> Define as métricas de avaliação que no processo de validação cruzada


Function
```R
makeLearner(cl, id = cl, predict.type = "response", predict.threshold = NULL, 
            fix.factors.prediction = FALSE, ..., par.vals = list(), config = list())
```
Param.:

* cl: [character(1)] Class of learner. By convention, all classification learners start with “classif.”. A list of all integrated learners is available on the learners help page < https://mlr-org.github.io/mlr-tutorial/release/html/integrated_learners/ >.
* predict: [character(1)] “response” (= labels) or “prob” (= probabilities and labels by selecting the ones with maximal probability). Default is “response”.
* par.vals: [list] Optional list of named (hyper)parameters. The arguments in ... take precedence over values in this list. We strongly encourage you to use one or the other to pass (hyper)parameters to the learner but not both.

Doc.: https://www.rdocumentation.org/packages/mlr/versions/2.10/topics/makeLearner

In [10]:
learner = makeLearner(cl = classificador
                      , predict.type = "prob"
                      , par.vals = list()
)

Function
```R
makeClassifTask(id = deparse(substitute(data)), data, target, weights = NULL, blocking = NULL, 
                positive = NA_character_, fixup.data = "warn", check.data = TRUE)
```
Param.:

* data: [data.frame] A data frame containing the features and target variable(s).
* target: [character(1)] Name of the target variable.
* positive: [character(1)] Positive class for binary classification (otherwise ignored and set to NA). Default is the first factor level of the target attribute.
* fixup.data: [character(1)] Should some basic cleaning up of data be performed? Currently this means removing empty factor levels for the columns. Possible coices are: “no” = Don't do it. “warn” = Do it but warn about it. “quiet” = Do it but keep silent. Default is “warn”.

Doc.: https://www.rdocumentation.org/packages/mlr/versions/2.10/topics/makeLearner

In [11]:
task = makeClassifTask( data = cbind(data, target)
                        , target = 'target'
                        , positive = '0'
                        , fixup.data = 'no'
)

Function:
```R
makeResampleDesc(method, predict = "test", ..., stratify = FALSE, stratify.cols = NULL)
```
Param.:

* method: [character(1)] “CV” for cross-validation, “LOO” for leave-one-out, “RepCV” for repeated cross-validation, “Bootstrap” for out-of-bag bootstrap, “Subsample” for subsampling, “Holdout” for holdout.
* predict: What to predict during resampling: “train”, “test” or “both” sets. Default is “test”.
* ... : [any] Further parameters for strategies.
    * iters [integer(1)] Number of iterations, for “CV”, “Subsample” and “Boostrap”.
    * split [numeric(1)] Proportion of training cases for “Holdout” and “Subsample” between 0 and 1. Default is 2/3.
    * reps [integer(1)] Repeats for “RepCV”. Here iters = folds * reps. Default is 10.
    * folds [integer(1)] Folds in the repeated CV for RepCV. Here iters = folds * reps. Default is 10.

Doc.: https://www.rdocumentation.org/packages/mlr/versions/2.10/topics/makeResampleDesc

In [12]:
resample = makeResampleDesc( method = "CV"
                            , iters = 5
                            , predict = 'both'
                            , stratify = FALSE
)

List of performance measures:

Doc.: http://mlr-org.github.io/mlr-tutorial/release/html/measures/

In [13]:
measures = list(acc  #acuracia
               ,f1   #f1
               ,ppv  #precision
               ,tpr  #recall
               ,auc  #AUC
               )

<h2>2.3. Execução do pipeline de modelagem</h2>

Todo o pipeline de modelagem sobre os dados de e-mail pode demorar um pouco devido a grande quantidade de documentos bem como a alta dimensionalidade dos dados. Por este motivo, para tornar todo processo mais rápido utilizamos todos os núcleos de processamento da máquina. A este tipo de processamento da-se o nome de "computação paralela"


In [14]:
cpus = detectCores(all.tests = FALSE, logical = TRUE) # detecta o número de CPU`s disponíveis para processamento
parallelMap::parallelStartMulticore(cpus, show.info=FALSE) # inicia o pool de CPU`s

Function:
```R
resample(learner, task, resampling, measures, weights = NULL, models = FALSE, extract, 
         keep.pred = TRUE, ..., show.info = getMlrOption("show.info"))
```
Param.:

* learner: [Learner] The learner.
* task: [Task] The task.
* resampling: [ResampleInstance] Resampling strategy.
* measures: [Measure | list of Measure] Performance measure(s) to evaluate. Default is mean misclassification error (mmce)
* weights: [numeric] Optional, non-negative case weight vector to be used during fitting. If given, must be of same length as observations in task and in corresponding order. Overwrites weights specified in the task. By default NULL which means no weights are used unless specified in the task.
* models: [logical(1)] Should all fitted models be returned? Default is FALSE.
* keep.pred: [logical(1)] Keep the prediction data in the pred slot of the result object. If you do many experiments (on larger data sets) these objects might unnecessarily increase object size / mem usage, if you do not really need them. In this case you can set this argument to FALSE. Default is TRUE.
* show.info: [logical(1)] Print verbose output on console? Default is set via configureMlr.

Doc.: https://www.rdocumentation.org/packages/mlr/versions/2.10/topics/resample

In [15]:
tic('Validacao Cruzada (5-folds) Naive Bayes')
r = resample(learner = learner
             ,task = task
             ,resampling = resample
             ,measures = measures
             #---------------------#
             ,models = TRUE
             ,keep.pred = FALSE
             ,show.info = FALSE)
toc()

Validacao Cruzada (5-folds) Naive Bayes: 387.829 sec elapsed


In [16]:
parallelMap::parallelStop() # desliga o pool de CPU`s

<h2>2.3. Result Analysis</h2>

Após execução do processo de validação cruzada, é necessário saber a estimativa de acerto do modelo nas bases de treinamento e teste. Esta etapa é importante para garantir que seu modelo não está super-ajustado aos dados e tem um bom poder de generalização.

Medidas de treinamento nas 5 pastas do K-Fold

In [17]:
r$measures.train

iter,acc,f1,ppv,tpr,auc
1,0.8414211,0.7932203,0.6793548,0.9529412,0.8862858
2,0.8387749,0.7903832,0.6769627,0.9494585,0.8846466
3,0.8538417,0.8078967,0.7041694,0.9474622,0.8926285
4,0.8414211,0.7889273,0.6736704,0.9517625,0.8851667
5,0.8390639,0.7886148,0.6759922,0.9462659,0.8845934


Média de cada medida no processo de treino da validação cruzada

In [18]:
apply(r$measures.train,2,mean)[2:6]

Medidas de teste nas 5 pastas do K-Fold

In [19]:
r$measures.test

iter,acc,f1,ppv,tpr,auc
1,0.8265896,0.7685185,0.664,0.9120879,0.8716649
2,0.8556582,0.8012719,0.7019499,0.9333333,0.8937919
3,0.8219653,0.7524116,0.6376022,0.9176471,0.8709515
4,0.8589595,0.8242075,0.7258883,0.9533333,0.891531
5,0.8221709,0.7735294,0.6575,0.9392857,0.8679608


Média de cada medida no processo de teste da validação cruzada

In [20]:
apply(r$measures.test,2,mean)[2:6]

<h1>3. Novos Emails</h1>

Agora que temos o modelo treinado, uma grande dúvida que surge é: Como detectar SPAM em novos emails que estão chegando?

Para isso é necessário percorrer todo o pipeline feito até aqui, ou seja:
<ol>
  <li><b>Text Mining:</b> Os novos e-mail devem passar por toda etapa de pré-processamento dos texto, remoção de stopwords, números etc. Ainda, é necessário garantir que esta nova matriz com o corpus tenhas as mesmas colunas da matriz utilizada no processo de treinamento do modelo</li>
  <li><b>Escoragem com o modelo:</b> Após a execução do processo de validação cruzada K-Fold com 5 pastas chegamos com 5 modelos (um para cada iteração), qual modelo adotar? Algumas abordagens refazem o treinamento com todos os dados disponíveis e outras utilizam o modelo que maximiza alguma das métricas utilizadas na avaliação.</li>
</ol>

Vamos utilizar a segunda abordagem e buscar pelo modelo que trouxe melhor acurácia, i.e., melhor taxa de acerto.

In [21]:
best.model = r$models[[which.max(r$measures.test$acc)]]
best.model

Model for learner.id=classif.naiveBayes; learner.class=classif.naiveBayes
Trained on: task.id = cbind(data, target); obs = 3462; features = 1894
Hyperparameters: 

Apenas para facilitar e evitar todo o reprocessamento, iremos utilizar o mesmo corpus anterior como se fossem e-mails novos. Cabe ressaltar que em aplicações reais este corpus seria diferente e todo reprocessamento seria necessário

In [22]:
novos.emails.corpus = corpus
novos.emails.tfidf  = DocumentTermMatrix(novos.emails.corpus, control = list(weighting = weightTfIdf))
novos.emails.tfidf  = removeSparseTerms(novos.emails.tfidf, 0.99)
novos.emails.data   = as.data.frame(as.matrix(novos.emails.tfidf), optional = T)
colnames(novos.emails.data) = unlist(lapply(1:ncol(novos.emails.data), function(i){paste('X',i,sep='')}))

Com os novos e-mails já processados e dispostos na matriz tf-idf, e com o modelo selecionado, é necessário aplicar somente a predição para os novos dados. Para isso o utiliza-se a função predict que recebe o modelo e o novos dados retornan o valor predito.

In [23]:
tic('predicao de 4327 novos emails')
pred = predict(best.model, newdata = novos.emails.data)
toc()

predicao de 4327 novos emails: 120.256 sec elapsed


<b>Resultado da predição</b>

Cada linha representa um e-mail e cada coluna representa:

* <b>prob.0:</b> Probabiliade do email ser SPAM
* <b>prob.1:</b> Probabilidade do email nao ser SPAM
* <b>response:</b> Resposta levando em consideração um corte em 50%; Observe que neste ponto ainda há espaço para estudos. Podemos, por exemplo, chegar a conclusão que somente é SPAM se a probabilidade prob.0 for maior que 60%.

In [24]:
pred

Prediction: 4327 observations
predict.type: prob
threshold: 0=0.50,1=0.50
time: 120.17
  prob.0        prob.1 response
1      1  6.968584e-42        0
2      1 4.608600e-244        0
3      0  1.000000e+00        1
4      1  0.000000e+00        0
5      1  0.000000e+00        0
6      0  1.000000e+00        1
... (#rows: 4327, #cols: 3)