# Detector de Spam
Nesse exercício, faremos um detector de spam usando o classificador Naive Bayes

Para isso, usaremos o dataset ["SMS Spam Collection"](https://archive.ics.uci.edu/ml/datasets/sms+spam+collection), que já está salvo no arquivo 'spam.csv'

Primeiramente, execute a célula seguinte para ler o dataset e ver as suas primeiras linhas:

In [36]:
import pandas as pd
import numpy as np

def preprocess(string):
    string = string.lower()
    for c in ['.', ',', '!', '?', '<', '>', '^', '~', ';', ':', '"', '[', ']', '(', ')', '{', '}', '´', '`', '/', '\\', '|']:
        string = string.replace(c, ' ')
    return string

df = pd.read_csv('spam.csv', encoding = 'latin-1')[['v1', 'v2']]
df = df.rename(columns = {'v1':'class', 'v2' : 'contents'})
df['contents'] = df['contents'].map(preprocess)

df.head()

Unnamed: 0,class,contents
0,ham,go until jurong point crazy available only ...
1,ham,ok lar joking wif u oni
2,spam,free entry in 2 a wkly comp to win fa cup fina...
3,ham,u dun say so early hor u c already then say
4,ham,nah i don't think he goes to usf he lives aro...


Assim, vemos que a tabela possui duas colunas: _class_ e _contents_
 - A coluna _class_ indica se aquela mensagem foi marcada como spam (mensagens legítimas estão marcadas como "ham")
 - A coluna _contents_ possui o conteúdo da mensagem

## Contagem de Palavras
Para o classificador Naive Bayes, nós precisaremos estimar algumas probabilidades contando quantas vezes cada palavra aparece no dataset.

Para isso, primeiramente precisamos saber quais são as palavras únicas e armazená-las em uma lista.

In [37]:
unique_words = []

# Itera por cada mensagem do dataframe
for message in df['contents']:
    
    
    # Itera por cada palavra na mensagem atual
    for word in message.split():
        if word not in unique_words:
            unique_words.append(word)

Agora, usaremos um dicionário (_dict_) para contarmos quantas vezes cada palavra ocorre no dataset:

In [95]:
# Inicializa o dicionário com 0 ocorrências para cada palavra
word_counts = {word: 0 for word in unique_words}

# Inicializa a contagem total de palavras
total_words = 0



# Itera por cada mensagem do dataframe
for message in df['contents']:
    
    # Itera por cada palavra na mensagem atual
    for word in message.split():        
        total_words+=1
        word_counts[word]+=1
        


8

Também precisaremos de contar quantas vezes cada palavra ocorre **em cada classe**:

In [99]:
# Inicializa o dicionário e a contagem total de palavras entre as mensagens spam
spam_word_counts = {word: 0 for word in unique_words}
spam_total_words = 0

# Inicializa o dicionário e a contagem total de palavras entre as mensagens ham
ham_word_counts = {word: 0 for word in unique_words}
ham_total_words = 0

# Itera por cada mensagem do dataframe
for i in range(len(df)):
    
    # Itera por cada palavra na mensagem atual
    for word in df['contents'][i].split():

        if df['class'][i] == 'spam':
            spam_word_counts[word]+=1
            spam_total_words+=1
        else:
            ham_word_counts[word]+=1
            ham_total_words+=1

## Classificador de uma palavra

Com essas contagens, já podemos criar um classificador de spam de uma única palavra, usando o Teorema de Bayes:

$$P(\text{spam} | \text{palavra}) = \frac{P(\text{palavra} | \text{spam}) P(\text{spam})}{P(\text{palavra})}$$

Vamos estimar cada termo no lado direito da equação:

### 1. Prior $P(\text{spam})$

Essa é a probabilidade de uma mensagem ser spam independente do conteúdo, o que corresponde à porcentagem de mensagens total que é spam:

In [40]:
P_spam = 0
P_ham = 0

P_spam = spam_total_words/total_words
P_ham = ham_total_words/total_words


### 2. Verossimilhança ou _Likelihood_  $P(\text{palavra} | \text{spam})$

Essa é a probabilidade de uma palavra ocorrer **sabendo** a classificação dela. Pra isso, vamos usar as contagens de palavras pra cada classe:

In [102]:
# Função para encontrar P(word | label)
# Argumentos:
# - word: string, uma única palavra do dataset
# - label: string, "spam" ou "ham"

def Word_Likelihood(word, label):
    
    if label == 'spam':
        return spam_word_counts[word]/spam_total_words  
    else:
        return ham_word_counts[word]/ham_total_words

    
round(Word_Likelihood('free', 'spam')*100,1)

1.2

### 3. Marginal $P(\text{palavra})$

Essa é a probabilidade de uma palavra aparecer independente da classificação, o que podemos encontrar usando a ocorrência das palavras:

In [42]:
# Função para encontrar P(word)
# Argumentos:
# - word: string, uma única palavra do dataset

def Word_Marginal(word):
    
    return word_counts[word]/total_words


### Classificando
Agora, podemos usar os três valores calculados para encontrar a probabilidade de uma palavra ser spam:

In [109]:
# Função para encontrar P(spam | word), retorna a probabilidade de uma palavra ser spam
# Argumentos:
# - word: string, uma única palavra do dataset

def word_is_spam(word):
    
    return P_spam*Word_Likelihood(word, 'spam')/Word_Marginal(word)

word_is_spam('open')

0.058823529411764705

Podemos agora ver a probabilidade de cada palavra ser de uma mensagem spam:

In [44]:
word_is_spam('free')

0.7870036101083033

In [45]:
word_is_spam('friend')

0.23404255319148937

# Classificador Naive Bayes para textos inteiros
Se quisermos classificar textos inteiros em vez de apenas palavras únicas, podemos usar a suposição de independência condicional:

$$P(\text{texto} | \text{spam}) = P(\text{palavra 1} | \text{spam}) \cdot P(\text{palavra 2} | \text{spam}) \ldots $$

Para isso, nós iremos usar a biblioteca Scikit-Learn, que já tem o classificador Naive Bayes implementado.

Primeiramente, precisamos passar os dados de entrada para o formato esperado pela biblioteca. No caso do Naive Bayes, é necessário usar um formato de onde cada coluna representa o número de ocorrências de uma palavra em cada mensagem. Para esse passo de preprocessamento, podemos usar o CountVectorizer, já implementado na biblioteca (se precisar de ajuda, use o [guia do usuário](https://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction) ou a [documentação](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html?highlight=countvectorizer#sklearn.feature_extraction.text.CountVectorizer).

In [67]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X = None

X = vectorizer.fit_transform(df['contents'])

Também é necessário transformar a coluna de classes em valores numéricos (1 representando spam e 0 representando não spam). Para isso, podemos usar o LabelEncoder, também da Scikit Learn ([documentação](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html) e [guia do usuário](https://scikit-learn.org/stable/modules/preprocessing_targets.html#preprocessing-targets))

In [68]:
from sklearn.preprocessing import LabelEncoder
y = None
le = LabelEncoder()

le.fit(df['class'])
y = le.transform(df['class'])


Além disso, é muito importante separarmos um conjunto de teste para poder avaliarmos nosso modelo depois. No nosso caso, criaremos uma divisão com 20% dos dados para teste usando a função train_test_split ([documentação](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)):

In [111]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = None, None, None, None

######################################################################################
# 10. Separe as variáveis X e y em dados de treino e teste, armazenando os resultados nas variáveis acima
# 
# Para isso, aplique a função train_test_split nas variáveis X e y
# Além disso, use o random_state = 42 para permitir a reprodutibilidade
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)
######################################################################################


assert X.shape[1] == X_train.shape[1] == X_test.shape[1], 'Erro na separação dos conjuntos'
assert X.shape[0] == X_train.shape[0] + X_test.shape[0], 'Erro na separação dos conjuntos'
assert y.shape[0] == y_train.shape[0] + y_test.shape[0], 'Erro na separação dos conjuntos'
assert y_train.shape[0] == X_train.shape[0] == 4457, 'Erro na proporção de separação: apenas 20% dos dados devem ser de teste'

Agora, usaremos a função MultinomialNB ([documentação](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html)) para treinar um modelo Naive Bayes no conjunto de teste:

In [112]:
from sklearn.naive_bayes import MultinomialNB
model = MultinomialNB()

######################################################################################
# 11. Treine um modelo Naive Bayes nos dados de teste
# IMPORTANTE: não use os dados de teste nessa célula, apenas os de treino

model.fit(X_train, y_train)

######################################################################################

MultinomialNB()

Por fim, podemos calcular a acurácia do modelo nos dados de teste (se tudo ocorreu bem, o valor deve estar acima de 97%):

In [113]:
from sklearn.metrics import accuracy_score
print('Acurácia: %.2lf%%' % (accuracy_score(y_test, model.predict(X_test))*100))

Acurácia: 97.85%


Para testar o modelo em textos, basta usar o mesmo vetorizador na entrada que usamos no preprocessamento, como na função abaixo:

In [114]:
def pred(message):
    message = preprocess(message)
    inputs = vectorizer.transform([message])
    prob = model.predict_proba(inputs)
    print('spam probability: %.2f %%' % (100*prob[0][1],))

In [115]:
message = 'is this message spam?'
pred(message)

spam probability: 36.17 %


In [116]:
message = 'get an iphone for free now'
pred(message)

spam probability: 77.79 %


In [117]:
message = 'I need to have a meeting with you tomorrow'
pred(message)

spam probability: 0.02 %
