___
# Ciência dos Dados - PROJETO 2

___
### **Guilherme Lotaif, Renato Tajima, Thiago Verardo**
___



## 1. Problema

O Classificador Naive-Bayes, o qual se baseia no uso do teorema de Bayes, é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser SPAM considerando as palavras em seu conteúdo e, de forma complementar, permite calcular a probabilidade de uma mensagem ser HAM dada as palavras descritas na mensagem.

Para realizar o MVP (minimum viable product) do projeto, você precisa programar uma versão do classificador que "aprende" o que é uma mensagem SPAM considerando uma base de treinamento e comparar o desempenho dos resultados com uma base de testes. 


___ 
## Importando e limpando a base de dados

Para obter uma maior performance do algoritimo de previsão temos que: remover alguns caratcteres que não vão ajudar a fazer as previsões, pelo contrário, não remove-los só prejudica a ação do classificador, e outro método de limpeza utilizado é a transformção de todas palavras para letra minúscula, assim eliminando a existência da mesma palavra de diferentes maneiras.



**Importando as bibliotecas que serão utilizadas:**

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
import os

**Vamos abrir o arquivo:**<br>
O arquivo que vamos utilizar contém emails classificados como SPAM ou HAM.

In [3]:
print('Esperamos trabalhar no diretório:')
print(os.getcwd())

Esperamos trabalhar no diretório
/Users/guilherme/Documents/Insper/2 Semestre DPA/Ciência dos Dados/Projetos/Projeto 2


In [4]:
#Abrindo o arquivo com os emails:
df = pd.read_excel('spamham2019.xlsx')

In [65]:
#Dataframe do arquivo importado:
df.sample(2)

Unnamed: 0,Email,Class
2025,"Nah man, my car is meant to be crammed full of...",ham
1701,I have lost 10 kilos as of today!,ham


In [6]:
#Formato do dataframe:
df.shape

(5572, 2)

...

Vamos criar uma função para limpar o dataframe:

In [7]:
#Criando a função para remover os caracteres que atrapalham o classificador:
def Replacer (emails):
    #vamos subtituir cada caractere indesejado por um espaço:
    emails = emails.replace("*","")
    emails = emails.replace("!","")
    emails = emails.replace("@","")
    emails = emails.replace("#","")
    emails = emails.replace("$","")
    emails = emails.replace("%","")
    emails = emails.replace("&","")
    emails = emails.replace("-","")
    emails = emails.replace("_","")
    emails = emails.replace("+","")
    emails = emails.replace("=","")
    emails = emails.replace("'","")
    emails = emails.replace("?","")
    emails = emails.replace(";","")
    emails = emails.replace(",","")
    emails = emails.replace(".","")
    emails = emails.replace(":","")
    emails = emails.replace(")","")
    emails = emails.replace("(","")
    emails = emails.replace("/","")
    emails = emails.replace('"',"")
    #Vamos deixar todas as caracteres em letra minúscula:
    emails = emails.lower()
    #Vamos separar as palavras de cada email:
    emails = emails.split()

    return emails

___
## 2. Separação da base de dados em Treinamento e Teste

A base de dados deve ser separada em duas partes, aleatoriamente, considerando: 
    
   - 75% dos dados para a parte Treinamento;
   - 25% dos dados para a parte Teste.

Será que existem valores nulos no dataframe:

In [None]:
#Checando por valores nulos na coluna Class:
print('Valores nulos no dataset:', df.Class.isnull().any());

...

**Dividindo os dados em treino e teste:**

In [8]:
#Particionando o dataframe, com 25% do total para testes:
treinamento, teste = train_test_split(df, test_size=0.25) 

In [12]:
#Analisando quantos emails ham e spam existem no dataframe de treinamento:
ham, spam = (treinamento["Class"]).value_counts()
total_treino = treinamento["Class"].value_counts().sum()
print("O dataframe de treinamento possui:\n",ham,"emails HAM, que corresponde a {:.2f}%\n".format(ham/total_treino*100),
                                             spam,"emails SPAM, que corresponde a {:.2f}%\n".format(spam/total_treino*100))

O dataframe de treinamento possui:
 3599 emails HAM, que corresponde a 86.12%
 580 emails SPAM, que corresponde a 13.88%



...

**Separando emails SPAM e HAM:**

- Primeiramente vamos separar os emails SPAM.

In [27]:
#Criando uma lista para as palavras dos emails SPAM:
dic_SPAM = {}
#Criando a variável contador para o total de palavras SPAM:
contador_SPAM = 0

#Criando um loop para atribuir os emails SPAM a uma variável:
for email in treinamento.Email[treinamento.Class == "spam"]:
    lista_SPAM = Replacer(email)
    #Criando um loop para alocar as palavras de SPAM no dicionário:
    for palavra in lista_SPAM:
        if palavra not in dic_SPAM:
            dic_SPAM[palavra] =1
            contador_SPAM +=1
        else:
            dic_SPAM[palavra] +=1
            contador_SPAM +=1

In [28]:
print("Quantidade de palavras sem repetição: {0}".format(len(dic_SPAM)),
      "\nQuantidade total de palavras: {0}".format(contador_SPAM))

Quantidade de palavras sem repetição: 2649 
Quantidade total de palavras: 13652


- Agora vamos separar os emails HAM.

In [29]:
#Criando uma lista para as palavras dos emails HAM:
dic_HAM = {}
#Criando a variável contador para o total de palavras HAM:
contador_HAM = 0

#Criando um loop para atribuir os emails HAM a uma variável:
for email in treinamento.Email[treinamento.Class == "ham"]:
    lista_HAM = Replacer(email)
    #Criando um loop para alocar as palavras de HAM no dicionário:
    for palavra in lista_HAM:
        if palavra not in dic_HAM:
            dic_HAM[palavra] =1
            contador_HAM +=1
        else:
            dic_HAM[palavra] +=1
            contador_HAM +=1

In [30]:
print("Quantidade de palavras sem repetição: {0}".format(len(dic_HAM)),
      "\nQuantidade total de palavras: {0}".format(contador_HAM))

Quantidade de palavras sem repetição: 6584 
Quantidade total de palavras: 50774


É possivel perceber que por ter uma quantidade muito superior de emails HAM, o seu número de palavras é bem maior, e repetição também é superior do que a dos emails SPAM.

...

**Vamos ver a quantidade total de palavras**

In [40]:
#Vamos contar a quantidade total de palavras:
Total_palavras = contador_SPAM + contador_HAM
print("Total: {0} Palavras".format(Total_palavras))

Total: 64426 Palavras


___
## 3. Classificador Naive-Bayes

O algoritmo Naive-Bayes é um classificador probabilístico baseado no "Teorema de Bayes". Ele usa os dados fornecidos para criar uma partição de treinamento e uma de teste, a partir da partição de treinamento o algoritmo analisa os dados , que por sua vez é feita de maneira independente, ou seja, para o algoritmo não existe uma relação de dependecia dos fatores, por exemplo: se for analisado um tenis, que seja vermelho, de tamanho 43 e novo, esses dados serão analisados separadamente.

...

**Antes de usar o classificador, vamos descobrir algumas probabilidades:**

- A probabilidade de uma mensagem ser SPAM, ou seja:<br>

    $P(SPAM)$

In [58]:
#Descobrindo a probabilidade a partir do total de emails SPAM, e do total geral:
Pspam = spam/len(treinamento.Email)
print("{:.2f}".format(Pspam))

0.14


- A probabilidade de uma mensagem ser HAM, ou seja:

    $P(HAM)$

In [57]:
#Descobrindo a probabilidade a partir do total de emails HAM, e do total geral:
Pham = ham/len(treinamento.Email)
print("{:.2f}".format(Pham))

0.86


- A probabilidade de uma palavra acontecer se a mensagem na base treinamento é considerada SPAM:

    $P(Palavra|SPAM)$

In [61]:
#Criando a função para descobrir a probabilidade da palavra acontecer dado que a memsagem é SPAM:
def P_palavra_spam(palavra):
    probabilidade = dic_SPAM[palavra]/contador_SPAM
    return probabilidade

- A probabilidade de uma palavra acontecer se a mensagem na base treinamento é considerada HAM:

    $P(Palavra|HAM)$

In [64]:
#Criando a função para descobrir a probabilidade da palavra acontecer dado que a memsagem é HAM:
def P_palavra_ham(palavra):
    probabilidade = dic_HAM[palavra]/contador_HAM
    return probabilidade

...

**Agora vamos implementar o classificador:** 

Quando estudamos o que o modelo usa para fazer sua previsão, vemos que ele parte das informações recebidas apriori e da possibilidade, que ele descobre atraves da analise dos dados de treinamento e com isso ele faz sua previsão.<br>
Por exemplo:

$$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$

Portanto, podemos dizer que:

$$P(SPAM|mensagem)=\frac{P(mensagem|SPAM)\cdot P(SPAM)}{P(mensagem)}$$

___
## 4. Qualidade do Classificador alterando a base de treinamento