___
# Ciência dos Dados - PROJETO 2
___


# Abel Cavalcante


# Theo Barbara

___
## Problema

O Classificador Naive-Bayes, o qual se baseia no uso do teorema de Bayes, é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser SPAM considerando as palavras em seu conteúdo e, de forma complementar, permite calcular a probabilidade de uma mensagem ser HAM dada as palavras descritas na mensagem.

Para realizar o MVP (minimum viable product) do projeto, você precisa programar uma versão do classificador que "aprende" o que é uma mensagem SPAM considerando uma base de treinamento e comparar o desempenho dos resultados com uma base de testes. 


___
## Separação da base de dados em Treinamento e Teste

A base de dados deve ser separada em duas partes, aleatoriamente, considerando: 
    
    75% dos dados para a parte Treinamento; e
    25% dos dados para a parte Teste.

In [1]:
import pandas as pd
import os
import re

In [2]:
print('Esperamos trabalhar no diretório')
print(os.getcwd())

Esperamos trabalhar no diretório
C:\Users\Lenovo\OneDrive\Desktop\Insper\3° Semestre\CData - DP\projeto_Cdata\Projeto_2


In [3]:
# Import do DataBase
data = pd.read_excel("spamham2019.xlsx")

In [4]:
data.head()

Unnamed: 0,Email,Class
0,"Go until jurong point, crazy.. Available only ...",ham
1,Ok lar... Joking wif u oni...,ham
2,Free entry in 2 a wkly comp to win FA Cup fina...,spam
3,U dun say so early hor... U c already then say...,ham
4,"Nah I don't think he goes to usf, he lives aro...",ham


In [5]:
# Separação em treinamento e teste
from sklearn.model_selection import train_test_split
seed = 54779

X_train, X_test, y_train, y_test = train_test_split(data, data.Email, random_state=seed)

print("Treinamento: {}%, Teste: {}%".format((X_train.shape[0]/data.Email.shape[0])*100, (X_test.shape[0]/data.Email.shape[0])*100))

Treinamento: 75.0%, Teste: 25.0%


___
## Filtro de dados

Após a separação, é necessário separar as informações entre spam e ham, além de eliminar os ccaracteres que não nos importam:

___
## Classificador Naive-Bayes

In [6]:
# Filtro de caracteres inúteis
def separador_palavra(frase):
    return([i for i in re.split(r"\s|,|;|\.|[|]|[*]|[!]|[..]|[...]|[!]|[?]",frase) if i != ''])

separador_palavra("You are gorgeous! keep those pix cumming :) thank you!")

['You',
 'are',
 'gorgeous',
 'keep',
 'those',
 'pix',
 'cumming',
 ':)',
 'thank',
 'you']

In [10]:
# Frequência que uma palavra aparece em spam ou em ham
listaspam = []
listaham = []
frequenciaspam = {}
frequenciaham = {}

def intermediario(listaspam, listaham, dicionariospam, dicionarioham):
    emails = list(X_train.Email)
    classe = list(X_train.Class)

    for frase in range(len(emails)):
        if classe[frase] == 'spam':
            palavra_list = separador_palavra(emails[frase])
            for palavra_sp in palavra_list:
                listaspam.append(palavra_sp)
        else:
            palavra_list = separador_palavra(emails[frase])
            for palavra_hm in palavra_list:
                listaham.append(palavra_hm)

    contador(listaspam, dicionariospam)
    contador(listaham, dicionarioham)


def contador(lista, dicionario):
    for palavra_parada in lista:
        contador = 0
        if palavra_parada in dicionario:
            pass
        else:
            for palavra_andando in lista:
                if palavra_andando == palavra_parada:
                    contador += 1
            dicionario[palavra_parada] = contador
    return(dicionario)

def frequencia_palavra(palavra, status):
    if status == 'spam':
        if palavra in frequenciaspam:
            return(frequenciaspam[palavra])
        else:
            return(0)
    else:
        if palavra in frequenciaham:
            return(frequenciaham[palavra])
        else:
            return(0)

intermediario(listaspam, listaham, frequenciaspam, frequenciaham)

In [11]:
frequencia_palavra('Your', 'spam'), frequencia_palavra('Your', 'ham')

(55, 19)

___
## Testando com o dataframe de teste

In [52]:
# Cálculo da probabilidade de ser "spam|frase" ou "ham|frase"
def total_palavras(dataframe):
    palavra_total = []
    total_palavra = 0
    
    for a in dataframe.Email:
        palavra_total.append(separador_palavra(a))
        
    for b in palavra_total:
        for c in b:
            total_palavra += 1
    return total_palavra

def classificador(dataframe, dicionariospam, dicionarioham):
    falso_positivo = 0
    falso_negativo = 0
    positivo_verdadeiro = 0
    negativo_verdadeiro = 0
    
    total_spam = dataframe[dataframe.Class == "spam"].shape[0]
    total_ham = dataframe[dataframe.Class == "ham"].shape[0]
    total = dataframe.shape[0]
    
    total_palavras_spam = total_palavras(dataframe[dataframe.Class == "spam"])
    total_palavras_ham = total_palavras(dataframe[dataframe.Class == "ham"])
    total_palavras_dataframe = total_palavras(dataframe)
    
    for frase in range(len(dataframe)):
        status = 0
        palavra = separador_palavra(dataframe.iloc[frase, 0])
        probfrase_spam = 1
        probfrase_ham = 1
        for a in palavra:
            probfrase_spam = probfrase_spam * ((frequencia_palavra(a, 'spam') + 1)/(total_palavras_spam + total_palavras_dataframe))
            probfrase_ham = probfrase_ham * ((frequencia_palavra(a, 'ham') + 1)/(total_palavras_ham + total_palavras_dataframe))
        probspam_frase = probfrase_spam * (total_spam/total)
        probham_frase = probfrase_ham * (total_ham/total)

        if probspam_frase > probham_frase:
            status = "spam"
            if status == dataframe.iloc[frase, 1]:
                positivo_verdadeiro += 1
            else:
                falso_positivo +=1
                
        
        elif probspam_frase < probham_frase:
            status = "ham"
            if status == dataframe.iloc[frase, 1]:
                negativo_verdadeiro += 1
            else:
                falso_negativo += 1
        
    return(print("Falsos Positivos: {} ou {}% \nPositivos Verdadeiros: {} ou {}% \nFalsos Negativos: {} ou {}% \nNegativos Verdadeiros: {} ou {}% ".format(falso_positivo, round(falso_positivo/total*100, 2), positivo_verdadeiro, round(positivo_verdadeiro/total*100, 2), falso_negativo, round(falso_negativo/total*100, 2), round(negativo_verdadeiro/total*100, 2), negativo_verdadeiro)))

classificador(X_train, frequenciaspam, frequenciaham)

Falsos Positivos: 0 ou 0.0% 
Positivos Verdadeiros: 495 ou 11.84% 
Falsos Negativos: 68 ou 1.63% 
Negativos Verdadeiros: 86.38 ou 3610% 


___
## 4. Qualidade do Classificador alterando a base de treinamento