# Classificador de SPAM utilizando Machine Learning

### 1) Definição do problema

&emsp;&emsp;Desde que se tem registro, crimes de fraudes sempre estiveram presentes na história da humanidade. Com o avanço e democratização da internet, seria inevitável que criminosos começassem a surgir no meio virtual, os chamados cibercriminosos.<br/>
Segundo o site phishing.org, fraudes na internet sempre existiram, porém o termo phishing começou a se popularizar devido a crackers que, em 1995, utilizavam de técnicas para roubar senhas de usuários do principal provedor de internet dos estados unidos na época AOL, para, em seguida, utilizar algoritmos para criar números de cartões aleatórios.<br/>
Embora os ataques de cartões de créditos falsos tenham acabado, os Phishers continuaram suas práticas se passando por funcionários da AOL, para enviar mensagens instantâneas e e-mails para usuários do sistema com o intuito de obter informações do faturamento dos usuários, logo, muitas pessoas caiam pois não existia nada parecido com esse golpe anteriormente.
<br/><br/>
**O que é phishing?**<br/>
&emsp;&emsp;Segundo o Site oficial do Avast3, Phishing pode ser definido como "uma maneira desonesta que cibercriminosos usam para enganar você a revelar informações pessoais como senhas ou cartão de crédito, CPF e número de contas bancárias.". Ou seja, phishing é um tipo de ataque realizado por cibercriminosos com o intuito não de atacar sistemas da computação, e sim, as pessoas que estão utilizando esses sistemas, utilizando táticas de engenharia social.
<br/><br/>
**Envio de emails maliciosos**<br/>
&emsp;&emsp;Um dos tipos mais comuns de phishing são o envio de emails falsos que tentam enganar e persuadir o usuário a colocar suas informações pessoais nos formulários e dessa forma roubar os dados do mesmo. Os criminosos fazem esses emails se passando por outras empresas, como por exemplo: Se passando por instituições bancárias, redes sociais, grandes empresas, etc. O usuário então recebe esses emails e acreditam estar informando seus dados para uma empresa séria, mas quando na verdade os dados estão sendo enviados para criminosos.

#### 1.1) Objetivos deste projeto
&emsp;&emsp;Definido o problema, este projeto tem por objetivo, a implementação de um modelo de Machine Learning capaz de dado o texto de entrada, nos dizer se esse texto é uma SPAM (texto malicioso) ou um HAM (text não malicioso).

<span style="color:green">Falar sobre o dataset e aquisição dos dados</span><br/>
<span style="color:green">Citar sobre Processamento de linguagem natural</span><br/>
<span style="color:green">Citar sobre o algoritmo Naive Bayes</span><br/>
<span style="color:aqua">Considerações sobre os resultados obtidos</span><br/>

### 2) Análise exploratória dos dados

In [212]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from plotly import graph_objs as go


In [213]:
import json
import plotly.io as pio
with open('estilos/dark-petroleum.json', 'r') as f:
    template = json.load(f)

pio.templates['my_theme'] = template

In [214]:
df = pd.read_csv('data/spam.csv', encoding='latin-1')

df = df.dropna(how="any", axis=1)
df.columns = ['target', 'message']
df['message_len'] = df['message'].apply(lambda x: len(x.split(' ')))

In [215]:
df.shape

(5572, 3)

In [216]:
df.head()

Unnamed: 0,target,message,message_len
0,ham,"Go until jurong point, crazy.. Available only ...",20
1,ham,Ok lar... Joking wif u oni...,6
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,28
3,ham,U dun say so early hor... U c already then say...,11
4,ham,"Nah I don't think he goes to usf, he lives aro...",13


In [217]:
print('Distribuição da variável target')
print(df['target'].value_counts())

print('################################\nProporção da variável target')
print(round(df['target'].value_counts() / len(df), 2))

Distribuição da variável target
ham     4825
spam     747
Name: target, dtype: int64
################################
Proporção da variável target
ham     0.87
spam    0.13
Name: target, dtype: float64


In [224]:
df['target'].value_counts()[0]

4825

In [239]:
#plt.figure(figsize=(8, 4))
#sns.barplot(x=df['target'].value_counts().index, y=df['target'].value_counts().values)

fig = go.Figure()
fig.add_trace(go.Bar(
    x=[df['target'].value_counts().index[0]], 
    y=[df['target'].value_counts()[0]], 
    text=[df['target'].value_counts()[0]],
    name='Ham'
    ))

fig.add_trace(go.Bar(
    x=[df['target'].value_counts().index[1]], 
    y=[df['target'].value_counts()[1]], 
    text=[df['target'].value_counts()[1]],
    name='Spam'
    ))
    
fig.update_layout(
    title='<span>Quantidade total de emails Ham/Spam</span>', 
    autosize=False,
    width=400,
    height=400,
    yaxis=dict(title='<span>Quantidade</span>'),
    template='my_theme'
    )

In [240]:
df.describe()

Unnamed: 0,message_len
count,5572.0
mean,15.606784
std,11.422465
min,1.0
25%,7.0
50%,12.0
75%,23.0
max,171.0


In [241]:
ham_df = df.loc[df['target'] == 'ham']['message_len'].value_counts().sort_index()
spam_df = df.loc[df['target'] == 'spam']['message_len'].value_counts().sort_index()

In [243]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=ham_df.index, y=ham_df.values, name='Ham', fill='tozeroy'))
fig.add_trace(go.Scatter(x=spam_df.index, y=spam_df.values, name='Spam', fill='tozeroy'))
fig.update_layout(
    title='<span>Quantidade de ocorrências Spam/Ham por quantidade de palavras</span>', 
    autosize=False,
    width=800,
    height=500,
    xaxis=dict(title='<span>Quantidade de ocorrências Spam/Ham</span>'),
    yaxis=dict(title='<span>Quantidade de palavras</span>'),
    template='my_theme'
    )

#fig.update_xaxes(range=[0, 70])



### 3) Pré processamento dos dados

### 4) Modelagem

### 5) Testando o modelo

### 6) Considerações finais