# Detecção de SPAM

**D3TOP – Tópicos em Ciência de Dados** <br />
**D3APL – Aplicações em Ciência de Dados** <br />
Especialização em Ciência de Dados - IFSP Campinas  <br />

Grupo:
- Michelle Melo Cavalcante

## 1. Descrição geral

### 1.1. Visão de negócio

A detecção de spam por SMS é importante porque protege os usuários finais de links maliciosos e fraudes, economiza tempo e dinheiro, melhora a qualidade do serviço e evita a sobrecarga de rede. Isso garante que apenas mensagens legítimas e relevantes sejam entregues, melhorando a experiência do usuário e a satisfação com o serviço. 

### 1.2. Conjunto de dados

A Coleção de Spam de SMS é um conjunto público de mensagens rotuladas de SMS que foram coletadas para pesquisa de spam em telefones celulares. Os dados obtidos são:
- `Category` - Rótulo de identificação se a mensagem é spam ou não,
- `Message` - Mensagem enviada.

Para obter mais informações sobre os recursos do conjunto de dados, consulte SMS Spam Collection Data Set pelo link https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection#.

### 1.3. Objetivos

Os objetivos deste notebook são:
- Expor o problema a ser resolvido
- Descrever a base de dados obtida
- Executar análise exploratória de dados (AED)
- Realizar a limpeza e pré-processamento dos dados
- Extração de características e aplicação de modelos de ML
- Discussão de resultados e trabalhos futuros
- Deploy em produção


## 2. Análise Exploratória de dados

### 2.1. Importação do dataset e data cleaning

In [19]:
pip install keras

Note: you may need to restart the kernel to use updated packages.


In [20]:
pip install tensorflow

Note: you may need to restart the kernel to use updated packages.


In [21]:
pip install keras.preprocessing

Note: you may need to restart the kernel to use updated packages.


In [22]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
#from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import confusion_matrix
from keras.models import Sequential
from keras.layers import Dense, Dropout, Flatten, Embedding
from keras.preprocessing.text import Tokenizer
from keras_preprocessing.sequence import pad_sequences

In [23]:
df = pd.read_csv("data/spam.csv", encoding="latin-1")
df.head()

Unnamed: 0,Category,Message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [24]:
labelencoder = LabelEncoder()
y = labelencoder.fit_transform(df['Category'])
print(y)

[0 0 1 ... 0 0 0]


In [25]:
mensagens = df['Message'].values 
X_train, X_test, y_train, y_test = train_test_split(mensagens, y, test_size=0.3)
print(X_train)

['How come?'
 "I calls you later. Afternoon onwords mtnl service get problem in south mumbai. I can hear you but you cann't listen me."
 'PRIVATE! Your 2003 Account Statement for <fone no> shows 800 un-redeemed S. I. M. points. Call 08715203656 Identifier Code: 42049 Expires 26/10/04'
 ... 'Minimum walk is 3miles a day.' "I've not sent it. He can send me."
 'House-Maid is the murderer, coz the man was murdered on  &lt;#&gt; th January.. As public holiday all govt.instituitions are closed,including post office..understand?']


In [26]:
token = Tokenizer(num_words=1000)
token.fit_on_texts(X_train)

X_train = token.texts_to_sequences(X_train)
X_test = token.texts_to_sequences(X_test)

In [29]:
print(len(X_train))
print(X_train)

3900
[[50, 60], [1, 407, 3, 98, 442, 220, 36, 337, 8, 1, 26, 387, 3, 24, 3, 10], [672, 13, 930, 310, 728, 12, 851, 38, 371, 931, 932, 234, 1, 465, 593, 16, 781, 423, 782, 408], [304, 277, 372, 7, 1, 673, 28, 2, 674, 51], [47, 126, 10, 235, 424, 1, 107, 1, 87, 94, 292, 11, 3, 203, 11, 508, 5, 675, 66], [39, 539, 2, 200, 3, 466, 13, 90, 2, 77, 388, 15, 4, 409, 635, 783, 251, 729, 69, 676, 90, 25, 16, 677, 20], [11, 95, 127, 105, 252, 29, 443, 489, 2, 852], [338, 8, 11, 317, 3, 29, 29, 282, 29, 29, 410, 29, 252, 7, 283, 29, 594, 595, 55, 157, 113], [13, 163, 80, 138, 5, 163, 20], [730, 9, 164, 55, 9, 7, 467, 9, 152, 245], [6, 91, 53, 50, 1, 64, 1, 304, 236, 70, 2, 44, 2, 5, 1, 784, 34, 28, 4, 22, 12], [1, 56, 4, 16, 52, 4, 389, 127, 1, 64, 509, 2, 60, 2, 1, 32, 44, 8, 5, 442], [38, 64, 468, 18, 5, 6, 230, 24, 17, 675, 15, 23, 64, 11, 508, 51, 785, 6], [65, 121, 73, 2, 77, 221, 43, 510, 42, 100], [17, 3, 258, 101, 596], [6, 731, 10, 293, 258, 197, 114, 1, 19, 597, 6, 24, 1, 270, 786, 50, 6

In [30]:
X_train = pad_sequences(X_train, padding="post", maxlen=500)      #tabular corretamente as matrizes para que possuam o mesmo tamanho
X_test = pad_sequences(X_test, padding="post", maxlen=500)

In [31]:
print(X_train)

[[ 50  60   0 ...   0   0   0]
 [  1 407   3 ...   0   0   0]
 [672  13 930 ...   0   0   0]
 ...
 [527   9   4 ...   0   0   0]
 [177  28 189 ...   0   0   0]
 [321   9   5 ...   0   0   0]]


In [32]:
print(len(token.word_index))

7497


In [34]:
#empilhamento das camadas
modelo = Sequential()

modelo.add(Embedding(input_dim=len(token.word_index), output_dim=50, input_length=500))    #quantidade de palavras diferentes no vocabulario / vetor/ comprimento da sequencia=maxlen
modelo.add(Flatten())                                                                   #conexao do embedding com a camada densa

modelo.add(Dense(units=10,activation="relu"))                              #numero de neuronios / funcao de ativacao 
modelo.add(Dropout(0.1))                                                   #minimizar overfiting - vai remover de forma aleatória 10% algumas sinapses (conexões entre uma rede e outras)
modelo.add(Dense(units=1,activation="sigmoid"))                            #temos um problema binário (0 ou 1), retornando um valor > units=1

In [35]:
#compilar o modelo (montar a estrutura)
modelo.compile(loss="mean_squared_error", optimizer="adam", metrics=["accuracy"])       #loss=medida entre o que previu e o real / optimizer=otimização dos pesos da rede / metrica para a rede avaliar a performance dela
modelo.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 500, 50)           374850    
                                                                 
 flatten (Flatten)           (None, 25000)             0         
                                                                 
 dense (Dense)               (None, 10)                250010    
                                                                 
 dropout (Dropout)           (None, 10)                0         
                                                                 
 dense_1 (Dense)             (None, 1)                 11        
                                                                 
Total params: 624,871
Trainable params: 624,871
Non-trainable params: 0
_________________________________________________________________


In [36]:
#processo de treinamento 
modelo.fit(X_train, y_train, epochs=30, batch_size=10, verbose=True, validation_data=(X_test,y_test))

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


<keras.callbacks.History at 0x7f5f6888d450>

In [37]:
loss, accuracy = modelo.evaluate(X_test, y_test)
print("Loss: ", loss)
print("Acurácia: ", accuracy)

Loss:  0.01812746934592724
Acurácia:  0.9814593195915222


In [38]:
#Previsão de novas mensagens
previsao = modelo.predict(X_test)
print(previsao)

[[8.9037734e-01]
 [2.3784592e-08]
 [8.1545236e-13]
 ...
 [4.8150973e-06]
 [1.5424212e-15]
 [2.3950866e-10]]


In [39]:
prev = (previsao > 0.5)
print(prev)

[[ True]
 [False]
 [False]
 ...
 [False]
 [False]
 [False]]


In [40]:
cm = confusion_matrix(y_test, prev)
print(cm)

[[1452    3]
 [  28  189]]


Bad pipe message: %s [b'\xd0\xe0/\xa7\xa4\x8b\x89\x9a\xe1\x01\x8b\xa8\xd2\xbc\xd5\xbfe\xdb\x00\x00\xa6\xc0,\xc00\x00\xa3\x00\x9f\xcc\xa9\xcc\xa8\xcc\xaa\xc0\xaf\xc0\xad\xc0\xa3\xc0\x9f\xc0]\xc0a\xc0W\xc0S\xc0+\xc0']
Bad pipe message: %s [b"\xa2\x00\x9e\xc0\xae\xc0\xac\xc0\xa2\xc0\x9e\xc0\\\xc0`\xc0V\xc0R\xc0$\xc0(\x00k\x00j\xc0s\xc0w\x00\xc4\x00\xc3\xc0#\xc0'\x00g\x00@\xc0r\xc0"]
Bad pipe message: %s [b'\xbe\x00\xbd\xc0\n\xc0\x14\x009\x008\x00\x88\x00\x87\xc0\t\xc0\x13\x003\x002\x00\x9a\x00\x99\x00E\x00D\xc0\x07\xc0\x11\xc0\x08\xc0\x12\x00\x16\x00\x13\x00\x9d\xc0\xa1\xc0\x9d\xc0Q\x00\x9c\xc0\xa0\xc0\x9c\xc0P\x00=\x00\xc0\x00<\x00\xba\x005\x00\x84\x00/\x00\x96\x00A\x00\x05\x00\n\x00\xff\x01\x00\x00j\x00\x00\x00\x0e\x00\x0c\x00\x00\t127.0.0.1\x00\x0b\x00\x04\x03\x00\x01\x02\x00\n\x00\x0c']
Bad pipe message: %s [b'\xbe=~\xa0\\.\x1a\xbf\x97\xea\x88,\xd6\xb5\xa1\xf4\x89\xf7\x00\x00\xa2\xc0\x14\xc0\n\x009\x008\x007\x006\x00\x88\x00\x87\x00\x86\x00\x85\xc0\x19\x00:\x00\x89\xc0\x0f\xc0\x05\x00