<a href="https://colab.research.google.com/github/johnnycleiton07/llm-studies/blob/main/Embedding_Rede_Neural.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Criação de Rede Neural - Embeddings

Rede Neural voltada a retornar se uma mensagem de email é spam ou não. O dataset utilizado é do arquivo "*spam.csv*".

Os embeddings representam objetos do mundo real, como palavras, imagens ou vídeos, em uma forma que os computadores podem processar. Os embeddings permitem pesquisas de similaridade e são fundamentais para a IA.

##Configurações iniciais

In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
#from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import confusion_matrix
from keras.models import Sequential
from keras.layers import Dense, Dropout, Flatten, Embedding
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences

In [7]:
from google.colab import files
files.upload()

Saving spam.csv to spam.csv




In [8]:
#visualizando o dataset
spam = pd.read_csv("spam.csv")
spam.head()

Unnamed: 0,Category,Message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


##Realizando pré-processamento dos dados

* ***fit_transform*** faz a transformação dos dados para que as máquinas consigam ler e interpretar

In [9]:
#transformar as categorias em número para que as máquinas entendam

labelencoder = LabelEncoder()
y = labelencoder.fit_transform(spam['Category'])
print(y)

[0 0 1 ... 0 0 0]


##Realizando o treinamento dos dados

In [10]:
mensagens = spam['Message'].values
X_train, X_test, y_train, y_test = train_test_split(mensagens, y, test_size=0.3)
print(X_train)

['He also knows about lunch menu only da. . I know'
 "Ugh I don't wanna get out of bed. It's so warm."
 'money!!! you r a lucky winner ! 2 claim your prize text money 2 88600 over £1million to give away ! ppt150x3+normal text rate box403 w1t1jy'
 ... 'Thinking of u ;) x'
 'Good morning, my Love ... I go to sleep now and wish you a great day full of feeling better and opportunity ... You are my last thought babe, I LOVE YOU *kiss*'
 'Yes..he is really great..bhaji told kallis best cricketer after sachin in world:).very tough to get out.']


In [12]:
#tokenização, transoformando as palavras em números
token = Tokenizer(num_words=1000)
token.fit_on_texts(X_train)

X_train = token.texts_to_sequences(X_train)
X_test = token.texts_to_sequences(X_test)

In [13]:
print(len(X_train))
print(X_train)

3900
[[68, 192, 74, 258, 66, 82, 1, 54], [773, 1, 104, 344, 35, 50, 14, 417, 145, 25], [223, 3, 88, 4, 599, 677, 20, 124, 13, 158, 70, 223, 20, 212, 2, 146, 562, 927, 70, 384], [88, 72, 73, 44, 305], [124, 4, 399, 33, 16, 22, 17, 3, 179], [14, 563, 439, 385, 9, 23, 74, 633, 148, 774, 5, 154, 57, 74, 633, 33, 79, 928, 5, 249, 187], [285, 9, 359, 37, 27, 107, 14, 213, 2, 28, 68, 68, 17, 4, 230, 63, 200, 324, 360, 80, 6, 100, 172, 149, 361], [39, 345, 259, 156, 1, 122, 118, 483, 634, 19, 5, 418, 167, 110, 17, 306, 207, 24, 1, 107, 1, 334, 635, 40, 63], [6, 104, 54, 52, 1, 64, 1, 278, 219, 69, 2, 49, 2, 5, 929, 1, 775, 38, 23, 4, 21, 12], [168, 82, 1, 194, 173, 173, 133, 117, 1, 192, 184, 3, 82], [60, 386, 11, 678, 52, 457, 18, 114, 7, 71, 61, 125, 3, 35, 18, 725, 21, 3, 90, 50, 7, 74, 1, 484, 7, 184, 3, 163], [45, 12, 362, 110, 180, 193, 44, 36, 105, 195, 110, 33, 80, 180, 2, 35, 837, 7, 97, 36, 726, 134, 930, 224, 201, 636, 265, 193], [168, 12, 440, 345, 3, 17, 101, 727, 123, 3, 5], [46,

In [14]:
X_train = pad_sequences(X_train, padding="post", maxlen=500)
X_test = pad_sequences(X_test, padding="post", maxlen=500)

In [15]:
print(len(X_train))
print(X_train)

3900
[[ 68 192  74 ...   0   0   0]
 [773   1 104 ...   0   0   0]
 [223   3  88 ...   0   0   0]
 ...
 [749  14   6 ...   0   0   0]
 [ 60 176  11 ...   0   0   0]
 [140  68   9 ...   0   0   0]]


In [16]:
print(len(token.word_index))

7404


#Implementação da Rede Neural

Construção das camadas da Rede Neural, no código é criada uma camada no estilo de empilhamento em sequência (*Sequential*), uma camada densa (*Dense*), o número de neurônios na camada (*units*), a função de ativação (*activation="relu"*). No primeiro neurônio é informada a camada de entrada (*input_dim*) onde é necessário passar a dimensão do vetor criado anteriormente no processo de vetorização.

* As demais camadas ocultas após a primeira não precisam da quantidade de features,
* ReLU é uma função muito simples, o que a torna computacionalmente eficiente,
* Sigmoid neste caso é usada na última camada pois mapeia qualquer valor de entrada para um valor entre 0 e 1, o que pode ser interpretado como uma probabilidade. No projeto estamos querendo saber se o email é spam ou não.
* As camadas de Dropout servem para evitar o overfiting.

In [18]:
modelo = Sequential()
modelo.add(Embedding(input_dim=len(token.word_index), output_dim=50, input_length=500))
modelo.add(Flatten())

modelo.add(Dense(units=10, activation="relu"))
modelo.add(Dropout(0.1))
modelo.add(Dense(units=1, activation="sigmoid"))

In [19]:
#compilando o modelo da rede neural
modelo.compile(loss="mean_squared_error", optimizer="adam", metrics=["accuracy"])
modelo.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 500, 50)           370200    
                                                                 
 flatten (Flatten)           (None, 25000)             0         
                                                                 
 dense (Dense)               (None, 10)                250010    
                                                                 
 dropout (Dropout)           (None, 10)                0         
                                                                 
 dense_1 (Dense)             (None, 1)                 11        
                                                                 
Total params: 620221 (2.37 MB)
Trainable params: 620221 (2.37 MB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [20]:
#chamando o método fit para realizar o treinamento
modelo.fit(X_train, y_train, epochs=20, batch_size=10, verbose=True, validation_data=(X_test, y_test))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.src.callbacks.History at 0x7a425d7d21d0>

##Gerando Métricas de Avaliação do Modelo

In [21]:
loss, accuracy = modelo.evaluate(X_test, y_test)
print("Loss: ", loss)
print("Acurácia: ", accuracy)

Loss:  0.01864005997776985
Acurácia:  0.9784688949584961


In [22]:
#utilizando o conjunto de teste para fazer novas previsões e testar o modelo treinado
nova_previsao = modelo.predict(X_test)
print(nova_previsao) #o valor é retornado em números dentro de 0 e 1

[[1.22558154e-01]
 [3.10352206e-08]
 [2.13568789e-08]
 ...
 [2.44806353e-09]
 [1.00000000e+00]
 [7.82227107e-06]]


In [23]:
#Melhorando a visualização do treinamento com True ou False
prev = (nova_previsao > 0.5)
print(prev)

[[False]
 [False]
 [False]
 ...
 [False]
 [ True]
 [False]]


In [24]:
#Gerando Matriz de Confusão
cm = confusion_matrix(y_test, prev)
print(cm)

[[1424   17]
 [  19  212]]
