<a href="https://colab.research.google.com/github/rebeca-klamerick/NLP/blob/main/IntroducaoNLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **📝 Notebook - Classificação de Spam com NLP usando TensorFlow**
###**1. Introdução ao NLP (Natural Language Processing)**
O Processamento de Linguagem Natural (NLP) é uma área da inteligência artificial (IA) que permite que os computadores compreendam, interpretem e gerenciem dados de linguagem humana. No contexto de classificação de texto, como detectar mensagens spam ou não spam, o NLP desempenha um papel fundamental ao transformar o texto em uma forma que os modelos de aprendizado de máquina possam entender.

No nosso caso, o objetivo é construir um modelo simples de classificação binária, onde queremos identificar se uma mensagem é spam (1) ou não spam (0). Para isso, usaremos uma abordagem de aprendizado de máquina com redes neurais.

### **2. Preparação dos Dados**
Primeiro, vamos criar um conjunto de dados simples de exemplos de mensagens de texto e rótulos indicando se elas são spam ou não.

###**3. Bibliotecas Utilizadas**
Para construir o nosso modelo de NLP, utilizaremos a poderosa biblioteca TensorFlow e suas sub-bibliotecas Keras para a criação e treinamento do modelo de rede neural. Além disso, usaremos o Tokenizer do Keras para transformar as palavras em números, um passo essencial no processamento de texto.



```
# # vamos utilizar esse pequeno texto como dado de exemplo
texts = [
    "Ganho dinheiro rápido com este método!",
    "Promoção imperdível! Compre agora e economize.",
    "Oi, tudo bem? Podemos marcar uma reunião amanhã?",
    "Fique atento às novidades do nosso blog."
]
labels = [1, 1, 0, 0]  # 1 = spam, 0 = não spam
```
texts: São as mensagens de texto que queremos classificar.

labels: São os rótulos associados a cada mensagem, onde 1 significa spam e 0 significa não spam.



In [21]:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, GlobalAveragePooling1D, Dense
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np

Aqui, as bibliotecas são usadas para:

Tokenização: Converter texto em números que podem ser processados pela rede neural.

Criação do modelo: Definir a rede neural com camadas como Embedding e GlobalAveragePooling.

Treinamento e Avaliação: Compilar e treinar o modelo.

In [22]:
# Dados de exemplo
texts = [
    "Ganho dinheiro rápido com este método!",
    "Promoção imperdível! Compre agora e economize.",
    "Oi, tudo bem? Podemos marcar uma reunião amanhã?",
    "Fique atento às novidades do nosso blog."
]
labels = [1, 1, 0, 0]  # 1 = spam, 0 = não spam

###**4. Pré-processamento dos Dados**
A primeira etapa do nosso pipeline é tokenizar os textos. A tokenização é o processo de converter palavras em números inteiros. Em seguida, usaremos padding para garantir que todas as sequências de texto tenham o mesmo comprimento.

In [23]:
 #Tokenização e conversão para números
tokenizer = Tokenizer(num_words=1000, oov_token="<OOV>")
tokenizer.fit_on_texts(texts)
X = tokenizer.texts_to_sequences(texts)

# Padding para padronizar o tamanho das sequências
X_padded = pad_sequences(X, maxlen=10, padding="post")
X_padded = np.array(X_padded, dtype=np.float32)  # Garante que seja um array NumPy com floats
labels = np.array(labels, dtype=np.float32)  # Converte labels para float

Aqui, estamos:

1.   Usando o Tokenizer para mapear as palavras para números inteiros.
2.   Aplicando padding para que todas as sequências de texto tenham o mesmo comprimento de 10 palavras.







###**5. Construção do Modelo**
Agora que nossos dados estão prontos, podemos construir o modelo de rede neural. Utilizamos uma camada Embedding para transformar os números em vetores de palavras. Em seguida, aplicamos a camada GlobalAveragePooling1D para condensar a informação da sequência e, por fim, temos uma camada Dense com ativação sigmoid para gerar uma previsão binária (spam ou não spam).


In [24]:
# Criando o modelo de rede neural
model = Sequential([
    Embedding(input_dim=1000, output_dim=16, input_length=10),
    GlobalAveragePooling1D(),
    Dense(16, activation="relu"),
    Dense(1, activation="sigmoid")
])

# Compilar o modelo
model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])




Neste código estamos fazendo o seguinte:

*   Embedding: Converte os números das palavras em vetores de tamanho fixo.
*   GlobalAveragePooling1D: Reduz a dimensionalidade das sequências.
*   Dense: Camada totalmente conectada para fazer as previsões (1 para spam, 0 para não spam).





###**6. Treinamento do Modelo**
Agora vamos treinar o modelo usando nossos dados de entrada (X_padded) e os rótulos (labels). O modelo será treinado por 10 épocas, e a métrica de acurácia será monitorada.

In [25]:
# Treinamento do modelo
model.fit(X_padded, labels, epochs=10, verbose=1)


Epoch 1/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 2s/step - accuracy: 0.2500 - loss: 0.6933
Epoch 2/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 76ms/step - accuracy: 0.5000 - loss: 0.6919
Epoch 3/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 77ms/step - accuracy: 1.0000 - loss: 0.6905
Epoch 4/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 135ms/step - accuracy: 1.0000 - loss: 0.6890
Epoch 5/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 60ms/step - accuracy: 1.0000 - loss: 0.6875
Epoch 6/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 58ms/step - accuracy: 1.0000 - loss: 0.6863
Epoch 7/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 144ms/step - accuracy: 1.0000 - loss: 0.6850
Epoch 8/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 128ms/step - accuracy: 1.0000 - loss: 0.6834
Epoch 9/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m 

<keras.src.callbacks.history.History at 0x78af84999a90>

###**7. Testando o Modelo**
Após o treinamento, vamos testar o modelo com novas mensagens para ver como ele se comporta em dados desconhecidos. Aqui estão algumas novas mensagens de exemplo:

In [26]:
# Dados de teste
test_texts = ["Compre agora e aproveite!", "Olá, gostaria de marcar um café."]
X_test = tokenizer.texts_to_sequences(test_texts)
X_test_padded = pad_sequences(X_test, maxlen=10, padding="post")
X_test_padded = np.array(X_test_padded, dtype=np.float32)

# Fazer previsões
predictions = model.predict(X_test_padded)

for text, pred in zip(test_texts, predictions):
    print(f"Mensagem: {text} → Probabilidade de ser spam: {pred[0]:.4f}")


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 85ms/step
Mensagem: Compre agora e aproveite! → Probabilidade de ser spam: 0.5114
Mensagem: Olá, gostaria de marcar um café. → Probabilidade de ser spam: 0.5052


Esse código gera a probabilidade de cada mensagem ser spam. Quanto mais próxima de 1, mais provável é que a mensagem seja spam.

In [27]:
from sklearn.metrics import accuracy_score, precision_score, recall_score

# Convertendo previsões para 0 ou 1 com limiar de 0.5
predicted_labels = (predictions.flatten() > 0.5).astype(int)

print("Acurácia:", accuracy_score(true_labels, predicted_labels))
print("Precisão:", precision_score(true_labels, predicted_labels))
print("Recall:", recall_score(true_labels, predicted_labels))




Acurácia: 0.5
Precisão: 0.5
Recall: 1.0


###**8. Análise de Desempenho (Acurácia e Resíduos)**
A acurácia de 50% pode indicar que o modelo não aprendeu de forma eficaz, devido a dois fatores principais:

* Modelo simples: O modelo utilizado é bastante básico, com apenas algumas camadas, o que pode ser insuficiente para capturar padrões complexos nos dados de texto.

* Dados limitados: Com apenas 4 exemplos de treinamento, é difícil para qualquer modelo generalizar e aprender boas representações. Modelos de Machine Learning geralmente requerem uma quantidade significativa de dados para alcançar um bom desempenho.

A precisão (como a acurácia) é uma métrica que pode ser afetada pela desbalanceamento nos dados ou pela quantidade de dados insuficiente. A seguir, você pode calcular a precisão, o recall e outros indicadores de desempenho, além de analisar os resíduos das previsões:

###**9. Conclusão**
Neste notebook, exploramos como construir um modelo simples de classificação de spam usando Processamento de Linguagem Natural (NLP) com TensorFlow, apenas um modelinho bem didático e simples. Embora o modelo tenha uma acurácia de 50%, isso é esperado devido ao tamanho muito pequeno do conjunto de dados e à simplicidade da arquitetura utilizada. Para melhorar os resultados, seria necessário usar mais dados de treinamento e possivelmente ajustar a arquitetura do modelo, como adicionar camadas LSTM ou GRU para capturar dependências temporais no texto.

Esse exemplo ilustra o processo básico de tokenização, preparação de dados, construção de modelo, treinamento e avaliação. Agora, você pode experimentar com mais dados, ajustar o modelo e testar novas técnicas para obter melhores resultados.