Importar bibliotecas

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

In [2]:
df = pd.read_csv('spam.csv', encoding='ISO-8859-1')
df.head()

Unnamed: 0,v1,v2,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,ham,"Go until jurong point, crazy.. Available only ...",,,
1,ham,Ok lar... Joking wif u oni...,,,
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,,,
3,ham,U dun say so early hor... U c already then say...,,,
4,ham,"Nah I don't think he goes to usf, he lives aro...",,,


In [3]:
# Remover colunas Unnamed
df.drop(columns=['Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'], inplace=True, axis=1)
df.head()

Unnamed: 0,v1,v2
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5572 entries, 0 to 5571
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   v1      5572 non-null   object
 1   v2      5572 non-null   object
dtypes: object(2)
memory usage: 87.2+ KB


PRÉ-PROCESSAMENTO DE TEXTO

Converter rótulos de texto para números (ham: 0, spam:1)

In [5]:
df['label'] = df['v1'].apply(lambda x: 1 if x == 'spam' else 0)

Pré-processamento de texto: vetorização das mensagens

In [6]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df['v2'])

Dividir os dados em conjuntos de treinamento e teste

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X, df['label'], test_size=.2, random_state=42)

CRIAR E TREINAR O MODELO

In [8]:
# Inicializar o classificador Naive Bayes
clf = MultinomialNB()

# Treina o modelo usando os dados de treinamento
clf.fit(X_train, y_train)

MultinomialNB()

AVALIAR O MODELO

In [9]:
# Fazer previsões nos dados de teste
clf_pred = clf.predict(X_test)

# Calcular a precisão do modelo
accuracy = accuracy_score(y_test, clf_pred)
print(f'Acurácia do modelo: {accuracy:.2f}')

# Exibir o relatório de classificação
print(classification_report(y_test, clf_pred))

Acurácia do modelo: 0.98
              precision    recall  f1-score   support

           0       0.99      0.99      0.99       965
           1       0.91      0.93      0.92       150

    accuracy                           0.98      1115
   macro avg       0.95      0.96      0.95      1115
weighted avg       0.98      0.98      0.98      1115



TESTAR COM DADOS NOVOS

In [10]:
# Suponha que 'novo_dado' seja uma lista de novas mensagens de texto que você quer classificar
novos_dados_pt_br = ['Oferta especial: Ganhe prêmios incríveis agora!', 'Olá, como você está?', 'Grátis um iphone']

novos_dados_usa = ['Special Offer: Win amazing prizes now!', 'Hi, how are you doing?', 'Free 1 Iphone']

Vetorizar a mensagem

In [11]:
X_novo_dado = vectorizer.transform(novos_dados_pt_br)
X_novo_dado_usa = vectorizer.transform(novos_dados_usa)

Previsão com o modelo treinado

In [12]:
previsao_novos_dados = clf.predict(X_novo_dado)
previsao_novos_dados_usa = clf.predict(X_novo_dado_usa)

Convertendo a previsão de volta para rótulos de texto (ham ou spam)

In [13]:
rotulos_previstos = ['spam' if previsao_novos_dados == 1 else 'ham' for previsao_novos_dados in previsao_novos_dados]

rotulos_previstos_usa = ['spam' if previsao_novos_dados_usa == 1 else 'ham' for previsao_novos_dados_usa in previsao_novos_dados_usa]

Exibir os rótulos previstos

In [14]:
# Português
for mensagem, rotulo in zip(novos_dados_pt_br, rotulos_previstos):
    print(f'Mensagem: {mensagem} - Rótulo previsto: {rotulo}')

Mensagem: Oferta especial: Ganhe prêmios incríveis agora! - Rótulo previsto: ham
Mensagem: Olá, como você está? - Rótulo previsto: ham
Mensagem: Grátis um iphone - Rótulo previsto: ham


In [15]:
# Inglês
for mensagem, rotulo in zip(novos_dados_usa, rotulos_previstos_usa):
    print(f'Mensagem: {mensagem} - Rótulo previsto: {rotulo}')

Mensagem: Special Offer: Win amazing prizes now! - Rótulo previsto: spam
Mensagem: Hi, how are you doing? - Rótulo previsto: ham
Mensagem: Free 1 Iphone - Rótulo previsto: spam
