Importer les bibliothèques nécessaires

In [5]:
import pandas as pd  # Manipulation de données
import numpy as np  # Calculs mathématiques
import matplotlib.pyplot as plt  # Affichage de graphiques
from sklearn.feature_extraction.text import CountVectorizer  # Transformer le texte en nombres
from sklearn.model_selection import train_test_split  # Séparer les données
from sklearn.naive_bayes import MultinomialNB  # Modèle d'apprentissage
from sklearn.metrics import accuracy_score  # Vérifier la performance du modèle

Charger le fichier depuis Google Colab

In [6]:
df = pd.read_csv('/content/SMSSpamCollection', sep='\t', header=None, names=['label', 'message'])

Afficher les 5 premières lignes du dataset

In [14]:
df.head()

Unnamed: 0,label,message
0,0,"Go until jurong point, crazy.. Available only ..."
1,0,Ok lar... Joking wif u oni...
2,1,Free entry in 2 a wkly comp to win FA Cup fina...
3,0,U dun say so early hor... U c already then say...
4,0,"Nah I don't think he goes to usf, he lives aro..."


Néttoyage de données

In [8]:
# Convertir les labels en 0 (ham) et 1 (spam)
df['label'] = df['label'].map({'ham': 0, 'spam': 1})

In [9]:
# Afficher les 5 premières lignes
df.head()

Unnamed: 0,label,message
0,0,"Go until jurong point, crazy.. Available only ..."
1,0,Ok lar... Joking wif u oni...
2,1,Free entry in 2 a wkly comp to win FA Cup fina...
3,0,U dun say so early hor... U c already then say...
4,0,"Nah I don't think he goes to usf, he lives aro..."


Convertir les messages en nombres

In [10]:
vectorizer = CountVectorizer()

# X recupère les messages converti en nombre
X = vectorizer.fit_transform(df['message'])

# Et y le Labels (0 ou 1)
y = df['label']

In [11]:
# Afficher la taille des données
X.shape, y.shape

((5572, 8713), (5572,))

Prépartion des données et entraînement du model

In [12]:
# Séparer les données en entraînement (80%) et test (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Créer et entraîner le modèle
model = MultinomialNB()
model.fit(X_train, y_train)

# Prédire sur les données de test
y_pred = model.predict(X_test)

# Évaluer la précision du modèle
accuracy = accuracy_score(y_test, y_pred)
print(f"Précision du modèle : {accuracy * 100:.2f}%")

Précision du modèle : 98.57%


Tester le modèle (Fonction de teste et appel)

In [13]:
def predict_spam(message):
    message_transformed = vectorizer.transform([message])
    prediction = model.predict(message_transformed)
    return "SPAM ❌" if prediction[0] == 1 else "HAM ✅"

# Tester avec un message
print(predict_spam("Hey, well ? Ready for competition ?"))
print(predict_spam("Hey, you have winning cup. Give your account bank detail to keep your prize !"))

HAM ✅
SPAM ❌
