In [36]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Charger les données avec encodage correct
data = pd.read_csv('spam.csv', encoding='ISO-8859-1')

# Sélectionner uniquement les colonnes utiles
data = data[['v1', 'v2']]

# Supprimer les valeurs manquantes
data.dropna(inplace=True)

# Convertir la colonne 'v1' en valeurs numériques (0 = ham, 1 = spam)
data['v1'].replace(['ham', 'spam'], [0, 1], inplace=True)

# Définir les variables X et y
X = data['v2']  # Texte des messages
y = data['v1']  # Labels (ham/spam)

# Transformer le texte en vecteurs numériques avec TfidfVectorizer
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(X)

# Diviser les données en ensemble d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Initialiser et entraîner le modèle de régression logistique
model = LogisticRegression()
model.fit(X_train, y_train)

# Prédictions sur l'ensemble de test
y_pred = model.predict(X_test)

# Évaluer la précision du modèle
accuracy = accuracy_score(y_test, y_pred)
print(f"Précision du modèle : {accuracy * 100:.2f}%")

# Fonction pour tester un message
def detect_spam(message):
    message_vectorized = vectorizer.transform([message])  # Transformer le texte en vecteur
    prediction = model.predict(message_vectorized)
    print("SPAM" if prediction[0] == 1 else "HAM")

# Tester un message
detect_spam("URGENT! Your bank account is at risk. Verify immediately: www.fakebank.com")

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['v1'].replace(['ham', 'spam'], [0, 1], inplace=True)
  data['v1'].replace(['ham', 'spam'], [0, 1], inplace=True)


Précision du modèle : 94.08%
SPAM
