Ce code applique le nettoyage des e-mails en utilisant les étapes de suppression des stopwords, stemming, lemmatisation et n-grammes. Ensuite, il effectue la classification avec K-means et prédit la classe d'un nouveau message. Le résultat de la prédiction du nouveau message est affiché à la fin avec les deux méthode K-means et svm.

Importation des bibliothèques nécessaires :

In [46]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer, WordNetLemmatizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from sklearn.svm import SVC


Téléchargement des ressources linguistiques requises :

In [47]:
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

Définition de la liste des e-mails :

In [48]:
emails = [
    "Bonjour, j'ai reçu votre e-mail concernant l'offre spéciale.",
    "Gagnez de l'argent en ligne rapidement !",
    "Vérifiez votre compte bancaire dès maintenant.",
    "Réclamez votre prix en répondant à ce message.",
    "Obtenez un crédit sans vérification de solvabilité.",
    "Gagnez de l'argent en ligne rapidement !",
    "Ce texte est un exemple d'e-mail non-spam.",
    "Cliquez ici pour gagner un voyage gratuit !",
    "Votre facture est disponible en ligne.",
    "Doublez votre argent en une semaine !",
    "Important : Votre compte a été compromis.",
    "Gagnez un iPhone en participant à notre sondage.",
    "Votre abonnement mensuel est arrivé à expiration.",
    "Ne manquez pas cette offre exclusive !",
    "Vous avez été sélectionné pour notre tirage au sort.",
    "Promotion spéciale : -50% sur tous les produits !",
    "Augmentez votre productivité avec notre logiciel innovant.",
    "Offre limitée : inscrivez-vous dès maintenant !",
    "Découvrez nos nouvelles fonctionnalités.",
    "Réservez votre billet d'avion à prix réduit.",
    "Félicitations, vous avez gagné un voyage de rêve !",
    "Attention : votre compte a été suspendu.",
    "Économisez de l'argent avec nos offres exclusives.",
    "Confirmation de votre réservation d'hôtel.",
    "Votre commande a été expédiée.",
    "Rejoignez notre programme de fidélité et obtenez des récompenses.",
    "Nouvelles offres d'emploi disponibles.",
    "Offre spéciale pour nos clients fidèles.",
    "Obtenez un crédit immobilier avec des taux avantageux.",
    "Recevez votre colis demain matin.",
    "Votre compte a été crédité de 100€.",
    "Dernière chance de profiter de nos soldes.",
    "Réduction exceptionnelle sur nos produits haut de gamme.",
    "Invitation à notre événement exclusif.",
    "Besoin d'assistance ? Contactez notre service clientèle.",
    "Inscrivez-vous à notre newsletter pour recevoir nos dernières actualités.",
    "Confirmation de votre inscription à notre service.",
    "Répondez à notre enquête et gagnez un bon d'achat.",
    "Nouvelles recommandations personnalisées pour vous.",
    "Offre flash : seulement aujourd'hui !",
    "Votre compte a été mis à jour.",
    "Obtenez un devis gratuit en ligne.",
    "Gagnez des points de récompense à chaque achat.",
    "Votre paiement a été accepté.",
    "Nouveau produit disponible : découvrez-le dès maintenant.",
    "Économisez sur votre prochaine commande avec ce code promotionnel.",
    "Confirmation de votre réservation de restaurant."
]



Définition de la fonction de nettoyage des e-mails :

In [49]:
def clean(email):
    stop_words = set(stopwords.words('french'))
    stemmer = SnowballStemmer('french')
    lemmatizer = WordNetLemmatizer()

    # Tokenisation des mots
    words = word_tokenize(email.lower())

    # Suppression des stopwords et de la ponctuation
    filtered_words = [word for word in words if word.isalnum() and word not in stop_words]

    # Stemming
    stemmed_words = [stemmer.stem(word) for word in filtered_words]

    # Lemmatisation
    lemmatized_words = [lemmatizer.lemmatize(word) for word in stemmed_words]

    # Reconstruction de l'e-mail nettoyé
    cleaned_email = ' '.join(lemmatized_words)
    return cleaned_email


Nettoyage des e-mails en utilisant la fonction clean() :

In [50]:
cleaned_emails = [clean(email) for email in emails]


Création du corpus de textes à partir des e-mails nettoyés :

In [51]:
corpus = cleaned_emails


Création de la matrice TF-IDF avec des n-grammes :

In [52]:
vectorizer = TfidfVectorizer(ngram_range=(1, 2))
X_tfidf = vectorizer.fit_transform(corpus).toarray()

Classification des e-mails avec l'algorithme K-means :

In [53]:
kmeans = KMeans(n_clusters=2, random_state=42)
kmeans.fit(X_tfidf)



Obtention des labels prédits par K-means :

In [54]:
labels = kmeans.labels_


#Prédiction d'un nouveau message :

In [55]:
new_message = "Gagnez de l'argent en ligne facilement !"
cleaned_new_message = clean(new_message)
new_message_tfidf = vectorizer.transform([cleaned_new_message]).toarray()


#Prédiction avec K-means


In [56]:

new_message_label_kmeans = kmeans.predict(new_message_tfidf)[0]

Classification des e-mails avec SVM

In [57]:
svm = SVC()
svm.fit(X_tfidf, labels)

#Prédiction avec SVM

In [58]:
new_message_label_svm = svm.predict(new_message_tfidf)[0]

Affichage des résultats

In [59]:

print(f"Le nouveau message '{new_message}' est classé comme {'spam' if new_message_label_kmeans == 1 else 'non-spam'} par K-means.")
print(f"Le nouveau message '{new_message}' est classé comme {'spam' if new_message_label_svm == 1 else 'non-spam'} par SVM.")

Le nouveau message 'Gagnez de l'argent en ligne facilement !' est classé comme non-spam par K-means.
Le nouveau message 'Gagnez de l'argent en ligne facilement !' est classé comme non-spam par SVM.
