In [9]:
# Importation des bibliothèques nécessaires
import os  # Pour travailler avec le système de fichiers (lister les fichiers, gérer les chemins)
import io  # Pour lire les fichiers texte avec un encodage spécifique
import pandas as pd  # Pour manipuler les données sous forme de DataFrame
from sklearn.feature_extraction.text import CountVectorizer  # Pour convertir les textes en vecteurs de caractéristiques
from sklearn.naive_bayes import MultinomialNB  # Classificateur Naïve Bayes pour classification de texte

# Définition des chemins vers les répertoires contenant les emails
PATH_TO_HAM_DIR = "C:\\emails\\ham"  # Chemin vers les emails non-spam (ham)
PATH_TO_SPAM_DIR = "C:\\emails\\spam"  # Chemin vers les emails spam

# Définition des étiquettes pour les types de messages
SPAM_TYPE = "SPAM"  # Étiquette pour les messages spam
HAM_TYPE = "HAM"    # Étiquette pour les messages non-spam (ham)

# Définition des listes pour stocker les données d'entrée (X) et les étiquettes (Y)
X = []  # Liste pour stocker les corps des emails
Y = []  # Liste pour stocker les étiquettes (spam ou ham)


def readFilesFromDirectory(path, classification):
    """
    Fonction pour lire les fichiers d'un répertoire et extraire leur contenu.
    Cette fonction remplit les listes X et Y avec le contenu des emails et leurs classifications.
    """
    files_name = os.listdir(path)  # Liste des noms de fichiers dans le répertoire spécifié
    for current_file in files_name:
        # Construction du chemin complet vers le fichier
        message = extract_mail_body(os.path.join(path, current_file))  # Extraction du contenu du fichier
        X.append(message)  # Ajout du contenu à la liste X
        Y.append(classification)  # Ajout de la classification (ham ou spam) à la liste Y
       
           
def extract_mail_body(file_name_str):
    """
    Fonction pour extraire le corps du message à partir d'un fichier email.
    Cette fonction ignore les en-têtes des emails et ne garde que le corps du message.
    """
    inBody = False  # Indicateur pour savoir si on est dans le corps du message
    lines = []  # Liste pour stocker les lignes du corps du message
    # Ouverture du fichier en mode lecture avec l'encodage 'latin1'
    with io.open(file_name_str, 'r', encoding='latin1') as file_descriptor:
        for line in file_descriptor:
            if inBody:  # Si on est déjà dans le corps du message
                lines.append(line)  # Ajouter la ligne au corps du message
            elif line == '\n':  # Si une ligne vide est rencontrée (fin des en-têtes)
                inBody = True  # Indiquer qu'on commence à lire le corps du message
    message = ''.join(lines)  # Combiner les lignes en une seule chaîne de texte
    return message  # Retourner le corps du message

# Chargement des emails depuis les répertoires 'ham' et 'spam'
readFilesFromDirectory(PATH_TO_HAM_DIR, HAM_TYPE)  # Charger les emails ham (non-spam)
readFilesFromDirectory(PATH_TO_SPAM_DIR, SPAM_TYPE)  # Charger les emails spam

# Création d'un DataFrame pour stocker les données d'entraînement
training_set = pd.DataFrame({'X': X, 'Y': Y})  # DataFrame avec les emails (X) et leurs étiquettes (Y)

# Transformation des emails en vecteurs de caractéristiques (compte des mots dans les emails)
vectorizer = CountVectorizer()  # Initialisation du CountVectorizer pour la vectorisation de texte
counts = vectorizer.fit_transform(training_set['X'].values)  # Apprentissage du vocabulaire et transformation des emails

# Création du classificateur Naïve Bayes pour la classification
classifier = MultinomialNB()  # Initialisation du classificateur Naïve Bayes
targets = training_set['Y'].values  # Les étiquettes des emails (ham ou spam)
classifier.fit(counts, targets)  # Entraînement du classificateur avec les données vectorisées et les étiquettes

# Exemple de prédictions sur de nouveaux emails
exemples = ['Free Viagra now!!!', "Hi Bob, how about a game of golf tomorrow?"]  # Exemple d'emails à classer
exemple_counts = vectorizer.transform(examples)  # Transformation des exemples en vecteurs de caractéristiques
predictions = classifier.predict(example_counts)  # Prédiction des classes (spam ou ham) pour les exemples

# Affichage des prédictions
print(predictions)  # Affichage des résultats des prédictions (SPAM ou HAM)

['SPAM' 'HAM']
