## <center style="color:blue;">**HamOrSpamAI**</center>

### <center>**Système Anti-Spam Intelligent**</center>

Ce projet vise à développer un système de classification automatique des emails pour identifier les messages spam et non-spam à l'aide de techniques de ml ou dl, avec un prétraitement des textes basé sur Nltk et TF-IDF.

<br>

### <span style="color:green;">**Chargement des Données :**</span>

#### <span style="color:orange;">**1. Créer la Session Spark :**</span>

In [1]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("HamOrSpamAI").getOrCreate()

print(f"- Version de Spark : {spark.version}")

- Version de Spark : 4.0.1


#### <span style="color:orange;">**2. Charger le Dataset :**</span>

In [18]:
df = spark.read.csv(
    "../data/clean/data.csv", 
    header=True, 
    inferSchema=True, 
    encoding="ISO-8859-1",
    multiLine=True,
    escape='"'
)

df.printSchema()

root
 |-- _c0: integer (nullable = true)
 |-- message_id: integer (nullable = true)
 |-- text: string (nullable = true)
 |-- label: integer (nullable = true)
 |-- label_text: string (nullable = true)
 |-- subject: string (nullable = true)
 |-- message: string (nullable = true)
 |-- date: date (nullable = true)



<br>

### <span style="color:green;">**Prétraitement des Données :**</span>

#### <span style="color:orange;">**1. Nettoyer le Dataset :**</span>

In [None]:
from pyspark.sql.functions import trim, col

df = df.dropna(subset=["text"])

df = df.filter(trim(col("text")) != "")

df = df.dropDuplicates()

#### <span style="color:orange;">**2. Normaliser le Dataset :**</span>

In [None]:
from pyspark.sql.functions import lower

df = df.withColumn("text", lower(col("text")))

#### <span style="color:orange;">**3. Supprimer la Ponctuation & Caractères Spéciaux :**</span>

In [None]:
from pyspark.sql.functions import regexp_replace

df = df.withColumn("text", regexp_replace(col("text"), r"[^a-zA-Z\s]", " "))    # Garder seulement les lettres et espaces

df = df.withColumn("text", regexp_replace(col("text"), r"\s+", " "))    # Remplacer les espaces multiples par un seul