In [None]:
import pandas as pd

DATA_PATH = '../Data/cleaned/cleaned_data.csv'

df = pd.read_csv(DATA_PATH, encoding='latin-1')

print(f"Taille du dataset : {df.shape}")
display(df.head())

Taille du dataset : (28811, 3)


Unnamed: 0,text,label,label_text
0,any software just for 15 $ - 99 $ understandin...,1,spam
1,perspective on ferc regulatory action client c...,0,ham
2,wanted to try ci 4 lis but thought it was way ...,1,spam
3,"enron / hpl actuals for december 11 , 2000 tec...",0,ham
4,looking for cheap high - quality software ? ro...,1,spam


In [2]:
import re
import string
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer

# Téléchargement de la liste des stopwords (mots vides)
nltk.download('stopwords')

stemmer = PorterStemmer() 
stop_words = set(stopwords.words('english'))


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\elabi\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


#  NLP Text Cleaning Pipeline — Prétraitement du Dataset

Ce notebook effectue le prétraitement complet d’un dataset textuel composé de **28 811 lignes**.  
L’objectif est de nettoyer les textes avant l’entraînement d’un modèle de classification NLP.

##  Étapes réalisées dans ce notebook :

### 1. Chargement et inspection des données
- Lecture du dataset
- Vérification des valeurs manquantes
- Suppression des lignes contenant `NaN`

### 2. Prétraitement du texte
Les opérations suivantes sont appliquées à chaque texte :

- Conversion en **minuscules**
- Suppression de la **ponctuation** et des caractères spéciaux via `regex`
- **Tokenisation**
- Suppression des **stopwords (NLTK stopwords en anglais)**
- Application du **Stemming (PorterStemmer)** pour réduire les mots à leur racine

### 3. Fonction `clean_word()`
Cette fonction transforme chaque texte en une version nettoyée, optimisée pour :
- TF-IDF
- bag-of-words
- vectorisation dans une base vectorielle
- classification machine learning

### 4. Sauvegarde du dataset nettoyé
Le dataset final nettoyé est sauvegardé pour être utilisé dans les étapes suivantes du pipeline NLP.

---
 **Remarque :**  
Le stemming est utilisé car il est plus rapide et adapté à un dataset de taille moyenne (28k lignes) sans perte significative de performance pour la classification.


In [3]:
def clean_word(text):
    # Lowercase
    text = text.lower()
    
    # Remove punctuation and special characters
    text = re.sub(r'[^a-z\s]', '', text)
    
    # Tokenize
    words = text.split()
    
    # Remove stopwords + stemming
    clean_words = [
        stemmer.stem(word) 
        for word in words 
        if word not in stop_words
    ]

    return " ".join(clean_words)


###  Application de la fonction de nettoyage sur la colonne *text*

Dans cette étape, nous appliquons la fonction `clean_word` (fonction de prétraitement du texte) à l’ensemble de la colonne **text** du dataset.  
L’objectif est de transformer chaque texte brut en une version nettoyée prête pour l’analyse ou l’entraînement d’un modèle NLP.




In [4]:

df['clean_text'] = df['text'].apply(clean_word)

display(df[['text', 'clean_text']].head())

Unnamed: 0,text,clean_text
0,any software just for 15 $ - 99 $ understandin...,softwar understand oem softwar lead temptat fi...
1,perspective on ferc regulatory action client c...,perspect ferc regulatori action client conf ca...
2,wanted to try ci 4 lis but thought it was way ...,want tri ci li thought way expens viagra per d...
3,"enron / hpl actuals for december 11 , 2000 tec...",enron hpl actual decemb teco tap enron hpl ga ...
4,looking for cheap high - quality software ? ro...,look cheap high qualiti softwar rotat napoleon...


In [5]:

df_final = df[['label', 'label_text', 'clean_text']]


df_final.to_csv('../Data/processed/processed_data.csv', index=False)