# P6 - Notebook 2 : Prétraitement du Texte (NLP)

In [1]:
# ---
# ### Respect de la Propriété Intellectuelle des Données Textuelles
# Les données textuelles utilisées proviennent d'un jeu de données public (`flipkart_com-ecommerce_sample`).
# Leur utilisation se fait dans un cadre strictement pédagogique et non commercial.
# ---

## 1. Imports et Chargement des Données

In [2]:
import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
import re

# Téléchargement des ressources NLTK nécessaires
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

# Charger les données nettoyées
df = pd.read_csv('Data/data_cleaned.csv')
print("Données chargées :")
print(df.head())

Données chargées :
                                         description    main_category  \
0  Key Features of Elegance Polyester Multicolor ...  Home Furnishing   
1  Specifications of Sathiyas Cotton Bath Towel (...        Baby Care   
2  Key Features of Eurospa Cotton Terry Face Towe...        Baby Care   
3  Key Features of SANTOSH ROYAL FASHION Cotton P...  Home Furnishing   
4  Key Features of Jaipur Print Cotton Floral Kin...  Home Furnishing   

                                         image_path  
0  Data/Images/55b85ea15a1536d46b7190ad6fff8ce7.jpg  
1  Data/Images/7b72c92c2f6c40268628ec5f14c6d590.jpg  
2  Data/Images/64d5d4a258243731dc7bbb1eef49ad74.jpg  
3  Data/Images/d4684dcdc759dd9cdf41504698d737d8.jpg  
4  Data/Images/6325b6870c54cd47be6ebfbffa620ec7.jpg  


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Thomas\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Thomas\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Thomas\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


## 2. Définition du Pipeline de Nettoyage de Texte

In [3]:
# Initialisation des outils
stop_words = set(stopwords.words('english'))
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

def clean_text_pipeline(text):
    """
    Pipeline complet pour nettoyer une chaîne de caractères :
    1. Passage en minuscules
    2. Suppression des caractères non alphabétiques
    3. Tokenisation
    4. Suppression des stopwords
    5. Lemmatisation
    """
    if not isinstance(text, str):
        return ""

    # 1. Minuscules et suppression de la ponctuation/chiffres
    text = text.lower()
    text = re.sub(r'[^a-zA-Z\s]', '', text)

    # 2. Tokenisation
    tokens = word_tokenize(text)

    # 3. Suppression des stopwords et 4. Stemmatisation
    cleaned_tokens = [stemmer.stem(word) for word in tokens if word not in stop_words and len(word) > 2]
    # cleaned_tokens = [lemmatizer.stem(word) for word in tokens if word not in stop_words and len(word) > 2]

    return " ".join(cleaned_tokens)

## 3. Illustration du Pipeline sur un Exemple

In [4]:
exemple_texte = df['description'].iloc[0]
print("--- EXEMPLE DE TRANSFORMATION ---")
print(f"Texte original :\n{exemple_texte}\n")
print(f"Texte nettoyé :\n{clean_text_pipeline(exemple_texte)}")

--- EXEMPLE DE TRANSFORMATION ---
Texte original :
Key Features of Elegance Polyester Multicolor Abstract Eyelet Door Curtain Floral Curtain,Elegance Polyester Multicolor Abstract Eyelet Door Curtain (213 cm in Height, Pack of 2) Price: Rs. 899 This curtain enhances the look of the interiors.This curtain is made from 100% high quality polyester fabric.It features an eyelet style stitch with Metal Ring.It makes the room environment romantic and loving.This curtain is ant- wrinkle and anti shrinkage and have elegant apparance.Give your home a bright and modernistic appeal with these designs. The surreal attention is sure to steal hearts. These contemporary eyelet and valance curtains slide smoothly so when you draw them apart first thing in the morning to welcome the bright sun rays you want to wish good morning to the whole world and when you draw them close in the evening, you create the most special moments of joyous beauty given by the soothing prints. Bring home the elegant curtain 

## 4. Application du Pipeline à l'Ensemble des Données

In [5]:
print("\n\nApplication du nettoyage à l'ensemble du dataset...")
df['cleaned_description'] = df['description'].apply(clean_text_pipeline)
print("Nettoyage terminé.")



Application du nettoyage à l'ensemble du dataset...
Nettoyage terminé.


## 5. Sauvegarde du DataFrame Prétraité

In [6]:
# On garde uniquement les colonnes nécessaires pour la suite
df_nlp_final = df[['main_category', 'cleaned_description']]

print("\nExtrait du DataFrame final :")
print(df_nlp_final.head())

# Sauvegarde pour le notebook d'algorithmes textuels
df_nlp_final.to_csv('Data/df_desc_cleaned.csv', index=False)
print("\n\nDataFrame avec texte nettoyé sauvegardé dans 'Data/df_desc_cleaned.csv'")


Extrait du DataFrame final :
     main_category                                cleaned_description
0  Home Furnishing  key featur eleg polyest multicolor abstract ey...
1        Baby Care  specif sathiya cotton bath towel bath towel re...
2        Baby Care  key featur eurospa cotton terri face towel set...
3  Home Furnishing  key featur santosh royal fashion cotton print ...
4  Home Furnishing  key featur jaipur print cotton floral king siz...


DataFrame avec texte nettoyé sauvegardé dans 'Data/df_desc_cleaned.csv'
