# Text Cleaning  

## 📌 Notebook Objective  

In this notebook, we focus on **cleaning and preprocessing text data** to enhance the quality of textual features for modeling.  

Text cleaning is a crucial step in **Natural Language Processing (NLP)**, ensuring that the input data is **consistent, structured, and noise-free**. This will **improve model performance** for text-based classification.  

###  **Key Steps**  

✔ **Loading structured datasets** → Import cleaned product metadata (`X_train_img.pkl` & `X_test_img.pkl`).  
✔ **Creating a unified text column** → Merging designation (title) and description.  
✔ **Cleaning text** → Lowercasing, removing accents, stripping HTML tags, and filtering special characters.  
✔ **Removing stopwords and shor words** → Eliminating common, unimportant words in French, English, and German, as well as words with fewer than 3 characters.                
✔ **Finalizing and saving** → Ensuring cleaned text is ready for further tasks and storing it as (`df_train_cleaned.pkl` & `df_test_cleaned.pkl`).

## 1. Load Pickle Files (X_train_img.pkl & X_test_img.pkl)

In [5]:
import os
import pandas as pd

# Adjust the display width for columns
pd.set_option('display.max_colwidth', 500)  #You can adjust it

# Define file paths for Pickle files
train_pickle_path = "../data/interim/X_train_img.pkl"
test_pickle_path = "../data/interim/X_test_img.pkl"


# Function to load a Pickle file safely
def load_pickle(file_path, dataset_name):
    if os.path.exists(file_path):
        try:
            data = pd.read_pickle(file_path)
            print(f"Successfully loaded `{dataset_name}` | Shape: {data.shape}\n")
            display(data.head())  # Display first few rows
            return data
        except Exception as e:
            print(f"Error loading `{dataset_name}`: {e}")
    else:
        print(f"File not found: {file_path}")
    return None

# Load both datasets
X_train = load_pickle(train_pickle_path, "X_train_img.pkl")
X_test = load_pickle(test_pickle_path, "X_test_img.pkl")


Successfully loaded `X_train_img.pkl` | Shape: (84916, 6)



Unnamed: 0,designation,description,productid,imageid,prdtypecode,image_name
0,Olivia: Personalisiertes Notizbuch / 150 Seiten / Punktraster / Ca Din A5 / Rosen-Design,,3804725264,1263597046,10,image_1263597046_product_3804725264.jpg
1,Journal Des Arts (Le) N° 133 Du 28/09/2001 - L'art Et Son Marche Salon D'art Asiatique A Paris - Jacques Barrere - Francois Perrier - La Reforme Des Ventes Aux Encheres Publiques - Le Sna Fete Ses Cent Ans.,,436067568,1008141237,2280,image_1008141237_product_436067568.jpg
2,Grand Stylet Ergonomique Bleu Gamepad Nintendo Wii U - Speedlink Pilot Style,PILOT STYLE Touch Pen de marque Speedlink est 1 stylet ergonomique pour GamePad Nintendo Wii U.<br> Pour un confort optimal et une précision maximale sur le GamePad de la Wii U: ce grand stylet hautement ergonomique est non seulement parfaitement adapté à votre main mais aussi très élégant.<br> Il est livré avec un support qui se fixe sans adhésif à l'arrière du GamePad<br> <br> Caractéristiques:<br> Modèle: Speedlink PILOT STYLE Touch Pen<br> Couleur: Bleu<br> Ref. Fabricant: SL-3468-BE<br>...,201115110,938777978,50,image_938777978_product_201115110.jpg
3,Peluche Donald - Europe - Disneyland 2000 (Marionnette À Doigt),,50418756,457047496,1280,image_457047496_product_50418756.jpg
4,La Guerre Des Tuques,Luc a des id&eacute;es de grandeur. Il veut organiser un jeu de guerre de boules de neige et s'arranger pour en &ecirc;tre le vainqueur incontest&eacute;. Mais Sophie s'en m&ecirc;le et chambarde tous ses plans...,278535884,1077757786,2705,image_1077757786_product_278535884.jpg


Successfully loaded `X_test_img.pkl` | Shape: (13812, 5)



Unnamed: 0,designation,description,productid,imageid,image_name
84916,Folkmanis Puppets - 2732 - Marionnette Et Théâtre - Mini Turtle,,516376098,1019294171,image_1019294171_product_516376098.jpg
84917,Porte Flamme Gaxix - Flamebringer Gaxix - 136/220 - U - Twilight Of The Dragons,,133389013,1274228667,image_1274228667_product_133389013.jpg
84918,Pompe de filtration Speck Badu 95,,4128438366,1295960357,image_1295960357_product_4128438366.jpg
84919,Robot de piscine électrique,<p>Ce robot de piscine d&#39;un design innovant et élégant apportera un nettoyage efficace et rapide. Il est conçu pour tous types de revêtements tels que le vinyle le béton la fibre de verre et la céramique.Avec un dispositif de commande il est facile à régler le cycle de nettoyage et le temps. Il suffit de brancher ce robot et le mettre dans la piscine.Ses deux filtres à paniers intérieurs sont mobiles pour retenir les moindres débits et le nettoyage. Ce robot de piscine robuste d&#39;une ...,3929899732,1265224052,image_1265224052_product_3929899732.jpg
84920,Hsm Destructeur Securio C16 Coupe Crois¿E: 4 X 25 Mm,,152993898,940543690,image_940543690_product_152993898.jpg


## **2. Generating a Unified Text Column**  

In the previous analysis of **CSV Exploration and Visualization**, we observed:  

- **35.1%** of `description` is missing in `df_xtrain` and **35.4%** in `df_xtest`.  
- `designation` (product title) is always present.  
- The `description` field, when available, provides additional context about the product.  

 **Action Plan:**  
To handle missing values and **enrich product information**, we will:  
✔**combine `designation` and `description`** into a single **text column**.  


In [6]:

# Convert designation and description to string type explicitly
X_train["designation"] = X_train["designation"].astype("string")
X_test["designation"] = X_test["designation"].astype("string")

X_train["description"] = X_train["description"].astype("string")
X_test["description"] = X_test["description"].astype("string")



# Function to remove duplicate words while preserving order
def remove_duplicate_words(text):
    words = text.split()
    unique_words = list(dict.fromkeys(words))  # Removes duplicates while keeping order
    return " ".join(unique_words)

# Function to create a cleaned text column
def create_clean_text(designation, description):
    """
    Combines 'designation' and 'description' into a single text column.
    - Handles missing descriptions
    - Merges text fields and removes duplicate words
    """
    if pd.isna(description) or description.strip() == "":
        text = designation
    else:
        text = f"{designation} {description}"

    return remove_duplicate_words(text)  # Apply duplicate removal

# Apply functions to create the cleaned 'text' column
X_train["text"] = X_train.apply(lambda row: create_clean_text(row["designation"], row["description"]), axis=1)
X_test["text"] = X_test.apply(lambda row: create_clean_text(row["designation"], row["description"]), axis=1)

# Display sample results
print(" Sample merged text column (Training Data):")
display(X_train[["designation", "description", "text"]].head())

print("\n Sample merged text column (Testing Data):")
display(X_test[["designation", "description", "text"]].head())


 Sample merged text column (Training Data):


Unnamed: 0,designation,description,text
0,Olivia: Personalisiertes Notizbuch / 150 Seiten / Punktraster / Ca Din A5 / Rosen-Design,,Olivia: Personalisiertes Notizbuch / 150 Seiten Punktraster Ca Din A5 Rosen-Design
1,Journal Des Arts (Le) N° 133 Du 28/09/2001 - L'art Et Son Marche Salon D'art Asiatique A Paris - Jacques Barrere - Francois Perrier - La Reforme Des Ventes Aux Encheres Publiques - Le Sna Fete Ses Cent Ans.,,Journal Des Arts (Le) N° 133 Du 28/09/2001 - L'art Et Son Marche Salon D'art Asiatique A Paris Jacques Barrere Francois Perrier La Reforme Ventes Aux Encheres Publiques Le Sna Fete Ses Cent Ans.
2,Grand Stylet Ergonomique Bleu Gamepad Nintendo Wii U - Speedlink Pilot Style,PILOT STYLE Touch Pen de marque Speedlink est 1 stylet ergonomique pour GamePad Nintendo Wii U.<br> Pour un confort optimal et une précision maximale sur le GamePad de la Wii U: ce grand stylet hautement ergonomique est non seulement parfaitement adapté à votre main mais aussi très élégant.<br> Il est livré avec un support qui se fixe sans adhésif à l'arrière du GamePad<br> <br> Caractéristiques:<br> Modèle: Speedlink PILOT STYLE Touch Pen<br> Couleur: Bleu<br> Ref. Fabricant: SL-3468-BE<br>...,Grand Stylet Ergonomique Bleu Gamepad Nintendo Wii U - Speedlink Pilot Style PILOT STYLE Touch Pen de marque est 1 stylet ergonomique pour GamePad U.<br> Pour un confort optimal et une précision maximale sur le la U: ce grand hautement non seulement parfaitement adapté à votre main mais aussi très élégant.<br> Il livré avec support qui se fixe sans adhésif l'arrière du GamePad<br> <br> Caractéristiques:<br> Modèle: Pen<br> Couleur: Bleu<br> Ref. Fabricant: SL-3468-BE<br> Compatibilité: U<br>...
3,Peluche Donald - Europe - Disneyland 2000 (Marionnette À Doigt),,Peluche Donald - Europe Disneyland 2000 (Marionnette À Doigt)
4,La Guerre Des Tuques,Luc a des id&eacute;es de grandeur. Il veut organiser un jeu de guerre de boules de neige et s'arranger pour en &ecirc;tre le vainqueur incontest&eacute;. Mais Sophie s'en m&ecirc;le et chambarde tous ses plans...,La Guerre Des Tuques Luc a des id&eacute;es de grandeur. Il veut organiser un jeu guerre boules neige et s'arranger pour en &ecirc;tre le vainqueur incontest&eacute;. Mais Sophie s'en m&ecirc;le chambarde tous ses plans...



 Sample merged text column (Testing Data):


Unnamed: 0,designation,description,text
84916,Folkmanis Puppets - 2732 - Marionnette Et Théâtre - Mini Turtle,,Folkmanis Puppets - 2732 Marionnette Et Théâtre Mini Turtle
84917,Porte Flamme Gaxix - Flamebringer Gaxix - 136/220 - U - Twilight Of The Dragons,,Porte Flamme Gaxix - Flamebringer 136/220 U Twilight Of The Dragons
84918,Pompe de filtration Speck Badu 95,,Pompe de filtration Speck Badu 95
84919,Robot de piscine électrique,<p>Ce robot de piscine d&#39;un design innovant et élégant apportera un nettoyage efficace et rapide. Il est conçu pour tous types de revêtements tels que le vinyle le béton la fibre de verre et la céramique.Avec un dispositif de commande il est facile à régler le cycle de nettoyage et le temps. Il suffit de brancher ce robot et le mettre dans la piscine.Ses deux filtres à paniers intérieurs sont mobiles pour retenir les moindres débits et le nettoyage. Ce robot de piscine robuste d&#39;une ...,Robot de piscine électrique <p>Ce robot d&#39;un design innovant et élégant apportera un nettoyage efficace rapide. Il est conçu pour tous types revêtements tels que le vinyle béton la fibre verre céramique.Avec dispositif commande il facile à régler cycle temps. suffit brancher ce mettre dans piscine.Ses deux filtres paniers intérieurs sont mobiles retenir les moindres débits nettoyage. Ce robuste d&#39;une vitesse 4233 gal/h parfait nettoyer totalité votre piscine.Avec son boîtier en therm...
84920,Hsm Destructeur Securio C16 Coupe Crois¿E: 4 X 25 Mm,,Hsm Destructeur Securio C16 Coupe Crois¿E: 4 X 25 Mm


## 3. Cleaning text

### 3.1 Converting Text to Lowercase

To ensure consistency in text processing, we convert all text to **lowercase**.  
This helps in **avoiding mismatches** between words like `"Laptop"` and `"laptop"`, which should be treated as the same word.  
We also remove extra spaces at the beginning and end of the text to make it cleaner.

In [7]:
# Function to convert text to lowercase
def lower_case(text):
    return text.lower().strip()

# Apply transformation
X_train["text"] = X_train["text"].apply(lower_case)
X_test["text"] = X_test["text"].apply(lower_case)

# Display sample results
print(" Sample cleaned text (Training Data):")
display(X_train[["text"]].head())

print("\n Sample cleaned text (Testing Data):")
display(X_test[["text"]].head())


 Sample cleaned text (Training Data):


Unnamed: 0,text
0,olivia: personalisiertes notizbuch / 150 seiten punktraster ca din a5 rosen-design
1,journal des arts (le) n° 133 du 28/09/2001 - l'art et son marche salon d'art asiatique a paris jacques barrere francois perrier la reforme ventes aux encheres publiques le sna fete ses cent ans.
2,grand stylet ergonomique bleu gamepad nintendo wii u - speedlink pilot style pilot style touch pen de marque est 1 stylet ergonomique pour gamepad u.<br> pour un confort optimal et une précision maximale sur le la u: ce grand hautement non seulement parfaitement adapté à votre main mais aussi très élégant.<br> il livré avec support qui se fixe sans adhésif l'arrière du gamepad<br> <br> caractéristiques:<br> modèle: pen<br> couleur: bleu<br> ref. fabricant: sl-3468-be<br> compatibilité: u<br>...
3,peluche donald - europe disneyland 2000 (marionnette à doigt)
4,la guerre des tuques luc a des id&eacute;es de grandeur. il veut organiser un jeu guerre boules neige et s'arranger pour en &ecirc;tre le vainqueur incontest&eacute;. mais sophie s'en m&ecirc;le chambarde tous ses plans...



 Sample cleaned text (Testing Data):


Unnamed: 0,text
84916,folkmanis puppets - 2732 marionnette et théâtre mini turtle
84917,porte flamme gaxix - flamebringer 136/220 u twilight of the dragons
84918,pompe de filtration speck badu 95
84919,robot de piscine électrique <p>ce robot d&#39;un design innovant et élégant apportera un nettoyage efficace rapide. il est conçu pour tous types revêtements tels que le vinyle béton la fibre verre céramique.avec dispositif commande il facile à régler cycle temps. suffit brancher ce mettre dans piscine.ses deux filtres paniers intérieurs sont mobiles retenir les moindres débits nettoyage. ce robuste d&#39;une vitesse 4233 gal/h parfait nettoyer totalité votre piscine.avec son boîtier en therm...
84920,hsm destructeur securio c16 coupe crois¿e: 4 x 25 mm


### 3.2  Decode HTML entities
This step will decode any HTML entities in the text (e.g., `&eacute;` becomes `é`).


In [8]:
import html

def decode_html_entities(text):
    """
    Decodes HTML entities in the text (e.g., &eacute; to é).
    """
    return html.unescape(text)

# Apply the function to the text columns
X_train['text'] = X_train['text'].apply(decode_html_entities)
X_test['text'] = X_test['text'].apply(decode_html_entities)

# Display a sample to verify
print("Sample text after decoding HTML entities (Training Data):")
display(X_train[['text']].head())

print("\nSample text after decoding HTML entities (Testing Data):")
display(X_test[['text']].head())


Sample text after decoding HTML entities (Training Data):


Unnamed: 0,text
0,olivia: personalisiertes notizbuch / 150 seiten punktraster ca din a5 rosen-design
1,journal des arts (le) n° 133 du 28/09/2001 - l'art et son marche salon d'art asiatique a paris jacques barrere francois perrier la reforme ventes aux encheres publiques le sna fete ses cent ans.
2,grand stylet ergonomique bleu gamepad nintendo wii u - speedlink pilot style pilot style touch pen de marque est 1 stylet ergonomique pour gamepad u.<br> pour un confort optimal et une précision maximale sur le la u: ce grand hautement non seulement parfaitement adapté à votre main mais aussi très élégant.<br> il livré avec support qui se fixe sans adhésif l'arrière du gamepad<br> <br> caractéristiques:<br> modèle: pen<br> couleur: bleu<br> ref. fabricant: sl-3468-be<br> compatibilité: u<br>...
3,peluche donald - europe disneyland 2000 (marionnette à doigt)
4,la guerre des tuques luc a des idées de grandeur. il veut organiser un jeu guerre boules neige et s'arranger pour en être le vainqueur incontesté. mais sophie s'en mêle chambarde tous ses plans...



Sample text after decoding HTML entities (Testing Data):


Unnamed: 0,text
84916,folkmanis puppets - 2732 marionnette et théâtre mini turtle
84917,porte flamme gaxix - flamebringer 136/220 u twilight of the dragons
84918,pompe de filtration speck badu 95
84919,robot de piscine électrique <p>ce robot d'un design innovant et élégant apportera un nettoyage efficace rapide. il est conçu pour tous types revêtements tels que le vinyle béton la fibre verre céramique.avec dispositif commande il facile à régler cycle temps. suffit brancher ce mettre dans piscine.ses deux filtres paniers intérieurs sont mobiles retenir les moindres débits nettoyage. ce robuste d'une vitesse 4233 gal/h parfait nettoyer totalité votre piscine.avec son boîtier en thermoplaste ...
84920,hsm destructeur securio c16 coupe crois¿e: 4 x 25 mm


### 3.3 Remove HTML Tags
This step removes any remaining HTML tags such as `<p>`, `<b>`, `<br>`, etc.

In [9]:
import re

def remove_html_tags(text):
    """
    Removes HTML tags from the given text using regex substitution.
    This ensures that only meaningful product information remains.
    """
    return re.sub(r"<[^<]+?>", "", text)

# Apply the function to the text columns
X_train['text'] = X_train['text'].apply(remove_html_tags)
X_test['text'] = X_test['text'].apply(remove_html_tags)

# Display a sample to verify
print("Sample text after removing HTML tags (Training Data):")
display(X_train[['text']].head())

print("\nSample text after removing HTML tags (Testing Data):")
display(X_test[['text']].head())


Sample text after removing HTML tags (Training Data):


Unnamed: 0,text
0,olivia: personalisiertes notizbuch / 150 seiten punktraster ca din a5 rosen-design
1,journal des arts (le) n° 133 du 28/09/2001 - l'art et son marche salon d'art asiatique a paris jacques barrere francois perrier la reforme ventes aux encheres publiques le sna fete ses cent ans.
2,grand stylet ergonomique bleu gamepad nintendo wii u - speedlink pilot style pilot style touch pen de marque est 1 stylet ergonomique pour gamepad u. pour un confort optimal et une précision maximale sur le la u: ce grand hautement non seulement parfaitement adapté à votre main mais aussi très élégant. il livré avec support qui se fixe sans adhésif l'arrière du gamepad caractéristiques: modèle: pen couleur: bleu ref. fabricant: sl-3468-be compatibilité: u forme particulièrement excellente t...
3,peluche donald - europe disneyland 2000 (marionnette à doigt)
4,la guerre des tuques luc a des idées de grandeur. il veut organiser un jeu guerre boules neige et s'arranger pour en être le vainqueur incontesté. mais sophie s'en mêle chambarde tous ses plans...



Sample text after removing HTML tags (Testing Data):


Unnamed: 0,text
84916,folkmanis puppets - 2732 marionnette et théâtre mini turtle
84917,porte flamme gaxix - flamebringer 136/220 u twilight of the dragons
84918,pompe de filtration speck badu 95
84919,robot de piscine électrique ce robot d'un design innovant et élégant apportera un nettoyage efficace rapide. il est conçu pour tous types revêtements tels que le vinyle béton la fibre verre céramique.avec dispositif commande il facile à régler cycle temps. suffit brancher ce mettre dans piscine.ses deux filtres paniers intérieurs sont mobiles retenir les moindres débits nettoyage. ce robuste d'une vitesse 4233 gal/h parfait nettoyer totalité votre piscine.avec son boîtier en thermoplaste vou...
84920,hsm destructeur securio c16 coupe crois¿e: 4 x 25 mm


### 3.4 Removing Accents from Text
This step will remove accents from characters in the text (e.g., `é` becomes `e`).

In [10]:
# Function to remove accented characters from text
def remove_accent(text):
    """
    Replaces accented characters with their non-accented counterparts.
    This ensures consistency in text processing and improves model robustness.
    """
    text = text.replace('á', 'a').replace('â', 'a')
    text = text.replace('é', 'e').replace('è', 'e').replace('ê', 'e').replace('ë', 'e')
    text = text.replace('î', 'i').replace('ï', 'i')
    text = text.replace('ö', 'o').replace('ô', 'o').replace('ò', 'o').replace('ó', 'o')
    text = text.replace('ù', 'u').replace('û', 'u').replace('ü', 'u')
    text = text.replace('ç', 'c')

    return text

# Apply transformation
X_train["text"] = X_train["text"].apply(remove_accent)
X_test["text"] = X_test["text"].apply(remove_accent)

# Display sample results
print(" Sample text after removing accents (Training Data):")
display(X_train[["text"]].head())

print("\n Sample text after removing accents (Testing Data):")
display(X_test[["text"]].head())


 Sample text after removing accents (Training Data):


Unnamed: 0,text
0,olivia: personalisiertes notizbuch / 150 seiten punktraster ca din a5 rosen-design
1,journal des arts (le) n° 133 du 28/09/2001 - l'art et son marche salon d'art asiatique a paris jacques barrere francois perrier la reforme ventes aux encheres publiques le sna fete ses cent ans.
2,grand stylet ergonomique bleu gamepad nintendo wii u - speedlink pilot style pilot style touch pen de marque est 1 stylet ergonomique pour gamepad u. pour un confort optimal et une precision maximale sur le la u: ce grand hautement non seulement parfaitement adapte à votre main mais aussi tres elegant. il livre avec support qui se fixe sans adhesif l'arriere du gamepad caracteristiques: modele: pen couleur: bleu ref. fabricant: sl-3468-be compatibilite: u forme particulierement excellente t...
3,peluche donald - europe disneyland 2000 (marionnette à doigt)
4,la guerre des tuques luc a des idees de grandeur. il veut organiser un jeu guerre boules neige et s'arranger pour en etre le vainqueur inconteste. mais sophie s'en mele chambarde tous ses plans...



 Sample text after removing accents (Testing Data):


Unnamed: 0,text
84916,folkmanis puppets - 2732 marionnette et theatre mini turtle
84917,porte flamme gaxix - flamebringer 136/220 u twilight of the dragons
84918,pompe de filtration speck badu 95
84919,robot de piscine electrique ce robot d'un design innovant et elegant apportera un nettoyage efficace rapide. il est concu pour tous types revetements tels que le vinyle beton la fibre verre ceramique.avec dispositif commande il facile à regler cycle temps. suffit brancher ce mettre dans piscine.ses deux filtres paniers interieurs sont mobiles retenir les moindres debits nettoyage. ce robuste d'une vitesse 4233 gal/h parfait nettoyer totalite votre piscine.avec son boitier en thermoplaste vou...
84920,hsm destructeur securio c16 coupe crois¿e: 4 x 25 mm


### 3.5  Normalize Text by Replacing Special Characters
This step replaces certain special characters and typographic symbols with their standard equivalents. This ensures consistency and helps in preparing the text for further processing.

We will replace:
- **Smart quotes** with regular quotes
- **En dashes** and **em dashes** with a hyphen
- **Ellipses** with three dots
- Remove unwanted characters (e.g., `¿`)

This will further clean up the text and avoid unwanted characters affecting model performance.


In [11]:
def normalize_text(text):
    """
    Replace special characters with their standard equivalents.
    This step includes replacing smart quotes, dashes, ellipses, and removing unwanted characters.
    """
    replacements = {
        "’": "'",    # Smart quote → standard quote
        "‘": "'",    # Smart quote → standard quote
        "“": '"',    # Smart quote → standard quote
        "”": '"',    # Smart quote → standard quote
        "–": "-",    # En dash → hyphen
        "—": "-",    # Em dash → hyphen
        "…": "...",  # Ellipsis → three dots
        "¿": "",     # Remove unwanted character
    }
    for key, value in replacements.items():
        text = text.replace(key, value)
    return text

# Apply the function to the text columns
X_train["text"] = X_train["text"].apply(normalize_text)
X_test["text"] = X_test["text"].apply(normalize_text)

# Display sample results
print("Sample text after normalizing special characters (Training Data):")
display(X_train[["text"]].head())

print("\nSample text after normalizing special characters (Testing Data):")
display(X_test[["text"]].head())


Sample text after normalizing special characters (Training Data):


Unnamed: 0,text
0,olivia: personalisiertes notizbuch / 150 seiten punktraster ca din a5 rosen-design
1,journal des arts (le) n° 133 du 28/09/2001 - l'art et son marche salon d'art asiatique a paris jacques barrere francois perrier la reforme ventes aux encheres publiques le sna fete ses cent ans.
2,grand stylet ergonomique bleu gamepad nintendo wii u - speedlink pilot style pilot style touch pen de marque est 1 stylet ergonomique pour gamepad u. pour un confort optimal et une precision maximale sur le la u: ce grand hautement non seulement parfaitement adapte à votre main mais aussi tres elegant. il livre avec support qui se fixe sans adhesif l'arriere du gamepad caracteristiques: modele: pen couleur: bleu ref. fabricant: sl-3468-be compatibilite: u forme particulierement excellente t...
3,peluche donald - europe disneyland 2000 (marionnette à doigt)
4,la guerre des tuques luc a des idees de grandeur. il veut organiser un jeu guerre boules neige et s'arranger pour en etre le vainqueur inconteste. mais sophie s'en mele chambarde tous ses plans...



Sample text after normalizing special characters (Testing Data):


Unnamed: 0,text
84916,folkmanis puppets - 2732 marionnette et theatre mini turtle
84917,porte flamme gaxix - flamebringer 136/220 u twilight of the dragons
84918,pompe de filtration speck badu 95
84919,robot de piscine electrique ce robot d'un design innovant et elegant apportera un nettoyage efficace rapide. il est concu pour tous types revetements tels que le vinyle beton la fibre verre ceramique.avec dispositif commande il facile à regler cycle temps. suffit brancher ce mettre dans piscine.ses deux filtres paniers interieurs sont mobiles retenir les moindres debits nettoyage. ce robuste d'une vitesse 4233 gal/h parfait nettoyer totalite votre piscine.avec son boitier en thermoplaste vou...
84920,hsm destructeur securio c16 coupe croise: 4 x 25 mm


### 3.6. Keeping Essential Characters Only
In this step, we will remove any non-alphabetic characters (e.g., numbers, punctuation) and keep only letters. This helps in focusing on meaningful words for the model.


In [12]:
def keeping_essentiel(text):
    """
    Removes all non-alphabetic characters and keeps only letters.
    This ensures that the text contains only relevant words and characters.
    """
    text = re.sub(r"[^a-zA-Z]+", " ", text)
    return text

# Apply the function to the text columns
X_train['text'] = X_train['text'].apply(lambda text: keeping_essentiel(text))
X_test['text'] = X_test['text'].apply(lambda text: keeping_essentiel(text))

# Display a sample to verify
print("Sample text after keeping only essential characters (Training Data):")
display(X_train[['text']].head())

print("\nSample text after keeping only essential characters (Testing Data):")
display(X_test[['text']].head())


Sample text after keeping only essential characters (Training Data):


Unnamed: 0,text
0,olivia personalisiertes notizbuch seiten punktraster ca din a rosen design
1,journal des arts le n du l art et son marche salon d art asiatique a paris jacques barrere francois perrier la reforme ventes aux encheres publiques le sna fete ses cent ans
2,grand stylet ergonomique bleu gamepad nintendo wii u speedlink pilot style pilot style touch pen de marque est stylet ergonomique pour gamepad u pour un confort optimal et une precision maximale sur le la u ce grand hautement non seulement parfaitement adapte votre main mais aussi tres elegant il livre avec support qui se fixe sans adhesif l arriere du gamepad caracteristiques modele pen couleur bleu ref fabricant sl be compatibilite u forme particulierement excellente tenue en main pointe r...
3,peluche donald europe disneyland marionnette doigt
4,la guerre des tuques luc a des idees de grandeur il veut organiser un jeu guerre boules neige et s arranger pour en etre le vainqueur inconteste mais sophie s en mele chambarde tous ses plans



Sample text after keeping only essential characters (Testing Data):


Unnamed: 0,text
84916,folkmanis puppets marionnette et theatre mini turtle
84917,porte flamme gaxix flamebringer u twilight of the dragons
84918,pompe de filtration speck badu
84919,robot de piscine electrique ce robot d un design innovant et elegant apportera un nettoyage efficace rapide il est concu pour tous types revetements tels que le vinyle beton la fibre verre ceramique avec dispositif commande il facile regler cycle temps suffit brancher ce mettre dans piscine ses deux filtres paniers interieurs sont mobiles retenir les moindres debits nettoyage ce robuste d une vitesse gal h parfait nettoyer totalite votre piscine avec son boitier en thermoplaste vous donne un...
84920,hsm destructeur securio c coupe croise x mm


### 3.7 Removing Stopwords and Short Words

In this step, we will remove **stopwords** (commonly used words like "the", "and", "is", etc.) and **short words** (words with fewer than 3 characters) from the text. These words do not add significant meaning to the text and can introduce noise, making it harder for the model to learn useful patterns.

The function `remove_stopwords_and_short_words` will:
- Eliminate stopwords from the text, including those from French, English, and German, as well as custom stopwords specific to our dataset.
- Remove any words that are shorter than 3 characters.

This helps ensure that only meaningful words remain in the dataset, improving model performance.


In [None]:
# Import stopwords from nltk.corpus class
from nltk.corpus import stopwords

# Initialize the stop words variable
stop_words = (stopwords.words('french') 
              + stopwords.words('english') 
              + stopwords.words('german') 
              + ['plus', 'peut', 'tout', 'etre', 'sans', 'dont', 'aussi', 'comme', 'meme', 'bien', 
                 'leurs', 'elles', 'cette', 'celui', 'ainsi', 'encore', 'alors', 'toujours', 'toute', 
                 'deux', 'nouveau', 'peu', 'car', 'autre', 'jusqu', 'quand', 'ici', 'ceux', 'enfin', 
                 'jamais', 'autant', 'tant', 'avoir', 'moin', 'celle', 'tous', 'contre', 'pourtant', 
                 'quelque', 'toutes', 'surtout', 'cet', 'comment', 'rien', 'avant', 'doit', 'autre', 
                 'depuis', 'moins', 'tre', 'souvent', 'etait', 'pouvoir', 'apre', 'non', 'ver', 'quel', 
                 'pourquoi', 'certain', 'fait', 'faire', 'sou', 'donc', 'trop', 'quelques', 'parfois', 
                 'tres', 'donc', 'dire', 'eacute', 'egrave', 'rsquo', 'agrave', 'ecirc', 'nbsp', 'acirc', 
                 'apres', 'autres', 'ocirc', 'entre', 'sous', 'quelle'])



def remove_stopwords_and_short_words(list):
    """
    Removes stopwords from a list of words and filters out words that are too short (less than 3 characters).
    Only words that are not in the stopwords list and have more than 2 characters will be kept.
    """
    filtered_words  = []
    for mot in list:
        if (mot not in stop_words and len(mot) > 2):
            filtered_words .append(mot)
    return filtered_words 

# Split the text into individual words (tokens)
X_train['text'] = X_train['text'].str.split()
X_test['text'] = X_test['text'].str.split()

# Apply stopwords removal and filter short words from both datasets
X_train['text'] = X_train['text'].apply(lambda x: remove_stopwords_and_short_words(x))
X_test['text'] = X_test['text'].apply(lambda x: remove_stopwords_and_short_words(x))

# Join the words back into a string
X_train['text'] = X_train['text'].apply(lambda x: " ".join(x))
X_test['text'] = X_test['text'].apply(lambda x: " ".join(x))

# Display a sample to verify
print("Sample text after removing stopwords and short words (Training Data):")
display(X_train[['text']].head())

print("\nSample text after removing stopwords and short words (Testing Data):")
display(X_test[['text']].head())


### 3.8 Removing Punctuation

Punctuation marks such as periods, commas, question marks, exclamation points, parentheses, and quotation marks do not generally contribute meaningful information for most text classification tasks. Therefore, we will remove them to clean up the text and ensure that only the relevant words are processed.

In this step:
- We use the `string.punctuation` library to identify and remove all punctuation marks from the text.
- This ensures the model focuses on the core content without being distracted by unnecessary symbols.

The function `remove_punctuation` will be applied to both the training and testing datasets.


In [None]:
import string


def remove_punctuation(text):
    # Remove punctuation using Python string.punctuation
    return text.translate(str.maketrans('', '', string.punctuation))

# Apply this function to both datasets
X_train['text'] = X_train['text'].apply(remove_punctuation)
X_test['text'] = X_test['text'].apply(remove_punctuation)


# Display a sample to verify
print("Sample text after removing punctuation(Training Data):")
display(X_train[['text']].head())

print("\nSample text after removing punctuation (Testing Data):")
display(X_test[['text']].head())


# 4. Saving Updated Datasets for Future Use

To avoid reloading and recomputing the datasets in every notebook, we save the cleaned datasets as Pickle files.

In this notebook, we have performed the following:
- Combined the `designation` (title) and `description` into a single column called `text`.
- Cleaned the text data by converting it to lowercase, removing accents, stripping HTML tags, filtering special characters, and eliminating stopwords and short words.

We will store the following updated datasets for future use:
- **`x_train_cleaned.pkl`** → The training dataset with cleaned text.
- **`x_test_cleaned.pkl`** → The test dataset with cleaned text.

These files will be used in future steps, including feature engineering and model training.

In [None]:
import os
import pickle

# Define the directory and file names
pickle_dir = "../data/interim/"
os.makedirs(pickle_dir, exist_ok=True)

# Define file paths
train_pickle_path = os.path.join(pickle_dir, "X_train_cleaned.pkl")
test_pickle_path = os.path.join(pickle_dir, "X_test_cleaned.pkl")

try:
    # Save updated training dataset
    X_train.to_pickle(train_pickle_path)
    print(f"Training dataset saved: {train_pickle_path}")

    # Save updated test dataset
    X_test.to_pickle(test_pickle_path)
    print(f"Test dataset saved: {test_pickle_path}")

except Exception as e:
    print(f"Error saving datasets: {e}")


## 5. 🔄 Next Steps  

Now that we have cleaned the text data, the next step is to enhance our understanding of the dataset through **visualizations** and further analysis.

We will utilize the cleaned text data to:
- Create **WordClouds** to visually represent the most frequent words in different classes.
- Identify key labels for each class, such as:
  - 50: 'video games accessories'
  - 2705: 'books'
  - ...and more.

The **WordClouds** will help us to visually explore and understand the dominant themes for each product category.

---
➡️ **Proceed to `5_WordClouds_for_Text_Product_Categories.ipynb`**  
This notebook will focus on generating WordClouds for each product category and analyzing the textual content of the dataset.
