In [1]:
import os
import sys
from pathlib import Path

print("CWD =", os.getcwd())

SRC_PATH = os.path.abspath("../../src")
if SRC_PATH not in sys.path:
    sys.path.insert(0, SRC_PATH)

print("SRC_PATH =", SRC_PATH)
print("rakuten_text can you see me? ", any("rakuten_text" in p for p in os.listdir(SRC_PATH)))

PROJECT_ROOT = Path.cwd().parent
SRC_PATH = PROJECT_ROOT / "src"
if str(SRC_PATH) not in sys.path:
    sys.path.insert(0, str(SRC_PATH))

from rakuten_text.cleaning import(
    global_text_cleaner,
    merge_x_dimensions,
    get_word_freq_with_nltk_stopwords,
    NLTK_STOPS,
    MY_STOPWORDS,
    BOILERPLATE_PHRASES,
)

CWD = /workspace/notebooks/archive
SRC_PATH = /workspace/src
rakuten_text can you see me?  True


In [2]:
raw_text = "100 % neuf //// LI LI STRONG 22 x 11 x 2 <br> Haute qualité !!! br br Et de plus, c'est génial m?"

cleaned = global_text_cleaner(raw_text)
print(cleaned)


100 neuf 22x11x2 haute qualité plus, c'est génial


In [3]:
raw_text = "T-shirt garçon 10 ans, taille S, 100 % coton"
cleaned = global_text_cleaner(raw_text)
print("RAW:     ", raw_text)
print("CLEANED: ", cleaned)


RAW:      T-shirt garçon 10 ans, taille S, 100 % coton
CLEANED:  t-shirt garçon 10ans, taille s, 100 coton


In [4]:
raw_text = "Lot de 3 coussins décoratifs pour canapé"
cleaned = global_text_cleaner(raw_text)
print("RAW:     ", raw_text)
print("CLEANED: ", cleaned)


RAW:      Lot de 3 coussins décoratifs pour canapé
CLEANED:  lot coussins décoratifs canapé


In [5]:
raw_text = "Sucre en poudre 500 g, spécial pâtisserie"
cleaned = global_text_cleaner(raw_text)
print("RAW:     ", raw_text)
print("CLEANED: ", cleaned)


RAW:      Sucre en poudre 500 g, spécial pâtisserie
CLEANED:  sucre poudre 500g, spécial pâtisserie


In [6]:
raw_text_1 = "Souris sans fil avec récepteur USB"
raw_text_2 = "Souris avec fil pour PC portable"

cleaned_1 = global_text_cleaner(raw_text_1)
cleaned_2 = global_text_cleaner(raw_text_2)

print("RAW 1:     ", raw_text_1)
print("CLEANED 1: ", cleaned_1)
print()
print("RAW 2:     ", raw_text_2)
print("CLEANED 2: ", cleaned_2)


RAW 1:      Souris sans fil avec récepteur USB
CLEANED 1:  souris sans fil récepteur usb

RAW 2:      Souris avec fil pour PC portable
CLEANED 2:  souris fil pc portable


In [7]:
raw_text = "Table et de chaises pour jardin en bois massif"
cleaned = global_text_cleaner(raw_text)
print("RAW:     ", raw_text)
print("CLEANED: ", cleaned)


RAW:      Table et de chaises pour jardin en bois massif
CLEANED:  table chaises jardin bois massif


In [8]:
raw_text = "100 % neuf //// LI LI STRONG 22 x 11 x 2 <br> " \
           "Lot de 3 T-shirts garçon taille S, coton 200 g/m2, " \
           "Haute qualité !!! br br Et de plus, c'est génial m?"

cleaned = global_text_cleaner(raw_text)
print("RAW:     ", raw_text)
print("CLEANED: ", cleaned)


RAW:      100 % neuf //// LI LI STRONG 22 x 11 x 2 <br> Lot de 3 T-shirts garçon taille S, coton 200 g/m2, Haute qualité !!! br br Et de plus, c'est génial m?
CLEANED:  100 neuf 22x11x2 lot t-shirts garçon taille s, coton 200g/m2, haute qualité plus, c'est génial


In [9]:
# Exemple 1 : unités simples
raw_text_1 = "Lot de 2 DVD, poids 500 g, volume 1 L, stockage 32 Go, réduction 100 %."
cleaned_1 = global_text_cleaner(raw_text_1)

print("RAW  :", raw_text_1)
print("CLEAN:", cleaned_1)


RAW  : Lot de 2 DVD, poids 500 g, volume 1 L, stockage 32 Go, réduction 100 %.
CLEAN: lot dvd, poids 500g, volume 1l, stockage 32go, réduction 100


In [10]:
# Exemple 2 : durées
raw_text_2 = "Garantie 24 h sur 24, service 7 j / 7, autonomie 48 heures, abonnement 12 mois, durée 3 ans."
cleaned_2 = global_text_cleaner(raw_text_2)

print("RAW  :", raw_text_2)
print("CLEAN:", cleaned_2)


RAW  : Garantie 24 h sur 24, service 7 j / 7, autonomie 48 heures, abonnement 12 mois, durée 3 ans.
CLEAN: garantie 24h 24, service 7j7, autonomie 48h, abonnement 12mois, durée 3ans


In [11]:
# Exemple 3 : tranches d'âge
raw_text_3 = (
    "Jeu éducatif pour enfants de 0-3 ans, puzzle 3 - 5 ans, jouet 6 ans et plus, "
    "livre pour 10 ans."
)
cleaned_3 = global_text_cleaner(raw_text_3)

print("RAW  :", raw_text_3)
print("CLEAN:", cleaned_3)


RAW  : Jeu éducatif pour enfants de 0-3 ans, puzzle 3 - 5 ans, jouet 6 ans et plus, livre pour 10 ans.
CLEAN: jeu éducatif enfants 0_3ans, puzzle 3_5ans, jouet 6plus_ans, livre 10ans


In [12]:
# Exemple 4 : années (dates de publication, sortie, etc.)
raw_text_4 = (
    "Roman classique paru en 1917, réédition en 2018. "
    "Jeu vidéo sorti en 2005, film en Blu-ray 2012."
)
cleaned_4 = global_text_cleaner(raw_text_4)

print("RAW  :", raw_text_4)
print("CLEAN:", cleaned_4)


RAW  : Roman classique paru en 1917, réédition en 2018. Jeu vidéo sorti en 2005, film en Blu-ray 2012.
CLEAN: roman classique paru 1917, réédition 2018. jeu vidéo sorti 2005, film blu-ray 2012.


In [13]:
# Exemple 5 : mélange de dimensions, unités, durées, âges et années
raw_text_5 = (
    "Console de jeu 32 Go, câble 2 m, tapis 180 x 180 cm, "
    "jeu pour 3 - 5 ans, garantie 2 ans, "
    "service client 24 h / 24 et 7 j / 7, "
    "édition limitée 2019."
)

cleaned_5 = global_text_cleaner(raw_text_5)

print("RAW  :", raw_text_5)
print("CLEAN:", cleaned_5)


RAW  : Console de jeu 32 Go, câble 2 m, tapis 180 x 180 cm, jeu pour 3 - 5 ans, garantie 2 ans, service client 24 h / 24 et 7 j / 7, édition limitée 2019.
CLEAN: console jeu 32go, câble 2m, tapis 180x180 cm, jeu 3_5ans, garantie 2ans, service client 24h24 7j7, édition limitée 2019.


In [14]:
# Exemple 6 : style "fiche produit Rakuten"
raw_text_6 = (
    "100 % NEUF //// LI LI STRONG 22 x 11 x 2 <br> "
    "Haute qualité !!! br br Et de plus, c'est génial m? "
    "Paru en 1998, pour enfants de 8 ans et plus, batterie 5000 mAh, autonomie 48 h."
)

cleaned_6 = global_text_cleaner(raw_text_6)

print("RAW  :", raw_text_6)
print("CLEAN:", cleaned_6)


RAW  : 100 % NEUF //// LI LI STRONG 22 x 11 x 2 <br> Haute qualité !!! br br Et de plus, c'est génial m? Paru en 1998, pour enfants de 8 ans et plus, batterie 5000 mAh, autonomie 48 h.
CLEAN: 100 neuf 22x11x2 haute qualité plus, c'est génial paru 1998, enfants 8plus_ans, batterie 5000mah, autonomie 48h


In [15]:

examples = [
    "LI LI STRONG superbe produit",
    "br br Ceci est une super description",
    "et de plus c'est top",
    "un texte normal sans boilerplate"
]

for t in examples:
    print("RAW   :", t)
    print("CLEAN :", global_text_cleaner(t))
    print("-" * 40)


RAW   : LI LI STRONG superbe produit
CLEAN : superbe produit
----------------------------------------
RAW   : br br Ceci est une super description
CLEAN : ceci super description
----------------------------------------
RAW   : et de plus c'est top
CLEAN : plus c'est top
----------------------------------------
RAW   : un texte normal sans boilerplate
CLEAN : texte normal sans boilerplate
----------------------------------------
