# Benchmark de PrÃ©traitement de Texte

Ce notebook dÃ©montre les rÃ©sultats de l'Ã©tude de benchmark pour identifier la meilleure stratÃ©gie de nettoyage de texte pour la classification de produits Rakuten.

## Objectifs

1. Comparer diffÃ©rentes stratÃ©gies de prÃ©traitement de texte
2. Identifier la configuration optimale pour la classification
3. Mesurer l'impact de chaque Ã©tape de nettoyage

## MÃ©thodologie

- **ModÃ¨le** : Pipeline TF-IDF + RÃ©gression Logistique
- **MÃ©trique** : F1 Score (pondÃ©rÃ©)
- **DonnÃ©es** : 84,916 produits Rakuten avec 27 catÃ©gories
- **Division** : 85% train / 15% test

---

## 1. Importations et Configuration

In [7]:
import sys
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

sys.path.insert(0, '../src')

# Importer les modules de prÃ©traitement et benchmark
from rakuten_text.preprocessing import clean_text, final_text_cleaner, print_available_options
from rakuten_text.benchmark import load_dataset, define_experiments, run_benchmark, analyze_results, save_results

## 2. Chargement des DonnÃ©es

In [8]:
# Charger le dataset Rakuten
df = load_dataset(data_dir="../data/raw/")

## 3. Exploration des Options de Nettoyage

Voyons toutes les options de nettoyage disponibles :

In [9]:
# Afficher toutes les options de nettoyage disponibles
print_available_options()

Options de nettoyage disponibles :
  fix_encoding              : Corriger l'encodage de texte cassÃ© avec ftfy
  unescape_html             : DÃ©coder les entitÃ©s HTML (&amp; â†’ &)
  normalize_unicode         : Appliquer la normalisation Unicode NFC
  remove_html_tags          : Supprimer les balises HTML <tag>contenu</tag>
  remove_boilerplate        : Supprimer les phrases de template communes
  lowercase                 : Convertir en minuscules
  merge_dimensions          : Fusionner les motifs de dimensions (22 x 11 â†’ 22x11)
  merge_units               : Fusionner les unitÃ©s numÃ©riques (500 g â†’ 500g)
  merge_durations           : Fusionner les durÃ©es (24 h â†’ 24h)
  merge_age_ranges          : Fusionner les tranches d'Ã¢ge (3-5 ans â†’ 3_5ans)
  tag_years                 : Ã‰tiqueter les annÃ©es Ã  4 chiffres (1917 â†’ year1917)
  remove_punctuation        : Supprimer les signes de ponctuation isolÃ©s
  remove_stopwords          : Supprimer les mots vides franÃ§ais/anglai

## 4. Benchmark Complet

ExÃ©cutons le benchmark complet pour comparer toutes les stratÃ©gies de nettoyage.

**Note** : Cette cellule peut prendre plusieurs minutes Ã  s'exÃ©cuter.

In [10]:
# DÃ©finir les expÃ©riences
experiments = define_experiments()

print(f"Nombre total d'expÃ©riences : {len(experiments)}")
print("\nExemples d'expÃ©riences :")
for exp in experiments[:5]:
    print(f"  - {exp['name']:30s} (Groupe: {exp['group']})")
print("  ...")

Nombre total d'expÃ©riences : 22

Exemples d'expÃ©riences :
  - baseline_raw                   (Groupe: 0_Baseline)
  - fix_encoding                   (Groupe: 1_Encodage)
  - unescape_html                  (Groupe: 1_Encodage)
  - normalize_unicode              (Groupe: 1_Encodage)
  - all_encoding_fixes             (Groupe: 1_Encodage)
  ...


In [11]:
results_df = run_benchmark(
    df=df,
    experiments=experiments,
    test_size=0.15,
    random_state=42,
    tfidf_max_features=10000,
    tfidf_ngram_range=(1, 2),
    verbose=True
)

CONFIGURATION DU BENCHMARK
Total expÃ©riences      : 22
Taille de test         : 0.15
Ã‰tat alÃ©atoire         : 42
TF-IDF max features    : 10,000
TF-IDF plage n-grammes : (1, 2)

CrÃ©ation de la division train/test...
  Train : 72,178 Ã©chantillons
  Test  : 12,738 Ã©chantillons

[1/22] baseline_raw
  Groupe : 0_Baseline
  Config : Aucune (donnÃ©es brutes)
  Nettoyage du texte... âœ“ (longueur moyenne : 595 caractÃ¨res)
  EntraÃ®nement... âœ“
  Ã‰valuation... âœ“
  â†’ Score F1 : 0.792667 | Exactitude : 0.7924 | [BASELINE]

[2/22] fix_encoding
  Groupe : 1_Encodage
  Config : {'fix_encoding': True}
  Nettoyage du texte... âœ“ (longueur moyenne : 588 caractÃ¨res)
  EntraÃ®nement... âœ“
  Ã‰valuation... âœ“
  â†’ Score F1 : 0.793638 | Exactitude : 0.7932 | Î” vs baseline : ðŸš€ +0.000971 (+0.12%)

[3/22] unescape_html
  Groupe : 1_Encodage
  Config : {'unescape_html': True}
  Nettoyage du texte... âœ“ (longueur moyenne : 584 caractÃ¨res)
  EntraÃ®nement... âœ“
  Ã‰valuation... âœ“
  â†

## 5. Analyse des RÃ©sultats

In [12]:
# Analyser les rÃ©sultats
analyze_results(results_df, top_n=10)


ANALYSE DES RÃ‰SULTATS DU BENCHMARK

Score F1 Baseline : 0.792667

ðŸš€ TOP 10 AMÃ‰LIORATIONS :
--------------------------------------------------------------------------------
  traditional_cleaning           | F1 : 0.802877 | Î” : +0.010209 (+1.29%) | Groupe : 7_Combos
  lowercase                      | F1 : 0.797317 | Î” : +0.004649 (+0.59%) | Groupe : 3_Casse
  remove_stopwords               | F1 : 0.793857 | Î” : +0.001189 (+0.15%) | Groupe : 6_Filtrage
  conservative_cleaning          | F1 : 0.793796 | Î” : +0.001128 (+0.14%) | Groupe : 7_Combos
  merge_dimensions               | F1 : 0.793794 | Î” : +0.001127 (+0.14%) | Groupe : 4_Fusions
  fix_encoding                   | F1 : 0.793638 | Î” : +0.000971 (+0.12%) | Groupe : 1_Encodage
  remove_html_tags               | F1 : 0.793478 | Î” : +0.000810 (+0.10%) | Groupe : 2_HTML
  all_encoding_fixes             | F1 : 0.793343 | Î” : +0.000675 (+0.09%) | Groupe : 1_Encodage
  all_merges                     | F1 : 0.793109 | Î” : +0