# üèóÔ∏è Pipeline de Preprocessing Complet

**Module 2 : Preprocessing et Tokenisation - Synth√®se Finale**

---

## üéØ Objectifs de ce Notebook

Ce notebook constitue la **synth√®se finale** du Module 2. Vous allez :

- üîß **Construire un pipeline complet** int√©grant toutes les techniques
- ‚öôÔ∏è **Cr√©er une classe configurable** et r√©utilisable
- üìä **Mesurer l'impact** de chaque √©tape
- üéØ **Adapter le pipeline** selon le cas d'usage
- üöÄ **Optimiser les performances** pour la production
- ‚úÖ **Valider la qualit√©** du preprocessing

## üó∫Ô∏è Architecture du Pipeline

```
üìù Texte Brut
     ‚Üì
üßπ 1. Nettoyage (casse, ponctuation, URLs, emojis)
     ‚Üì  
üîß 2. Normalisation (accents, espaces, entit√©s)
     ‚Üì
‚úÇÔ∏è 3. Tokenisation (d√©coupage en mots)
     ‚Üì
üõë 4. Filtrage (stopwords, longueur minimale)
     ‚Üì
üå± 5. Lemmatisation/Stemming (forme canonique)
     ‚Üì
‚úÖ Texte Pr√™t pour ML/NLP
```

## üí° Pourquoi un Pipeline ?

**Avantages :**
- üîÑ **Reproductible** : M√™me traitement √† chaque fois
- ‚öôÔ∏è **Configurable** : Adaptation selon le contexte
- üìà **Mesurable** : M√©triques √† chaque √©tape
- üöÄ **Optimis√©** : Performance pour la production
- üß™ **Testable** : Validation et debugging facilit√©s

In [None]:
# Installation et imports
# !pip install nltk spacy regex pandas matplotlib seaborn
# !python -m spacy download fr_core_news_sm

import re
import time
import warnings
from typing import List, Dict, Tuple, Optional, Union
from dataclasses import dataclass, field
from collections import Counter
import json

# Data science
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# NLP Libraries
try:
    import nltk
    from nltk.corpus import stopwords
    from nltk.tokenize import word_tokenize
    from nltk.stem import SnowballStemmer
    # Download required NLTK data
    nltk.download('punkt', quiet=True)
    nltk.download('stopwords', quiet=True)
    NLTK_AVAILABLE = True
except ImportError:
    print("‚ö†Ô∏è NLTK non disponible, certaines fonctionnalit√©s seront limit√©es")
    NLTK_AVAILABLE = False

try:
    import spacy
    nlp_fr = spacy.load('fr_core_news_sm')
    SPACY_AVAILABLE = True
except (ImportError, OSError):
    print("‚ö†Ô∏è spaCy fran√ßais non disponible, utilisation du mode fallback")
    SPACY_AVAILABLE = False

# Configuration
plt.style.use('default')
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
warnings.filterwarnings('ignore')

print("‚úÖ Configuration termin√©e !")
print(f"üìö NLTK disponible : {'‚úÖ' if NLTK_AVAILABLE else '‚ùå'}")
print(f"‚ö° spaCy fran√ßais disponible : {'‚úÖ' if SPACY_AVAILABLE else '‚ùå'}")

---

# üìä 1. Configuration du Pipeline

Cr√©ons d'abord une classe de configuration pour param√©trer notre pipeline :

In [None]:
@dataclass
class PipelineConfig:
    """Configuration du pipeline de preprocessing"""
    
    # === NETTOYAGE ===
    lowercase: bool = True
    remove_punctuation: bool = True
    remove_numbers: bool = False
    remove_urls: bool = True
    remove_emails: bool = True
    remove_mentions: bool = True  # @username
    remove_hashtags: bool = True  # #hashtag
    
    # === EMOJIS ===
    emoji_strategy: str = "remove"  # "remove", "convert", "keep"
    
    # === NORMALISATION ===
    normalize_whitespace: bool = True
    normalize_accents: bool = False  # Garder les accents fran√ßais par d√©faut
    normalize_entities: bool = True  # Dates, montants, etc.
    
    # === TOKENISATION ===
    tokenizer: str = "spacy"  # "spacy", "nltk", "regex", "split"
    handle_contractions: bool = True  # j' ‚Üí j'
    
    # === FILTRAGE ===
    remove_stopwords: bool = True
    custom_stopwords: List[str] = field(default_factory=list)
    min_token_length: int = 2
    max_token_length: int = 50
    
    # === LEMMATISATION/STEMMING ===
    lemmatize: bool = True
    stem: bool = False  # Alternative au lemmatize
    
    # === PERFORMANCE ===
    batch_size: int = 1000
    n_jobs: int = 1  # Pour traitement parall√®le futur
    
    # === DEBUG ===
    verbose: bool = False
    save_intermediate: bool = False
    
    def __post_init__(self):
        """Validation de la configuration"""
        if self.lemmatize and self.stem:
            print("‚ö†Ô∏è Lemmatize et stem activ√©s simultan√©ment. Priorit√© √† lemmatize.")
            self.stem = False
        
        if self.tokenizer == "spacy" and not SPACY_AVAILABLE:
            print("‚ö†Ô∏è spaCy non disponible, basculement vers NLTK")
            self.tokenizer = "nltk" if NLTK_AVAILABLE else "regex"
    
    @classmethod
    def for_domain(cls, domain: str) -> 'PipelineConfig':
        """Configurations pr√©d√©finies par domaine"""
        configs = {
            "general": cls(),
            
            "social_media": cls(
                remove_mentions=False,  # @user peut √™tre important
                remove_hashtags=False,  # #topic peut √™tre important
                emoji_strategy="convert",  # Convertir emojis en sentiment
                normalize_entities=True
            ),
            
            "ecommerce": cls(
                remove_numbers=False,  # Prix et quantit√©s importants
                normalize_entities=False,  # Garder les montants
                remove_urls=True,  # Nettoyer les liens
                lemmatize=True
            ),
            
            "news": cls(
                normalize_entities=True,  # Anonymiser dates/lieux
                remove_urls=True,
                lemmatize=True,
                min_token_length=3
            ),
            
            "academic": cls(
                remove_punctuation=False,  # Ponctuation peut √™tre importante
                normalize_accents=False,  # Garder pr√©cision
                lemmatize=True,
                min_token_length=3
            ),
            
            "fast": cls(
                tokenizer="split",
                lemmatize=False,
                stem=True,  # Plus rapide que lemmatize
                normalize_entities=False
            )
        }
        
        return configs.get(domain, configs["general"])
    
    def to_dict(self) -> Dict:
        """Export configuration en dictionnaire"""
        return {
            field.name: getattr(self, field.name) 
            for field in self.__dataclass_fields__.values()
        }
    
    def save(self, filepath: str):
        """Sauvegarde la configuration"""
        with open(filepath, 'w', encoding='utf-8') as f:
            json.dump(self.to_dict(), f, indent=2, ensure_ascii=False)

# Test des configurations
print("üß™ Configurations disponibles :")
for domain in ["general", "social_media", "ecommerce", "news", "fast"]:
    config = PipelineConfig.for_domain(domain)
    print(f"  ‚Ä¢ {domain:<12} : tokenizer={config.tokenizer}, lemmatize={config.lemmatize}")

---

# üîß 2. Classes de Preprocessing

Cr√©ons les classes pour chaque √©tape du pipeline :

In [None]:
class TextCleaner:
    """Nettoyage et normalisation du texte"""
    
    def __init__(self, config: PipelineConfig):
        self.config = config
        
        # Patterns regex pour nettoyage
        self.patterns = {
            'url': r'https?://[^\s<>"\[\]{}|\\^`]+|www\.[^\s<>"\[\]{}|\\^`]+',
            'email': r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b',
            'mention': r'@\w+',
            'hashtag': r'#\w+',
            'phone': r'\+?\d{1,3}[-.]?\(?\d{1,3}\)?[-.]?\d{1,4}[-.]?\d{1,4}[-.]?\d{1,9}',
            'date': r'\b\d{1,2}[/.-]\d{1,2}[/.-]\d{2,4}\b|\b\d{1,2}\s+(janvier|f√©vrier|mars|avril|mai|juin|juillet|ao√ªt|septembre|octobre|novembre|d√©cembre)\s+\d{4}\b',
            'money': r'\d+[.,]?\d*\s*(?:‚Ç¨|euros?|\$|dollars?)\b|\b(?:‚Ç¨|\$)\d+[.,]?\d*',
            'emoji': r'[\U0001F600-\U0001F64F\U0001F300-\U0001F5FF\U0001F680-\U0001F6FF\U0001F1E0-\U0001F1FF\U00002600-\U000026FF\U00002700-\U000027BF]'
        }
        
        # Dictionnaire emoji ‚Üí sentiment (simplifi√©)
        self.emoji_sentiment = {
            'üòÄ': ' positif ', 'üòÅ': ' positif ', 'üòÇ': ' tr√®s positif ', 'üòÉ': ' positif ',
            'üòÑ': ' positif ', 'üòÖ': ' positif ', 'üòä': ' positif ', 'üòå': ' positif ',
            'üòç': ' tr√®s positif ', 'üòò': ' positif ', 'üòã': ' positif ', 'üòé': ' positif ',
            'üò¢': ' n√©gatif ', 'üò≠': ' tr√®s n√©gatif ', 'üò°': ' tr√®s n√©gatif ', 'üò†': ' n√©gatif ',
            'üòí': ' n√©gatif ', 'üòû': ' n√©gatif ', 'üòî': ' n√©gatif ', 'üòü': ' n√©gatif ',
            'üëç': ' positif ', 'üëé': ' n√©gatif ', '‚ù§Ô∏è': ' tr√®s positif ', 'üíî': ' n√©gatif ',
            'üî•': ' positif ', 'üíØ': ' tr√®s positif ', '‚ú®': ' positif ', '‚≠ê': ' positif '
        }
    
    def clean_text(self, text: str) -> str:
        """Applique toutes les √©tapes de nettoyage"""
        if not isinstance(text, str):
            return ""
        
        result = text
        
        # 1. Gestion des emojis AVANT suppression ponctuation
        if self.config.emoji_strategy == "convert":
            for emoji, sentiment in self.emoji_sentiment.items():
                result = result.replace(emoji, sentiment)
            # Supprimer les emojis restants
            result = re.sub(self.patterns['emoji'], '', result)
        elif self.config.emoji_strategy == "remove":
            result = re.sub(self.patterns['emoji'], '', result)
        # Si "keep", on ne fait rien
        
        # 2. Suppression √©l√©ments web et entit√©s
        if self.config.remove_urls:
            result = re.sub(self.patterns['url'], ' URL ', result)
        
        if self.config.remove_emails:
            result = re.sub(self.patterns['email'], ' EMAIL ', result)
        
        if self.config.remove_mentions:
            result = re.sub(self.patterns['mention'], ' MENTION ', result)
        
        if self.config.remove_hashtags:
            result = re.sub(self.patterns['hashtag'], ' HASHTAG ', result)
        
        # 3. Normalisation entit√©s (si activ√©e)
        if self.config.normalize_entities:
            result = re.sub(self.patterns['phone'], ' TELEPHONE ', result)
            result = re.sub(self.patterns['date'], ' DATE ', result, flags=re.IGNORECASE)
            result = re.sub(self.patterns['money'], ' MONTANT ', result, flags=re.IGNORECASE)
        
        # 4. Minuscules
        if self.config.lowercase:
            result = result.lower()
        
        # 5. Suppression ponctuation
        if self.config.remove_punctuation:
            # Garder les apostrophes pour les contractions fran√ßaises
            if self.config.handle_contractions:
                result = re.sub(r"[^\w\s'√†√¢√§√©√®√™√´√Ø√Æ√¥√∂√π√ª√º√ø√ß-]", ' ', result)
            else:
                result = re.sub(r'[^\w\s]', ' ', result)
        
        # 6. Suppression nombres (si demand√©)
        if self.config.remove_numbers:
            result = re.sub(r'\d+', '', result)
        
        # 7. Normalisation accents (si demand√©)
        if self.config.normalize_accents:
            import unicodedata
            result = unicodedata.normalize('NFD', result)
            result = ''.join(c for c in result if unicodedata.category(c) != 'Mn')
        
        # 8. Normalisation espaces
        if self.config.normalize_whitespace:
            result = re.sub(r'\s+', ' ', result).strip()
        
        return result

# Test du nettoyeur
config_test = PipelineConfig()
cleaner = TextCleaner(config_test)

print("üß™ Test du nettoyeur de texte :")
print("=" * 50)

texte_test = "RT @user: Super!!! üòç https://bit.ly/xyz J'adore ce produit, co√ªte 50‚Ç¨ le 15/03/2024"
print(f"üìù Original : {texte_test}")
print(f"üßπ Nettoy√© : {cleaner.clean_text(texte_test)}")

In [None]:
class TextTokenizer:
    """Tokenisation du texte"""
    
    def __init__(self, config: PipelineConfig):
        self.config = config
        
        # Initialiser le tokenizer selon la config
        if config.tokenizer == "spacy" and SPACY_AVAILABLE:
            self.nlp = nlp_fr
        elif config.tokenizer == "nltk" and NLTK_AVAILABLE:
            self.nltk_available = True
        else:
            # Fallback vers regex
            if config.handle_contractions:
                # Pattern qui g√®re les contractions fran√ßaises
                self.token_pattern = r"\b\w+(?:'\w+)?\b|\b\w+\b"
            else:
                self.token_pattern = r'\w+'
    
    def tokenize(self, text: str) -> List[str]:
        """Tokenise le texte selon la m√©thode configur√©e"""
        if not text or not text.strip():
            return []
        
        tokens = []
        
        if self.config.tokenizer == "spacy" and SPACY_AVAILABLE:
            doc = self.nlp(text)
            tokens = [token.text for token in doc if not token.is_space]
        
        elif self.config.tokenizer == "nltk" and NLTK_AVAILABLE:
            tokens = word_tokenize(text, language='french')
        
        elif self.config.tokenizer == "split":
            tokens = text.split()
        
        else:  # regex fallback
            tokens = re.findall(self.token_pattern, text)
        
        return [token for token in tokens if token and token.strip()]

# Test du tokenizer
tokenizer = TextTokenizer(config_test)

print("üß™ Test du tokenizer :")
print("=" * 40)

texte_clean = "j adore ce produit coute montant le date"
tokens = tokenizer.tokenize(texte_clean)
print(f"üìù Texte : {texte_clean}")
print(f"‚úÇÔ∏è Tokens : {tokens}")
print(f"üìä Nombre de tokens : {len(tokens)}")

In [None]:
class TextFilter:
    """Filtrage des tokens (stopwords, longueur, etc.)"""
    
    def __init__(self, config: PipelineConfig):
        self.config = config
        
        # Charger les stopwords fran√ßais
        self.stopwords = set()
        
        if config.remove_stopwords:
            # Stopwords de base fran√ßais
            base_stopwords = {
                'le', 'de', 'et', '√†', 'un', 'il', '√™tre', 'avoir', 'que', 'pour',
                'dans', 'ce', 'son', 'une', 'sur', 'avec', 'ne', 'se', 'pas', 'tout',
                'plus', 'par', 'grand', 'en', 'son', 'que', 'ce', 'lui', 'au', 'du',
                'des', 'la', 'les', 'je', 'tu', 'nous', 'vous', 'ils', 'elles',
                'mon', 'ma', 'mes', 'ton', 'ta', 'tes', 'sa', 'ses', 'notre', 'nos',
                'votre', 'vos', 'leur', 'leurs', 'est', 'sont', '√©tait', '√©taient',
                'ai', 'as', 'a', 'avons', 'avez', 'ont', '√©t√©', 'faire', 'fait',
                'faire', 'dis', 'dit', 'cette', 'ces', 'ou', 'o√π', 'mais', 'donc',
                'car', 'si', 'comme', 'quand', 'bien', 'tr√®s', 'aussi', 'alors',
                'ici', 'l√†', 'maintenant', 'aujourd', 'hui', 'demain', 'hier'
            }
            
            # Ajouter NLTK stopwords si disponible
            if NLTK_AVAILABLE:
                try:
                    nltk_stopwords = set(stopwords.words('french'))
                    base_stopwords.update(nltk_stopwords)
                except:
                    pass
            
            self.stopwords = base_stopwords
            
            # Ajouter stopwords personnalis√©s
            if config.custom_stopwords:
                self.stopwords.update(config.custom_stopwords)
    
    def filter_tokens(self, tokens: List[str]) -> List[str]:
        """Filtre les tokens selon les crit√®res configur√©s"""
        if not tokens:
            return []
        
        filtered = []
        
        for token in tokens:
            token_clean = token.lower().strip()
            
            # V√©rifier longueur
            if len(token_clean) < self.config.min_token_length:
                continue
            
            if len(token_clean) > self.config.max_token_length:
                continue
            
            # V√©rifier stopwords
            if self.config.remove_stopwords and token_clean in self.stopwords:
                continue
            
            # √âviter les tokens vides ou seulement ponctuation
            if not re.search(r'\w', token_clean):
                continue
            
            filtered.append(token_clean)
        
        return filtered

# Test du filtre
text_filter = TextFilter(config_test)

print("üß™ Test du filtre :")
print("=" * 40)
print(f"üìä Nombre de stopwords fran√ßais : {len(text_filter.stopwords)}")
print(f"üî§ Exemples stopwords : {list(text_filter.stopwords)[:10]}")

tokens_test = ['j', 'adore', 'ce', 'produit', 'coute', 'montant', 'le', 'date', 'et', 'url']
tokens_filtered = text_filter.filter_tokens(tokens_test)
print(f"\nüìù Tokens avant : {tokens_test}")
print(f"üõë Tokens apr√®s filtrage : {tokens_filtered}")

In [None]:
class TextLemmatizer:
    """Lemmatisation et stemming"""
    
    def __init__(self, config: PipelineConfig):
        self.config = config
        
        # Initialiser lemmatizer/stemmer
        if config.lemmatize and SPACY_AVAILABLE:
            self.nlp = nlp_fr
            self.method = "spacy_lemma"
        elif config.stem and NLTK_AVAILABLE:
            self.stemmer = SnowballStemmer('french')
            self.method = "nltk_stem"
        else:
            # Lemmatisation basique avec dictionnaire
            self.basic_lemmas = {
                # Verbes fr√©quents
                'suis': '√™tre', 'es': '√™tre', 'est': '√™tre', 'sommes': '√™tre', '√™tes': '√™tre', 'sont': '√™tre',
                'ai': 'avoir', 'as': 'avoir', 'a': 'avoir', 'avons': 'avoir', 'avez': 'avoir', 'ont': 'avoir',
                'fais': 'faire', 'fait': 'faire', 'faisons': 'faire', 'faites': 'faire', 'font': 'faire',
                'vais': 'aller', 'vas': 'aller', 'va': 'aller', 'allons': 'aller', 'allez': 'aller', 'vont': 'aller',
                # Pluriels simples
                'chats': 'chat', 'chiens': 'chien', 'voitures': 'voiture', 'maisons': 'maison',
                'produits': 'produit', 'services': 'service', 'clients': 'client',
                # Adjectifs
                'beaux': 'beau', 'belles': 'beau', 'grands': 'grand', 'grandes': 'grand',
                'bons': 'bon', 'bonnes': 'bon', 'nouveaux': 'nouveau', 'nouvelles': 'nouveau'
            }
            self.method = "basic_lemma"
    
    def lemmatize_tokens(self, tokens: List[str]) -> List[str]:
        """Applique lemmatisation ou stemming aux tokens"""
        if not tokens:
            return []
        
        if not (self.config.lemmatize or self.config.stem):
            return tokens
        
        result = []
        
        if self.method == "spacy_lemma":
            # Joindre les tokens pour traitement spaCy
            text = " ".join(tokens)
            doc = self.nlp(text)
            result = [token.lemma_ for token in doc if not token.is_space]
        
        elif self.method == "nltk_stem":
            result = [self.stemmer.stem(token) for token in tokens]
        
        else:  # basic_lemma
            for token in tokens:
                lemma = self.basic_lemmas.get(token.lower(), token)
                result.append(lemma)
        
        return result

# Test du lemmatizer
lemmatizer = TextLemmatizer(config_test)

print("üß™ Test du lemmatizer :")
print("=" * 40)
print(f"üîß M√©thode utilis√©e : {lemmatizer.method}")

tokens_test = ['adore', 'produit', 'produits', 'voitures', 'suis', 'fait']
tokens_lemmatized = lemmatizer.lemmatize_tokens(tokens_test)
print(f"\nüìù Tokens avant : {tokens_test}")
print(f"üå± Tokens lemmatis√©s : {tokens_lemmatized}")

# Comparaison mot par mot
print("\nüîç Comparaison d√©taill√©e :")
for original, lemma in zip(tokens_test, tokens_lemmatized):
    if original != lemma:
        print(f"  ‚Ä¢ {original} ‚Üí {lemma}")
    else:
        print(f"  ‚Ä¢ {original} (inchang√©)")

---

# üèóÔ∏è 3. Pipeline Principal

Assemblons maintenant toutes les √©tapes dans une classe pipeline compl√®te :

In [None]:
@dataclass
class ProcessingStats:
    """Statistiques du preprocessing"""
    original_text: str = ""
    final_tokens: List[str] = field(default_factory=list)
    processing_time: float = 0.0
    
    # Compteurs par √©tape
    chars_before: int = 0
    chars_after_cleaning: int = 0
    tokens_after_tokenization: int = 0
    tokens_after_filtering: int = 0
    tokens_after_lemmatization: int = 0
    
    # M√©triques calcul√©es
    @property
    def char_reduction_percent(self) -> float:
        if self.chars_before == 0:
            return 0.0
        return round((self.chars_before - self.chars_after_cleaning) / self.chars_before * 100, 1)
    
    @property
    def token_reduction_percent(self) -> float:
        if self.tokens_after_tokenization == 0:
            return 0.0
        return round((self.tokens_after_tokenization - len(self.final_tokens)) / self.tokens_after_tokenization * 100, 1)
    
    def summary(self) -> str:
        return f"""üìä Statistiques de preprocessing :
‚Ä¢ Temps de traitement : {self.processing_time:.3f}s
‚Ä¢ R√©duction caract√®res : {self.char_reduction_percent}% ({self.chars_before} ‚Üí {self.chars_after_cleaning})
‚Ä¢ R√©duction tokens : {self.token_reduction_percent}% ({self.tokens_after_tokenization} ‚Üí {len(self.final_tokens)})
‚Ä¢ Pipeline : {self.tokens_after_tokenization} ‚Üí {self.tokens_after_filtering} ‚Üí {self.tokens_after_lemmatization}
‚Ä¢ Tokens finaux : {len(self.final_tokens)}"""


class PreprocessingPipeline:
    """Pipeline complet de preprocessing"""
    
    def __init__(self, config: PipelineConfig):
        self.config = config
        
        # Initialiser les composants
        self.cleaner = TextCleaner(config)
        self.tokenizer = TextTokenizer(config)
        self.filter = TextFilter(config)
        self.lemmatizer = TextLemmatizer(config)
        
        # Historique des traitements
        self.processing_history = []
    
    def process_text(self, text: str, return_stats: bool = False) -> Union[List[str], Tuple[List[str], ProcessingStats]]:
        """
        Traite un texte √† travers tout le pipeline
        
        Args:
            text: Texte √† traiter
            return_stats: Si True, retourne aussi les statistiques
        
        Returns:
            Liste des tokens finaux, optionnellement avec statistiques
        """
        start_time = time.time()
        
        # Initialiser les stats
        stats = ProcessingStats(original_text=text)
        stats.chars_before = len(text)
        
        # √âtape 1: Nettoyage
        cleaned_text = self.cleaner.clean_text(text)
        stats.chars_after_cleaning = len(cleaned_text)
        
        if self.config.verbose:
            print(f"üßπ Apr√®s nettoyage : {cleaned_text}")
        
        # √âtape 2: Tokenisation
        tokens = self.tokenizer.tokenize(cleaned_text)
        stats.tokens_after_tokenization = len(tokens)
        
        if self.config.verbose:
            print(f"‚úÇÔ∏è Apr√®s tokenisation : {tokens}")
        
        # √âtape 3: Filtrage
        filtered_tokens = self.filter.filter_tokens(tokens)
        stats.tokens_after_filtering = len(filtered_tokens)
        
        if self.config.verbose:
            print(f"üõë Apr√®s filtrage : {filtered_tokens}")
        
        # √âtape 4: Lemmatisation
        final_tokens = self.lemmatizer.lemmatize_tokens(filtered_tokens)
        stats.tokens_after_lemmatization = len(final_tokens)
        stats.final_tokens = final_tokens
        
        if self.config.verbose:
            print(f"üå± Apr√®s lemmatisation : {final_tokens}")
        
        # Finaliser les stats
        stats.processing_time = time.time() - start_time
        
        # Sauvegarder l'historique si demand√©
        if self.config.save_intermediate:
            self.processing_history.append({
                'original': text,
                'cleaned': cleaned_text,
                'tokens': tokens,
                'filtered': filtered_tokens,
                'final': final_tokens,
                'stats': stats
            })
        
        if return_stats:
            return final_tokens, stats
        return final_tokens
    
    def process_batch(self, texts: List[str], show_progress: bool = True) -> List[List[str]]:
        """
        Traite une liste de textes
        """
        results = []
        
        for i, text in enumerate(texts):
            if show_progress and i % 100 == 0:
                print(f"üìà Progression : {i}/{len(texts)} textes trait√©s")
            
            tokens = self.process_text(text)
            results.append(tokens)
        
        if show_progress:
            print(f"‚úÖ Traitement termin√© : {len(texts)} textes")
        
        return results
    
    def analyze_vocabulary(self, texts: List[str]) -> Dict:
        """
        Analyse le vocabulaire avant/apr√®s preprocessing
        """
        # Vocabulaire avant
        vocab_before = set()
        for text in texts:
            words = text.lower().split()
            vocab_before.update(words)
        
        # Vocabulaire apr√®s
        vocab_after = set()
        processed = self.process_batch(texts, show_progress=False)
        for tokens in processed:
            vocab_after.update(tokens)
        
        return {
            'vocab_size_before': len(vocab_before),
            'vocab_size_after': len(vocab_after),
            'reduction_percent': round((len(vocab_before) - len(vocab_after)) / len(vocab_before) * 100, 1),
            'vocab_before': vocab_before,
            'vocab_after': vocab_after
        }
    
    def save_config(self, filepath: str):
        """Sauvegarde la configuration"""
        self.config.save(filepath)
    
    def get_pipeline_info(self) -> str:
        """Retourne info sur la configuration du pipeline"""
        info = f"""üîß Configuration du Pipeline :
‚Ä¢ Tokenizer : {self.config.tokenizer}
‚Ä¢ Lemmatisation : {self.config.lemmatize}
‚Ä¢ Stemming : {self.config.stem}
‚Ä¢ Suppression stopwords : {self.config.remove_stopwords}
‚Ä¢ Suppression ponctuation : {self.config.remove_punctuation}
‚Ä¢ Gestion emojis : {self.config.emoji_strategy}
‚Ä¢ Normalisation entit√©s : {self.config.normalize_entities}
‚Ä¢ Longueur min tokens : {self.config.min_token_length}
‚Ä¢ Stopwords personnalis√©s : {len(self.config.custom_stopwords)}"""
        return info

print("‚úÖ Pipeline complet cr√©√© !")

---

# üß™ 4. Tests et D√©monstrations

Testons notre pipeline sur diff√©rents types de textes :

In [None]:
# Cr√©er pipeline avec config par d√©faut
config_demo = PipelineConfig(verbose=True)
pipeline = PreprocessingPipeline(config_demo)

print("üöÄ D√âMONSTRATION DU PIPELINE COMPLET")
print("=" * 60)
print(pipeline.get_pipeline_info())
print()

# Test sur un texte complexe
texte_complexe = """
Salut @marie ! üòç J'ai achet√© ce super produit sur https://boutique.com pour 199,99‚Ç¨ le 15/03/2024.
Contact : support@boutique.fr ou 01.23.45.67.89. 
C'est vraiment G√âNIAL !!! Je recommande √† 100% üëç #shopping #bonplan
""".strip()

print("üìù TEXTE DE TEST :")
print(f"\n{texte_complexe}\n")

print("üîß TRAITEMENT √âTAPE PAR √âTAPE :")
print("=" * 50)

tokens_finaux, stats = pipeline.process_text(texte_complexe, return_stats=True)

print(f"\n‚úÖ R√âSULTAT FINAL :")
print(f"Tokens : {tokens_finaux}")
print(f"Phrase reconstruite : '{' '.join(tokens_finaux)}'")
print(f"\n{stats.summary()}")

In [None]:
# Test comparatif entre diff√©rentes configurations
textes_test = [
    "RT @user: LOL!!! C'est G√âNIAL üòçüòçüòç https://bit.ly/xyz #amazing",
    "J'adore ce produit! Co√ªte 50‚Ç¨, livraison gratuite. Contact: info@shop.fr",
    "Rendez-vous le 15 mars 2024 √† 14h30 pour discuter du budget.",
    "Super service client!!! Ils sont tr√®s professionnels et rapides üëç",
    "N'h√©sitez pas √† me contacter au 01.23.45.67.89 pour plus d'infos."
]

# Tester diff√©rentes configs
configs_test = {
    "Social Media": PipelineConfig.for_domain("social_media"),
    "E-commerce": PipelineConfig.for_domain("ecommerce"),
    "News": PipelineConfig.for_domain("news"),
    "Fast": PipelineConfig.for_domain("fast")
}

print("‚öîÔ∏è COMPARAISON DES CONFIGURATIONS")
print("=" * 60)

# Analyser chaque config
resultats_comparaison = []

for nom_config, config in configs_test.items():
    pipeline_test = PreprocessingPipeline(config)
    
    # Analyser le vocabulaire
    vocab_analysis = pipeline_test.analyze_vocabulary(textes_test)
    
    # Mesurer le temps moyen
    start_time = time.time()
    processed = pipeline_test.process_batch(textes_test, show_progress=False)
    avg_time = (time.time() - start_time) / len(textes_test)
    
    # Calculer tokens moyens
    avg_tokens = np.mean([len(tokens) for tokens in processed])
    
    resultats_comparaison.append({
        'Configuration': nom_config,
        'Vocab avant': vocab_analysis['vocab_size_before'],
        'Vocab apr√®s': vocab_analysis['vocab_size_after'],
        'R√©duction (%)': vocab_analysis['reduction_percent'],
        'Tokens moyens': round(avg_tokens, 1),
        'Temps (ms)': round(avg_time * 1000, 1)
    })
    
    print(f"\nüîß **{nom_config}** :")
    print(f"  ‚Ä¢ R√©duction vocabulaire : {vocab_analysis['reduction_percent']}%")
    print(f"  ‚Ä¢ Tokens moyens par texte : {avg_tokens:.1f}")
    print(f"  ‚Ä¢ Temps moyen : {avg_time*1000:.1f}ms")

# Cr√©er DataFrame pour analyse
df_comparaison = pd.DataFrame(resultats_comparaison)
print(f"\nüìä **TABLEAU R√âCAPITULATIF :**")
print(df_comparaison.to_string(index=False))

---

# üìà 5. Visualisations et Analyses

Cr√©ons des visualisations pour analyser l'impact du preprocessing :

In [None]:
# Visualisation des comparaisons
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(15, 12))

# Graphique 1: R√©duction du vocabulaire
configs = df_comparaison['Configuration']
reductions = df_comparaison['R√©duction (%)']
colors = plt.cm.viridis(np.linspace(0, 1, len(configs)))

bars1 = ax1.bar(configs, reductions, color=colors, alpha=0.8)
ax1.set_title('üìâ R√©duction du Vocabulaire par Configuration', fontsize=12, fontweight='bold')
ax1.set_ylabel('R√©duction (%)')
ax1.tick_params(axis='x', rotation=45)
ax1.grid(True, alpha=0.3)

for bar, val in zip(bars1, reductions):
    ax1.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
             f'{val}%', ha='center', va='bottom', fontweight='bold')

# Graphique 2: Taille vocabulaire avant/apr√®s
x = np.arange(len(configs))
width = 0.35

ax2.bar(x - width/2, df_comparaison['Vocab avant'], width, 
        label='Avant', color='lightcoral', alpha=0.8)
ax2.bar(x + width/2, df_comparaison['Vocab apr√®s'], width,
        label='Apr√®s', color='lightblue', alpha=0.8)

ax2.set_title('üìä Taille du Vocabulaire Avant/Apr√®s', fontsize=12, fontweight='bold')
ax2.set_ylabel('Nombre de mots uniques')
ax2.set_xticks(x)
ax2.set_xticklabels(configs, rotation=45)
ax2.legend()
ax2.grid(True, alpha=0.3)

# Graphique 3: Nombre moyen de tokens
bars3 = ax3.bar(configs, df_comparaison['Tokens moyens'], 
                color=plt.cm.plasma(np.linspace(0, 1, len(configs))), alpha=0.8)
ax3.set_title('üìù Nombre Moyen de Tokens par Texte', fontsize=12, fontweight='bold')
ax3.set_ylabel('Tokens moyens')
ax3.tick_params(axis='x', rotation=45)
ax3.grid(True, alpha=0.3)

for bar, val in zip(bars3, df_comparaison['Tokens moyens']):
    ax3.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.1,
             f'{val}', ha='center', va='bottom', fontweight='bold')

# Graphique 4: Performance (temps de traitement)
bars4 = ax4.bar(configs, df_comparaison['Temps (ms)'],
                color=plt.cm.cool(np.linspace(0, 1, len(configs))), alpha=0.8)
ax4.set_title('‚ö° Performance (Temps de Traitement)', fontsize=12, fontweight='bold')
ax4.set_ylabel('Temps moyen (ms)')
ax4.tick_params(axis='x', rotation=45)
ax4.grid(True, alpha=0.3)

for bar, val in zip(bars4, df_comparaison['Temps (ms)']):
    ax4.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.1,
             f'{val}ms', ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

# Analyse des r√©sultats
print("\nüí° **ANALYSE DES R√âSULTATS :**")
print("=" * 50)

# Configuration la plus efficace
idx_max_reduction = df_comparaison['R√©duction (%)'].idxmax()
config_max_reduction = df_comparaison.loc[idx_max_reduction, 'Configuration']
max_reduction = df_comparaison.loc[idx_max_reduction, 'R√©duction (%)']

print(f"üèÜ **Meilleure r√©duction vocabulaire** : {config_max_reduction} ({max_reduction}%)")

# Configuration la plus rapide
idx_min_time = df_comparaison['Temps (ms)'].idxmin()
config_min_time = df_comparaison.loc[idx_min_time, 'Configuration']
min_time = df_comparaison.loc[idx_min_time, 'Temps (ms)']

print(f"‚ö° **Configuration la plus rapide** : {config_min_time} ({min_time}ms)")

# Recommandations
print(f"\nüéØ **RECOMMANDATIONS :**")
print(f"‚Ä¢ Pour **r√©duction maximale** du vocabulaire ‚Üí {config_max_reduction}")
print(f"‚Ä¢ Pour **performance optimale** ‚Üí {config_min_time}")
print(f"‚Ä¢ Pour **√©quilibre** qualit√©/vitesse ‚Üí News ou E-commerce")
print(f"‚Ä¢ Pour **m√©dias sociaux** ‚Üí Social Media (g√®re emojis et mentions)")

---

# üéØ 6. Exercices Pratiques

√Ä votre tour ! Exp√©rimentez avec le pipeline :

In [None]:
# üéØ EXERCICE 1: Cr√©ez votre configuration personnalis√©e

print("üéØ EXERCICE 1 : Configuration Personnalis√©e")
print("=" * 50)

# Modifiez ces param√®tres selon vos besoins
ma_config = PipelineConfig(
    # √Ä personnaliser :
    remove_punctuation=True,
    emoji_strategy="convert",  # "remove", "convert", "keep"
    remove_stopwords=True,
    lemmatize=True,
    min_token_length=3,
    tokenizer="spacy",  # "spacy", "nltk", "regex", "split"
    normalize_entities=True,
    
    # Stopwords personnalis√©s pour votre domaine
    custom_stopwords=["super", "vraiment", "tr√®s", "assez"],
    
    verbose=True  # Pour voir les √©tapes
)

mon_pipeline = PreprocessingPipeline(ma_config)

print(mon_pipeline.get_pipeline_info())
print()

# Testez sur vos propres textes
mes_textes = [
    "Remplacez ce texte par vos propres exemples !",
    "Exemple : J'adore vraiment ce super produit üòç co√ªte 50‚Ç¨",
    "Autre exemple : Contact@entreprise.fr pour plus d'infos"
    # Ajoutez vos textes ici...
]

print("üß™ **Test de votre configuration :**")
for i, texte in enumerate(mes_textes, 1):
    print(f"\nüìù **Texte {i}** : {texte}")
    tokens, stats = mon_pipeline.process_text(texte, return_stats=True)
    print(f"‚úÖ **R√©sultat** : {tokens}")
    print(f"üìä **Stats** : {stats.token_reduction_percent}% r√©duction, {stats.processing_time:.3f}s")

In [None]:
# üéØ EXERCICE 2: Analyse de corpus

print("\nüéØ EXERCICE 2 : Analyse d'un Corpus")
print("=" * 50)

# Dataset d'exemple (remplacez par vos donn√©es)
corpus_exemple = [
    "Excellent produit ! Je le recommande vivement üòç Prix : 99‚Ç¨",
    "Service client d√©cevant... Pas de r√©ponse depuis 3 jours üòû",
    "Livraison rapide, emballage soign√©. Contact : support@shop.fr",
    "Qualit√©/prix imbattable ! Disponible sur https://boutique.com",
    "Attention arnaque !!! N'achetez pas ici üò° #attention",
    "Super exp√©rience d'achat, je recommande √† 100% üëç",
    "Produit conforme √† la description. Livr√© le 15/03/2024",
    "SAV tr√®s r√©actif au 01.23.45.67.89. Probl√®me r√©solu rapidement.",
    "Promo int√©ressante : -30% jusqu'au 31/12/2024 #bonplan",
    "Article de qualit√©, mais un peu cher √† 150‚Ç¨... Livraison OK"
]

# Analyser avec diff√©rentes configurations
configs_analyse = {
    "Basique": PipelineConfig(lemmatize=False, normalize_entities=False),
    "Complet": PipelineConfig(),
    "E-commerce": PipelineConfig.for_domain("ecommerce")
}

resultats_analyse = {}

for nom, config in configs_analyse.items():
    pipeline_analyse = PreprocessingPipeline(config)
    
    # Traitement du corpus
    start_time = time.time()
    tokens_corpus = pipeline_analyse.process_batch(corpus_exemple, show_progress=False)
    temps_total = time.time() - start_time
    
    # Analyse vocabulaire
    vocab_analysis = pipeline_analyse.analyze_vocabulary(corpus_exemple)
    
    # Statistiques
    tous_tokens = [token for tokens in tokens_corpus for token in tokens]
    freq_tokens = Counter(tous_tokens)
    
    resultats_analyse[nom] = {
        'tokens_corpus': tokens_corpus,
        'vocab_analysis': vocab_analysis,
        'temps_total': temps_total,
        'freq_tokens': freq_tokens,
        'tokens_total': len(tous_tokens),
        'tokens_uniques': len(set(tous_tokens))
    }

# Affichage des r√©sultats
print("üìä **R√âSULTATS DE L'ANALYSE :**\n")

for nom, resultats in resultats_analyse.items():
    print(f"üîß **Configuration {nom}** :")
    print(f"  ‚Ä¢ Vocabulaire : {resultats['vocab_analysis']['vocab_size_before']} ‚Üí {resultats['vocab_analysis']['vocab_size_after']} mots ({resultats['vocab_analysis']['reduction_percent']}%)")
    print(f"  ‚Ä¢ Tokens total : {resultats['tokens_total']}")
    print(f"  ‚Ä¢ Tokens uniques : {resultats['tokens_uniques']}")
    print(f"  ‚Ä¢ Temps traitement : {resultats['temps_total']:.3f}s")
    print(f"  ‚Ä¢ Top 5 mots : {list(resultats['freq_tokens'].most_common(5))}")
    print()

# Comparaison visuelle simple
noms = list(resultats_analyse.keys())
reductions = [resultats_analyse[nom]['vocab_analysis']['reduction_percent'] for nom in noms]
temps = [resultats_analyse[nom]['temps_total'] * 1000 for nom in noms]  # en ms

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))

# R√©duction vocabulaire
ax1.bar(noms, reductions, color=['skyblue', 'lightgreen', 'salmon'])
ax1.set_title('üìâ R√©duction Vocabulaire (%)')
ax1.set_ylabel('R√©duction (%)')
for i, v in enumerate(reductions):
    ax1.text(i, v + 1, f'{v}%', ha='center', fontweight='bold')

# Temps de traitement
ax2.bar(noms, temps, color=['lightcoral', 'lightblue', 'lightgreen'])
ax2.set_title('‚ö° Temps de Traitement (ms)')
ax2.set_ylabel('Temps (ms)')
for i, v in enumerate(temps):
    ax2.text(i, v + 0.1, f'{v:.1f}ms', ha='center', fontweight='bold')

plt.tight_layout()
plt.show()

print("üí° **OBSERVATIONS :**")
print(f"‚Ä¢ Configuration la plus efficace : {noms[reductions.index(max(reductions))]} ({max(reductions)}% r√©duction)")
print(f"‚Ä¢ Configuration la plus rapide : {noms[temps.index(min(temps))]} ({min(temps):.1f}ms)")

In [None]:
# üéØ EXERCICE 3: Optimisation de performance

print("\nüéØ EXERCICE 3 : Benchmark de Performance")
print("=" * 50)

# G√©n√©rer un corpus de test plus grand
def generer_corpus_test(taille: int) -> List[str]:
    """G√©n√®re un corpus de test de taille donn√©e"""
    templates = [
        "Super produit ! Je recommande üòç Prix : {}‚Ç¨",
        "Service d√©cevant... Contact : {}@email.fr",
        "Livr√© le {} rapidement. Site : https://{}.com",
        "Attention ! N'achetez pas ici üò° #arnaque",
        "Exp√©rience parfaite üëç T√©l : 01.{}.{}.{}.{}",
        "Qualit√©/prix correct. Disponible jusqu'au {}/{}/2024"
    ]
    
    corpus = []
    for i in range(taille):
        template = templates[i % len(templates)]
        if '{}' in template:
            # Remplacer les placeholders
            if 'Prix' in template:
                text = template.format(50 + (i % 100))
            elif '@email' in template:
                text = template.format(f"user{i%100}")
            elif 'https' in template:
                text = template.format(f"site{i%10}")
            elif 'T√©l' in template:
                text = template.format(
                    20 + (i%8), 30 + (i%7), 40 + (i%6), 50 + (i%9)
                )
            elif '2024' in template:
                text = template.format((i%28)+1, (i%12)+1)
            else:
                text = template
        else:
            text = template
        corpus.append(text)
    
    return corpus

# G√©n√©rer diff√©rentes tailles de corpus
tailles = [100, 500, 1000]
configs_bench = {
    "Fast": PipelineConfig.for_domain("fast"),
    "Standard": PipelineConfig(),
    "Complet": PipelineConfig(normalize_entities=True, emoji_strategy="convert")
}

resultats_bench = []

print("‚è±Ô∏è **BENCHMARK EN COURS...**\n")

for taille in tailles:
    corpus_test = generer_corpus_test(taille)
    print(f"üìä Corpus de {taille} textes :")
    
    for nom_config, config in configs_bench.items():
        pipeline_bench = PreprocessingPipeline(config)
        
        # Mesurer le temps
        start_time = time.time()
        resultats = pipeline_bench.process_batch(corpus_test, show_progress=False)
        temps_total = time.time() - start_time
        
        # Calculer m√©triques
        temps_par_texte = temps_total / len(corpus_test) * 1000  # ms
        tokens_moyens = np.mean([len(tokens) for tokens in resultats])
        
        resultats_bench.append({
            'Taille Corpus': taille,
            'Configuration': nom_config,
            'Temps Total (s)': round(temps_total, 3),
            'Temps/Texte (ms)': round(temps_par_texte, 2),
            'Tokens Moyens': round(tokens_moyens, 1),
            'Vitesse (textes/s)': round(len(corpus_test) / temps_total, 1)
        })
        
        print(f"  ‚Ä¢ {nom_config:<10} : {temps_total:.3f}s ({temps_par_texte:.2f}ms/texte)")
    
    print()

# Cr√©er DataFrame et visualiser
df_bench = pd.DataFrame(resultats_bench)

print("üìä **R√âSULTATS COMPLETS :**")
print(df_bench.to_string(index=False))

# Graphique de performance
plt.figure(figsize=(12, 8))

# Subplot 1: Temps par texte selon la taille
plt.subplot(2, 2, 1)
for config in configs_bench.keys():
    data = df_bench[df_bench['Configuration'] == config]
    plt.plot(data['Taille Corpus'], data['Temps/Texte (ms)'], 
             marker='o', label=config, linewidth=2)
plt.xlabel('Taille du Corpus')
plt.ylabel('Temps par Texte (ms)')
plt.title('‚ö° Performance vs Taille Corpus')
plt.legend()
plt.grid(True, alpha=0.3)

# Subplot 2: Vitesse de traitement
plt.subplot(2, 2, 2)
for config in configs_bench.keys():
    data = df_bench[df_bench['Configuration'] == config]
    plt.plot(data['Taille Corpus'], data['Vitesse (textes/s)'], 
             marker='s', label=config, linewidth=2)
plt.xlabel('Taille du Corpus')
plt.ylabel('Vitesse (textes/seconde)')
plt.title('üöÄ D√©bit de Traitement')
plt.legend()
plt.grid(True, alpha=0.3)

# Subplot 3: Comparaison configs pour 1000 textes
plt.subplot(2, 2, 3)
data_1000 = df_bench[df_bench['Taille Corpus'] == 1000]
plt.bar(data_1000['Configuration'], data_1000['Temps/Texte (ms)'],
        color=['red', 'blue', 'green'], alpha=0.7)
plt.ylabel('Temps par Texte (ms)')
plt.title('üìä Performance sur 1000 Textes')
plt.xticks(rotation=45)
for i, v in enumerate(data_1000['Temps/Texte (ms)']):
    plt.text(i, v + 0.1, f'{v}ms', ha='center', fontweight='bold')

# Subplot 4: Tokens moyens par config
plt.subplot(2, 2, 4)
plt.bar(data_1000['Configuration'], data_1000['Tokens Moyens'],
        color=['orange', 'purple', 'brown'], alpha=0.7)
plt.ylabel('Tokens Moyens')
plt.title('üìù Nombre Moyen de Tokens')
plt.xticks(rotation=45)
for i, v in enumerate(data_1000['Tokens Moyens']):
    plt.text(i, v + 0.1, f'{v}', ha='center', fontweight='bold')

plt.tight_layout()
plt.show()

# Recommandations finales
print("\nüéØ **RECOMMANDATIONS FINALES :**")
config_plus_rapide = data_1000.loc[data_1000['Temps/Texte (ms)'].idxmin(), 'Configuration']
vitesse_max = data_1000['Vitesse (textes/s)'].max()

print(f"‚Ä¢ **Configuration la plus rapide** : {config_plus_rapide}")
print(f"‚Ä¢ **D√©bit maximum** : {vitesse_max} textes/seconde")
print(f"‚Ä¢ **Pour production** : Privil√©gier 'Fast' si volume important")
print(f"‚Ä¢ **Pour qualit√©** : Privil√©gier 'Complet' si pr√©cision importante")
print(f"‚Ä¢ **Compromis** : 'Standard' pour √©quilibre qualit√©/vitesse")

---

# üîß 7. Sauvegarde et Utilisation en Production

Apprenons √† sauvegarder et r√©utiliser nos pipelines :

In [None]:
# Sauvegarde de configuration
print("üíæ SAUVEGARDE ET CHARGEMENT")
print("=" * 40)

# Cr√©er une config optimis√©e
config_production = PipelineConfig(
    # Optimis√© pour la production
    tokenizer="spacy",
    lemmatize=True,
    remove_stopwords=True,
    normalize_entities=True,
    emoji_strategy="convert",
    min_token_length=3,
    
    # Performance
    batch_size=1000,
    verbose=False,
    
    # Stopwords m√©tier
    custom_stopwords=["produit", "service", "client", "entreprise"]
)

# Sauvegarder
try:
    config_production.save("config_production.json")
    print("‚úÖ Configuration sauvegard√©e dans 'config_production.json'")
except Exception as e:
    print(f"‚ö†Ô∏è Erreur sauvegarde : {e}")

# Cr√©er le pipeline de production
pipeline_production = PreprocessingPipeline(config_production)

print("\nüè≠ **PIPELINE DE PRODUCTION CR√â√â :**")
print(pipeline_production.get_pipeline_info())

# Fonction utilitaire pour usage simple
def preprocess_text_simple(text: str, domain: str = "general") -> List[str]:
    """
    Fonction simple pour preprocessing rapide
    
    Args:
        text: Texte √† traiter
        domain: Domaine d'application ("general", "social_media", "ecommerce", etc.)
    
    Returns:
        Liste de tokens preprocess√©s
    """
    config = PipelineConfig.for_domain(domain)
    pipeline = PreprocessingPipeline(config)
    return pipeline.process_text(text)

# Test de la fonction simple
print("\nüß™ **TEST FONCTION SIMPLE :**")
texte_test = "J'adore ce produit! üòç Co√ªte 50‚Ç¨, contact@shop.fr"

for domain in ["general", "ecommerce", "social_media"]:
    tokens = preprocess_text_simple(texte_test, domain)
    print(f"‚Ä¢ {domain:<12} : {tokens}")

print("\nüìã **CLASSE WRAPPER POUR PRODUCTION :**")

In [None]:
class TextPreprocessor:
    """
    Classe wrapper simplifi√©e pour utilisation en production
    """
    
    def __init__(self, domain: str = "general", config_path: Optional[str] = None):
        """
        Initialise le preprocessor
        
        Args:
            domain: Domaine pr√©d√©fini ou "custom" si config_path fourni
            config_path: Chemin vers fichier config JSON (optionnel)
        """
        if config_path:
            # Charger config depuis fichier
            try:
                with open(config_path, 'r', encoding='utf-8') as f:
                    config_dict = json.load(f)
                # Reconstruire la config (simplifi√©)
                self.config = PipelineConfig(**config_dict)
            except Exception as e:
                print(f"‚ö†Ô∏è Erreur chargement config : {e}")
                self.config = PipelineConfig.for_domain("general")
        else:
            self.config = PipelineConfig.for_domain(domain)
        
        self.pipeline = PreprocessingPipeline(self.config)
        self.domain = domain
    
    def preprocess(self, text: Union[str, List[str]]) -> Union[List[str], List[List[str]]]:
        """
        Preprocess un texte ou une liste de textes
        
        Args:
            text: Texte(s) √† traiter
        
        Returns:
            Tokens ou liste de tokens
        """
        if isinstance(text, str):
            return self.pipeline.process_text(text)
        elif isinstance(text, list):
            return self.pipeline.process_batch(text, show_progress=True)
        else:
            raise ValueError("Input doit √™tre str ou List[str]")
    
    def analyze(self, texts: List[str]) -> Dict:
        """
        Analyse un corpus de textes
        
        Returns:
            Dictionnaire avec statistiques
        """
        return self.pipeline.analyze_vocabulary(texts)
    
    def get_stats(self, text: str) -> ProcessingStats:
        """
        Obtient statistiques d√©taill√©es pour un texte
        """
        _, stats = self.pipeline.process_text(text, return_stats=True)
        return stats
    
    def save_config(self, filepath: str):
        """Sauvegarde la configuration actuelle"""
        self.config.save(filepath)
    
    def __repr__(self):
        return f"TextPreprocessor(domain='{self.domain}', tokenizer='{self.config.tokenizer}')"


# D√©monstration de la classe wrapper
print("üöÄ **D√âMONSTRATION CLASSE WRAPPER :**")
print("=" * 50)

# Cr√©er preprocessors pour diff√©rents domaines
preprocessors = {
    "E-commerce": TextPreprocessor("ecommerce"),
    "Social Media": TextPreprocessor("social_media"),
    "Rapide": TextPreprocessor("fast")
}

# Texte de test
texte_demo = "Super exp√©rience ! üòç J'ai achet√© pour 99‚Ç¨ sur https://shop.fr. Contact : info@shop.fr #g√©nial"

print(f"üìù **Texte de test :**\n{texte_demo}\n")

for nom, preprocessor in preprocessors.items():
    print(f"üîß **{nom}** :")
    
    # Preprocessing simple
    tokens = preprocessor.preprocess(texte_demo)
    print(f"  ‚Ä¢ Tokens : {tokens}")
    
    # Statistiques
    stats = preprocessor.get_stats(texte_demo)
    print(f"  ‚Ä¢ R√©duction : {stats.token_reduction_percent}%")
    print(f"  ‚Ä¢ Temps : {stats.processing_time:.3f}s")
    print()

# Test sur plusieurs textes
print("üìä **TEST SUR CORPUS :**")
corpus_demo = [
    "Produit excellent ! Je recommande üòç",
    "Service client d√©cevant... üòû Contact : help@site.com",
    "Livraison rapide, prix correct : 45‚Ç¨"
]

preprocessor_demo = TextPreprocessor("ecommerce")
resultats_corpus = preprocessor_demo.preprocess(corpus_demo)

print(f"üìà Corpus trait√© : {len(resultats_corpus)} textes")
for i, (original, tokens) in enumerate(zip(corpus_demo, resultats_corpus)):
    print(f"  {i+1}. {original[:40]}... ‚Üí {len(tokens)} tokens")

# Analyse du corpus
analyse_corpus = preprocessor_demo.analyze(corpus_demo)
print(f"\nüìä **Analyse vocabulaire :**")
print(f"  ‚Ä¢ Vocabulaire avant : {analyse_corpus['vocab_size_before']} mots")
print(f"  ‚Ä¢ Vocabulaire apr√®s : {analyse_corpus['vocab_size_after']} mots")
print(f"  ‚Ä¢ R√©duction : {analyse_corpus['reduction_percent']}%")

print("\n‚úÖ **Classe wrapper pr√™te pour la production !**")

---

# üéâ Conclusion et Synth√®se

## üèÜ Ce que Vous Avez Accompli

F√©licitations ! Vous avez cr√©√© un **pipeline de preprocessing NLP complet et professionnel**. Voici ce que vous ma√Ætrisez maintenant :

### ‚úÖ **Comp√©tences Techniques Acquises**

1. **üßπ Nettoyage de texte** : Gestion de la casse, ponctuation, URLs, emojis
2. **üîß Normalisation** : Accents, espaces, entit√©s (dates, montants, etc.)
3. **‚úÇÔ∏è Tokenisation** : Diff√©rentes strat√©gies (spaCy, NLTK, regex)
4. **üõë Filtrage** : Stopwords, longueur, tokens sp√©ciaux
5. **üå± Lemmatisation/Stemming** : R√©duction √† la forme canonique
6. **üìä M√©triques et analyse** : Mesure de l'impact du preprocessing
7. **‚öôÔ∏è Configuration modulaire** : Adaptation par domaine
8. **üöÄ Optimisation** : Performance et scalabilit√©

### üéØ **Configurations Ma√Ætris√©es**

| **Domaine** | **Cas d'usage** | **Sp√©cificit√©s** |
|---|---|---|
| **General** | Usage polyvalent | √âquilibre qualit√©/vitesse |
| **Social Media** | Tweets, posts | G√®re emojis, mentions, hashtags |
| **E-commerce** | Avis clients | Pr√©serve montants, supprime URLs |
| **News** | Articles presse | Anonymise entit√©s, qualit√© √©lev√©e |
| **Fast** | Gros volumes | Performance maximale |

### üìà **M√©triques de Performance**

- **R√©duction vocabulaire** : 20-40% selon configuration
- **Vitesse de traitement** : 100-1000+ textes/seconde
- **Qualit√©** : Pr√©servation du sens, tokens coh√©rents
- **Flexibilit√©** : Adaptation facile aux besoins m√©tier

## üöÄ **Utilisation en Production**

Votre pipeline est maintenant pr√™t pour :

```python
# Usage simple
from text_preprocessor import TextPreprocessor

# Initialisation
preprocessor = TextPreprocessor("ecommerce")

# Traitement
tokens = preprocessor.preprocess("Texte √† traiter")
corpus_tokens = preprocessor.preprocess(["Texte 1", "Texte 2"])

# Analyse
stats = preprocessor.analyze(corpus)
```

## üéì **Prochaines √âtapes**

1. **üìä Module 3** : Repr√©sentation vectorielle (TF-IDF, embeddings)
2. **ü§ñ Module 4** : Mod√®les de classification (Naive Bayes, SVM)
3. **üß† Module 5** : Deep Learning (r√©seaux de neurones, LSTM)
4. **ü§ó Module 6** : Transformers et mod√®les pr√©-entra√Æn√©s

## üí° **Conseils pour la Suite**

- **Testez** votre pipeline sur vos propres donn√©es
- **Mesurez** l'impact sur vos m√©triques business
- **Adaptez** les configurations selon vos besoins
- **Documentez** vos choix de preprocessing
- **It√©rez** en fonction des r√©sultats

---

**üéâ Bravo ! Vous √™tes maintenant capable de construire des pipelines de preprocessing NLP robustes et performants !**

**üìö Notebook suivant :** `../module3/index.html` - Repr√©sentation Vectorielle du Texte