# üá´üá∑ Tokeniseur Personnalis√© pour le Fran√ßais

**Module 2 - Preprocessing et Tokenisation**

## üéØ Objectifs

Dans ce notebook, nous allons :
- Comprendre les **d√©fis sp√©cifiques** du fran√ßais
- Cr√©er une **classe TokeniseurFrancais** personnalis√©e
- G√©rer les **contractions** fran√ßaises (j', n', c', etc.)
- Traiter les **mots compos√©s** et traits d'union
- Impl√©menter des **r√®gles sp√©cialis√©es** pour le fran√ßais
- Comparer avec les **tokeniseurs standard**

## üîç Pourquoi un tokeniseur sp√©cialis√© ?

Le fran√ßais a des **particularit√©s** que les tokeniseurs g√©n√©riques g√®rent mal :

| D√©fi | Exemple | Probl√®me Standard | Solution Fran√ßaise |
|------|---------|-------------------|--------------------|
| **√âlisions** | j'adore, n'est-ce | Casse les contractions | Pr√©server ou d√©velopper |
| **Mots compos√©s** | self-service, Marie-Claire | S√©pare incorrectement | R√®gles contextuelles |
| **N√©gations** | n'est-ce pas | Perd le sens | Gestion sp√©ciale |
| **Accents** | caf√©, na√Øve | Incoh√©rences | Normalisation |
| **Apostrophes** | aujourd'hui vs l'√©cole | Traitement uniforme | Distinction contextuelle |

## üì¶ Imports et Configuration

In [1]:
import re
import string
import unicodedata
from typing import List, Dict, Tuple, Optional
import time
from collections import Counter

# Pour les comparaisons
try:
    import nltk
    from nltk.tokenize import word_tokenize
    nltk.download('punkt', quiet=True)
    nltk.download('punkt_tab', quiet=True)
    NLTK_AVAILABLE = True
    print("‚úÖ NLTK disponible")
except ImportError:
    NLTK_AVAILABLE = False
    print("‚ùå NLTK non disponible")

try:
    import spacy
    nlp = spacy.load('fr_core_news_sm')
    SPACY_AVAILABLE = True
    print("‚úÖ spaCy fran√ßais disponible")
except (ImportError, OSError):
    SPACY_AVAILABLE = False
    print("‚ùå spaCy fran√ßais non disponible")

print("\nüîß Configuration termin√©e")

‚úÖ NLTK disponible
‚ùå spaCy fran√ßais non disponible

üîß Configuration termin√©e


## üèóÔ∏è Construction du Tokeniseur Fran√ßais

### √âtape 1 : Dictionnaires et R√®gles de Base

In [2]:
class TokeniseurFrancais:
    """Tokeniseur sp√©cialis√© pour le fran√ßais avec gestion des sp√©cificit√©s linguistiques"""
    
    def __init__(self, 
                 developper_contractions: bool = False,
                 garder_ponctuation: bool = True,
                 normaliser_accents: bool = False,
                 gestion_majuscules: str = 'preserve',  # 'preserve', 'lower', 'title'
                 traiter_mots_composes: str = 'keep'):  # 'keep', 'split', 'context'
        """
        Initialise le tokeniseur fran√ßais
        
        Args:
            developper_contractions: Si True, j'ai -> je ai
            garder_ponctuation: Si True, garde la ponctuation comme tokens s√©par√©s
            normaliser_accents: Si True, caf√© -> cafe
            gestion_majuscules: Comment traiter les majuscules
            traiter_mots_composes: Comment traiter les mots avec tirets
        """
        self.developper_contractions = developper_contractions
        self.garder_ponctuation = garder_ponctuation
        self.normaliser_accents = normaliser_accents
        self.gestion_majuscules = gestion_majuscules
        self.traiter_mots_composes = traiter_mots_composes
        
        # Dictionnaire des contractions fran√ßaises
        self.contractions = {
            # Pronoms personnels
            "j'": "je ",
            "J'": "Je ",
            "m'": "me ",
            "M'": "Me ",
            "t'": "te ",
            "T'": "Te ",
            "s'": "se ",
            "S'": "Se ",
            "l'": "le ",
            "L'": "Le ",
            "d'": "de ",
            "D'": "De ",
            "n'": "ne ",
            "N'": "Ne ",
            "c'": "ce ",
            "C'": "Ce ",
            "qu'": "que ",
            "Qu'": "Que ",
            # Expressions fig√©es (ne pas d√©velopper)
            "aujourd'hui": "aujourd'hui",
            "Aujourd'hui": "Aujourd'hui",
            "presqu'√Æle": "presqu'√Æle",
            "quelqu'un": "quelqu'un",
            "quelqu'une": "quelqu'une",
        }
        
        # Mots compos√©s √† pr√©server
        self.mots_composes_fixes = {
            'c\'est-√†-dire', 'vis-√†-vis', 'peut-√™tre', 'c\'est-√†-dire',
            'quelque-chose', 'quelques-uns', 'quelques-unes',
            'au-dessus', 'au-dessous', 'au-del√†', 'en-dessous',
            'avant-hier', 'apr√®s-demain', 'sur-le-champ',
            'tout-√†-coup', 'tout-√†-fait', 'tout-de-suite'
        }
        
        # Pr√©fixes qui forment des mots compos√©s l√©gitimes
        self.prefixes_composes = {
            'anti', 'multi', 'pseudo', 'quasi', 'self', 'super',
            'ultra', 'extra', 'inter', 'contre', 'sous', 'sur',
            'pr√©', 'post', 'pro', 'co', 'ex', 'non', 'semi'
        }
        
        # Suffixes de noms propres compos√©s
        self.suffixes_noms_propres = {
            'saint', 'sainte', 'bourg', 'ville', 'sur', 'sous',
            'en', 'de', 'des', 'du', 'le', 'la', 'les'
        }
        
        print(f"üá´üá∑ TokeniseurFrancais initialis√©:")
        print(f"   ‚Ä¢ D√©velopper contractions: {developper_contractions}")
        print(f"   ‚Ä¢ Garder ponctuation: {garder_ponctuation}")
        print(f"   ‚Ä¢ Normaliser accents: {normaliser_accents}")
        print(f"   ‚Ä¢ Gestion majuscules: {gestion_majuscules}")
        print(f"   ‚Ä¢ Traiter mots compos√©s: {traiter_mots_composes}")

# Test d'initialisation
tokeniseur = TokeniseurFrancais()
print(f"\nüìä Dictionnaires charg√©s:")
print(f"   ‚Ä¢ {len(tokeniseur.contractions)} contractions")
print(f"   ‚Ä¢ {len(tokeniseur.mots_composes_fixes)} mots compos√©s fixes")
print(f"   ‚Ä¢ {len(tokeniseur.prefixes_composes)} pr√©fixes de mots compos√©s")

üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: False
   ‚Ä¢ Garder ponctuation: True
   ‚Ä¢ Normaliser accents: False
   ‚Ä¢ Gestion majuscules: preserve
   ‚Ä¢ Traiter mots compos√©s: keep

üìä Dictionnaires charg√©s:
   ‚Ä¢ 23 contractions
   ‚Ä¢ 16 mots compos√©s fixes
   ‚Ä¢ 19 pr√©fixes de mots compos√©s


### √âtape 2 : M√©thodes Utilitaires

In [3]:
class TokeniseurFrancais(TokeniseurFrancais):  # Extension de la classe
    
    def _normaliser_texte(self, texte: str) -> str:
        """Normalise le texte selon les options configur√©es"""
        # Normalisation Unicode (d√©composition)
        texte = unicodedata.normalize('NFD', texte)
        
        # Suppression des accents si demand√©
        if self.normaliser_accents:
            texte = ''.join(c for c in texte if unicodedata.category(c) != 'Mn')
        else:
            # Recomposition Unicode
            texte = unicodedata.normalize('NFC', texte)
        
        # Gestion des majuscules
        if self.gestion_majuscules == 'lower':
            texte = texte.lower()
        elif self.gestion_majuscules == 'title':
            texte = texte.title()
        # 'preserve' ne fait rien
        
        return texte
    
    def _detecter_nom_propre_compose(self, mot: str) -> bool:
        """D√©tecte si un mot avec tiret est probablement un nom propre compos√©"""
        parties = mot.split('-')
        if len(parties) < 2:
            return False
        
        # Si la premi√®re partie commence par une majuscule
        if parties[0] and parties[0][0].isupper():
            # Et que les autres parties sont des suffixes courants ou ont des majuscules
            for partie in parties[1:]:
                if (partie.lower() in self.suffixes_noms_propres or 
                    (partie and partie[0].isupper())):
                    return True
        
        return False
    
    def _detecter_mot_compose_technique(self, mot: str) -> bool:
        """D√©tecte si un mot avec tiret est un terme technique/compos√© l√©gitime"""
        parties = mot.split('-')
        if len(parties) < 2:
            return False
        
        # V√©rifier les pr√©fixes connus
        premiere_partie = parties[0].lower()
        if premiere_partie in self.prefixes_composes:
            return True
        
        # Mots avec des chiffres (ex: COVID-19, MP3-Player)
        if any(any(c.isdigit() for c in partie) for partie in parties):
            return True
        
        # Mots tout en majuscules (acronymes)
        if any(partie.isupper() and len(partie) > 1 for partie in parties):
            return True
        
        return False
    
    def _traiter_contractions(self, texte: str) -> str:
        """Traite les contractions selon la configuration"""
        if not self.developper_contractions:
            return texte
        
        # Prot√©ger les expressions fig√©es
        expressions_protegees = []
        for expression in ['aujourd\'hui', 'presqu\'√Æle', 'quelqu\'un', 'quelqu\'une']:
            if expression in texte.lower():
                placeholder = f"__EXPR_{len(expressions_protegees)}__"
                expressions_protegees.append(expression)
                texte = re.sub(re.escape(expression), placeholder, texte, flags=re.IGNORECASE)
        
        # D√©velopper les contractions
        for contraction, expansion in self.contractions.items():
            if contraction not in ['aujourd\'hui', 'presqu\'√Æle', 'quelqu\'un', 'quelqu\'une']:
                # Assurer qu'on ne d√©veloppe que des d√©buts de mots
                pattern = r'\b' + re.escape(contraction)
                texte = re.sub(pattern, expansion, texte)
        
        # Restaurer les expressions prot√©g√©es
        for i, expression in enumerate(expressions_protegees):
            placeholder = f"__EXPR_{i}__"
            texte = texte.replace(placeholder, expression)
        
        return texte

# Test des m√©thodes utilitaires
tokeniseur_test = TokeniseurFrancais(developper_contractions=True, normaliser_accents=False)

print("üß™ **TESTS DES M√âTHODES UTILITAIRES**\n")

# Test normalisation
texte_accents = "Caf√© na√Øve r√©sum√©"
print(f"Texte original: {texte_accents}")
print(f"Normalis√©: {tokeniseur_test._normaliser_texte(texte_accents)}")

# Test d√©tection noms propres
noms_test = ["Marie-Claire", "Saint-√âtienne", "Bourg-en-Bresse", "jean-claude"]
print(f"\nD√©tection noms propres compos√©s:")
for nom in noms_test:
    resultat = tokeniseur_test._detecter_nom_propre_compose(nom)
    print(f"   {nom}: {'‚úÖ' if resultat else '‚ùå'}")

# Test d√©tection mots techniques
mots_techniques = ["anti-√¢ge", "self-service", "COVID-19", "MP3-player", "tr√®s-bien"]
print(f"\nD√©tection mots techniques:")
for mot in mots_techniques:
    resultat = tokeniseur_test._detecter_mot_compose_technique(mot)
    print(f"   {mot}: {'‚úÖ' if resultat else '‚ùå'}")

# Test contractions
phrase_contractions = "Aujourd'hui, j'ai rendez-vous avec quelqu'un que j'adore."
print(f"\nTraitement contractions:")
print(f"Original: {phrase_contractions}")
print(f"D√©velopp√©: {tokeniseur_test._traiter_contractions(phrase_contractions)}")

üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: True
   ‚Ä¢ Garder ponctuation: True
   ‚Ä¢ Normaliser accents: False
   ‚Ä¢ Gestion majuscules: preserve
   ‚Ä¢ Traiter mots compos√©s: keep
üß™ **TESTS DES M√âTHODES UTILITAIRES**

Texte original: Caf√© na√Øve r√©sum√©
Normalis√©: Caf√© na√Øve r√©sum√©

D√©tection noms propres compos√©s:
   Marie-Claire: ‚úÖ
   Saint-√âtienne: ‚úÖ
   Bourg-en-Bresse: ‚úÖ
   jean-claude: ‚ùå

D√©tection mots techniques:
   anti-√¢ge: ‚úÖ
   self-service: ‚úÖ
   COVID-19: ‚úÖ
   MP3-player: ‚úÖ
   tr√®s-bien: ‚ùå

Traitement contractions:
Original: Aujourd'hui, j'ai rendez-vous avec quelqu'un que j'adore.
D√©velopp√©: aujourd'hui, je ai rendez-vous avec quelqu'un que je adore.


### √âtape 3 : M√©thode Principale de Tokenisation

In [4]:
class TokeniseurFrancais(TokeniseurFrancais):  # Extension finale
    
    def tokeniser(self, texte: str) -> List[str]:
        """M√©thode principale de tokenisation"""
        if not texte or not texte.strip():
            return []
        
        # √âtape 1: Normalisation
        texte = self._normaliser_texte(texte)
        
        # √âtape 2: Traitement des contractions
        texte = self._traiter_contractions(texte)
        
        # √âtape 3: Tokenisation avec gestion des mots compos√©s
        tokens = self._tokeniser_avec_regles(texte)
        
        # √âtape 4: Post-traitement
        tokens = self._post_traiter(tokens)
        
        return tokens
    
    def _tokeniser_avec_regles(self, texte: str) -> List[str]:
        """Tokenisation avec r√®gles sp√©cialis√©es pour le fran√ßais"""
        # Pattern complexe pour le fran√ßais
        if self.garder_ponctuation:
            # S√©parer la ponctuation mais garder les apostrophes dans les mots
            pattern = r"\b\w+(?:'\w+)*\b|[{}]".format(re.escape(string.punctuation.replace("'", "").replace("-", "")))
        else:
            # Seulement les mots (avec apostrophes et tirets)
            pattern = r"\b\w+(?:'\w+)*(?:-\w+)*\b"
        
        tokens_bruts = re.findall(pattern, texte)
        
        # Traitement sp√©cialis√© des mots avec tirets
        tokens_finals = []
        
        for token in tokens_bruts:
            if '-' in token and len(token) > 1:
                tokens_finals.extend(self._traiter_mot_avec_tiret(token))
            else:
                tokens_finals.append(token)
        
        return tokens_finals
    
    def _traiter_mot_avec_tiret(self, mot: str) -> List[str]:
        """Traite les mots contenant des tirets selon la strat√©gie configur√©e"""
        if self.traiter_mots_composes == 'keep':
            return [mot]
        
        elif self.traiter_mots_composes == 'split':
            # S√©parer tous les tirets
            parties = re.split(r'(-)', mot)
            return [p for p in parties if p and p != '-']
        
        elif self.traiter_mots_composes == 'context':
            # D√©cision contextuelle
            mot_lower = mot.lower()
            
            # Mots compos√©s fixes: garder
            if mot_lower in self.mots_composes_fixes:
                return [mot]
            
            # Noms propres compos√©s: garder
            if self._detecter_nom_propre_compose(mot):
                return [mot]
            
            # Mots techniques/pr√©fixes: garder
            if self._detecter_mot_compose_technique(mot):
                return [mot]
            
            # Expressions comme "est-ce", "c'est-√†-dire": garder
            if any(part in ['ce', 'est', '√†', 'dire', 'que'] for part in mot.lower().split('-')):
                return [mot]
            
            # Sinon: s√©parer
            parties = re.split(r'(-)', mot)
            return [p for p in parties if p and p != '-']
        
        return [mot]
    
    def _post_traiter(self, tokens: List[str]) -> List[str]:
        """Post-traitement des tokens"""
        # Supprimer les tokens vides
        tokens = [t for t in tokens if t.strip()]
        
        # Supprimer les espaces multiples
        tokens = [re.sub(r'\s+', ' ', t).strip() for t in tokens]
        
        # Filtrer les tokens tr√®s courts (sauf ponctuation)
        tokens_filtres = []
        for token in tokens:
            if len(token) >= 1:  # Garder m√™me les tokens d'1 caract√®re (ponctuation, etc.)
                tokens_filtres.append(token)
        
        return tokens_filtres
    
    def analyser(self, texte: str) -> Dict:
        """Analyse d√©taill√©e d'un texte avec statistiques"""
        tokens = self.tokeniser(texte)
        
        # Statistiques de base
        nb_tokens = len(tokens)
        nb_mots = len([t for t in tokens if re.match(r'\w+', t)])
        nb_ponctuation = nb_tokens - nb_mots
        
        # Analyse des types de tokens
        contractions = [t for t in tokens if "'" in t and len(t) > 1]
        mots_composes = [t for t in tokens if "-" in t and len(t) > 1]
        mots_accents = [t for t in tokens if any(c in t for c in '√†√¢√§√©√®√™√´√Ø√Æ√¥√∂√π√ª√º√ø√ß√Ä√Ç√Ñ√â√à√ä√ã√è√é√î√ñ√ô√õ√ú≈∏√á')]
        
        return {
            'texte_original': texte,
            'tokens': tokens,
            'nb_tokens_total': nb_tokens,
            'nb_mots': nb_mots,
            'nb_ponctuation': nb_ponctuation,
            'contractions': contractions,
            'mots_composes': mots_composes,
            'mots_accents': mots_accents,
            'longueur_moyenne': sum(len(t) for t in tokens if re.match(r'\w+', t)) / max(nb_mots, 1)
        }

# Test de la tokenisation compl√®te
print("üß™ **TESTS DE TOKENISATION COMPL√àTE**\n")

# Cr√©er diff√©rents tokeniseurs
tokeniseurs = {
    "Standard": TokeniseurFrancais(),
    "D√©velopp√©": TokeniseurFrancais(developper_contractions=True),
    "Contextuel": TokeniseurFrancais(traiter_mots_composes='context'),
    "Strict": TokeniseurFrancais(traiter_mots_composes='split', garder_ponctuation=False)
}

# Phrases de test
phrases_test = [
    "J'adore les self-services, n'est-ce pas ?",
    "Marie-Claire habite √† Saint-√âtienne.",
    "C'est un anti-√¢ge tr√®s efficace aujourd'hui.",
    "Qu'est-ce que c'est que √ßa ?"
]

for phrase in phrases_test:
    print(f"\nüìù **Phrase:** {phrase}")
    print("-" * 50)
    
    for nom, tokeniseur in tokeniseurs.items():
        tokens = tokeniseur.tokeniser(phrase)
        tokens_str = ', '.join([f"'{t}'" for t in tokens])
        print(f"{nom:12} ({len(tokens):2d}): [{tokens_str}]")
    
    print()

üß™ **TESTS DE TOKENISATION COMPL√àTE**

üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: False
   ‚Ä¢ Garder ponctuation: True
   ‚Ä¢ Normaliser accents: False
   ‚Ä¢ Gestion majuscules: preserve
   ‚Ä¢ Traiter mots compos√©s: keep
üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: True
   ‚Ä¢ Garder ponctuation: True
   ‚Ä¢ Normaliser accents: False
   ‚Ä¢ Gestion majuscules: preserve
   ‚Ä¢ Traiter mots compos√©s: keep
üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: False
   ‚Ä¢ Garder ponctuation: True
   ‚Ä¢ Normaliser accents: False
   ‚Ä¢ Gestion majuscules: preserve
   ‚Ä¢ Traiter mots compos√©s: context
üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: False
   ‚Ä¢ Garder ponctuation: False
   ‚Ä¢ Normaliser accents: False
   ‚Ä¢ Gestion majuscules: preserve
   ‚Ä¢ Traiter mots compos√©s: split

üìù **Phrase:** J'adore les self-services, n'est-ce pas ?
--------------------------

## üìä Analyse Comparative Avanc√©e

In [5]:
# Analyse d√©taill√©e sur un exemple complexe
texte_complexe = """
Aujourd'hui, Marie-Claire s'est rendue au self-service de Saint-√âtienne. 
Elle a achet√© un anti-√¢ge tr√®s efficace, n'est-ce pas ? 
"Qu'est-ce que c'est que √ßa ?", s'est-elle demand√©e. 
C'est vraiment top-niveau !
""".strip()

print("üîç **ANALYSE D√âTAILL√âE SUR TEXTE COMPLEXE**\n")
print(f"**Texte √† analyser:**")
print(f'"{texte_complexe}"\n')

# Analyser avec le tokeniseur contextuel
tokeniseur_analyse = TokeniseurFrancais(traiter_mots_composes='context')
analyse = tokeniseur_analyse.analyser(texte_complexe)

print("üìä **STATISTIQUES:**")
print(f"   ‚Ä¢ Tokens total: {analyse['nb_tokens_total']}")
print(f"   ‚Ä¢ Mots: {analyse['nb_mots']}")
print(f"   ‚Ä¢ Ponctuation: {analyse['nb_ponctuation']}")
print(f"   ‚Ä¢ Longueur moyenne des mots: {analyse['longueur_moyenne']:.1f} caract√®res")

print(f"\nüîç **√âL√âMENTS SP√âCIAUX D√âTECT√âS:**")
print(f"   ‚Ä¢ Contractions ({len(analyse['contractions'])}): {analyse['contractions']}")
print(f"   ‚Ä¢ Mots compos√©s ({len(analyse['mots_composes'])}): {analyse['mots_composes']}")
print(f"   ‚Ä¢ Mots avec accents ({len(analyse['mots_accents'])}): {analyse['mots_accents']}")

print(f"\nüìù **TOKENS FINAUX:**")
tokens_par_ligne = []
ligne_actuelle = []
for token in analyse['tokens']:
    ligne_actuelle.append(f"'{token}'")
    if len(', '.join(ligne_actuelle)) > 70:  # Limiter la largeur
        tokens_par_ligne.append(', '.join(ligne_actuelle))
        ligne_actuelle = []

if ligne_actuelle:
    tokens_par_ligne.append(', '.join(ligne_actuelle))

for i, ligne in enumerate(tokens_par_ligne):
    prefix = "[" if i == 0 else " "
    suffix = "]" if i == len(tokens_par_ligne) - 1 else ","
    print(f"{prefix}{ligne}{suffix}")

üîç **ANALYSE D√âTAILL√âE SUR TEXTE COMPLEXE**

**Texte √† analyser:**
"Aujourd'hui, Marie-Claire s'est rendue au self-service de Saint-√âtienne. 
Elle a achet√© un anti-√¢ge tr√®s efficace, n'est-ce pas ? 
"Qu'est-ce que c'est que √ßa ?", s'est-elle demand√©e. 
C'est vraiment top-niveau !"

üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: False
   ‚Ä¢ Garder ponctuation: True
   ‚Ä¢ Normaliser accents: False
   ‚Ä¢ Gestion majuscules: preserve
   ‚Ä¢ Traiter mots compos√©s: context
üìä **STATISTIQUES:**
   ‚Ä¢ Tokens total: 45
   ‚Ä¢ Mots: 35
   ‚Ä¢ Ponctuation: 10
   ‚Ä¢ Longueur moyenne des mots: 4.6 caract√®res

üîç **√âL√âMENTS SP√âCIAUX D√âTECT√âS:**
   ‚Ä¢ Contractions (7): ["Aujourd'hui", "s'est", "n'est", "Qu'est", "c'est", "s'est", "C'est"]
   ‚Ä¢ Mots compos√©s (0): []
   ‚Ä¢ Mots avec accents (6): ['√âtienne', 'achet√©', '√¢ge', 'tr√®s', '√ßa', 'demand√©e']

üìù **TOKENS FINAUX:**
['Aujourd'hui', ',', 'Marie', 'Claire', 's'est', 'rendue', 'au', 

## ‚ö° Comparaison avec NLTK et spaCy

In [6]:
def comparer_tokeniseurs(texte: str):
    """Compare notre tokeniseur avec NLTK et spaCy"""
    
    resultats = {}
    
    # Notre tokeniseur
    notre_tokeniseur = TokeniseurFrancais(traiter_mots_composes='context')
    resultats['TokeniseurFrancais'] = notre_tokeniseur.tokeniser(texte)
    
    # NLTK
    if NLTK_AVAILABLE:
        resultats['NLTK'] = word_tokenize(texte, language='french')
    
    # spaCy
    if SPACY_AVAILABLE:
        doc = nlp(texte)
        resultats['spaCy'] = [token.text for token in doc]
    
    # Split simple pour comparaison
    resultats['Split Simple'] = texte.split()
    
    return resultats

# Tests comparatifs
print("‚öîÔ∏è **COMPARAISON AVEC NLTK ET SPACY**\n")

phrases_comparaison = [
    "J'adore les self-services de Saint-√âtienne.",
    "N'est-ce pas que c'est formidable ?",
    "Marie-Claire utilise un anti-√¢ge top-niveau.",
    "Aujourd'hui, qu'est-ce que tu fais ?"
]

for i, phrase in enumerate(phrases_comparaison, 1):
    print(f"**Test {i}:** {phrase}")
    print("-" * 60)
    
    resultats = comparer_tokeniseurs(phrase)
    
    for nom_tokeniseur, tokens in resultats.items():
        tokens_str = ', '.join([f"'{t}'" for t in tokens])
        print(f"{nom_tokeniseur:18} ({len(tokens):2d}): [{tokens_str}]")
    
    print("\n" + "=" * 60 + "\n")

‚öîÔ∏è **COMPARAISON AVEC NLTK ET SPACY**

**Test 1:** J'adore les self-services de Saint-√âtienne.
------------------------------------------------------------
üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: False
   ‚Ä¢ Garder ponctuation: True
   ‚Ä¢ Normaliser accents: False
   ‚Ä¢ Gestion majuscules: preserve
   ‚Ä¢ Traiter mots compos√©s: context
TokeniseurFrancais ( 8): ['J'adore', 'les', 'self', 'services', 'de', 'Saint', '√âtienne', '.']
NLTK               ( 6): ['J'adore', 'les', 'self-services', 'de', 'Saint-√âtienne', '.']
Split Simple       ( 5): ['J'adore', 'les', 'self-services', 'de', 'Saint-√âtienne.']


**Test 2:** N'est-ce pas que c'est formidable ?
------------------------------------------------------------
üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: False
   ‚Ä¢ Garder ponctuation: True
   ‚Ä¢ Normaliser accents: False
   ‚Ä¢ Gestion majuscules: preserve
   ‚Ä¢ Traiter mots compos√©s: context
TokeniseurFranca

## üéØ Analyse des Avantages de Notre Tokeniseur

In [7]:
def analyser_avantages():
    """Analyse les avantages sp√©cifiques de notre tokeniseur"""
    
    print("üéØ **AVANTAGES DU TOKENISEUR FRAN√áAIS PERSONNALIS√â**\n")
    
    # Test 1: Gestion des contractions
    print("‚úÖ **1. GESTION INTELLIGENTE DES CONTRACTIONS**")
    phrase_contractions = "Aujourd'hui j'ai rendez-vous, mais j'h√©site."
    
    # Avec d√©veloppement
    tokeniseur_dev = TokeniseurFrancais(developper_contractions=True)
    tokens_dev = tokeniseur_dev.tokeniser(phrase_contractions)
    
    # Sans d√©veloppement
    tokeniseur_normal = TokeniseurFrancais(developper_contractions=False)
    tokens_normal = tokeniseur_normal.tokeniser(phrase_contractions)
    
    print(f"Phrase: {phrase_contractions}")
    print(f"Sans d√©veloppement: {tokens_normal}")
    print(f"Avec d√©veloppement: {tokens_dev}")
    print(f"Avantage: Pr√©serve 'aujourd'hui' m√™me avec d√©veloppement activ√©\n")
    
    # Test 2: Mots compos√©s contextuels
    print("‚úÖ **2. TRAITEMENT CONTEXTUEL DES MOTS COMPOS√âS**")
    phrase_composes = "Marie-Claire utilise un self-service tr√®s-bien con√ßu."
    
    tokeniseur_context = TokeniseurFrancais(traiter_mots_composes='context')
    tokens_context = tokeniseur_context.tokeniser(phrase_composes)
    
    tokeniseur_split = TokeniseurFrancais(traiter_mots_composes='split')
    tokens_split = tokeniseur_split.tokeniser(phrase_composes)
    
    print(f"Phrase: {phrase_composes}")
    print(f"S√©paration syst√©matique: {tokens_split}")
    print(f"Traitement contextuel: {tokens_context}")
    print(f"Avantage: Garde 'Marie-Claire' et 'self-service', s√©pare 'tr√®s-bien'\n")
    
    # Test 3: Robustesse avec accents
    print("‚úÖ **3. ROBUSTESSE AVEC LES ACCENTS FRAN√áAIS**")
    phrase_accents = "√Ä No√´l, na√Øvement, j'ai achet√© un caf√© tr√®s-cher."
    
    tokeniseur_accents = TokeniseurFrancais(normaliser_accents=False)
    tokens_accents = tokeniseur_accents.tokeniser(phrase_accents)
    
    print(f"Phrase: {phrase_accents}")
    print(f"Tokens: {tokens_accents}")
    print(f"Avantage: Pr√©serve les accents fran√ßais correctement\n")
    
    # Test 4: Flexibilit√© de configuration
    print("‚úÖ **4. FLEXIBILIT√â DE CONFIGURATION**")
    configurations = {
        "Analyse de sentiment": TokeniseurFrancais(
            developper_contractions=True, 
            garder_ponctuation=False,
            gestion_majuscules='lower'
        ),
        "Extraction d'entit√©s": TokeniseurFrancais(
            developper_contractions=False,
            traiter_mots_composes='context',
            gestion_majuscules='preserve'
        ),
        "Recherche textuelle": TokeniseurFrancais(
            normaliser_accents=True,
            gestion_majuscules='lower',
            garder_ponctuation=False
        )
    }
    
    phrase_demo = "Marie-Claire n'aime pas les caf√© trop-chers !"
    print(f"Phrase: {phrase_demo}")
    
    for nom_config, tokeniseur_config in configurations.items():
        tokens_config = tokeniseur_config.tokeniser(phrase_demo)
        print(f"{nom_config:20}: {tokens_config}")
    
    print(f"Avantage: Un seul tokeniseur adaptable √† diff√©rents cas d'usage")

analyser_avantages()

üéØ **AVANTAGES DU TOKENISEUR FRAN√áAIS PERSONNALIS√â**

‚úÖ **1. GESTION INTELLIGENTE DES CONTRACTIONS**
üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: True
   ‚Ä¢ Garder ponctuation: True
   ‚Ä¢ Normaliser accents: False
   ‚Ä¢ Gestion majuscules: preserve
   ‚Ä¢ Traiter mots compos√©s: keep
üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: False
   ‚Ä¢ Garder ponctuation: True
   ‚Ä¢ Normaliser accents: False
   ‚Ä¢ Gestion majuscules: preserve
   ‚Ä¢ Traiter mots compos√©s: keep
Phrase: Aujourd'hui j'ai rendez-vous, mais j'h√©site.
Sans d√©veloppement: ["Aujourd'hui", "j'ai", 'rendez', 'vous', ',', 'mais', "j'h√©site", '.']
Avec d√©veloppement: ["aujourd'hui", 'je', 'ai', 'rendez', 'vous', ',', 'mais', 'je', 'h√©site', '.']
Avantage: Pr√©serve 'aujourd'hui' m√™me avec d√©veloppement activ√©

‚úÖ **2. TRAITEMENT CONTEXTUEL DES MOTS COMPOS√âS**
üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: False
   ‚Ä¢ Ga

## üìà Benchmark de Performance

In [8]:
import time

def benchmark_performance():
    """Benchmark de performance des diff√©rents tokeniseurs"""
    
    # Cr√©er un dataset de test
    textes_test = [
        "J'adore les self-services de Marie-Claire.",
        "N'est-ce pas que c'est formidable aujourd'hui ?",
        "Les anti-√¢ges sont tr√®s-efficaces, qu'est-ce que tu en penses ?",
        "√Ä Saint-√âtienne, on trouve de tout, m√™me des caf√© haut-de-gamme.",
        "C'est vraiment top-niveau, n'est-ce pas ?"
    ] * 100  # R√©p√©ter pour avoir assez de donn√©es
    
    print(f"‚ö° **BENCHMARK DE PERFORMANCE**\n")
    print(f"Dataset: {len(textes_test)} textes")
    print(f"Iterations: 10 par m√©thode\n")
    
    resultats = {}
    
    # Notre tokeniseur (diff√©rentes configurations)
    tokeniseurs_test = {
        'TokeniseurFrancais (simple)': TokeniseurFrancais(),
        'TokeniseurFrancais (contextuel)': TokeniseurFrancais(traiter_mots_composes='context'),
        'TokeniseurFrancais (d√©velopp√©)': TokeniseurFrancais(developper_contractions=True)
    }
    
    for nom, tokeniseur in tokeniseurs_test.items():
        start_time = time.time()
        
        for _ in range(10):
            for texte in textes_test:
                tokeniseur.tokeniser(texte)
        
        temps_total = time.time() - start_time
        resultats[nom] = temps_total
    
    # NLTK
    if NLTK_AVAILABLE:
        start_time = time.time()
        
        for _ in range(10):
            for texte in textes_test:
                word_tokenize(texte, language='french')
        
        temps_total = time.time() - start_time
        resultats['NLTK'] = temps_total
    
    # spaCy
    if SPACY_AVAILABLE:
        start_time = time.time()
        
        for _ in range(10):
            for texte in textes_test:
                doc = nlp(texte)
                [token.text for token in doc]
        
        temps_total = time.time() - start_time
        resultats['spaCy'] = temps_total
    
    # Split simple
    start_time = time.time()
    
    for _ in range(10):
        for texte in textes_test:
            texte.split()
    
    temps_total = time.time() - start_time
    resultats['Split simple'] = temps_total
    
    # Affichage des r√©sultats
    print("üìä **R√âSULTATS (temps en secondes):**")
    sorted_results = sorted(resultats.items(), key=lambda x: x[1])
    
    for i, (method, time_taken) in enumerate(sorted_results, 1):
        print(f"{i}. {method}: {time_taken:.4f}s")
    
    # Calculer les ratios
    fastest_time = min(resultats.values())
    print(f"\nüìà **RATIOS (par rapport au plus rapide):**")
    for method, time_taken in sorted_results:
        ratio = time_taken / fastest_time
        print(f"{method}: {ratio:.1f}x")
    
    return resultats

# Lancer le benchmark
resultats_benchmark = benchmark_performance()

‚ö° **BENCHMARK DE PERFORMANCE**

Dataset: 500 textes
Iterations: 10 par m√©thode

üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: False
   ‚Ä¢ Garder ponctuation: True
   ‚Ä¢ Normaliser accents: False
   ‚Ä¢ Gestion majuscules: preserve
   ‚Ä¢ Traiter mots compos√©s: keep
üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: False
   ‚Ä¢ Garder ponctuation: True
   ‚Ä¢ Normaliser accents: False
   ‚Ä¢ Gestion majuscules: preserve
   ‚Ä¢ Traiter mots compos√©s: context
üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: True
   ‚Ä¢ Garder ponctuation: True
   ‚Ä¢ Normaliser accents: False
   ‚Ä¢ Gestion majuscules: preserve
   ‚Ä¢ Traiter mots compos√©s: keep
üìä **R√âSULTATS (temps en secondes):**
1. Split simple: 0.0008s
2. TokeniseurFrancais (contextuel): 0.0475s
3. TokeniseurFrancais (simple): 0.0523s
4. NLTK: 0.1043s
5. TokeniseurFrancais (d√©velopp√©): 0.1623s

üìà **RATIOS (par rapport au plus rapide):**
Split

## üõ†Ô∏è Exemples d'Utilisation Pratique

In [9]:
def exemples_cas_usage():
    """Exemples d'utilisation pour diff√©rents cas d'usage"""
    
    print("üõ†Ô∏è **EXEMPLES D'UTILISATION PRATIQUE**\n")
    
    # Cas 1: Analyse de sentiment
    print("üìä **CAS 1: ANALYSE DE SENTIMENT**")
    tokeniseur_sentiment = TokeniseurFrancais(
        developper_contractions=True,
        garder_ponctuation=False,
        gestion_majuscules='lower',
        normaliser_accents=True
    )
    
    avis_client = "J'ADORE ce produit ! Il n'y a rien √† redire, c'est parfait !"
    tokens_sentiment = tokeniseur_sentiment.tokeniser(avis_client)
    
    print(f"Avis client: {avis_client}")
    print(f"Tokens pour ML: {tokens_sentiment}")
    print("Avantages: Tout en minuscules, contractions d√©velopp√©es, pas de ponctuation\n")
    
    # Cas 2: Extraction d'entit√©s nomm√©es
    print("üè∑Ô∏è **CAS 2: EXTRACTION D'ENTIT√âS NOMM√âES**")
    tokeniseur_entites = TokeniseurFrancais(
        developper_contractions=False,
        traiter_mots_composes='context',
        gestion_majuscules='preserve',
        garder_ponctuation=True
    )
    
    texte_entites = "Marie-Claire Dubois habite √† Saint-√âtienne depuis 2020."
    tokens_entites = tokeniseur_entites.tokeniser(texte_entites)
    
    print(f"Texte: {texte_entites}")
    print(f"Tokens: {tokens_entites}")
    print("Avantages: Pr√©serve les noms compos√©s et les majuscules\n")
    
    # Cas 3: Recherche et indexation
    print("üîç **CAS 3: RECHERCHE ET INDEXATION**")
    tokeniseur_recherche = TokeniseurFrancais(
        developper_contractions=True,
        garder_ponctuation=False,
        gestion_majuscules='lower',
        normaliser_accents=True,
        traiter_mots_composes='split'
    )
    
    document = "Les self-services fran√ßais offrent des caf√© de qualit√©."
    tokens_recherche = tokeniseur_recherche.tokeniser(document)
    
    print(f"Document: {document}")
    print(f"Tokens index√©s: {tokens_recherche}")
    print("Avantages: Normalis√© pour la recherche, mots compos√©s s√©par√©s\n")
    
    # Cas 4: Interface utilisateur
    print("üí¨ **CAS 4: INTERFACE UTILISATEUR (CHATBOT)**")
    tokeniseur_chatbot = TokeniseurFrancais(
        developper_contractions=False,
        garder_ponctuation=True,
        gestion_majuscules='preserve',
        traiter_mots_composes='context'
    )
    
    message_user = "Bonjour ! Qu'est-ce que vous avez comme self-service ?"
    tokens_chatbot = tokeniseur_chatbot.tokeniser(message_user)
    
    print(f"Message utilisateur: {message_user}")
    print(f"Tokens: {tokens_chatbot}")
    print("Avantages: Pr√©serve le style naturel du message\n")

exemples_cas_usage()

üõ†Ô∏è **EXEMPLES D'UTILISATION PRATIQUE**

üìä **CAS 1: ANALYSE DE SENTIMENT**
üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: True
   ‚Ä¢ Garder ponctuation: False
   ‚Ä¢ Normaliser accents: True
   ‚Ä¢ Gestion majuscules: lower
   ‚Ä¢ Traiter mots compos√©s: keep
Avis client: J'ADORE ce produit ! Il n'y a rien √† redire, c'est parfait !
Tokens pour ML: ['je', 'adore', 'ce', 'produit', 'il', 'ne', 'y', 'a', 'rien', 'a', 'redire', 'ce', 'est', 'parfait']
Avantages: Tout en minuscules, contractions d√©velopp√©es, pas de ponctuation

üè∑Ô∏è **CAS 2: EXTRACTION D'ENTIT√âS NOMM√âES**
üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: False
   ‚Ä¢ Garder ponctuation: True
   ‚Ä¢ Normaliser accents: False
   ‚Ä¢ Gestion majuscules: preserve
   ‚Ä¢ Traiter mots compos√©s: context
Texte: Marie-Claire Dubois habite √† Saint-√âtienne depuis 2020.
Tokens: ['Marie', 'Claire', 'Dubois', 'habite', '√†', 'Saint', '√âtienne', 'depuis', '2020', '.']


## üß™ Zone d'Exp√©rimentation

In [10]:
# Zone libre pour tester le tokeniseur
def tester_tokeniseur_personnalise(texte: str, **kwargs):
    """Fonction pour tester le tokeniseur avec des param√®tres personnalis√©s"""
    
    tokeniseur_test = TokeniseurFrancais(**kwargs)
    analyse = tokeniseur_test.analyser(texte)
    
    print(f"üß™ **TEST PERSONNALIS√â**\n")
    print(f"Configuration: {kwargs}")
    print(f"Texte: {texte}\n")
    
    print(f"üìä Statistiques:")
    print(f"   ‚Ä¢ {analyse['nb_tokens_total']} tokens total")
    print(f"   ‚Ä¢ {analyse['nb_mots']} mots")
    print(f"   ‚Ä¢ {len(analyse['contractions'])} contractions")
    print(f"   ‚Ä¢ {len(analyse['mots_composes'])} mots compos√©s\n")
    
    print(f"üîç Tokens: {analyse['tokens']}")
    
    return analyse

# Exemples √† tester (modifiez √† votre guise)
mon_texte_test = "Marie-Claire n'aime pas les self-services trop-chers de Saint-√âtienne !"

# D√©commentez et modifiez pour tester :
# tester_tokeniseur_personnalise(
#     mon_texte_test,
#     developper_contractions=True,
#     traiter_mots_composes='context',
#     gestion_majuscules='lower'
# )

## üìö Exercices Pratiques

### Exercice 1: Configuration Optimale
Pour chaque cas d'usage, trouvez la configuration optimale :

**Texte:** `"Jean-Claude n'aime pas les e-commerces mal-con√ßus de Saint-Denis !"`

- **Classification de texte** : Quelle configuration pour maximiser la g√©n√©ralisation ?
- **Extraction d'informations** : Comment pr√©server les entit√©s nomm√©es ?
- **Analyse syntaxique** : Quels param√®tres pour garder la structure ?

### Exercice 2: Extension du Dictionnaire
Ajoutez des r√®gles pour g√©rer :
- Les contractions qu√©b√©coises : `"icitte"`, `"to√©"`, etc.
- Les mots compos√©s techniques : `"machine-learning"`, `"deep-learning"`
- Les expressions famili√®res : `"y'a"`, `"qu'est-c'que"`

### Exercice 3: Optimisation
Optimisez le tokeniseur pour traiter :
- 1 million de tweets fran√ßais
- Des documents juridiques avec beaucoup de r√©f√©rences
- Du code source m√©lang√© fran√ßais/anglais

In [11]:
# Zone pour les exercices
print("üìù **EXERCICES PRATIQUES**\n")

# Exercice 1: Configurations optimales
texte_exercice = "Jean-Claude n'aime pas les e-commerces mal-con√ßus de Saint-Denis !"

configs_test = {
    "Classification": {
        'developper_contractions': True,
        'garder_ponctuation': False,
        'gestion_majuscules': 'lower',
        'normaliser_accents': True
    },
    "Extraction entit√©s": {
        'developper_contractions': False,
        'traiter_mots_composes': 'context',
        'gestion_majuscules': 'preserve'
    },
    "Analyse syntaxique": {
        'developper_contractions': False,
        'garder_ponctuation': True,
        'gestion_majuscules': 'preserve',
        'traiter_mots_composes': 'keep'
    }
}

print(f"Texte d'exercice: {texte_exercice}\n")

for nom_config, config in configs_test.items():
    tokeniseur_ex = TokeniseurFrancais(**config)
    tokens_ex = tokeniseur_ex.tokeniser(texte_exercice)
    print(f"{nom_config:20}: {tokens_ex}")

print("\nüí° Analysez les diff√©rences et choisissez la meilleure configuration pour chaque cas !")

üìù **EXERCICES PRATIQUES**

Texte d'exercice: Jean-Claude n'aime pas les e-commerces mal-con√ßus de Saint-Denis !

üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: True
   ‚Ä¢ Garder ponctuation: False
   ‚Ä¢ Normaliser accents: True
   ‚Ä¢ Gestion majuscules: lower
   ‚Ä¢ Traiter mots compos√©s: keep
Classification      : ['jean-claude', 'ne', 'aime', 'pas', 'les', 'e-commerces', 'mal-concus', 'de', 'saint-denis']
üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: False
   ‚Ä¢ Garder ponctuation: True
   ‚Ä¢ Normaliser accents: False
   ‚Ä¢ Gestion majuscules: preserve
   ‚Ä¢ Traiter mots compos√©s: context
Extraction entit√©s  : ['Jean', 'Claude', "n'aime", 'pas', 'les', 'e', 'commerces', 'mal', 'con√ßus', 'de', 'Saint', 'Denis', '!']
üá´üá∑ TokeniseurFrancais initialis√©:
   ‚Ä¢ D√©velopper contractions: False
   ‚Ä¢ Garder ponctuation: True
   ‚Ä¢ Normaliser accents: False
   ‚Ä¢ Gestion majuscules: preserve
   ‚Ä¢ Traiter mots co

## üìã R√©sum√© et Bonnes Pratiques

### üéØ Ce que vous avez appris :

1. **Sp√©cificit√©s du fran√ßais** : contractions, mots compos√©s, accents
2. **Architecture modulaire** : classe configurable selon le besoin
3. **Gestion contextuelle** : d√©cisions intelligentes selon le contenu
4. **Performance √©quilibr√©e** : entre pr√©cision et vitesse

### üí° Bonnes pratiques :

#### ‚úÖ √Ä faire :
- **Adapter la configuration** au cas d'usage
- **Tester sur vos donn√©es** r√©elles
- **Mesurer l'impact** sur les performances finales
- **Documenter vos choix** de configuration
- **Valider manuellement** sur des √©chantillons

#### ‚ùå √Ä √©viter :
- **Configuration unique** pour tous les cas
- **Sur-optimisation** sur un petit dataset
- **Ignorer les sp√©cificit√©s** de votre domaine
- **Performance sans qualit√©** (ou l'inverse)
- **Modifications sans tests** de r√©gression

### üöÄ Pour aller plus loin :

1. **Int√©gration avec d'autres outils** : spaCy pipelines, scikit-learn
2. **Tokenisation sous-mots** : BPE, SentencePiece pour les mod√®les modernes
3. **Adaptation au domaine** : m√©dical, juridique, technique
4. **Multilinguisme** : extension √† d'autres langues

---

**üéâ F√©licitations !** Vous avez cr√©√© un tokeniseur personnalis√© adapt√© au fran√ßais !

**‚û°Ô∏è Suite du cours :** [Module 2.4 - Techniques Avanc√©es](../module2_avance.html)