# üîß Normalisation Avanc√©e des Entit√©s

**Module 2 : Preprocessing et Tokenisation**

---

## üéØ Objectifs de ce Notebook

Dans ce notebook, vous allez apprendre √† :

- üìÖ **Normaliser les dates** : "3 mars 2024", "03/03/2024" ‚Üí "DATE"
- üí∞ **Normaliser les montants** : "1.500,50‚Ç¨", "1500.5 euros" ‚Üí "MONTANT"
- üìß **Normaliser les emails** : "contact@exemple.fr" ‚Üí "EMAIL"
- üåê **Normaliser les URLs** : "https://www.exemple.com" ‚Üí "URL"
- üì± **Normaliser les t√©l√©phones** : "01 23 45 67 89" ‚Üí "TELEPHONE"
- üî¢ **Normaliser les nombres** : "mille", "1000", "1 000" ‚Üí "NOMBRE"

## üí° Pourquoi Normaliser les Entit√©s ?

**Probl√®me :** Dans le texte brut, la m√™me information peut s'√©crire de multiples fa√ßons :
```
"Contactez-moi au 01.23.45.67.89 ou 01 23 45 67 89 ou +33123456789"
```

**Solution :** Remplacer par un token unique :
```
"Contactez-moi au TELEPHONE ou TELEPHONE ou TELEPHONE"
```

**Avantages :**
- üìâ **R√©duction du vocabulaire** : Moins de mots uniques
- üéØ **Focus sur le sens** : Le mod√®le se concentre sur le contenu, pas la forme
- üîí **Anonymisation** : Protection des donn√©es personnelles
- ‚ö° **Performance** : Moins de tokens = calculs plus rapides

In [None]:
# Installation des d√©pendances (si n√©cessaire)
# !pip install regex pandas matplotlib

import re
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime
from typing import Dict, List, Tuple

# Configuration pour l'affichage
plt.style.use('default')
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

print("‚úÖ Imports r√©ussis ! Pr√™t pour la normalisation avanc√©e.")

---

# üìÖ 1. Normalisation des Dates

Les dates peuvent s'√©crire de nombreuses fa√ßons en fran√ßais :

In [None]:
# Exemples de dates en fran√ßais
exemples_dates = [
    "3 mars 2024",
    "15 janvier 2023",
    "03/03/2024",
    "15/01/2023",
    "3 mars",
    "le 25 d√©cembre",
    "2024-03-15",
    "mars 2024",
    "en janvier 2023"
]

print("üìÖ Exemples de dates √† normaliser :")
for i, date in enumerate(exemples_dates, 1):
    print(f"{i:2d}. {date}")

In [None]:
class NormalisateurDates:
    """Classe pour normaliser les dates en fran√ßais"""
    
    def __init__(self):
        # Dictionnaire des mois fran√ßais
        self.mois_francais = {
            'janvier': '01', 'f√©vrier': '02', 'mars': '03', 'avril': '04',
            'mai': '05', 'juin': '06', 'juillet': '07', 'ao√ªt': '08',
            'septembre': '09', 'octobre': '10', 'novembre': '11', 'd√©cembre': '12'
        }
        
        # Patterns regex pour diff√©rents formats
        self.patterns = [
            # Format: "3 mars 2024"
            r'\b(\d{1,2})\s+(janvier|f√©vrier|mars|avril|mai|juin|juillet|ao√ªt|septembre|octobre|novembre|d√©cembre)\s+(\d{4})\b',
            # Format: "03/03/2024" ou "3/3/2024"
            r'\b(\d{1,2})/(\d{1,2})/(\d{4})\b',
            # Format: "2024-03-15"
            r'\b(\d{4})-(\d{1,2})-(\d{1,2})\b',
            # Format: "le 25 d√©cembre"
            r'\ble\s+(\d{1,2})\s+(janvier|f√©vrier|mars|avril|mai|juin|juillet|ao√ªt|septembre|octobre|novembre|d√©cembre)\b',
        ]
    
    def normaliser_texte(self, texte: str, remplacer_par: str = "DATE") -> str:
        """
        Normalise toutes les dates dans un texte
        
        Args:
            texte: Le texte √† traiter
            remplacer_par: Token de remplacement (d√©faut: "DATE")
        
        Returns:
            Texte avec dates normalis√©es
        """
        resultat = texte
        
        for pattern in self.patterns:
            resultat = re.sub(pattern, remplacer_par, resultat, flags=re.IGNORECASE)
        
        return resultat
    
    def detecter_dates(self, texte: str) -> List[str]:
        """
        D√©tecte toutes les dates dans un texte
        
        Returns:
            Liste des dates trouv√©es
        """
        dates_trouvees = []
        
        for pattern in self.patterns:
            matches = re.findall(pattern, texte, re.IGNORECASE)
            for match in matches:
                if isinstance(match, tuple):
                    dates_trouvees.extend([m for m in match if m])
                else:
                    dates_trouvees.append(match)
        
        return dates_trouvees

# Test du normalisateur de dates
normalisateur_dates = NormalisateurDates()

print("üß™ Test du normalisateur de dates :")
print("=" * 50)

texte_test = "Rendez-vous le 15 mars 2024 √† 14h30. Le 03/01/2023 √©tait un mardi."
print(f"üìù Texte original : {texte_test}")
print(f"üîß Apr√®s normalisation : {normalisateur_dates.normaliser_texte(texte_test)}")
print(f"üîç Dates d√©tect√©es : {normalisateur_dates.detecter_dates(texte_test)}")

---

# üí∞ 2. Normalisation des Montants

Les montants peuvent s'√©crire de multiples fa√ßons :

In [None]:
# Exemples de montants
exemples_montants = [
    "1.500,50‚Ç¨",
    "1500.5 euros",
    "25‚Ç¨",
    "‚Ç¨25",
    "25 EUR",
    "25 dollars",
    "$25",
    "25$",
    "2 000 ‚Ç¨",
    "15,99‚Ç¨",
    "1 million d'euros",
    "vingt euros"
]

print("üí∞ Exemples de montants √† normaliser :")
for i, montant in enumerate(exemples_montants, 1):
    print(f"{i:2d}. {montant}")

In [None]:
class NormalisateurMontants:
    """Classe pour normaliser les montants"""
    
    def __init__(self):
        # Patterns pour diff√©rents formats de montants
        self.patterns = [
            # Format fran√ßais: "1.500,50‚Ç¨" ou "1 500,50 ‚Ç¨"
            r'\b\d{1,3}(?:[.\s]\d{3})*,\d{2}\s*‚Ç¨?\b',
            # Format anglais: "1,500.50" ou "$1500.50"
            r'\$?\b\d{1,3}(?:,\d{3})*\.\d{2}\b',
            # Montants simples: "25‚Ç¨", "‚Ç¨25", "25 euros"
            r'\b\d+(?:\.\d+)?\s*(?:‚Ç¨|euros?|EUR|dollars?|\$)\b',
            r'\b(?:‚Ç¨|\$)\d+(?:\.\d+)?\b',
            # Montants en lettres approximatifs
            r'\b(?:un|deux|trois|quatre|cinq|six|sept|huit|neuf|dix|vingt|trente|quarante|cinquante|cent|mille|million)\s+(?:euros?|dollars?)\b',
        ]
    
    def normaliser_texte(self, texte: str, remplacer_par: str = "MONTANT") -> str:
        """
        Normalise tous les montants dans un texte
        """
        resultat = texte
        
        for pattern in self.patterns:
            resultat = re.sub(pattern, remplacer_par, resultat, flags=re.IGNORECASE)
        
        return resultat
    
    def detecter_montants(self, texte: str) -> List[str]:
        """
        D√©tecte tous les montants dans un texte
        """
        montants_trouves = []
        
        for pattern in self.patterns:
            matches = re.findall(pattern, texte, re.IGNORECASE)
            montants_trouves.extend(matches)
        
        return montants_trouves

# Test du normalisateur de montants
normalisateur_montants = NormalisateurMontants()

print("üß™ Test du normalisateur de montants :")
print("=" * 50)

texte_test = "Le produit co√ªte 1.299,99‚Ç¨ en promo au lieu de 1500 euros. Livraison : 5,99‚Ç¨."
print(f"üìù Texte original : {texte_test}")
print(f"üîß Apr√®s normalisation : {normalisateur_montants.normaliser_texte(texte_test)}")
print(f"üîç Montants d√©tect√©s : {normalisateur_montants.detecter_montants(texte_test)}")

---

# üìß 3. Normalisation des Emails et URLs

Emails et URLs sont facilement d√©tectables avec des regex :

In [None]:
class NormalisateurWeb:
    """Classe pour normaliser emails, URLs et mentions"""
    
    def __init__(self):
        # Patterns pour les √©l√©ments web
        self.patterns = {
            'email': r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b',
            'url': r'https?://[^\s<>"\[\]{}|\\^`]+',
            'url_www': r'www\.[^\s<>"\[\]{}|\\^`]+',
            'mention': r'@\w+',
            'hashtag': r'#\w+'
        }
    
    def normaliser_texte(self, texte: str, 
                        remplacements: Dict[str, str] = None) -> str:
        """
        Normalise les √©l√©ments web dans un texte
        
        Args:
            texte: Texte √† traiter
            remplacements: Dictionnaire des remplacements personnalis√©s
        """
        if remplacements is None:
            remplacements = {
                'email': 'EMAIL',
                'url': 'URL',
                'url_www': 'URL',
                'mention': 'MENTION',
                'hashtag': 'HASHTAG'
            }
        
        resultat = texte
        
        for type_element, pattern in self.patterns.items():
            if type_element in remplacements:
                resultat = re.sub(pattern, remplacements[type_element], resultat)
        
        return resultat
    
    def detecter_elements(self, texte: str) -> Dict[str, List[str]]:
        """
        D√©tecte tous les √©l√©ments web dans un texte
        """
        elements_trouves = {}
        
        for type_element, pattern in self.patterns.items():
            matches = re.findall(pattern, texte)
            if matches:
                elements_trouves[type_element] = matches
        
        return elements_trouves

# Test du normalisateur web
normalisateur_web = NormalisateurWeb()

print("üß™ Test du normalisateur web :")
print("=" * 50)

texte_test = "Contactez-moi √† jean.dupont@example.fr ou sur https://example.com. Suivez @moncompte #nlp"
print(f"üìù Texte original : {texte_test}")
print(f"üîß Apr√®s normalisation : {normalisateur_web.normaliser_texte(texte_test)}")
print(f"üîç √âl√©ments d√©tect√©s : {normalisateur_web.detecter_elements(texte_test)}")

---

# üì± 4. Normalisation des T√©l√©phones

Les num√©ros de t√©l√©phone fran√ßais ont de nombreux formats :

In [None]:
# Exemples de num√©ros de t√©l√©phone fran√ßais
exemples_telephones = [
    "01 23 45 67 89",
    "01.23.45.67.89",
    "01-23-45-67-89",
    "0123456789",
    "+33 1 23 45 67 89",
    "+33123456789",
    "06 12 34 56 78",  # Mobile
    "09 12 34 56 78",  # Num√©ro sp√©ciaux
    "0800 12 34 56"    # Num√©ro vert
]

print("üì± Exemples de t√©l√©phones fran√ßais :")
for i, tel in enumerate(exemples_telephones, 1):
    print(f"{i:2d}. {tel}")

In [None]:
class NormalisateurTelephones:
    """Classe pour normaliser les num√©ros de t√©l√©phone fran√ßais"""
    
    def __init__(self):
        # Patterns pour les t√©l√©phones fran√ßais
        self.patterns = [
            # Format international: "+33 1 23 45 67 89"
            r'\+33\s?[1-9](?:[\s.-]?\d{2}){4}\b',
            # Format national avec espaces: "01 23 45 67 89"
            r'\b0[1-9](?:\s\d{2}){4}\b',
            # Format avec points: "01.23.45.67.89"
            r'\b0[1-9](?:\.\d{2}){4}\b',
            # Format avec tirets: "01-23-45-67-89"
            r'\b0[1-9](?:-\d{2}){4}\b',
            # Format compact: "0123456789"
            r'\b0[1-9]\d{8}\b',
            # Num√©ros verts et sp√©ciaux
            r'\b0800\s?\d{2}\s?\d{2}\s?\d{2}\b'
        ]
    
    def normaliser_texte(self, texte: str, remplacer_par: str = "TELEPHONE") -> str:
        """
        Normalise tous les t√©l√©phones dans un texte
        """
        resultat = texte
        
        for pattern in self.patterns:
            resultat = re.sub(pattern, remplacer_par, resultat)
        
        return resultat
    
    def detecter_telephones(self, texte: str) -> List[str]:
        """
        D√©tecte tous les t√©l√©phones dans un texte
        """
        telephones_trouves = []
        
        for pattern in self.patterns:
            matches = re.findall(pattern, texte)
            telephones_trouves.extend(matches)
        
        return telephones_trouves
    
    def valider_telephone(self, telephone: str) -> bool:
        """
        Valide si un t√©l√©phone fran√ßais est correct
        """
        # Nettoyer le num√©ro
        numero_propre = re.sub(r'[^\d+]', '', telephone)
        
        # V√©rifications basiques
        if numero_propre.startswith('+33'):
            return len(numero_propre) == 12 and numero_propre[3] in '123456789'
        elif numero_propre.startswith('0'):
            return len(numero_propre) == 10 and numero_propre[1] in '123456789'
        
        return False

# Test du normalisateur de t√©l√©phones
normalisateur_tel = NormalisateurTelephones()

print("üß™ Test du normalisateur de t√©l√©phones :")
print("=" * 50)

texte_test = "Appelez-moi au 01.23.45.67.89 ou au +33 6 12 34 56 78 apr√®s 18h."
print(f"üìù Texte original : {texte_test}")
print(f"üîß Apr√®s normalisation : {normalisateur_tel.normaliser_texte(texte_test)}")
print(f"üîç T√©l√©phones d√©tect√©s : {normalisateur_tel.detecter_telephones(texte_test)}")

# Test de validation
print("\n‚úÖ Tests de validation :")
for tel in exemples_telephones[:5]:
    valide = normalisateur_tel.valider_telephone(tel)
    print(f"  {tel:<20} ‚Üí {'‚úÖ Valide' if valide else '‚ùå Invalide'}")

---

# üî¢ 5. Normalisation des Nombres

Les nombres peuvent √™tre √©crits en chiffres ou en lettres :

In [None]:
class NormalisateurNombres:
    """Classe pour normaliser les nombres"""
    
    def __init__(self):
        # Dictionnaire des nombres en lettres
        self.nombres_lettres = {
            'z√©ro': '0', 'un': '1', 'deux': '2', 'trois': '3', 'quatre': '4',
            'cinq': '5', 'six': '6', 'sept': '7', 'huit': '8', 'neuf': '9',
            'dix': '10', 'onze': '11', 'douze': '12', 'treize': '13',
            'quatorze': '14', 'quinze': '15', 'seize': '16',
            'vingt': '20', 'trente': '30', 'quarante': '40',
            'cinquante': '50', 'soixante': '60', 'soixante-dix': '70',
            'quatre-vingts': '80', 'quatre-vingt-dix': '90',
            'cent': '100', 'mille': '1000', 'million': '1000000'
        }
        
        # Patterns pour diff√©rents formats de nombres
        self.patterns = [
            # Nombres avec s√©parateurs: "1 000", "1.000", "1,000"
            r'\b\d{1,3}(?:[.\s,]\d{3})+\b',
            # Nombres d√©cimaux: "1.5", "1,5"
            r'\b\d+[.,]\d+\b',
            # Nombres simples: "123"
            r'\b\d+\b',
        ]
    
    def normaliser_nombres_lettres(self, texte: str) -> str:
        """
        Convertit les nombres en lettres en chiffres
        """
        resultat = texte.lower()
        
        # Remplacer les nombres en lettres par leurs √©quivalents chiffr√©s
        for mot, chiffre in self.nombres_lettres.items():
            pattern = r'\b' + re.escape(mot) + r'\b'
            resultat = re.sub(pattern, chiffre, resultat)
        
        return resultat
    
    def normaliser_texte(self, texte: str, 
                        remplacer_par: str = "NOMBRE",
                        convertir_lettres: bool = True) -> str:
        """
        Normalise tous les nombres dans un texte
        """
        resultat = texte
        
        # Convertir d'abord les nombres en lettres
        if convertir_lettres:
            resultat = self.normaliser_nombres_lettres(resultat)
        
        # Remplacer tous les nombres par le token
        for pattern in self.patterns:
            resultat = re.sub(pattern, remplacer_par, resultat)
        
        return resultat
    
    def detecter_nombres(self, texte: str) -> Dict[str, List[str]]:
        """
        D√©tecte tous les nombres dans un texte
        """
        nombres_trouves = {'chiffres': [], 'lettres': []}
        
        # D√©tecter les nombres en chiffres
        for pattern in self.patterns:
            matches = re.findall(pattern, texte)
            nombres_trouves['chiffres'].extend(matches)
        
        # D√©tecter les nombres en lettres
        for mot in self.nombres_lettres.keys():
            pattern = r'\b' + re.escape(mot) + r'\b'
            if re.search(pattern, texte.lower()):
                nombres_trouves['lettres'].append(mot)
        
        return nombres_trouves

# Test du normalisateur de nombres
normalisateur_nombres = NormalisateurNombres()

print("üß™ Test du normalisateur de nombres :")
print("=" * 50)

texte_test = "J'ai achet√© trois produits pour 1.250 euros, soit environ mille euros chacun."
print(f"üìù Texte original : {texte_test}")
print(f"üîß Apr√®s conversion lettres‚Üíchiffres : {normalisateur_nombres.normaliser_nombres_lettres(texte_test)}")
print(f"üîß Apr√®s normalisation compl√®te : {normalisateur_nombres.normaliser_texte(texte_test)}")
print(f"üîç Nombres d√©tect√©s : {normalisateur_nombres.detecter_nombres(texte_test)}")

---

# üõ†Ô∏è 6. Normalisateur Complet

Cr√©ons maintenant une classe qui combine toutes les normalisations :

In [None]:
class NormalisateurComplet:
    """Normalisateur qui combine toutes les techniques"""
    
    def __init__(self, 
                 normaliser_dates: bool = True,
                 normaliser_montants: bool = True,
                 normaliser_web: bool = True,
                 normaliser_telephones: bool = True,
                 normaliser_nombres: bool = True):
        """
        Initialise le normalisateur avec les options choisies
        """
        self.config = {
            'dates': normaliser_dates,
            'montants': normaliser_montants,
            'web': normaliser_web,
            'telephones': normaliser_telephones,
            'nombres': normaliser_nombres
        }
        
        # Initialiser les normalisateurs sp√©cialis√©s
        if self.config['dates']:
            self.norm_dates = NormalisateurDates()
        if self.config['montants']:
            self.norm_montants = NormalisateurMontants()
        if self.config['web']:
            self.norm_web = NormalisateurWeb()
        if self.config['telephones']:
            self.norm_tel = NormalisateurTelephones()
        if self.config['nombres']:
            self.norm_nombres = NormalisateurNombres()
    
    def normaliser_texte(self, texte: str, verbose: bool = False) -> str:
        """
        Applique toutes les normalisations configur√©es
        
        Args:
            texte: Texte √† normaliser
            verbose: Affiche les √©tapes si True
        
        Returns:
            Texte normalis√©
        """
        resultat = texte
        etapes = [f"üìù Original: {resultat}"]
        
        # Appliquer les normalisations dans l'ordre
        if self.config['dates']:
            resultat = self.norm_dates.normaliser_texte(resultat)
            etapes.append(f"üìÖ Dates: {resultat}")
        
        if self.config['montants']:
            resultat = self.norm_montants.normaliser_texte(resultat)
            etapes.append(f"üí∞ Montants: {resultat}")
        
        if self.config['telephones']:
            resultat = self.norm_tel.normaliser_texte(resultat)
            etapes.append(f"üì± T√©l√©phones: {resultat}")
        
        if self.config['web']:
            resultat = self.norm_web.normaliser_texte(resultat)
            etapes.append(f"üåê Web: {resultat}")
        
        if self.config['nombres']:
            resultat = self.norm_nombres.normaliser_texte(resultat)
            etapes.append(f"üî¢ Nombres: {resultat}")
        
        if verbose:
            for etape in etapes:
                print(etape)
        
        return resultat
    
    def analyser_texte(self, texte: str) -> Dict:
        """
        Analyse compl√®te d'un texte
        
        Returns:
            Dictionnaire avec statistiques et √©l√©ments d√©tect√©s
        """
        analyse = {
            'texte_original': texte,
            'texte_normalise': self.normaliser_texte(texte),
            'statistiques': {},
            'elements_detectes': {}
        }
        
        # Compter les mots avant/apr√®s
        mots_avant = len(texte.split())
        mots_apres = len(analyse['texte_normalise'].split())
        
        analyse['statistiques'] = {
            'mots_avant': mots_avant,
            'mots_apres': mots_apres,
            'reduction_mots': mots_avant - mots_apres,
            'pourcentage_reduction': round((mots_avant - mots_apres) / mots_avant * 100, 1) if mots_avant > 0 else 0
        }
        
        # D√©tecter les √©l√©ments
        if self.config['dates']:
            analyse['elements_detectes']['dates'] = self.norm_dates.detecter_dates(texte)
        if self.config['montants']:
            analyse['elements_detectes']['montants'] = self.norm_montants.detecter_montants(texte)
        if self.config['web']:
            analyse['elements_detectes']['web'] = self.norm_web.detecter_elements(texte)
        if self.config['telephones']:
            analyse['elements_detectes']['telephones'] = self.norm_tel.detecter_telephones(texte)
        if self.config['nombres']:
            analyse['elements_detectes']['nombres'] = self.norm_nombres.detecter_nombres(texte)
        
        return analyse

# Test du normalisateur complet
normalisateur_complet = NormalisateurComplet()

print("üöÄ Test du normalisateur complet :")
print("=" * 70)

---

# üß™ 7. Exercices Pratiques

Testons le normalisateur sur des exemples r√©els :

In [None]:
# Exemples de textes r√©els √† normaliser
textes_exemples = [
    "Rendez-vous le 15 mars 2024 √† 14h30. Contactez-moi au 01.23.45.67.89 ou jean.dupont@email.fr. Budget : 1.500,50‚Ç¨.",
    "Super promotion ! -50% sur https://boutique.com jusqu'au 31/12/2023. Livraison gratuite d√®s 50‚Ç¨. #promo @followers",
    "Facture n¬∞123 du 01/01/2024. Montant TTC : deux mille euros. Contact : +33 6 12 34 56 78.",
    "Voir www.example.com pour plus d'infos. Prix : $99.99 ou 89,99‚Ç¨. T√©l : 0800 12 34 56."
]

print("üéØ EXERCICES PRATIQUES")
print("=" * 50)

for i, texte in enumerate(textes_exemples, 1):
    print(f"\nüìù **Exemple {i}:**")
    print(f"Original : {texte}")
    
    # Analyse compl√®te
    analyse = normalisateur_complet.analyser_texte(texte)
    
    print(f"Normalis√© : {analyse['texte_normalise']}")
    print(f"üìä Stats : {analyse['statistiques']['reduction_mots']} mots supprim√©s ({analyse['statistiques']['pourcentage_reduction']}%)")
    
    # Afficher les √©l√©ments d√©tect√©s
    elements = analyse['elements_detectes']
    if any(elements.values()):
        print("üîç √âl√©ments d√©tect√©s :")
        for type_elem, contenu in elements.items():
            if contenu:
                print(f"  ‚Ä¢ {type_elem}: {contenu}")

## üéØ Exercice Interactif

√Ä votre tour ! Testez le normalisateur sur vos propres textes :

In [None]:
# üéØ EXERCICE INTERACTIF
# Modifiez ce texte avec vos propres exemples

mon_texte = """
√âcrivez ici votre texte √† normaliser...
Exemples d'√©l√©ments √† inclure :
- Dates : le 25 d√©cembre 2024
- Montants : 99,99‚Ç¨ ou vingt euros
- Emails : test@example.com
- URLs : https://example.com
- T√©l√©phones : 01 23 45 67 89
- Nombres : mille ou 1000
"""

# Configuration personnalis√©e du normalisateur
mon_normalisateur = NormalisateurComplet(
    normaliser_dates=True,
    normaliser_montants=True,
    normaliser_web=True,
    normaliser_telephones=True,
    normaliser_nombres=True
)

# Test avec affichage des √©tapes
print("üîç VOTRE TEST PERSONNALIS√â :")
print("=" * 50)
resultat = mon_normalisateur.normaliser_texte(mon_texte.strip(), verbose=True)

print(f"\n‚úÖ **R√©sultat final :**\n{resultat}")

---

# üìä 8. Analyse Comparative

Comparons l'impact des diff√©rentes normalisations :

In [None]:
# Cr√©er diff√©rentes configurations de normalisateurs
configs = {
    'Aucune': NormalisateurComplet(False, False, False, False, False),
    'Dates seulement': NormalisateurComplet(True, False, False, False, False),
    'Web seulement': NormalisateurComplet(False, False, True, False, False),
    'Montants + Nombres': NormalisateurComplet(False, True, False, False, True),
    'Compl√®te': NormalisateurComplet(True, True, True, True, True)
}

# Texte de test complexe
texte_test_complexe = """
Bonjour ! Rendez-vous le 15 mars 2024 √† 14h30 pour discuter du budget de mille euros.
Contactez-moi √† marie.dupont@entreprise.fr ou au 01.23.45.67.89.
Voir aussi notre site https://entreprise.com pour plus d'infos.
Promotion : -20% soit 199,99‚Ç¨ au lieu de 250‚Ç¨ jusqu'au 31/12/2023.
Suivez-nous @entreprise #innovation
""".strip()

print("üìä ANALYSE COMPARATIVE DES CONFIGURATIONS")
print("=" * 60)
print(f"üìù Texte original ({len(texte_test_complexe.split())} mots) :")
print(texte_test_complexe)
print()

# Tableau comparatif
resultats = []

for nom_config, normalisateur in configs.items():
    analyse = normalisateur.analyser_texte(texte_test_complexe)
    
    resultats.append({
        'Configuration': nom_config,
        'Mots avant': analyse['statistiques']['mots_avant'],
        'Mots apr√®s': analyse['statistiques']['mots_apres'],
        'R√©duction': analyse['statistiques']['reduction_mots'],
        '% R√©duction': analyse['statistiques']['pourcentage_reduction']
    })
    
    print(f"üîß **{nom_config}** ({analyse['statistiques']['mots_apres']} mots, -{analyse['statistiques']['pourcentage_reduction']}%) :")
    print(f"   {analyse['texte_normalise']}")
    print()

# Cr√©er un DataFrame pour l'analyse
df_resultats = pd.DataFrame(resultats)
print("üìà **TABLEAU R√âCAPITULATIF :**")
print(df_resultats.to_string(index=False))

In [None]:
# Visualisation des r√©sultats
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Graphique 1: Nombre de mots
configs_noms = df_resultats['Configuration']
mots_avant = df_resultats['Mots avant']
mots_apres = df_resultats['Mots apr√®s']

x = range(len(configs_noms))
width = 0.35

ax1.bar([i - width/2 for i in x], mots_avant, width, label='Avant', color='lightcoral', alpha=0.8)
ax1.bar([i + width/2 for i in x], mots_apres, width, label='Apr√®s', color='lightblue', alpha=0.8)

ax1.set_xlabel('Configuration')
ax1.set_ylabel('Nombre de mots')
ax1.set_title('üìä Nombre de mots avant/apr√®s normalisation')
ax1.set_xticks(x)
ax1.set_xticklabels(configs_noms, rotation=45, ha='right')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Graphique 2: Pourcentage de r√©duction
pourcentages = df_resultats['% R√©duction']
colors = plt.cm.viridis(np.linspace(0, 1, len(pourcentages)))

bars = ax2.bar(configs_noms, pourcentages, color=colors, alpha=0.8)
ax2.set_xlabel('Configuration')
ax2.set_ylabel('% de r√©duction')
ax2.set_title('üìâ Pourcentage de r√©duction du vocabulaire')
ax2.set_xticklabels(configs_noms, rotation=45, ha='right')
ax2.grid(True, alpha=0.3)

# Ajouter les valeurs sur les barres
for bar, pct in zip(bars, pourcentages):
    if pct > 0:
        ax2.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5, 
                f'{pct}%', ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

print("\nüí° **OBSERVATIONS :**")
print(f"‚Ä¢ La configuration compl√®te r√©duit le vocabulaire de {df_resultats.loc[df_resultats['Configuration'] == 'Compl√®te', '% R√©duction'].iloc[0]}%")
print(f"‚Ä¢ La normalisation web seule a un impact de {df_resultats.loc[df_resultats['Configuration'] == 'Web seulement', '% R√©duction'].iloc[0]}%")
print("‚Ä¢ Chaque type de normalisation contribue diff√©remment selon le contenu du texte")

---

# üí° 9. Conseils et Bonnes Pratiques

## ‚úÖ Quand Utiliser la Normalisation d'Entit√©s

| **Cas d'usage** | **Recommandation** | **Raison** |
|---|---|---|
| **Classification de documents** | ‚úÖ Recommand√© | R√©duit le bruit, am√©liore les performances |
| **Analyse de sentiment** | ‚úÖ Recommand√© | Focus sur les mots porteurs d'√©motion |
| **Recherche d'information** | ‚úÖ Recommand√© | Uniformise les requ√™tes |
| **Anonymisation** | ‚úÖ **Essentiel** | Protection des donn√©es personnelles |
| **Traduction automatique** | ‚ùå D√©conseill√© | Peut perdre des informations importantes |
| **G√©n√©ration de texte** | ‚ùå D√©conseill√© | Rend le texte moins naturel |
| **Analyse syntaxique** | ‚ùå D√©conseill√© | Structure grammaticale importante |

## üéØ Strat√©gies par Domaine

### üíº **E-commerce**
```python
# Garder certains montants pour l'analyse des prix
normalisateur = NormalisateurComplet(
    normaliser_montants=False,  # Garder les prix
    normaliser_web=True,        # Nettoyer les URLs
    normaliser_telephones=True  # Anonymiser
)
```

### üè• **M√©dical**
```python
# Attention aux dates et dosages
normalisateur = NormalisateurComplet(
    normaliser_dates=False,     # Dates importantes
    normaliser_nombres=False,   # Dosages cruciaux
    normaliser_web=True
)
```

### üì∞ **M√©dias/Presse**
```python
# Anonymisation tout en gardant l'information
normalisateur = NormalisateurComplet(
    normaliser_web=True,        # URLs de sources
    normaliser_telephones=True, # Protection vie priv√©e
    normaliser_montants=True    # Uniformiser √©conomie
)
```

In [None]:
# üéØ Exercice final : Cr√©ez votre normalisateur personnalis√©

def creer_normalisateur_personnalise(domaine: str):
    """
    Cr√©e un normalisateur adapt√© √† un domaine sp√©cifique
    """
    configs_domaines = {
        'ecommerce': {
            'dates': True, 'montants': False, 'web': True, 
            'telephones': True, 'nombres': True
        },
        'medical': {
            'dates': False, 'montants': True, 'web': True, 
            'telephones': True, 'nombres': False
        },
        'finance': {
            'dates': True, 'montants': False, 'web': True, 
            'telephones': True, 'nombres': False
        },
        'media': {
            'dates': True, 'montants': True, 'web': True, 
            'telephones': True, 'nombres': True
        },
        'general': {
            'dates': True, 'montants': True, 'web': True, 
            'telephones': True, 'nombres': True
        }
    }
    
    config = configs_domaines.get(domaine, configs_domaines['general'])
    
    return NormalisateurComplet(
        normaliser_dates=config['dates'],
        normaliser_montants=config['montants'],
        normaliser_web=config['web'],
        normaliser_telephones=config['telephones'],
        normaliser_nombres=config['nombres']
    )

# Test des normalisateurs sp√©cialis√©s
domaines = ['ecommerce', 'medical', 'finance', 'media']
texte_test = "Consultation le 15/03/2024. Co√ªt : 50‚Ç¨. Contact : 01.23.45.67.89. Voir www.hopital.fr"

print("üéØ NORMALISATEURS SP√âCIALIS√âS PAR DOMAINE")
print("=" * 60)
print(f"üìù Texte : {texte_test}\n")

for domaine in domaines:
    norm = creer_normalisateur_personnalise(domaine)
    resultat = norm.normaliser_texte(texte_test)
    print(f"üè∑Ô∏è  **{domaine.capitalize()}** : {resultat}")

print("\nüí° Notez les diff√©rences selon le domaine d'application !")

---

# üéâ Conclusion

## üèÜ Ce que Vous Avez Appris

‚úÖ **Normalisation des dates** : Formats fran√ßais ‚Üí tokens uniformes  
‚úÖ **Normalisation des montants** : Devises et formats ‚Üí MONTANT  
‚úÖ **Normalisation web** : URLs, emails, mentions ‚Üí tokens sp√©cialis√©s  
‚úÖ **Normalisation t√©l√©phones** : Formats fran√ßais ‚Üí TELEPHONE  
‚úÖ **Normalisation nombres** : Chiffres et lettres ‚Üí NOMBRE  
‚úÖ **Pipeline complet** : Combinaison modulaire et configurable  
‚úÖ **Strat√©gies par domaine** : Adaptation selon le contexte  

## üöÄ Prochaines √âtapes

1. **Int√©grez** ces techniques dans votre pipeline de preprocessing
2. **Testez** sur vos propres donn√©es
3. **Adaptez** les configurations selon votre domaine
4. **Mesurez** l'impact sur vos mod√®les NLP

## üìö Pour Aller Plus Loin

- **Module suivant** : Tokenisation avanc√©e avec spaCy
- **Projet pratique** : Pipeline complet de preprocessing
- **Ressources** : Documentation regex Python, spaCy french model

---

**üí° Astuce finale :** La normalisation d'entit√©s est un art autant qu'une science. Testez toujours l'impact sur vos m√©triques finales !

**üîó Notebook suivant :** `pipeline_complet.ipynb` - Int√©gration de toutes les techniques de preprocessing