# üéØ Cr√©ation et Gestion de Stopwords Personnalis√©s

**Module 2 - Preprocessing et Tokenisation**

Ce notebook vous apprend √† cr√©er, g√©rer et optimiser vos propres listes de stopwords selon vos besoins sp√©cifiques. Parce qu'une liste universelle ne convient jamais √† tous les cas !

## üìã Plan du Notebook

1. **Pourquoi des Stopwords Personnalis√©s ?**
2. **M√©thodes d'Identification Automatique**
3. **Stopwords par Domaine d'Application**
4. **Gestionnaire Avanc√© de Stopwords**
5. **Validation et Tests**
6. **Optimisation par Fr√©quence**
7. **Cas d'Usage Pratiques**
8. **Export et R√©utilisation**

## üì¶ Installation et Imports

In [None]:
# Installation des packages n√©cessaires
# !pip install nltk spacy matplotlib seaborn pandas wordcloud scikit-learn
# !python -m spacy download fr_core_news_sm

In [None]:
import nltk
import spacy
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter, defaultdict
from wordcloud import WordCloud
import re
import json
from typing import List, Set, Dict, Tuple
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Configuration matplotlib
plt.style.use('seaborn-v0_8')
sns.set_palette("Set2")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 11

print("‚úÖ Tous les imports r√©alis√©s avec succ√®s !")

In [None]:
# Chargement des ressources de base
nltk.download('stopwords', quiet=True)
nltk.download('punkt', quiet=True)

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Chargement spaCy
try:
    nlp = spacy.load("fr_core_news_sm")
    print("‚úÖ Mod√®le spaCy fran√ßais charg√©")
except OSError:
    print("‚ö†Ô∏è Mod√®le spaCy fran√ßais non trouv√©, utilisation des fonctions de base")
    nlp = None

# Stopwords de base
stopwords_base_fr = set(stopwords.words('french'))
print(f"üìö {len(stopwords_base_fr)} stopwords fran√ßais de base charg√©s")

## 1. ü§î Pourquoi des Stopwords Personnalis√©s ?

### Les limites des listes standard :
- **Trop g√©n√©rales** : ne tiennent pas compte de votre domaine
- **Parfois incompl√®tes** : manquent des mots fr√©quents dans votre contexte
- **Parfois trop strictes** : suppriment des mots importants pour votre analyse

### Exemples concrets :

In [None]:
# Exemples o√π les stopwords standard posent probl√®me
exemples_problematiques = {
    "E-commerce - Avis produit": {
        "texte": "Ce produit est vraiment bien. Service client excellent. Livraison rapide. Je recommande ce site.",
        "probleme": "'produit', 'service', 'client' sont fr√©quents mais informatifs",
        "mots_a_ajouter": ["vraiment", "bien", "excellent", "rapide"]
    },
    
    "M√©dical - Comptes-rendus": {
        "texte": "Le patient pr√©sente des sympt√¥mes. Examen clinique normal. Traitement prescrit.",
        "probleme": "'patient', 'examen', 'traitement' sont techniques mais r√©p√©titifs",
        "mots_a_ajouter": ["patient", "examen", "clinique", "traitement"]
    },
    
    "R√©seaux sociaux - Tweets": {
        "texte": "Salut les amis ! MDR ce truc est ouf ! Genre trop cool lol",
        "probleme": "Argot et abr√©viations non couverts par les listes standard",
        "mots_a_ajouter": ["salut", "amis", "mdr", "lol", "genre", "truc", "ouf"]
    },
    
    "Technique - Documentation": {
        "texte": "Cette fonction permet de configurer le syst√®me. Voir documentation pour plus d'informations.",
        "probleme": "'fonction', 'syst√®me', 'documentation' sont r√©p√©titifs en tech",
        "mots_a_ajouter": ["fonction", "permet", "configurer", "syst√®me", "voir", "documentation"]
    }
}

print("üéØ EXEMPLES DE CAS PROBL√âMATIQUES\n")

for domaine, info in exemples_problematiques.items():
    print(f"üìÇ {domaine}")
    print(f"   Texte : {info['texte']}")
    print(f"   ‚ö†Ô∏è  Probl√®me : {info['probleme']}")
    print(f"   üí° Stopwords √† ajouter : {', '.join(info['mots_a_ajouter'])}")
    print()

## 2. üîç M√©thodes d'Identification Automatique

Comment identifier automatiquement les candidats stopwords dans vos donn√©es ?

In [None]:
class DetecteurStopwords:
    """Classe pour d√©tecter automatiquement les stopwords candidats."""
    
    def __init__(self):
        self.frequences = Counter()
        self.documents_count = 0
        self.document_frequencies = defaultdict(int)
    
    def analyser_corpus(self, textes: List[str]) -> None:
        """
        Analyse un corpus pour calculer les fr√©quences.
        
        Args:
            textes: Liste de textes √† analyser
        """
        self.documents_count = len(textes)
        
        for texte in textes:
            # Tokenisation simple
            mots = re.findall(r'\w+', texte.lower())
            
            # Comptage global
            self.frequences.update(mots)
            
            # Comptage par document (pour IDF)
            mots_uniques = set(mots)
            for mot in mots_uniques:
                self.document_frequencies[mot] += 1
    
    def candidats_par_frequence(self, seuil_frequence: int = 10, 
                               pourcentage_top: float = 0.05) -> List[Tuple[str, int]]:
        """
        Identifie les candidats stopwords par fr√©quence √©lev√©e.
        
        Args:
            seuil_frequence: Fr√©quence minimale
            pourcentage_top: Pourcentage des mots les plus fr√©quents
        
        Returns:
            Liste des candidats avec leur fr√©quence
        """
        # Mots tr√®s fr√©quents
        mots_frequents = [(mot, freq) for mot, freq in self.frequences.most_common() 
                         if freq >= seuil_frequence]
        
        # Top X% des mots
        nb_top = max(1, int(len(self.frequences) * pourcentage_top))
        top_mots = self.frequences.most_common(nb_top)
        
        # Combinaison des crit√®res
        candidats = list(set(mots_frequents + top_mots))
        candidats.sort(key=lambda x: x[1], reverse=True)
        
        return candidats
    
    def candidats_par_distribution(self, seuil_presence: float = 0.7) -> List[Tuple[str, float]]:
        """
        Identifie les candidats par distribution dans les documents.
        
        Args:
            seuil_presence: Pourcentage minimum de documents contenant le mot
        
        Returns:
            Liste des candidats avec leur taux de pr√©sence
        """
        candidats = []
        
        for mot, doc_freq in self.document_frequencies.items():
            taux_presence = doc_freq / self.documents_count
            if taux_presence >= seuil_presence:
                candidats.append((mot, taux_presence))
        
        candidats.sort(key=lambda x: x[1], reverse=True)
        return candidats
    
    def candidats_par_longueur(self, longueur_max: int = 3) -> List[Tuple[str, int]]:
        """
        Identifie les mots courts tr√®s fr√©quents (souvent des stopwords).
        
        Args:
            longueur_max: Longueur maximale des mots
        
        Returns:
            Liste des candidats courts avec leur fr√©quence
        """
        candidats = [(mot, freq) for mot, freq in self.frequences.most_common() 
                    if len(mot) <= longueur_max and freq >= 5]
        
        return candidats[:20]  # Top 20
    
    def rapport_analyse(self) -> Dict:
        """
        G√©n√®re un rapport d'analyse complet.
        
        Returns:
            Dictionnaire avec les statistiques du corpus
        """
        total_mots = sum(self.frequences.values())
        vocabulaire_unique = len(self.frequences)
        
        return {
            'documents_count': self.documents_count,
            'total_mots': total_mots,
            'vocabulaire_unique': vocabulaire_unique,
            'mots_par_document': total_mots / self.documents_count if self.documents_count > 0 else 0,
            'diversite_lexicale': vocabulaire_unique / total_mots if total_mots > 0 else 0,
            'top_10_mots': self.frequences.most_common(10)
        }

print("‚úÖ Classe DetecteurStopwords cr√©√©e")

In [None]:
# Test du d√©tecteur sur un corpus d'exemple
corpus_ecommerce = [
    "Ce produit est vraiment excellent, je le recommande √† tous mes amis et ma famille.",
    "Service client tr√®s professionnel, livraison rapide, emballage soign√©, parfait.",
    "Produit conforme √† la description, qualit√© au rendez-vous, tr√®s satisfait de mon achat.",
    "Prix un peu √©lev√© mais la qualit√© justifie largement cet investissement, je recommande.",
    "Commande re√ßue rapidement, produit de bonne qualit√©, service client r√©actif.",
    "Tr√®s bon rapport qualit√© prix, produit fiable, livraison dans les temps.",
    "Service apr√®s vente excellent, probl√®me r√©solu rapidement, √©quipe tr√®s professionnelle.",
    "Produit exactement comme d√©crit, emballage parfait, livraison ultra rapide.",
    "Qualit√© exceptionnelle, service client √† l'√©coute, je recommande vivement ce site.",
    "Achat sans probl√®me, produit conforme, d√©lai de livraison respect√©, parfait."
]

# Analyse du corpus
detecteur = DetecteurStopwords()
detecteur.analyser_corpus(corpus_ecommerce)

# Rapport d'analyse
rapport = detecteur.rapport_analyse()
print("üìä RAPPORT D'ANALYSE DU CORPUS E-COMMERCE\n")
print(f"Documents analys√©s : {rapport['documents_count']}")
print(f"Total de mots : {rapport['total_mots']}")
print(f"Vocabulaire unique : {rapport['vocabulaire_unique']}")
print(f"Mots par document : {rapport['mots_par_document']:.1f}")
print(f"Diversit√© lexicale : {rapport['diversite_lexicale']:.3f}")

print(f"\nüîù Top 10 des mots les plus fr√©quents :")
for mot, freq in rapport['top_10_mots']:
    print(f"  '{mot}' : {freq} fois")

In [None]:
# Identification des candidats stopwords
print("üîç IDENTIFICATION DES CANDIDATS STOPWORDS\n")

# Par fr√©quence
candidats_freq = detecteur.candidats_par_frequence(seuil_frequence=3, pourcentage_top=0.1)
print(f"üìà Candidats par fr√©quence √©lev√©e ({len(candidats_freq)}) :")
for mot, freq in candidats_freq[:15]:
    print(f"  '{mot}' : {freq} fois")

# Par distribution
candidats_distrib = detecteur.candidats_par_distribution(seuil_presence=0.6)
print(f"\nüìä Candidats par distribution ({len(candidats_distrib)}) :")
for mot, taux in candidats_distrib[:15]:
    print(f"  '{mot}' : {taux:.1%} des documents")

# Par longueur
candidats_courts = detecteur.candidats_par_longueur(longueur_max=3)
print(f"\nüî§ Mots courts fr√©quents ({len(candidats_courts)}) :")
for mot, freq in candidats_courts[:15]:
    print(f"  '{mot}' ({len(mot)} lettres) : {freq} fois")

## 3. üè¢ Stopwords par Domaine d'Application

Cr√©ation de listes sp√©cialis√©es pour diff√©rents domaines.

In [None]:
# Dictionnaire complet de stopwords par domaine
STOPWORDS_DOMAINES = {
    'e_commerce': {
        'description': 'Commerce √©lectronique, avis clients, produits',
        'mots': {
            # Mots li√©s au commerce
            'produit', 'article', 'commande', 'achat', 'vente', 'prix', 'euros', 'euro',
            'livraison', 'service', 'client', 'clients', 'boutique', 'magasin', 'site',
            'qualit√©', 'rapport', 'satisfait', 'satisfaction', 'recommande', 'recommander',
            
            # Adverbes d'intensit√© fr√©quents
            'vraiment', 'tr√®s', 'super', 'excellent', 'parfait', 'g√©nial', 'top',
            'bien', 'bon', 'bonne', 'mieux', 'meilleur', 'meilleure',
            
            # Mots d'√©valuation
            'avis', 'commentaire', 'note', '√©toiles', '√©toile', 'points',
            'exp√©rience', 'test', 'essai', 'utilisation'
        }
    },
    
    'medical': {
        'description': 'Domaine m√©dical, comptes-rendus, diagnostics',
        'mots': {
            # Personnel m√©dical
            'patient', 'patients', 'm√©decin', 'docteur', 'infirmier', 'infirmi√®re',
            'praticien', 'sp√©cialiste', 'chirurgien',
            
            # Lieux m√©dicaux
            'h√¥pital', 'clinique', 'cabinet', 'consultation', 'urgence', 'urgences',
            'service', 'd√©partement', 'unit√©',
            
            # Proc√©dures
            'examen', 'diagnostic', 'traitement', 'th√©rapie', 'intervention',
            'op√©ration', 'chirurgie', 'analyse', 'bilan', 'contr√¥le',
            
            # M√©dicaments
            'm√©dicament', 'ordonnance', 'prescription', 'posologie', 'dose',
            'traitement', 'th√©rapeutique'
        }
    },
    
    'reseaux_sociaux': {
        'description': 'R√©seaux sociaux, langage informel, argot',
        'mots': {
            # Salutations informelles
            'salut', 'coucou', 'hello', 'hey', 'yo', 'bjr', 'bsr', 'slt',
            
            # Expressions d'humour/√©motion
            'mdr', 'lol', 'ptdr', 'xdr', 'haha', 'hihi', 'lmao', 'rofl',
            
            # Mots de liaison informels
            'genre', 'style', 'comme', 'enfin', 'bref', 'donc', 'alors',
            'bon', 'ben', 'bah', 'euh', 'heu',
            
            # Mots vagues
            'truc', 'machin', 'chose', 'bidule', 'truc', 'trucs',
            
            # Intensificateurs informels
            'trop', 'hyper', 'm√©ga', 'ultra', 'super', 'grave', 'carr√©ment',
            
            # Abr√©viations courantes
            'jsp', 'jpp', 'jtm', 'jte', 'cv', '√ßa va', 'qqun', 'qqch'
        }
    },
    
    'technique': {
        'description': 'Documentation technique, informatique',
        'mots': {
            # Termes techniques g√©n√©riques
            'syst√®me', 'fonction', 'm√©thode', 'classe', 'objet', 'variable',
            'param√®tre', 'configuration', 'option', 'valeur', 'donn√©es',
            
            # Actions techniques
            'permet', 'utilise', 'configure', 'd√©finit', 'sp√©cifie', 'indique',
            'ex√©cute', 'lance', 'd√©marre', 'arr√™te', 'charge', 'sauvegarde',
            
            # Documentation
            'voir', 'consulter', 'r√©f√©rence', 'documentation', 'manuel', 'guide',
            'exemple', 'note', 'remarque', 'attention', 'important',
            
            # Versions et formats
            'version', 'format', 'type', 'mode', 'niveau', 'statut', '√©tat'
        }
    },
    
    'juridique': {
        'description': 'Domaine juridique, contrats, lois',
        'mots': {
            # Acteurs juridiques
            'tribunal', 'juge', 'avocat', 'procureur', 'partie', 'parties',
            'demandeur', 'd√©fendeur', 't√©moin', 'expert',
            
            # Proc√©dures
            'proc√©dure', 'instance', 'jugement', 'arr√™t', 'd√©cision', 'ordonnance',
            'sentence', 'verdict', 'd√©lib√©r√©',
            
            # Documents
            'contrat', 'accord', 'convention', 'clause', 'article', 'alin√©a',
            'paragraphe', 'annexe', 'pi√®ce',
            
            # Expressions juridiques
            'consid√©rant', 'attendu', 'vu', 'statuant', 'ordonne', 'd√©clare',
            'condamne', 'd√©bout√©'
        }
    },
    
    'actualites': {
        'description': 'Presse, actualit√©s, journalisme',
        'mots': {
            # Connecteurs journalistiques
            'selon', 'd\'apr√®s', 'conform√©ment', 'suite', 'concernant', 'regarding',
            '√©galement', 'notamment', 'particuli√®rement', 'sp√©cialement',
            
            # Nuances et transitions
            'toutefois', 'cependant', 'n√©anmoins', 'malgr√©', 'en d√©pit',
            'par ailleurs', 'en outre', 'de plus', 'en effet', 'ainsi',
            
            # Temporalit√©
            'hier', 'aujourd\'hui', 'demain', 'r√©cemment', 'actuellement',
            'd√©sormais', 'dor√©navant', 'prochainement',
            
            # Sources et r√©f√©rences
            'source', 'd√©claration', 'communiqu√©', 'rapport', '√©tude', 'enqu√™te',
            't√©moignage', 'interview', 'entretien'
        }
    }
}

print("üìö BIBLIOTH√àQUE DE STOPWORDS PAR DOMAINE\n")
for domaine, info in STOPWORDS_DOMAINES.items():
    print(f"üè¢ {domaine.upper().replace('_', ' ')} ({len(info['mots'])} mots)")
    print(f"   üìù {info['description']}")
    print(f"   üî§ √âchantillon : {', '.join(list(info['mots'])[:8])}...")
    print()

## 4. üõ†Ô∏è Gestionnaire Avanc√© de Stopwords

Classe compl√®te pour g√©rer, combiner et optimiser vos stopwords personnalis√©s.

In [None]:
class GestionnaireStopwords:
    """Gestionnaire avanc√© pour la cr√©ation et gestion de stopwords personnalis√©s."""
    
    def __init__(self, base: str = 'nltk'):
        """
        Initialise le gestionnaire.
        
        Args:
            base: Base de stopwords ('nltk', 'spacy', 'vide')
        """
        self.stopwords = set()
        self.historique = []
        self.domaines_actifs = set()
        
        # Chargement de la base
        if base == 'nltk':
            self.stopwords = set(stopwords.words('french'))
            self.historique.append(f"Base NLTK charg√©e ({len(self.stopwords)} mots)")
        elif base == 'spacy' and nlp:
            self.stopwords = nlp.Defaults.stop_words.copy()
            self.historique.append(f"Base spaCy charg√©e ({len(self.stopwords)} mots)")
        else:
            self.historique.append("Gestionnaire initialis√© vide")
    
    def ajouter_domaine(self, domaine: str, force: bool = False) -> bool:
        """
        Ajoute les stopwords d'un domaine.
        
        Args:
            domaine: Nom du domaine
            force: Forcer l'ajout m√™me si d√©j√† pr√©sent
        
        Returns:
            True si ajout√© avec succ√®s
        """
        if domaine not in STOPWORDS_DOMAINES:
            print(f"‚ùå Domaine '{domaine}' non reconnu")
            print(f"   Domaines disponibles : {list(STOPWORDS_DOMAINES.keys())}")
            return False
        
        if domaine in self.domaines_actifs and not force:
            print(f"‚ö†Ô∏è Domaine '{domaine}' d√©j√† ajout√© (utilisez force=True pour forcer)")
            return False
        
        mots_domaine = STOPWORDS_DOMAINES[domaine]['mots']
        ancienne_taille = len(self.stopwords)
        self.stopwords.update(mots_domaine)
        nouveaux_mots = len(self.stopwords) - ancienne_taille
        
        self.domaines_actifs.add(domaine)
        self.historique.append(f"Domaine '{domaine}' ajout√© (+{nouveaux_mots} nouveaux mots)")
        print(f"‚úÖ Domaine '{domaine}' ajout√© : {nouveaux_mots} nouveaux mots")
        return True
    
    def retirer_domaine(self, domaine: str) -> bool:
        """
        Retire les stopwords d'un domaine.
        
        Args:
            domaine: Nom du domaine √† retirer
        
        Returns:
            True si retir√© avec succ√®s
        """
        if domaine not in self.domaines_actifs:
            print(f"‚ö†Ô∏è Domaine '{domaine}' pas actuellement actif")
            return False
        
        mots_domaine = STOPWORDS_DOMAINES[domaine]['mots']
        ancienne_taille = len(self.stopwords)
        self.stopwords -= mots_domaine
        mots_retires = ancienne_taille - len(self.stopwords)
        
        self.domaines_actifs.remove(domaine)
        self.historique.append(f"Domaine '{domaine}' retir√© (-{mots_retires} mots)")
        print(f"‚úÖ Domaine '{domaine}' retir√© : {mots_retires} mots supprim√©s")
        return True
    
    def ajouter_mots(self, mots: List[str], categorie: str = 'personnalise') -> None:
        """
        Ajoute une liste de mots personnalis√©s.
        
        Args:
            mots: Liste des mots √† ajouter
            categorie: Cat√©gorie pour l'historique
        """
        mots_normalises = [mot.lower().strip() for mot in mots if mot.strip()]
        nouveaux_mots = [mot for mot in mots_normalises if mot not in self.stopwords]
        
        self.stopwords.update(mots_normalises)
        self.historique.append(f"Ajout {categorie} : {len(nouveaux_mots)} nouveaux mots")
        print(f"‚úÖ {len(nouveaux_mots)} nouveaux mots ajout√©s ({categorie})")
        
        if len(nouveaux_mots) < len(mots_normalises):
            doublons = len(mots_normalises) - len(nouveaux_mots)
            print(f"   ‚ÑπÔ∏è {doublons} mots √©taient d√©j√† pr√©sents")
    
    def retirer_mots(self, mots: List[str]) -> None:
        """
        Retire une liste de mots.
        
        Args:
            mots: Liste des mots √† retirer
        """
        mots_normalises = {mot.lower().strip() for mot in mots if mot.strip()}
        mots_present = mots_normalises.intersection(self.stopwords)
        
        self.stopwords -= mots_normalises
        self.historique.append(f"Suppression : {len(mots_present)} mots retir√©s")
        print(f"‚úÖ {len(mots_present)} mots supprim√©s")
        
        if len(mots_present) < len(mots_normalises):
            absents = len(mots_normalises) - len(mots_present)
            print(f"   ‚ÑπÔ∏è {absents} mots n'√©taient pas pr√©sents")
    
    def filtrer_texte(self, texte: str, retourner_stopwords: bool = False) -> List[str] or Tuple[List[str], List[str]]:
        """
        Filtre un texte en supprimant les stopwords.
        
        Args:
            texte: Texte √† filtrer
            retourner_stopwords: Si True, retourne aussi les stopwords trouv√©s
        
        Returns:
            Liste des mots filtr√©s, optionnellement avec les stopwords trouv√©s
        """
        mots = re.findall(r'\w+', texte.lower())
        mots_filtres = [mot for mot in mots if mot not in self.stopwords]
        
        if retourner_stopwords:
            stopwords_trouves = [mot for mot in mots if mot in self.stopwords]
            return mots_filtres, stopwords_trouves
        
        return mots_filtres
    
    def analyser_texte(self, texte: str) -> Dict:
        """
        Analyse compl√®te d'un texte avec les stopwords actuels.
        
        Args:
            texte: Texte √† analyser
        
        Returns:
            Dictionnaire avec les statistiques
        """
        mots_originaux = re.findall(r'\w+', texte.lower())
        mots_filtres, stopwords_trouves = self.filtrer_texte(texte, retourner_stopwords=True)
        
        return {
            'mots_originaux': len(mots_originaux),
            'mots_filtres': len(mots_filtres),
            'stopwords_supprimes': len(stopwords_trouves),
            'reduction_pourcentage': round((1 - len(mots_filtres)/len(mots_originaux))*100, 1) if mots_originaux else 0,
            'stopwords_uniques': len(set(stopwords_trouves)),
            'vocabulaire_unique_filtre': len(set(mots_filtres)),
            'echantillon_filtres': mots_filtres[:10],
            'echantillon_stopwords': list(set(stopwords_trouves))[:10]
        }
    
    def statistiques(self) -> Dict:
        """
        Retourne les statistiques du gestionnaire.
        
        Returns:
            Dictionnaire avec les statistiques
        """
        return {
            'total_stopwords': len(self.stopwords),
            'domaines_actifs': list(self.domaines_actifs),
            'nb_domaines': len(self.domaines_actifs),
            'historique_operations': len(self.historique),
            'longueur_moyenne': round(sum(len(mot) for mot in self.stopwords) / len(self.stopwords), 2) if self.stopwords else 0,
            'mot_plus_long': max(self.stopwords, key=len) if self.stopwords else None,
            'mot_plus_court': min(self.stopwords, key=len) if self.stopwords else None
        }
    
    def afficher_historique(self) -> None:
        """
        Affiche l'historique des op√©rations.
        """
        print("üìú HISTORIQUE DES OP√âRATIONS\n")
        for i, operation in enumerate(self.historique, 1):
            print(f"  {i:2d}. {operation}")
    
    def sauvegarder(self, fichier: str) -> None:
        """
        Sauvegarde la configuration dans un fichier JSON.
        
        Args:
            fichier: Chemin du fichier de sauvegarde
        """
        config = {
            'stopwords': sorted(list(self.stopwords)),
            'domaines_actifs': list(self.domaines_actifs),
            'historique': self.historique,
            'statistiques': self.statistiques()
        }
        
        with open(fichier, 'w', encoding='utf-8') as f:
            json.dump(config, f, ensure_ascii=False, indent=2)
        
        print(f"‚úÖ Configuration sauvegard√©e dans '{fichier}'")
    
    def charger(self, fichier: str) -> None:
        """
        Charge une configuration depuis un fichier JSON.
        
        Args:
            fichier: Chemin du fichier √† charger
        """
        try:
            with open(fichier, 'r', encoding='utf-8') as f:
                config = json.load(f)
            
            self.stopwords = set(config['stopwords'])
            self.domaines_actifs = set(config['domaines_actifs'])
            self.historique = config['historique']
            self.historique.append(f"Configuration charg√©e depuis '{fichier}'")
            
            print(f"‚úÖ Configuration charg√©e depuis '{fichier}'")
            print(f"   {len(self.stopwords)} stopwords, {len(self.domaines_actifs)} domaines actifs")
            
        except FileNotFoundError:
            print(f"‚ùå Fichier '{fichier}' non trouv√©")
        except json.JSONDecodeError:
            print(f"‚ùå Erreur de format JSON dans '{fichier}'")

print("‚úÖ Classe GestionnaireStopwords cr√©√©e")

In [None]:
# D√©monstration du gestionnaire avanc√©
print("üõ†Ô∏è D√âMONSTRATION DU GESTIONNAIRE AVANC√â\n")

# Cr√©ation d'un gestionnaire pour e-commerce
gestionnaire = GestionnaireStopwords(base='nltk')
print(f"Base NLTK : {gestionnaire.statistiques()['total_stopwords']} stopwords")

# Ajout du domaine e-commerce
gestionnaire.ajouter_domaine('e_commerce')

# Ajout de mots personnalis√©s
mots_perso = ['franchement', 'sinc√®rement', 'honn√™tement', 'globalement', 'finalement']
gestionnaire.ajouter_mots(mots_perso, 'adverbes_opinion')

# Statistiques finales
stats = gestionnaire.statistiques()
print(f"\nüìä Configuration finale :")
print(f"  Total stopwords : {stats['total_stopwords']}")
print(f"  Domaines actifs : {', '.join(stats['domaines_actifs'])}")
print(f"  Longueur moyenne : {stats['longueur_moyenne']} caract√®res")
print(f"  Mot le plus long : '{stats['mot_plus_long']}'")
print(f"  Mot le plus court : '{stats['mot_plus_court']}'")

## 5. ‚úÖ Validation et Tests

Comment valider que vos stopwords personnalis√©s sont efficaces ?

In [None]:
# Test comparatif sur diff√©rents textes
textes_test = {
    "Avis positif e-commerce": """
    Ce produit est vraiment excellent ! Service client tr√®s professionnel, 
    livraison ultra rapide. Je recommande vivement cet article √† tous. 
    Parfait rapport qualit√©-prix, franchement je suis tr√®s satisfait.
    """,
    
    "Avis n√©gatif e-commerce": """
    Produit d√©cevant, qualit√© m√©diocre. Service client pas du tout √† l'√©coute.
    Livraison tardive et emballage ab√Æm√©. Honn√™tement, je ne recommande pas 
    du tout ce site. Tr√®s mauvaise exp√©rience d'achat.
    """,
    
    "Description technique": """
    Cette fonction permet de configurer les param√®tres du syst√®me. 
    Elle utilise une m√©thode avanc√©e pour optimiser les performances.
    Voir la documentation pour plus d'informations sur l'utilisation.
    """
}

# Comparaison avec diff√©rentes configurations
configurations = {
    'Standard NLTK': GestionnaireStopwords(base='nltk'),
    'E-commerce': GestionnaireStopwords(base='nltk'),
    'E-commerce + Perso': GestionnaireStopwords(base='nltk')
}

# Configuration des gestionnaires
configurations['E-commerce'].ajouter_domaine('e_commerce')
configurations['E-commerce + Perso'].ajouter_domaine('e_commerce')
configurations['E-commerce + Perso'].ajouter_mots(
    ['franchement', 'sinc√®rement', 'honn√™tement', 'globalement', 'vraiment', 'tr√®s']
)

print("üß™ TESTS COMPARATIFS DE VALIDATION\n")

resultats_test = []

for titre_texte, texte in textes_test.items():
    print(f"üìÑ {titre_texte.upper()}")
    print(f"Texte : {texte.strip()[:80]}...\n")
    
    for nom_config, gestionnaire in configurations.items():
        analyse = gestionnaire.analyser_texte(texte)
        
        resultats_test.append({
            'Texte': titre_texte,
            'Configuration': nom_config,
            'Mots_originaux': analyse['mots_originaux'],
            'Mots_filtres': analyse['mots_filtres'],
            'Reduction_%': analyse['reduction_pourcentage'],
            'Stopwords_uniques': analyse['stopwords_uniques']
        })
        
        print(f"  {nom_config:20s} : {analyse['mots_filtres']:2d} mots ({analyse['reduction_pourcentage']:5.1f}% r√©duction)")
        print(f"  {'':22s} ‚Üí {' '.join(analyse['echantillon_filtres'][:6])}...")
    
    print("\n" + "="*70 + "\n")

# Analyse des r√©sultats
df_resultats = pd.DataFrame(resultats_test)
print("üìä TABLEAU R√âCAPITULATIF :")
print(df_resultats.pivot_table(
    index='Texte', 
    columns='Configuration', 
    values='Reduction_%', 
    aggfunc='first'
).round(1))

In [None]:
# Visualisation des r√©sultats de validation
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Graphique 1: R√©duction par configuration
reduction_par_config = df_resultats.groupby('Configuration')['Reduction_%'].mean()
bars1 = axes[0,0].bar(reduction_par_config.index, reduction_par_config.values, 
                      color=['skyblue', 'lightgreen', 'orange'], alpha=0.7)
axes[0,0].set_title('üìâ R√©duction Moyenne par Configuration', fontweight='bold')
axes[0,0].set_ylabel('R√©duction (%)')
axes[0,0].tick_params(axis='x', rotation=45)

# Ajout des valeurs sur les barres
for bar, value in zip(bars1, reduction_par_config.values):
    axes[0,0].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
                   f'{value:.1f}%', ha='center', va='bottom', fontweight='bold')

# Graphique 2: Mots conserv√©s par type de texte
textes_order = ['Avis positif e-commerce', 'Avis n√©gatif e-commerce', 'Description technique']
configs = df_resultats['Configuration'].unique()
x = np.arange(len(textes_order))
width = 0.25

for i, config in enumerate(configs):
    data = df_resultats[df_resultats['Configuration'] == config]
    values = [data[data['Texte'] == texte]['Mots_filtres'].iloc[0] for texte in textes_order]
    axes[0,1].bar(x + i*width, values, width, label=config, alpha=0.7)

axes[0,1].set_title('üìä Mots Conserv√©s par Type de Texte', fontweight='bold')
axes[0,1].set_xlabel('Type de texte')
axes[0,1].set_ylabel('Nombre de mots conserv√©s')
axes[0,1].set_xticks(x + width)
axes[0,1].set_xticklabels([t.replace(' e-commerce', '') for t in textes_order], rotation=45)
axes[0,1].legend()

# Graphique 3: Distribution des r√©ductions
for config in configs:
    data = df_resultats[df_resultats['Configuration'] == config]['Reduction_%']
    axes[1,0].hist(data, alpha=0.6, label=config, bins=5)

axes[1,0].set_title('üìà Distribution des Taux de R√©duction', fontweight='bold')
axes[1,0].set_xlabel('R√©duction (%)')
axes[1,0].set_ylabel('Fr√©quence')
axes[1,0].legend()

# Graphique 4: Efficacit√© par domaine
efficacite_data = {
    'E-commerce\n(avis)': df_resultats[
        (df_resultats['Configuration'] == 'E-commerce + Perso') & 
        (df_resultats['Texte'].str.contains('Avis'))
    ]['Reduction_%'].mean(),
    'Technique\n(description)': df_resultats[
        (df_resultats['Configuration'] == 'E-commerce + Perso') & 
        (df_resultats['Texte'].str.contains('technique'))
    ]['Reduction_%'].mean(),
    'Standard\n(moyenne)': df_resultats[
        df_resultats['Configuration'] == 'Standard NLTK'
    ]['Reduction_%'].mean()
}

bars4 = axes[1,1].bar(efficacite_data.keys(), efficacite_data.values(), 
                      color=['lightcoral', 'lightblue', 'lightgray'], alpha=0.7)
axes[1,1].set_title('üéØ Efficacit√© par Domaine d\'Application', fontweight='bold')
axes[1,1].set_ylabel('R√©duction (%)')

# Ajout des valeurs
for bar, value in zip(bars4, efficacite_data.values()):
    if not np.isnan(value):
        axes[1,1].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
                       f'{value:.1f}%', ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

print("\nüí° CONCLUSIONS DE LA VALIDATION :")
print(f"  ‚Ä¢ La personnalisation am√©liore l'efficacit√© de {reduction_par_config['E-commerce + Perso'] - reduction_par_config['Standard NLTK']:.1f} points")
print(f"  ‚Ä¢ R√©duction optimale pour le domaine cibl√© : {efficacite_data['E-commerce\n(avis)']:.1f}%")
print(f"  ‚Ä¢ Les stopwords personnalis√©s sont plus s√©lectifs et pr√©cis")

## 6. üìä Optimisation par Fr√©quence

Techniques pour optimiser automatiquement vos listes de stopwords.

In [None]:
class OptimisateurStopwords:
    """Optimise automatiquement les listes de stopwords selon des crit√®res."""
    
    def __init__(self, corpus: List[str]):
        """
        Initialise avec un corpus de r√©f√©rence.
        
        Args:
            corpus: Liste de textes pour l'analyse
        """
        self.corpus = corpus
        self.stats = self._analyser_corpus()
    
    def _analyser_corpus(self) -> Dict:
        """
        Analyse statistique compl√®te du corpus.
        
        Returns:
            Dictionnaire avec les statistiques
        """
        tous_mots = []
        frequences_doc = defaultdict(int)
        
        for texte in self.corpus:
            mots = re.findall(r'\w+', texte.lower())
            tous_mots.extend(mots)
            
            # Fr√©quence par document
            for mot in set(mots):
                frequences_doc[mot] += 1
        
        frequences_globales = Counter(tous_mots)
        
        return {
            'frequences_globales': frequences_globales,
            'frequences_document': frequences_doc,
            'nb_documents': len(self.corpus),
            'nb_mots_total': len(tous_mots),
            'vocabulaire_unique': len(frequences_globales)
        }
    
    def candidats_frequence_elevee(self, percentile: float = 90) -> List[Tuple[str, int, float]]:
        """
        Identifie les mots avec une fr√©quence tr√®s √©lev√©e.
        
        Args:
            percentile: Percentile de fr√©quence (ex: 90 = top 10%)
        
        Returns:
            Liste des candidats avec fr√©quence et percentile
        """
        frequences = list(self.stats['frequences_globales'].values())
        seuil = np.percentile(frequences, percentile)
        
        candidats = []
        for mot, freq in self.stats['frequences_globales'].items():
            if freq >= seuil:
                pct = (sum(1 for f in frequences if f < freq) / len(frequences)) * 100
                candidats.append((mot, freq, pct))
        
        candidats.sort(key=lambda x: x[1], reverse=True)
        return candidats
    
    def candidats_ubiquite(self, seuil_presence: float = 0.8) -> List[Tuple[str, float, int]]:
        """
        Identifie les mots pr√©sents dans beaucoup de documents.
        
        Args:
            seuil_presence: Pourcentage minimum de documents
        
        Returns:
            Liste des candidats avec taux de pr√©sence
        """
        candidats = []
        nb_docs = self.stats['nb_documents']
        
        for mot, doc_freq in self.stats['frequences_document'].items():
            taux_presence = doc_freq / nb_docs
            if taux_presence >= seuil_presence:
                freq_globale = self.stats['frequences_globales'][mot]
                candidats.append((mot, taux_presence, freq_globale))
        
        candidats.sort(key=lambda x: x[1], reverse=True)
        return candidats
    
    def score_stopword(self, mot: str) -> float:
        """
        Calcule un score de "stopword-ness" pour un mot.
        
        Args:
            mot: Mot √† √©valuer
        
        Returns:
            Score entre 0 et 1 (1 = tr√®s probable stopword)
        """
        if mot not in self.stats['frequences_globales']:
            return 0.0
        
        freq_globale = self.stats['frequences_globales'][mot]
        freq_doc = self.stats['frequences_document'][mot]
        
        # Normalisation
        freq_norm = freq_globale / self.stats['nb_mots_total']
        ubiquite_norm = freq_doc / self.stats['nb_documents']
        longueur_norm = max(0, (5 - len(mot)) / 5)  # Mots courts = score plus √©lev√©
        
        # Score compos√© (pond√©ration personnalisable)
        score = (freq_norm * 0.4) + (ubiquite_norm * 0.4) + (longueur_norm * 0.2)
        
        return min(1.0, score)
    
    def optimiser_liste(self, stopwords_actuels: Set[str], 
                       seuil_ajout: float = 0.7, 
                       seuil_suppression: float = 0.3) -> Tuple[Set[str], Set[str]]:
        """
        Optimise une liste de stopwords existante.
        
        Args:
            stopwords_actuels: Liste actuelle des stopwords
            seuil_ajout: Score minimum pour ajouter un mot
            seuil_suppression: Score maximum pour garder un mot
        
        Returns:
            Tuple (mots_a_ajouter, mots_a_supprimer)
        """
        mots_a_ajouter = set()
        mots_a_supprimer = set()
        
        # Candidats √† ajouter
        for mot in self.stats['frequences_globales']:
            if mot not in stopwords_actuels:
                score = self.score_stopword(mot)
                if score >= seuil_ajout:
                    mots_a_ajouter.add(mot)
        
        # Candidats √† supprimer
        for mot in stopwords_actuels:
            if mot in self.stats['frequences_globales']:
                score = self.score_stopword(mot)
                if score <= seuil_suppression:
                    mots_a_supprimer.add(mot)
        
        return mots_a_ajouter, mots_a_supprimer
    
    def rapport_optimisation(self, stopwords_actuels: Set[str]) -> None:
        """
        G√©n√®re un rapport d'optimisation d√©taill√©.
        
        Args:
            stopwords_actuels: Liste actuelle des stopwords
        """
        mots_a_ajouter, mots_a_supprimer = self.optimiser_liste(stopwords_actuels)
        
        print("üîß RAPPORT D'OPTIMISATION\n")
        print(f"üìä Statistiques du corpus :")
        print(f"  ‚Ä¢ Documents : {self.stats['nb_documents']}")
        print(f"  ‚Ä¢ Mots total : {self.stats['nb_mots_total']:,}")
        print(f"  ‚Ä¢ Vocabulaire unique : {self.stats['vocabulaire_unique']:,}")
        
        print(f"\nüéØ Recommandations :")
        print(f"  ‚Ä¢ Stopwords actuels : {len(stopwords_actuels)}")
        print(f"  ‚Ä¢ √Ä ajouter : {len(mots_a_ajouter)}")
        print(f"  ‚Ä¢ √Ä supprimer : {len(mots_a_supprimer)}")
        print(f"  ‚Ä¢ Total optimis√© : {len(stopwords_actuels) + len(mots_a_ajouter) - len(mots_a_supprimer)}")
        
        if mots_a_ajouter:
            print(f"\n‚ûï Mots √† ajouter (score √©lev√©) :")
            for mot in sorted(mots_a_ajouter, key=lambda x: self.score_stopword(x), reverse=True)[:10]:
                score = self.score_stopword(mot)
                freq = self.stats['frequences_globales'][mot]
                print(f"  '{mot}' (score: {score:.3f}, fr√©q: {freq})")
        
        if mots_a_supprimer:
            print(f"\n‚ûñ Mots √† supprimer (score faible) :")
            for mot in sorted(mots_a_supprimer, key=lambda x: self.score_stopword(x))[:10]:
                score = self.score_stopword(mot)
                freq = self.stats['frequences_globales'].get(mot, 0)
                print(f"  '{mot}' (score: {score:.3f}, fr√©q: {freq})")

print("‚úÖ Classe OptimisateurStopwords cr√©√©e")

In [None]:
# Test de l'optimisateur sur notre corpus e-commerce
corpus_ecommerce_etendu = [
    "Ce produit est vraiment excellent, je le recommande √† tous mes amis.",
    "Service client tr√®s professionnel, livraison rapide, emballage soign√©.",
    "Produit conforme √† la description, qualit√© au rendez-vous, tr√®s satisfait.",
    "Prix un peu √©lev√© mais la qualit√© justifie largement cet investissement.",
    "Commande re√ßue rapidement, produit de bonne qualit√©, service r√©actif.",
    "Tr√®s bon rapport qualit√© prix, produit fiable, livraison dans les temps.",
    "Service apr√®s vente excellent, probl√®me r√©solu rapidement, √©quipe professionnelle.",
    "Produit exactement comme d√©crit, emballage parfait, livraison ultra rapide.",
    "Qualit√© exceptionnelle, service client √† l'√©coute, je recommande vivement.",
    "Achat sans probl√®me, produit conforme, d√©lai de livraison respect√©.",
    "D√©√ßu par ce produit, qualit√© d√©cevante, service client pas √† l'√©coute.",
    "Livraison tardive, emballage ab√Æm√©, produit endommag√©, tr√®s d√©√ßu.",
    "Service client incomp√©tent, probl√®me non r√©solu, je d√©conseille.",
    "Produit ne correspond pas √† la description, qualit√© m√©diocre.",
    "Commande annul√©e sans pr√©avis, service client injoignable, scandaleux."
]

# Cr√©ation de l'optimisateur
optimisateur = OptimisateurStopwords(corpus_ecommerce_etendu)

# Test avec les stopwords NLTK de base
stopwords_base = set(stopwords.words('french'))
optimisateur.rapport_optimisation(stopwords_base)

print("\n" + "="*70)

# Application des optimisations
mots_a_ajouter, mots_a_supprimer = optimisateur.optimiser_liste(stopwords_base)
stopwords_optimises = (stopwords_base | mots_a_ajouter) - mots_a_supprimer

print(f"\n‚ú® R√âSULTATS DE L'OPTIMISATION :")
print(f"  ‚Ä¢ Stopwords optimis√©s : {len(stopwords_optimises)} (+{len(mots_a_ajouter)-len(mots_a_supprimer)})")
print(f"  ‚Ä¢ Efficacit√© th√©orique am√©lior√©e pour ce corpus")

## 7. üé™ Cas d'Usage Pratiques

Exemples concrets d'application dans diff√©rents contextes.

In [None]:
# Cas d'usage 1: Analyse de sentiment e-commerce
print("üé™ CAS D'USAGE 1 : ANALYSE DE SENTIMENT E-COMMERCE\n")

# Donn√©es d'exemple
avis_clients = [
    ("Produit fantastique, livraison rapide, service client excellent!", "positif"),
    ("Tr√®s d√©√ßu, qualit√© m√©diocre, je ne recommande absolument pas.", "n√©gatif"),
    ("Correct sans plus, √ßa fait le travail mais rien d'exceptionnel.", "neutre"),
    ("Parfait! Exactement ce que je cherchais, tr√®s satisfait de mon achat.", "positif"),
    ("Service apr√®s-vente inexistant, produit d√©faillant, tr√®s mauvaise exp√©rience.", "n√©gatif")
]

# Configuration sp√©cialis√©e pour l'analyse de sentiment
gestionnaire_sentiment = GestionnaireStopwords(base='nltk')
gestionnaire_sentiment.ajouter_domaine('e_commerce')

# Ajout de mots sp√©cifiques au sentiment (mais non informatifs)
mots_sentiment_generiques = [
    'produit', 'service', 'client', 'livraison', 'achat', 'commande',
    'tr√®s', 'vraiment', 'super', 'assez', 'plut√¥t', 'franchement'
]
gestionnaire_sentiment.ajouter_mots(mots_sentiment_generiques, 'sentiment_generiques')

print("Configuration pour analyse de sentiment :")
print(f"  ‚Ä¢ {gestionnaire_sentiment.statistiques()['total_stopwords']} stopwords")
print(f"  ‚Ä¢ Domaines : {', '.join(gestionnaire_sentiment.statistiques()['domaines_actifs'])}")

print("\nüìä R√©sultats du filtrage :")
for avis, sentiment in avis_clients:
    mots_filtres = gestionnaire_sentiment.filtrer_texte(avis)
    print(f"  {sentiment:8s} : {' '.join(mots_filtres[:6])}...")

In [None]:
# Cas d'usage 2: Classification automatique de tickets support
print("üé™ CAS D'USAGE 2 : CLASSIFICATION DE TICKETS SUPPORT\n")

tickets_support = [
    ("Mon compte est bloqu√©, je n'arrive plus √† me connecter depuis hier.", "compte"),
    ("Le paiement n'a pas fonctionn√©, erreur lors de la validation de ma carte.", "paiement"),
    ("Ma commande n'est toujours pas arriv√©e, pouvez-vous v√©rifier le statut?", "livraison"),
    ("Le produit re√ßu est d√©fectueux, je souhaite un remboursement.", "produit"),
    ("Comment modifier mes informations personnelles dans mon profil?", "compte")
]

# Configuration pour classification de tickets
gestionnaire_tickets = GestionnaireStopwords(base='nltk')

# Stopwords sp√©cifiques au support client
mots_support = [
    'pouvez', 'vous', 'comment', 'pourquoi', 'depuis', 'toujours',
    'probl√®me', 'souhaite', 'v√©rifier', 'modifier', 'information'
]
gestionnaire_tickets.ajouter_mots(mots_support, 'support_client')

print("Configuration pour tickets support :")
print(f"  ‚Ä¢ {gestionnaire_tickets.statistiques()['total_stopwords']} stopwords")

print("\nüéØ Mots-cl√©s extraits pour classification :")
for ticket, categorie in tickets_support:
    mots_cles = gestionnaire_tickets.filtrer_texte(ticket)
    print(f"  {categorie:10s} : {' '.join(mots_cles[:5])}...")
    print(f"  {'':12s} ‚Üí Ticket: {ticket[:50]}...")
    print()

In [None]:
# Cas d'usage 3: Analyse de r√©seaux sociaux
print("üé™ CAS D'USAGE 3 : ANALYSE DE R√âSEAUX SOCIAUX\n")

posts_sociaux = [
    "Salut les amis! Alors, qu'est-ce que vous pensez du nouveau film? Moi je l'ai trouv√© g√©nial!",
    "MDR cette vid√©o! Genre trop dr√¥le, je suis mort de rire üòÇ",
    "Bon alors, qui vient √† la soir√©e ce soir? On va bien s'amuser!",
    "Franchement, ce truc est ouf! Vous devez absolument essayer.",
    "Bof... pas terrible cette s√©rie. J'ai regard√© 2 √©pisodes, √ßa m'a saoul√©."
]

# Configuration pour r√©seaux sociaux
gestionnaire_social = GestionnaireStopwords(base='nltk')
gestionnaire_social.ajouter_domaine('reseaux_sociaux')

# Ajout d'expressions typiques des r√©seaux sociaux
expressions_sociales = [
    'vous', 'pensez', 'trouv√©', 'regard√©', 'vient', 'devez', 'alors',
    'bien', 'pas', 'cette', 'film', 'vid√©o', 'soir√©e', 's√©rie'
]
gestionnaire_social.ajouter_mots(expressions_sociales, 'expressions_sociales')

print("Configuration pour r√©seaux sociaux :")
print(f"  ‚Ä¢ {gestionnaire_social.statistiques()['total_stopwords']} stopwords")
print(f"  ‚Ä¢ Sp√©cialis√© pour le langage informel")

print("\nüí¨ Contenu filtr√© (focus sur l'opinion/√©motion) :")
for i, post in enumerate(posts_sociaux, 1):
    mots_pertinents = gestionnaire_social.filtrer_texte(post)
    print(f"  Post {i}: {' '.join(mots_pertinents[:8])}")
    print(f"  Original: {post[:60]}...")
    print()

## 8. üíæ Export et R√©utilisation

Comment sauvegarder, partager et r√©utiliser vos configurations de stopwords.

In [None]:
# Cr√©ation de configurations pr√™tes √† l'emploi
configurations_preetes = {
    'e_commerce_avis': {
        'description': 'Optimis√© pour l\'analyse d\'avis clients e-commerce',
        'base': 'nltk',
        'domaines': ['e_commerce'],
        'mots_supplementaires': ['vraiment', 'tr√®s', 'super', 'excellent', 'parfait', 'g√©nial']
    },
    
    'support_client': {
        'description': 'Sp√©cialis√© pour la classification de tickets support',
        'base': 'nltk',
        'domaines': ['technique'],
        'mots_supplementaires': ['probl√®me', 'aide', 'question', 'comment', 'pourquoi']
    },
    
    'reseaux_sociaux_fr': {
        'description': 'Adapt√© aux r√©seaux sociaux fran√ßais (argot, abr√©viations)',
        'base': 'nltk',
        'domaines': ['reseaux_sociaux'],
        'mots_supplementaires': ['alors', 'bon', 'bref', 'enfin']
    },
    
    'medical_minimal': {
        'description': 'Version l√©g√®re pour textes m√©dicaux (garde termes techniques)',
        'base': 'nltk',
        'domaines': [],
        'mots_supplementaires': ['tr√®s', 'assez', 'plut√¥t', 'bien', 'mal']
    }
}

def creer_configuration(nom_config: str) -> GestionnaireStopwords:
    """
    Cr√©e un gestionnaire selon une configuration pr√©d√©finie.
    
    Args:
        nom_config: Nom de la configuration
    
    Returns:
        Gestionnaire configur√©
    """
    if nom_config not in configurations_preetes:
        raise ValueError(f"Configuration '{nom_config}' inconnue")
    
    config = configurations_preetes[nom_config]
    gestionnaire = GestionnaireStopwords(base=config['base'])
    
    # Ajout des domaines
    for domaine in config['domaines']:
        gestionnaire.ajouter_domaine(domaine)
    
    # Ajout des mots suppl√©mentaires
    if config['mots_supplementaires']:
        gestionnaire.ajouter_mots(config['mots_supplementaires'], 'configuration_preete')
    
    return gestionnaire

# Test des configurations pr√™tes √† l'emploi
print("üíæ CONFIGURATIONS PR√äTES √Ä L'EMPLOI\n")

for nom, config in configurations_preetes.items():
    gestionnaire = creer_configuration(nom)
    stats = gestionnaire.statistiques()
    
    print(f"üîß {nom.upper().replace('_', ' ')}")
    print(f"   üìù {config['description']}")
    print(f"   üìä {stats['total_stopwords']} stopwords")
    if stats['domaines_actifs']:
        print(f"   üè¢ Domaines : {', '.join(stats['domaines_actifs'])}")
    print()

In [None]:
# Sauvegarde et chargement des configurations
print("üíæ SAUVEGARDE ET CHARGEMENT\n")

# Cr√©ation d'une configuration personnalis√©e
mon_gestionnaire = GestionnaireStopwords(base='nltk')
mon_gestionnaire.ajouter_domaine('e_commerce')
mon_gestionnaire.ajouter_mots(['absolument', 'certainement', 'effectivement'], 'adverbes_certitude')

# Sauvegarde
fichier_config = 'ma_config_stopwords.json'
mon_gestionnaire.sauvegarder(fichier_config)

# Test de chargement
nouveau_gestionnaire = GestionnaireStopwords(base='vide')
nouveau_gestionnaire.charger(fichier_config)

print(f"\nüìã V√©rification du chargement :")
print(f"  ‚Ä¢ Stopwords charg√©s : {nouveau_gestionnaire.statistiques()['total_stopwords']}")
print(f"  ‚Ä¢ Domaines actifs : {', '.join(nouveau_gestionnaire.statistiques()['domaines_actifs'])}")

# Affichage de l'historique
print("\nüìú Historique des op√©rations :")
for i, operation in enumerate(nouveau_gestionnaire.historique[-5:], 1):
    print(f"  {i}. {operation}")

In [None]:
# Fonction utilitaire pour export vers diff√©rents formats
def exporter_stopwords(gestionnaire: GestionnaireStopwords, format_export: str = 'txt') -> str:
    """
    Exporte les stopwords vers diff√©rents formats.
    
    Args:
        gestionnaire: Gestionnaire de stopwords
        format_export: Format ('txt', 'csv', 'python', 'json')
    
    Returns:
        Contenu format√© pour l'export
    """
    stopwords_list = sorted(list(gestionnaire.stopwords))
    stats = gestionnaire.statistiques()
    
    if format_export == 'txt':
        header = f"# Stopwords personnalis√©s - {stats['total_stopwords']} mots\n"
        header += f"# Domaines: {', '.join(stats['domaines_actifs'])}\n\n"
        return header + '\n'.join(stopwords_list)
    
    elif format_export == 'csv':
        return 'stopword\n' + '\n'.join(stopwords_list)
    
    elif format_export == 'python':
        return f"""# Configuration stopwords g√©n√©r√©e automatiquement
# Total: {stats['total_stopwords']} mots
# Domaines: {', '.join(stats['domaines_actifs'])}

STOPWORDS_PERSONNALISES = {{
    {', '.join([f"'{mot}'" for mot in stopwords_list[:10]])},
    # ... {stats['total_stopwords'] - 10} autres mots
}}
"""
    
    elif format_export == 'json':
        return json.dumps({
            'stopwords': stopwords_list,
            'metadata': {
                'total': stats['total_stopwords'],
                'domaines': stats['domaines_actifs'],
                'export_date': str(pd.Timestamp.now())
            }
        }, ensure_ascii=False, indent=2)

# Test des exports
print("üì§ EXEMPLES D'EXPORT\n")

# Export Python
export_python = exporter_stopwords(mon_gestionnaire, 'python')
print("üêç Export Python :")
print(export_python[:300] + "...")

print("\n" + "="*50)

# Export JSON
export_json = exporter_stopwords(mon_gestionnaire, 'json')
print("\nüìã Export JSON (extrait) :")
print(export_json[:300] + "...")

print("\n‚úÖ Tous les formats d'export sont disponibles !")

## üéâ Conclusion et Bonnes Pratiques

### ‚úÖ Ce que vous avez appris :

1. **Identifier automatiquement** les candidats stopwords dans vos donn√©es
2. **Cr√©er des listes sp√©cialis√©es** par domaine d'application
3. **G√©rer efficacement** vos configurations avec le GestionnaireStopwords
4. **Optimiser automatiquement** vos listes selon des crit√®res statistiques
5. **Valider l'efficacit√©** de vos stopwords personnalis√©s
6. **Appliquer concr√®tement** dans diff√©rents cas d'usage
7. **Sauvegarder et r√©utiliser** vos configurations

### üí° Bonnes Pratiques Finales :

#### ‚úÖ √Ä FAIRE :
- **Analyser votre corpus** avant de cr√©er des stopwords
- **Tester diff√©rentes configurations** et mesurer l'impact
- **Documenter vos choix** et garder un historique
- **Adapter selon le contexte** (domaine, objectif, type de texte)
- **Valider sur des √©chantillons** manuellement
- **It√©rer et am√©liorer** selon les r√©sultats obtenus

#### ‚ùå √Ä √âVITER :
- Utiliser la m√™me liste pour tous les projets
- Supprimer des mots importants pour votre analyse
- Ignorer les sp√©cificit√©s de votre domaine
- Ne pas mesurer l'impact sur les performances finales
- Oublier de sauvegarder vos configurations optimis√©es

### üöÄ Prochaines √âtapes :

Maintenant que vous ma√Ætrisez les stopwords personnalis√©s, vous √™tes pr√™t pour :
- **Lemmatisation avanc√©e** avec des dictionnaires sp√©cialis√©s
- **Pipeline de preprocessing complet** int√©grant toutes les techniques
- **√âvaluation quantitative** de la qualit√© du preprocessing

---

**üéØ Message final :** Les stopwords ne sont pas une science exacte ! C'est un √©quilibre entre suppression du bruit et conservation de l'information. Exp√©rimentez, mesurez, adaptez !