# üõë Gestion des Stopwords Fran√ßais

**Module 2 - Preprocessing et Tokenisation**

Dans ce notebook, nous allons explorer en d√©tail la gestion des stopwords (mots vides) en fran√ßais, comparer les approches NLTK et spaCy, et cr√©er nos propres listes personnalis√©es.

## üìã Plan du Notebook

1. **Introduction aux Stopwords**
2. **Stopwords avec NLTK**
3. **Stopwords avec spaCy**
4. **Comparaison NLTK vs spaCy**
5. **Stopwords Personnalis√©s**
6. **Cas Pratiques**
7. **Visualisations et Analyses**
8. **Bonnes Pratiques**

## üì¶ Installation et Imports

In [None]:
# Installation des packages n√©cessaires
# !pip install nltk spacy matplotlib seaborn wordcloud
# !python -m spacy download fr_core_news_sm

In [None]:
import nltk
import spacy
from collections import Counter
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
from wordcloud import WordCloud
import re
from typing import List, Set, Dict

# Configuration pour les graphiques
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print("‚úÖ Imports r√©alis√©s avec succ√®s !")

## 1. üéØ Introduction aux Stopwords

### Qu'est-ce qu'un stopword ?

Un **stopword** (mot vide) est un mot tr√®s fr√©quent dans une langue mais qui apporte peu d'information s√©mantique pour l'analyse de texte.

### Exemples en fran√ßais :
- **Articles** : le, la, les, un, une, des
- **Pr√©positions** : de, √†, dans, pour, avec, sur
- **Pronoms** : je, tu, il, elle, nous, vous, ils, elles
- **Conjonctions** : et, ou, mais, car, donc
- **Auxiliaires** : √™tre, avoir

In [None]:
# Exemple d'impact des stopwords
texte_exemple = """
Le chat noir mange des croquettes avec grand app√©tit dans le jardin ensoleill√©. 
Il est tr√®s content et ronronne de bonheur. Les oiseaux chantent dans les arbres 
pendant que le soleil brille de mille feux.
"""

# Tokenisation simple
mots = re.findall(r'\w+', texte_exemple.lower())
print(f"üìù Texte original : {len(mots)} mots")
print(f"Mots : {mots[:15]}...\n")

# Comptage des fr√©quences
frequences = Counter(mots)
print("üîù Top 10 des mots les plus fr√©quents :")
for mot, freq in frequences.most_common(10):
    print(f"  '{mot}' : {freq} fois")

### üí° Observation

Comme vous pouvez le voir, les mots les plus fr√©quents sont souvent des mots grammaticaux peu informatifs. C'est exactement le probl√®me que les stopwords permettent de r√©soudre !

## 2. üêç Stopwords avec NLTK

In [None]:
# T√©l√©chargement des ressources NLTK
nltk.download('stopwords', quiet=True)
from nltk.corpus import stopwords

# Obtenir les stopwords fran√ßais
stopwords_nltk = set(stopwords.words('french'))

print(f"üìä NLTK fournit {len(stopwords_nltk)} stopwords fran√ßais")
print(f"\nüî§ √âchantillon de stopwords NLTK :")
print(sorted(list(stopwords_nltk))[:20])

In [None]:
# Fonction pour supprimer les stopwords avec NLTK
def supprimer_stopwords_nltk(texte: str) -> List[str]:
    """
    Supprime les stopwords d'un texte en utilisant NLTK.
    
    Args:
        texte: Texte √† traiter
    
    Returns:
        Liste des mots sans stopwords
    """
    mots = re.findall(r'\w+', texte.lower())
    mots_filtres = [mot for mot in mots if mot not in stopwords_nltk]
    return mots_filtres

# Test sur notre exemple
mots_sans_stopwords_nltk = supprimer_stopwords_nltk(texte_exemple)

print(f"üìä Statistiques avec NLTK :")
print(f"  Mots originaux : {len(mots)}")
print(f"  Mots apr√®s filtrage : {len(mots_sans_stopwords_nltk)}")
print(f"  R√©duction : {(1 - len(mots_sans_stopwords_nltk)/len(mots))*100:.1f}%")
print(f"\nüéØ Mots conserv√©s : {mots_sans_stopwords_nltk[:15]}")

## 3. ‚ö° Stopwords avec spaCy

In [None]:
# Chargement du mod√®le fran√ßais de spaCy
try:
    nlp = spacy.load("fr_core_news_sm")
    print("‚úÖ Mod√®le spaCy fran√ßais charg√© avec succ√®s")
except OSError:
    print("‚ùå Mod√®le spaCy fran√ßais non trouv√©")
    print("   Ex√©cutez : python -m spacy download fr_core_news_sm")
    # Alternative : utiliser le mod√®le de base
    nlp = spacy.load("fr_core_news_sm")

# Obtenir les stopwords de spaCy
stopwords_spacy = nlp.Defaults.stop_words

print(f"\nüìä spaCy fournit {len(stopwords_spacy)} stopwords fran√ßais")
print(f"\nüî§ √âchantillon de stopwords spaCy :")
print(sorted(list(stopwords_spacy))[:20])

In [None]:
# Fonction pour supprimer les stopwords avec spaCy
def supprimer_stopwords_spacy(texte: str) -> List[str]:
    """
    Supprime les stopwords d'un texte en utilisant spaCy.
    
    Args:
        texte: Texte √† traiter
    
    Returns:
        Liste des mots sans stopwords
    """
    doc = nlp(texte.lower())
    mots_filtres = [token.text for token in doc 
                   if not token.is_stop and not token.is_punct and not token.is_space]
    return mots_filtres

# Test sur notre exemple
mots_sans_stopwords_spacy = supprimer_stopwords_spacy(texte_exemple)

print(f"üìä Statistiques avec spaCy :")
print(f"  Mots originaux : {len(mots)}")
print(f"  Mots apr√®s filtrage : {len(mots_sans_stopwords_spacy)}")
print(f"  R√©duction : {(1 - len(mots_sans_stopwords_spacy)/len(mots))*100:.1f}%")
print(f"\nüéØ Mots conserv√©s : {mots_sans_stopwords_spacy[:15]}")

## 4. ‚öîÔ∏è Comparaison NLTK vs spaCy

In [None]:
# Analyse comparative des listes de stopwords
print("üîç ANALYSE COMPARATIVE DES STOPWORDS\n")

# Statistiques de base
print(f"üìä Tailles des listes :")
print(f"  NLTK : {len(stopwords_nltk)} mots")
print(f"  spaCy : {len(stopwords_spacy)} mots")

# Intersections et diff√©rences
communs = stopwords_nltk.intersection(stopwords_spacy)
uniquement_nltk = stopwords_nltk - stopwords_spacy
uniquement_spacy = stopwords_spacy - stopwords_nltk

print(f"\nü§ù Mots communs : {len(communs)}")
print(f"üêç Uniquement NLTK : {len(uniquement_nltk)}")
print(f"‚ö° Uniquement spaCy : {len(uniquement_spacy)}")

print(f"\nüìù Exemples de diff√©rences :")
print(f"  Uniquement NLTK : {sorted(list(uniquement_nltk))[:10]}")
print(f"  Uniquement spaCy : {sorted(list(uniquement_spacy))[:10]}")

In [None]:
# Visualisation comparative
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Graphique en secteurs des intersections
labels = ['Communs', 'NLTK seul', 'spaCy seul']
sizes = [len(communs), len(uniquement_nltk), len(uniquement_spacy)]
colors = ['#ff9999', '#66b3ff', '#99ff99']

axes[0].pie(sizes, labels=labels, colors=colors, autopct='%1.1f%%', startangle=90)
axes[0].set_title('ü•ß R√©partition des Stopwords', fontsize=14, fontweight='bold')

# Comparaison des longueurs de listes
libraries = ['NLTK', 'spaCy', 'Communs']
counts = [len(stopwords_nltk), len(stopwords_spacy), len(communs)]
colors_bar = ['#ff7f0e', '#2ca02c', '#d62728']

bars = axes[1].bar(libraries, counts, color=colors_bar, alpha=0.7)
axes[1].set_title('üìä Nombre de Stopwords par Biblioth√®que', fontsize=14, fontweight='bold')
axes[1].set_ylabel('Nombre de stopwords')

# Ajout des valeurs sur les barres
for bar, count in zip(bars, counts):
    axes[1].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 1, 
                str(count), ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
# Comparaison sur plusieurs textes types
textes_test = {
    "Article de presse": """
    Le gouvernement fran√ßais a annonc√© hier de nouvelles mesures √©conomiques. 
    Ces d√©cisions, qui entreront en vigueur d√®s le mois prochain, visent √† 
    stimuler la croissance et √† r√©duire le ch√¥mage dans les r√©gions les plus touch√©es.
    """,
    
    "Avis client": """
    Ce produit est vraiment g√©nial ! Je le recommande vivement √† tous ceux qui 
    cherchent quelque chose de fiable et d'efficace. Le service client est √©galement 
    tr√®s r√©actif et professionnel. Un excellent achat !
    """,
    
    "Tweet informel": """
    Salut tout le monde ! Alors, qu'est-ce que vous pensez du nouveau film ? 
    Moi je l'ai trouv√© plut√¥t pas mal, mais bon, c'est pas non plus extraordinaire...
    """
}

resultats_comparaison = []

for titre, texte in textes_test.items():
    mots_originaux = re.findall(r'\w+', texte.lower())
    mots_nltk = supprimer_stopwords_nltk(texte)
    mots_spacy = supprimer_stopwords_spacy(texte)
    
    resultats_comparaison.append({
        'Type': titre,
        'Mots originaux': len(mots_originaux),
        'Apr√®s NLTK': len(mots_nltk),
        'Apr√®s spaCy': len(mots_spacy),
        'R√©duction NLTK (%)': round((1 - len(mots_nltk)/len(mots_originaux))*100, 1),
        'R√©duction spaCy (%)': round((1 - len(mots_spacy)/len(mots_originaux))*100, 1)
    })

df_comparaison = pd.DataFrame(resultats_comparaison)
print("üìã COMPARAISON SUR DIFF√âRENTS TYPES DE TEXTES\n")
print(df_comparaison.to_string(index=False))

## 5. üéØ Stopwords Personnalis√©s

Parfois, les listes pr√©d√©finies ne suffisent pas. Vous devez cr√©er vos propres listes selon :
- **Le domaine** : m√©dical, juridique, technique...
- **Le type de texte** : tweets, articles, emails...
- **L'objectif** : sentiment, classification, extraction d'entit√©s...

In [None]:
# Cr√©ation de listes de stopwords personnalis√©es par domaine

stopwords_domaines = {
    'e-commerce': {
        'produit', 'article', 'commande', 'livraison', 'client', 'service', 
        'achat', 'vente', 'prix', 'euros', 'boutique', 'magasin', 'site',
        'avis', 'commentaire', 'note', '√©toiles'
    },
    
    'm√©dical': {
        'patient', 'm√©decin', 'docteur', 'traitement', 'maladie', 'sympt√¥me',
        'diagnostic', 'h√¥pital', 'clinique', 'ordonnance', 'm√©dicament',
        'consultation', 'examen', 'analyse'
    },
    
    'r√©seaux_sociaux': {
        'mdr', 'lol', 'ptdr', 'jsp', 'slt', 'bjr', 'bsr', 'cv', 'oui', 'non',
        'ouais', 'genre', 'style', 'truc', 'machin', 'chose', '√ßa', 'ca'
    },
    
    'actualit√©s': {
        'selon', '√©galement', 'notamment', 'toutefois', 'cependant', 'n√©anmoins',
        'par ailleurs', 'en effet', 'ainsi', 'donc', 'enfin', 'finalement'
    }
}

print("üéØ STOPWORDS PERSONNALIS√âS PAR DOMAINE\n")
for domaine, mots in stopwords_domaines.items():
    print(f"üìÇ {domaine.upper()} ({len(mots)} mots) :")
    print(f"   {', '.join(sorted(list(mots))[:8])}...\n")

In [None]:
# Classe pour g√©rer les stopwords personnalis√©s
class StopwordsPersonnalises:
    def __init__(self, base='nltk'):
        """
        Initialise avec une base de stopwords (nltk ou spacy).
        """
        if base == 'nltk':
            self.stopwords = set(stopwords.words('french'))
        elif base == 'spacy':
            self.stopwords = nlp.Defaults.stop_words.copy()
        else:
            self.stopwords = set()
    
    def ajouter_domaine(self, domaine: str) -> None:
        """
        Ajoute les stopwords d'un domaine sp√©cifique.
        """
        if domaine in stopwords_domaines:
            self.stopwords.update(stopwords_domaines[domaine])
            print(f"‚úÖ Stopwords du domaine '{domaine}' ajout√©s")
        else:
            print(f"‚ùå Domaine '{domaine}' non reconnu")
    
    def ajouter_mots(self, mots: List[str]) -> None:
        """
        Ajoute une liste de mots personnalis√©s.
        """
        self.stopwords.update(mots)
        print(f"‚úÖ {len(mots)} mots ajout√©s aux stopwords")
    
    def supprimer_mots(self, mots: List[str]) -> None:
        """
        Supprime des mots de la liste des stopwords.
        """
        self.stopwords -= set(mots)
        print(f"‚úÖ {len(mots)} mots supprim√©s des stopwords")
    
    def filtrer_texte(self, texte: str) -> List[str]:
        """
        Filtre un texte en supprimant les stopwords.
        """
        mots = re.findall(r'\w+', texte.lower())
        return [mot for mot in mots if mot not in self.stopwords]
    
    def statistiques(self) -> Dict:
        """
        Retourne des statistiques sur les stopwords.
        """
        return {
            'total': len(self.stopwords),
            'longueur_moyenne': sum(len(mot) for mot in self.stopwords) / len(self.stopwords),
            'mot_plus_long': max(self.stopwords, key=len),
            'mot_plus_court': min(self.stopwords, key=len)
        }

# Exemple d'utilisation
print("üõ†Ô∏è CR√âATION D'UN GESTIONNAIRE PERSONNALIS√â\n")

# Gestionnaire pour e-commerce
stopwords_ecommerce = StopwordsPersonnalises(base='nltk')
stopwords_ecommerce.ajouter_domaine('e-commerce')
stopwords_ecommerce.ajouter_mots(['vraiment', 'super', 'tr√®s', 'assez', 'plut√¥t'])

print(f"\nüìä Statistiques : {stopwords_ecommerce.statistiques()}")

## 6. üß™ Cas Pratiques

Testons nos diff√©rentes approches sur des textes r√©els de diff√©rents domaines.

In [None]:
# Textes d'exemple pour les cas pratiques
cas_pratiques = {
    "Avis e-commerce": """
    Ce produit est vraiment g√©nial ! La livraison a √©t√© super rapide et le service client 
    tr√®s r√©actif. Je recommande vivement cet article √† tous ceux qui cherchent de la qualit√©. 
    Excellent rapport qualit√© prix ! 5 √©toiles sans h√©siter.
    """,
    
    "Tweet informel": """
    Salut les amis ! Alors, qu'est-ce que vous pensez du dernier √©pisode ? 
    Moi jsp, j'ai trouv√© √ßa plut√¥t bizarre... Genre, c'√©tait pas mal mais bon, 
    √ßa manquait un peu de rythme non ? Bref, dites-moi vos avis !
    """,
    
    "Article m√©dical": """
    Le patient pr√©sente des sympt√¥mes caract√©ristiques de cette pathologie. 
    Le m√©decin recommande un traitement adapt√© avec surveillance r√©guli√®re. 
    L'examen clinique r√©v√®le des signes compatibles avec le diagnostic initial.
    """
}

# Test avec diff√©rentes configurations
configurations = {
    'Standard NLTK': StopwordsPersonnalises(base='nltk'),
    'Standard spaCy': StopwordsPersonnalises(base='spacy'),
    'E-commerce': StopwordsPersonnalises(base='nltk'),
    'R√©seaux sociaux': StopwordsPersonnalises(base='nltk'),
    'M√©dical': StopwordsPersonnalises(base='nltk')
}

# Configuration des gestionnaires sp√©cialis√©s
configurations['E-commerce'].ajouter_domaine('e-commerce')
configurations['R√©seaux sociaux'].ajouter_domaine('r√©seaux_sociaux')
configurations['M√©dical'].ajouter_domaine('m√©dical')

print("üß™ CAS PRATIQUES - COMPARAISON DES APPROCHES\n")

for titre_texte, texte in cas_pratiques.items():
    print(f"üìÑ {titre_texte.upper()}")
    print(f"Texte : {texte.strip()[:100]}...\n")
    
    mots_originaux = re.findall(r'\w+', texte.lower())
    
    for nom_config, gestionnaire in configurations.items():
        mots_filtres = gestionnaire.filtrer_texte(texte)
        reduction = (1 - len(mots_filtres)/len(mots_originaux)) * 100
        
        print(f"  {nom_config:20s} : {len(mots_filtres):2d} mots ({reduction:5.1f}% r√©duction)")
        print(f"  {'':22s} ‚Üí {mots_filtres[:8]}")
    
    print("\n" + "="*60 + "\n")

## 7. üìä Visualisations et Analyses

In [None]:
# Analyse de l'impact des stopwords sur un corpus plus large
corpus_exemple = [
    "Ce produit est vraiment excellent, je le recommande vivement √† tous mes amis.",
    "Service client d√©cevant, j'ai attendu plus d'une heure au t√©l√©phone sans r√©ponse.",
    "La livraison √©tait rapide mais l'emballage √©tait ab√Æm√© √† l'arriv√©e.",
    "Tr√®s satisfait de mon achat, la qualit√© est au rendez-vous comme toujours.",
    "Prix un peu √©lev√© mais la qualit√© justifie largement cet investissement.",
    "Interface utilisateur intuitive et design moderne, parfait pour mon usage quotidien.",
    "Probl√®me technique r√©current, le support n'arrive pas √† r√©soudre le dysfonctionnement.",
    "Excellente alternative aux produits concurrents, rapport qualit√©-prix imbattable."
]

# Analyse avant/apr√®s pour chaque phrase
resultats_analyse = []

for i, phrase in enumerate(corpus_exemple):
    mots_originaux = re.findall(r'\w+', phrase.lower())
    mots_sans_stopwords = supprimer_stopwords_nltk(phrase)
    
    resultats_analyse.append({
        'Phrase': i + 1,
        'Mots_originaux': len(mots_originaux),
        'Mots_filtres': len(mots_sans_stopwords),
        'Reduction_pct': (1 - len(mots_sans_stopwords)/len(mots_originaux)) * 100
    })

df_analyse = pd.DataFrame(resultats_analyse)

# Visualisation
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Graphique 1: R√©duction par phrase
axes[0,0].bar(df_analyse['Phrase'], df_analyse['Reduction_pct'], 
              color='skyblue', alpha=0.7, edgecolor='darkblue')
axes[0,0].set_title('üìâ R√©duction du vocabulaire par phrase', fontweight='bold')
axes[0,0].set_xlabel('Num√©ro de phrase')
axes[0,0].set_ylabel('R√©duction (%)')
axes[0,0].grid(True, alpha=0.3)

# Graphique 2: Comparaison avant/apr√®s
x = df_analyse['Phrase']
width = 0.35
axes[0,1].bar(x - width/2, df_analyse['Mots_originaux'], width, 
              label='Avant', color='lightcoral', alpha=0.7)
axes[0,1].bar(x + width/2, df_analyse['Mots_filtres'], width, 
              label='Apr√®s', color='lightgreen', alpha=0.7)
axes[0,1].set_title('üìä Nombre de mots avant/apr√®s filtrage', fontweight='bold')
axes[0,1].set_xlabel('Num√©ro de phrase')
axes[0,1].set_ylabel('Nombre de mots')
axes[0,1].legend()
axes[0,1].grid(True, alpha=0.3)

# Graphique 3: Distribution des r√©ductions
axes[1,0].hist(df_analyse['Reduction_pct'], bins=6, color='gold', alpha=0.7, 
               edgecolor='darkorange', rwidth=0.8)
axes[1,0].set_title('üìà Distribution des taux de r√©duction', fontweight='bold')
axes[1,0].set_xlabel('R√©duction (%)')
axes[1,0].set_ylabel('Nombre de phrases')
axes[1,0].grid(True, alpha=0.3)

# Graphique 4: Statistiques globales
stats = ['Mots totaux\navant', 'Mots totaux\napr√®s', 'R√©duction\nmoyenne (%)']
values = [df_analyse['Mots_originaux'].sum(), 
          df_analyse['Mots_filtres'].sum(),
          df_analyse['Reduction_pct'].mean()]
colors = ['lightblue', 'lightgreen', 'lightyellow']

bars = axes[1,1].bar(stats, values, color=colors, alpha=0.7, 
                     edgecolor=['darkblue', 'darkgreen', 'orange'])
axes[1,1].set_title('üìã Statistiques globales', fontweight='bold')

# Ajout des valeurs sur les barres
for bar, value in zip(bars, values):
    height = bar.get_height()
    axes[1,1].text(bar.get_x() + bar.get_width()/2., height + max(values)*0.01,
                   f'{value:.1f}', ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

print("üìä R√âSUM√â DE L'ANALYSE :")
print(f"  üí° R√©duction moyenne : {df_analyse['Reduction_pct'].mean():.1f}%")
print(f"  üìâ R√©duction minimale : {df_analyse['Reduction_pct'].min():.1f}%")
print(f"  üìà R√©duction maximale : {df_analyse['Reduction_pct'].max():.1f}%")
print(f"  üéØ Mots √©conomis√©s : {df_analyse['Mots_originaux'].sum() - df_analyse['Mots_filtres'].sum()}")

In [None]:
# Nuage de mots des stopwords les plus courants
try:
    # Combinaison des stopwords NLTK et spaCy
    tous_stopwords = stopwords_nltk.union(stopwords_spacy)
    
    # Cr√©ation du nuage de mots
    texte_stopwords = ' '.join(tous_stopwords)
    
    wordcloud = WordCloud(
        width=800, height=400, 
        background_color='white',
        colormap='viridis',
        max_words=100,
        relative_scaling=0.5,
        random_state=42
    ).generate(texte_stopwords)
    
    plt.figure(figsize=(12, 6))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.title('‚òÅÔ∏è Nuage de Mots des Stopwords Fran√ßais', 
              fontsize=16, fontweight='bold', pad=20)
    plt.tight_layout()
    plt.show()
    
except ImportError:
    print("‚ùå WordCloud non disponible. Installez avec : pip install wordcloud")

## 8. üí° Bonnes Pratiques

### ‚úÖ √Ä FAIRE

1. **Adapter au contexte** : Utiliser des stopwords sp√©cifiques au domaine
2. **Tester l'impact** : Mesurer l'effet sur les performances finales
3. **Documenter les choix** : Justifier pourquoi tel mot est consid√©r√© comme stopword
4. **√ätre it√©ratif** : Ajuster la liste selon les r√©sultats obtenus
5. **Conserver l'original** : Toujours garder une copie du texte non filtr√©

### ‚ùå √Ä √âVITER

1. **Sur-filtrage** : Supprimer trop de mots importants
2. **One-size-fits-all** : Utiliser la m√™me liste pour tous les cas
3. **Ignorer le contexte** : Un mot peut √™tre stopword dans un cas mais pas dans un autre
4. **Oublier la casse** : G√©rer les majuscules/minuscules
5. **Ne pas valider** : V√©rifier manuellement les r√©sultats sur un √©chantillon

In [None]:
# Fonction utilitaire finale pour l'analyse de stopwords
def analyser_impact_stopwords(texte: str, stopwords_list: Set[str] = None) -> Dict:
    """
    Analyse l'impact de la suppression des stopwords sur un texte.
    
    Args:
        texte: Texte √† analyser
        stopwords_list: Liste des stopwords (d√©faut: NLTK fran√ßais)
    
    Returns:
        Dictionnaire avec les statistiques d'impact
    """
    if stopwords_list is None:
        stopwords_list = set(stopwords.words('french'))
    
    # Tokenisation
    mots_originaux = re.findall(r'\w+', texte.lower())
    mots_filtres = [mot for mot in mots_originaux if mot not in stopwords_list]
    
    # Identification des stopwords supprim√©s
    stopwords_trouves = [mot for mot in mots_originaux if mot in stopwords_list]
    
    # Calcul des statistiques
    reduction_pct = (1 - len(mots_filtres)/len(mots_originaux)) * 100 if mots_originaux else 0
    
    return {
        'mots_originaux': len(mots_originaux),
        'mots_apres_filtrage': len(mots_filtres),
        'stopwords_supprimes': len(stopwords_trouves),
        'reduction_pourcentage': round(reduction_pct, 1),
        'stopwords_uniques': len(set(stopwords_trouves)),
        'mots_conserves': mots_filtres[:10],  # √âchantillon
        'stopwords_liste': list(set(stopwords_trouves))[:10]  # √âchantillon
    }

# Test de la fonction
texte_test = """
Le service client de cette entreprise est vraiment excellent. J'ai √©t√© tr√®s 
satisfait de ma commande et je recommande vivement ce produit √† tous ceux qui 
cherchent de la qualit√©. Le rapport qualit√©-prix est imbattable !
"""

analyse = analyser_impact_stopwords(texte_test)

print("üîç ANALYSE D√âTAILL√âE D'IMPACT\n")
print(f"üìä Statistiques :")
print(f"  ‚Ä¢ Mots originaux : {analyse['mots_originaux']}")
print(f"  ‚Ä¢ Mots apr√®s filtrage : {analyse['mots_apres_filtrage']}")
print(f"  ‚Ä¢ Stopwords supprim√©s : {analyse['stopwords_supprimes']}")
print(f"  ‚Ä¢ R√©duction : {analyse['reduction_pourcentage']}%")
print(f"  ‚Ä¢ Stopwords uniques trouv√©s : {analyse['stopwords_uniques']}")

print(f"\nüéØ √âchantillon de mots conserv√©s :")
print(f"  {', '.join(analyse['mots_conserves'])}")

print(f"\nüõë Stopwords trouv√©s dans le texte :")
print(f"  {', '.join(analyse['stopwords_liste'])}")

## üéâ Conclusion

### Ce que vous avez appris :

‚úÖ **Comprendre** le r√¥le des stopwords dans le preprocessing  
‚úÖ **Utiliser** NLTK et spaCy pour la gestion des stopwords fran√ßais  
‚úÖ **Comparer** les diff√©rentes approches et leurs avantages  
‚úÖ **Cr√©er** des listes personnalis√©es selon le domaine  
‚úÖ **Analyser** l'impact des stopwords sur vos donn√©es  
‚úÖ **Visualiser** les r√©sultats et optimiser vos choix  

### Prochaines √©tapes :

üéØ **Lemmatisation et Stemming** : R√©duction des mots √† leur forme canonique  
üéØ **Pipeline complet** : Int√©gration de toutes les techniques de preprocessing  
üéØ **√âvaluation** : Mesurer l'impact sur les performances des mod√®les  

---

**üí° Conseil final :** Les stopwords ne sont pas universels ! Adaptez toujours votre approche selon votre contexte, votre domaine et vos objectifs.