# üßπ Nettoyage Basique de Texte

## Module 2 - Preprocessing et Tokenisation

**Objectif :** Apprendre les techniques fondamentales de nettoyage de texte avec Python standard

**Dur√©e estim√©e :** 45 minutes

---

### üéØ Ce que vous allez apprendre

- ‚úÖ Normaliser la casse (majuscules/minuscules)
- ‚úÖ Supprimer la ponctuation ind√©sirable  
- ‚úÖ Nettoyer les URLs, emails et mentions
- ‚úÖ G√©rer les espaces multiples
- ‚úÖ Traiter les caract√®res sp√©ciaux
- ‚úÖ Construire un pipeline de nettoyage simple

---

## üìö Imports et Configuration

Nous utilisons uniquement des modules Python standard :

In [4]:
import re  # Pour les expressions r√©guli√®res
import string  # Pour les caract√®res de ponctuation
import unicodedata  # Pour la normalisation des caract√®res

# Configuration pour un affichage plus joli
def afficher_resultat(avant, apres, etape):
    """Fonction utilitaire pour afficher les transformations"""
    print(f"üîß {etape}")
    print(f"   Avant : '{avant}'")
    print(f"   Apr√®s : '{apres}'")
    print(f"   Longueur : {len(avant)} ‚Üí {len(apres)} caract√®res")
    print("-" * 50)

print("‚úÖ Modules import√©s avec succ√®s !")

‚úÖ Modules import√©s avec succ√®s !


## üß™ Technique 1 : Normalisation de la Casse

**Probl√®me :** "SUPER", "Super", "super" sont consid√©r√©s comme 3 mots diff√©rents

**Solution :** Tout convertir en minuscules

In [5]:
# Exemples de textes avec diff√©rentes casses
exemples_casse = [
    "BONJOUR COMMENT ALLEZ-VOUS ?",
    "J'ADORE ce Produit G√âNIAL !!!",
    "Marie-Claire habite √Ä Paris",
    "Le COVID-19 a chang√© nos HABITUDES"
]

print("üî§ NORMALISATION DE LA CASSE\n")

for i, texte in enumerate(exemples_casse, 1):
    texte_nettoye = texte.lower()
    print(f"Exemple {i}:")
    afficher_resultat(texte, texte_nettoye, "Conversion en minuscules")
    print()

üî§ NORMALISATION DE LA CASSE

Exemple 1:
üîß Conversion en minuscules
   Avant : 'BONJOUR COMMENT ALLEZ-VOUS ?'
   Apr√®s : 'bonjour comment allez-vous ?'
   Longueur : 28 ‚Üí 28 caract√®res
--------------------------------------------------

Exemple 2:
üîß Conversion en minuscules
   Avant : 'J'ADORE ce Produit G√âNIAL !!!'
   Apr√®s : 'j'adore ce produit g√©nial !!!'
   Longueur : 29 ‚Üí 29 caract√®res
--------------------------------------------------

Exemple 3:
üîß Conversion en minuscules
   Avant : 'Marie-Claire habite √Ä Paris'
   Apr√®s : 'marie-claire habite √† paris'
   Longueur : 27 ‚Üí 27 caract√®res
--------------------------------------------------

Exemple 4:
üîß Conversion en minuscules
   Avant : 'Le COVID-19 a chang√© nos HABITUDES'
   Apr√®s : 'le covid-19 a chang√© nos habitudes'
   Longueur : 34 ‚Üí 34 caract√®res
--------------------------------------------------



### ‚ö†Ô∏è Attention aux Exceptions

Parfois, la casse est importante :

In [20]:
# Cas o√π la casse peut √™tre importante
exemples_problematiques = [
    "US (√âtats-Unis) vs us (nous)",
    "WHO (OMS) vs who (qui)",
    "Apple (entreprise) vs apple (pomme)"
]

print("‚ö†Ô∏è CAS PROBL√âMATIQUES\n")

for exemple in exemples_problematiques:
    print(f"Original : {exemple}")
    print(f"Minuscules : {exemple.lower()}")
    print("‚Üí Le sens peut changer !\n")

print("üí° Conseil : Pour la plupart des cas (sentiment, th√©matiques), les minuscules sont pr√©f√©rables")

‚ö†Ô∏è CAS PROBL√âMATIQUES

Original : US (√âtats-Unis) vs us (nous)
Minuscules : us (√©tats-unis) vs us (nous)
‚Üí Le sens peut changer !

Original : WHO (OMS) vs who (qui)
Minuscules : who (oms) vs who (qui)
‚Üí Le sens peut changer !

Original : Apple (entreprise) vs apple (pomme)
Minuscules : apple (entreprise) vs apple (pomme)
‚Üí Le sens peut changer !

üí° Conseil : Pour la plupart des cas (sentiment, th√©matiques), les minuscules sont pr√©f√©rables


## üß™ Technique 2 : Suppression de la Ponctuation

**Probl√®me :** "super!", "super.", "super" sont consid√©r√©s comme diff√©rents

**Solutions :** Plusieurs approches possibles

In [7]:
# Texte d'exemple avec beaucoup de ponctuation
texte_ponctuation = "Bonjour !!! Comment allez-vous ??? C'est g√©nial... N'est-ce pas ?"

print("üìù SUPPRESSION DE LA PONCTUATION\n")
print(f"Texte original : '{texte_ponctuation}'\n")

# M√©thode 1 : Utiliser string.punctuation
print("üîß M√©thode 1 : string.punctuation")
print(f"Caract√®res de ponctuation : {string.punctuation}")

methode1 = texte_ponctuation.translate(str.maketrans('', '', string.punctuation))
print(f"R√©sultat : '{methode1}'\n")

# M√©thode 2 : Expressions r√©guli√®res simples
print("üîß M√©thode 2 : Regex simple")
methode2 = re.sub(r'[^\w\s]', '', texte_ponctuation)
print(f"R√©sultat : '{methode2}'\n")

# M√©thode 3 : Suppression s√©lective
print("üîß M√©thode 3 : Suppression s√©lective (garde les apostrophes)")
methode3 = re.sub(r"[^\w\s']", '', texte_ponctuation)
print(f"R√©sultat : '{methode3}'\n")

print("üí° Choisissez selon votre cas d'usage !")

üìù SUPPRESSION DE LA PONCTUATION

Texte original : 'Bonjour !!! Comment allez-vous ??? C'est g√©nial... N'est-ce pas ?'

üîß M√©thode 1 : string.punctuation
Caract√®res de ponctuation : !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
R√©sultat : 'Bonjour  Comment allezvous  Cest g√©nial Nestce pas '

üîß M√©thode 2 : Regex simple
R√©sultat : 'Bonjour  Comment allezvous  Cest g√©nial Nestce pas '

üîß M√©thode 3 : Suppression s√©lective (garde les apostrophes)
R√©sultat : 'Bonjour  Comment allezvous  C'est g√©nial N'estce pas '

üí° Choisissez selon votre cas d'usage !


### üß™ Exercice Pratique : Testez vous-m√™me

Modifiez le texte ci-dessous et testez les diff√©rentes m√©thodes :

In [8]:
# üéØ EXERCICE : Modifiez ce texte pour tester
votre_texte = "J'adore ce caf√© !!! Il co√ªte 3,50‚Ç¨... N'est-ce pas cher ???"

print(f"Votre texte : '{votre_texte}'\n")

# Testez les 3 m√©thodes
resultat1 = votre_texte.translate(str.maketrans('', '', string.punctuation))
resultat2 = re.sub(r'[^\w\s]', '', votre_texte)
resultat3 = re.sub(r"[^\w\s']", '', votre_texte)

print("üìä Comparaison des r√©sultats :")
print(f"M√©thode 1 : '{resultat1}'")
print(f"M√©thode 2 : '{resultat2}'")
print(f"M√©thode 3 : '{resultat3}'")

# Quelle m√©thode pr√©f√©rez-vous pour ce texte ?
print("\nü§î R√©flexion : Quelle m√©thode pr√©servez-vous le mieux le sens ?")

Votre texte : 'J'adore ce caf√© !!! Il co√ªte 3,50‚Ç¨... N'est-ce pas cher ???'

üìä Comparaison des r√©sultats :
M√©thode 1 : 'Jadore ce caf√©  Il co√ªte 350‚Ç¨ Nestce pas cher '
M√©thode 2 : 'Jadore ce caf√©  Il co√ªte 350 Nestce pas cher '
M√©thode 3 : 'J'adore ce caf√©  Il co√ªte 350 N'estce pas cher '

ü§î R√©flexion : Quelle m√©thode pr√©servez-vous le mieux le sens ?


## üß™ Technique 3 : Nettoyage des URLs, Emails et Mentions

**Probl√®me :** Les √©l√©ments web polluent l'analyse de sentiment

**Solution :** Les supprimer ou les remplacer par des marqueurs

In [9]:
# Texte avec √©l√©ments web (simule un tweet ou post social)
texte_web = """
RT @marie_dupont: Super article sur https://example.com/article ! 
Contactez-moi sur marie@email.fr pour en discuter.
Suivez @tech_news pour plus d'infos #NLP #IA
""".strip()

print("üåê NETTOYAGE DES √âL√âMENTS WEB\n")
print(f"Texte original :\n'{texte_web}'\n")

# 1. Suppression des URLs
print("üîß √âtape 1 : Suppression des URLs")
sans_urls = re.sub(r'https?://\S+', '', texte_web)
afficher_resultat(texte_web, sans_urls, "URLs supprim√©es")
print()

# 2. Suppression des emails
print("üîß √âtape 2 : Suppression des emails")
sans_emails = re.sub(r'\S+@\S+', '', sans_urls)
afficher_resultat(sans_urls, sans_emails, "Emails supprim√©s")
print()

# 3. Suppression des mentions (@)
print("üîß √âtape 3 : Suppression des mentions")
sans_mentions = re.sub(r'@\w+', '', sans_emails)
afficher_resultat(sans_emails, sans_mentions, "Mentions supprim√©es")
print()

# 4. Suppression des hashtags
print("üîß √âtape 4 : Suppression des hashtags")
sans_hashtags = re.sub(r'#\w+', '', sans_mentions)
afficher_resultat(sans_mentions, sans_hashtags, "Hashtags supprim√©s")
print()

# 5. Suppression des RT (retweets)
print("üîß √âtape 5 : Suppression des RT")
texte_final = re.sub(r'\bRT\b', '', sans_hashtags)
afficher_resultat(sans_hashtags, texte_final, "RT supprim√©s")

üåê NETTOYAGE DES √âL√âMENTS WEB

Texte original :
'RT @marie_dupont: Super article sur https://example.com/article ! 
Contactez-moi sur marie@email.fr pour en discuter.
Suivez @tech_news pour plus d'infos #NLP #IA'

üîß √âtape 1 : Suppression des URLs
üîß URLs supprim√©es
   Avant : 'RT @marie_dupont: Super article sur https://example.com/article ! 
Contactez-moi sur marie@email.fr pour en discuter.
Suivez @tech_news pour plus d'infos #NLP #IA'
   Apr√®s : 'RT @marie_dupont: Super article sur  ! 
Contactez-moi sur marie@email.fr pour en discuter.
Suivez @tech_news pour plus d'infos #NLP #IA'
   Longueur : 162 ‚Üí 135 caract√®res
--------------------------------------------------

üîß √âtape 2 : Suppression des emails
üîß Emails supprim√©s
   Avant : 'RT @marie_dupont: Super article sur  ! 
Contactez-moi sur marie@email.fr pour en discuter.
Suivez @tech_news pour plus d'infos #NLP #IA'
   Apr√®s : 'RT @marie_dupont: Super article sur  ! 
Contactez-moi sur  pour en discuter.
Suivez

### üîÑ Alternative : Remplacement par des Marqueurs

Parfois, il est utile de garder l'information qu'un URL √©tait pr√©sent :

In [10]:
# Alternative : remplacer par des marqueurs
print("üîÑ REMPLACEMENT PAR DES MARQUEURS\n")

texte_avec_marqueurs = texte_web

# Remplacements avec marqueurs
texte_avec_marqueurs = re.sub(r'https?://\S+', '[URL]', texte_avec_marqueurs)
texte_avec_marqueurs = re.sub(r'\S+@\S+', '[EMAIL]', texte_avec_marqueurs)
texte_avec_marqueurs = re.sub(r'@\w+', '[MENTION]', texte_avec_marqueurs)
texte_avec_marqueurs = re.sub(r'#\w+', '[HASHTAG]', texte_avec_marqueurs)
texte_avec_marqueurs = re.sub(r'\bRT\b', '[RETWEET]', texte_avec_marqueurs)

print(f"Texte original :\n'{texte_web}'\n")
print(f"Avec marqueurs :\n'{texte_avec_marqueurs}'\n")
print("üí° Avantage : On garde l'information qu'il y avait un URL, email, etc.")

üîÑ REMPLACEMENT PAR DES MARQUEURS

Texte original :
'RT @marie_dupont: Super article sur https://example.com/article ! 
Contactez-moi sur marie@email.fr pour en discuter.
Suivez @tech_news pour plus d'infos #NLP #IA'

Avec marqueurs :
'[RETWEET] [MENTION]: Super article sur [URL] ! 
Contactez-moi sur [EMAIL] pour en discuter.
Suivez [MENTION] pour plus d'infos [HASHTAG] [HASHTAG]'

üí° Avantage : On garde l'information qu'il y avait un URL, email, etc.


## üß™ Technique 4 : Normalisation des Espaces

**Probl√®me :** Espaces multiples, tabulations, retours √† la ligne parasites

**Solution :** Normaliser tous les espaces

In [11]:
# Texte avec probl√®mes d'espaces
texte_espaces = "Bonjour    comment\tallez-vous ?\n\nTr√®s    bien   merci !"

print("üìè NORMALISATION DES ESPACES\n")
print(f"Texte original (avec caract√®res visibles) :")
print(repr(texte_espaces))  # repr() montre les \t et \n
print(f"\nTexte affich√© normalement :")
print(f"'{texte_espaces}'\n")

# Normalisation des espaces
print("üîß Normalisation en cours...")

# √âtape 1 : Remplacer tous les types d'espaces par un espace simple
espaces_normalises = re.sub(r'\s+', ' ', texte_espaces)

# √âtape 2 : Supprimer les espaces en d√©but et fin
espaces_normalises = espaces_normalises.strip()

afficher_resultat(texte_espaces, espaces_normalises, "Espaces normalis√©s")

print("\nüìä Comparaison des longueurs :")
print(f"Avant : {len(texte_espaces)} caract√®res")
print(f"Apr√®s : {len(espaces_normalises)} caract√®res")
print(f"√âconomie : {len(texte_espaces) - len(espaces_normalises)} caract√®res")

üìè NORMALISATION DES ESPACES

Texte original (avec caract√®res visibles) :
'Bonjour    comment\tallez-vous ?\n\nTr√®s    bien   merci !'

Texte affich√© normalement :
'Bonjour    comment	allez-vous ?

Tr√®s    bien   merci !'

üîß Normalisation en cours...
üîß Espaces normalis√©s
   Avant : 'Bonjour    comment	allez-vous ?

Tr√®s    bien   merci !'
   Apr√®s : 'Bonjour comment allez-vous ? Tr√®s bien merci !'
   Longueur : 55 ‚Üí 46 caract√®res
--------------------------------------------------

üìä Comparaison des longueurs :
Avant : 55 caract√®res
Apr√®s : 46 caract√®res
√âconomie : 9 caract√®res


## üß™ Technique 5 : Gestion des Accents et Caract√®res Sp√©ciaux

**Question :** Faut-il garder les accents fran√ßais ?

**R√©ponse :** √áa d√©pend ! Voyons les options.

In [12]:
# Texte avec accents fran√ßais
texte_accents = "Caf√©, th√©√¢tre, h√¥tel, na√Øvet√©, No√´l, c≈ìur, ≈ìuf"

print("üî° GESTION DES ACCENTS\n")
print(f"Texte original : '{texte_accents}'\n")

# Option 1 : Garder les accents (recommand√© pour le fran√ßais)
print("‚úÖ Option 1 : Garder les accents")
avec_accents = texte_accents.lower()
print(f"R√©sultat : '{avec_accents}'")
print("Avantage : Pr√©serve la richesse du fran√ßais\n")

# Option 2 : Supprimer les accents
print("üîÑ Option 2 : Supprimer les accents")
sans_accents = unicodedata.normalize('NFD', texte_accents.lower())
sans_accents = ''.join(char for char in sans_accents if unicodedata.category(char) != 'Mn')
print(f"R√©sultat : '{sans_accents}'")
print("Avantage : Plus simple pour certains algorithmes\n")

# Comparaison pratique
print("üîç Impact sur les mots :")
mots_avec = avec_accents.split()
mots_sans = sans_accents.split()

for i, (avec, sans) in enumerate(zip(mots_avec, mots_sans)):
    changement = "üìù" if avec != sans else "‚ú®"
    print(f"{changement} {avec} ‚Üí {sans}")

print("\nüí° Recommandation : Gardez les accents pour le fran√ßais, sauf contrainte technique")

üî° GESTION DES ACCENTS

Texte original : 'Caf√©, th√©√¢tre, h√¥tel, na√Øvet√©, No√´l, c≈ìur, ≈ìuf'

‚úÖ Option 1 : Garder les accents
R√©sultat : 'caf√©, th√©√¢tre, h√¥tel, na√Øvet√©, no√´l, c≈ìur, ≈ìuf'
Avantage : Pr√©serve la richesse du fran√ßais

üîÑ Option 2 : Supprimer les accents
R√©sultat : 'cafe, theatre, hotel, naivete, noel, c≈ìur, ≈ìuf'
Avantage : Plus simple pour certains algorithmes

üîç Impact sur les mots :
üìù caf√©, ‚Üí cafe,
üìù th√©√¢tre, ‚Üí theatre,
üìù h√¥tel, ‚Üí hotel,
üìù na√Øvet√©, ‚Üí naivete,
üìù no√´l, ‚Üí noel,
‚ú® c≈ìur, ‚Üí c≈ìur,
‚ú® ≈ìuf ‚Üí ≈ìuf

üí° Recommandation : Gardez les accents pour le fran√ßais, sauf contrainte technique


## üèóÔ∏è Pipeline de Nettoyage Complet

Combinons toutes les techniques dans une fonction r√©utilisable :

In [13]:
def nettoyer_texte_basique(texte, 
                          minuscules=True,
                          supprimer_ponctuation=True, 
                          supprimer_urls=True,
                          supprimer_emails=True,
                          supprimer_mentions=True,
                          supprimer_hashtags=True,
                          normaliser_espaces=True):
    """
    Pipeline de nettoyage basique pour le texte fran√ßais.
    
    Args:
        texte (str): Le texte √† nettoyer
        minuscules (bool): Convertir en minuscules
        supprimer_ponctuation (bool): Supprimer la ponctuation
        supprimer_urls (bool): Supprimer les URLs
        supprimer_emails (bool): Supprimer les emails
        supprimer_mentions (bool): Supprimer les mentions (@)
        supprimer_hashtags (bool): Supprimer les hashtags (#)
        normaliser_espaces (bool): Normaliser les espaces
    
    Returns:
        str: Texte nettoy√©
    """
    resultat = texte
    
    # 1. Conversion en minuscules
    if minuscules:
        resultat = resultat.lower()
    
    # 2. Suppression des √©l√©ments web
    if supprimer_urls:
        resultat = re.sub(r'https?://\S+', '', resultat)
        resultat = re.sub(r'www\.\S+', '', resultat)
    
    if supprimer_emails:
        resultat = re.sub(r'\S+@\S+', '', resultat)
    
    if supprimer_mentions:
        resultat = re.sub(r'@\w+', '', resultat)
    
    if supprimer_hashtags:
        resultat = re.sub(r'#\w+', '', resultat)
    
    # Suppression RT
    resultat = re.sub(r'\bRT\b', '', resultat)
    
    # 3. Suppression de la ponctuation (garde les apostrophes pour le fran√ßais)
    if supprimer_ponctuation:
        resultat = re.sub(r"[^\w\s']", '', resultat)
    
    # 4. Normalisation des espaces
    if normaliser_espaces:
        resultat = re.sub(r'\s+', ' ', resultat)
        resultat = resultat.strip()
    
    return resultat

print("‚úÖ Fonction de nettoyage cr√©√©e !")

‚úÖ Fonction de nettoyage cr√©√©e !


### üß™ Test du Pipeline Complet

Testons notre fonction sur diff√©rents types de textes :

In [14]:
# Textes de test vari√©s
textes_test = [
    "RT @user: SUPER article!!! https://bit.ly/xyz #amazing",
    "Bonjour !!! Comment allez-vous ??? C'est G√âNIAL...",
    "Contact: marie@email.fr ou    appelez le   01.23.45.67.89",
    "J'adore ce caf√© ‚òï √† 3,50‚Ç¨ !!! N'est-ce pas cher ???"
]

print("üß™ TEST DU PIPELINE COMPLET\n")

for i, texte in enumerate(textes_test, 1):
    print(f"üìù Test {i}:")
    print(f"   Original : '{texte}'")
    
    # Nettoyage complet
    nettoye = nettoyer_texte_basique(texte)
    print(f"   Nettoy√©  : '{nettoye}'")
    
    # Statistiques
    reduction = len(texte) - len(nettoye)
    pourcentage = (reduction / len(texte)) * 100 if len(texte) > 0 else 0
    print(f"   R√©duction: {reduction} caract√®res ({pourcentage:.1f}%)")
    print("-" * 60)
    print()

üß™ TEST DU PIPELINE COMPLET

üìù Test 1:
   Original : 'RT @user: SUPER article!!! https://bit.ly/xyz #amazing'
   Nettoy√©  : 'rt super article'
   R√©duction: 38 caract√®res (70.4%)
------------------------------------------------------------

üìù Test 2:
   Original : 'Bonjour !!! Comment allez-vous ??? C'est G√âNIAL...'
   Nettoy√©  : 'bonjour comment allezvous c'est g√©nial'
   R√©duction: 12 caract√®res (24.0%)
------------------------------------------------------------

üìù Test 3:
   Original : 'Contact: marie@email.fr ou    appelez le   01.23.45.67.89'
   Nettoy√©  : 'contact ou appelez le 0123456789'
   R√©duction: 25 caract√®res (43.9%)
------------------------------------------------------------

üìù Test 4:
   Original : 'J'adore ce caf√© ‚òï √† 3,50‚Ç¨ !!! N'est-ce pas cher ???'
   Nettoy√©  : 'j'adore ce caf√© √† 350 n'estce pas cher'
   R√©duction: 13 caract√®res (25.5%)
------------------------------------------------------------



### üîß Test avec Options Personnalis√©es

Voyons comment adapter le nettoyage selon le contexte :

In [15]:
texte_exemple = "J'adore ce produit !!! Contact: info@boutique.fr #super"

print("üîß NETTOYAGE PERSONNALIS√â\n")
print(f"Texte : '{texte_exemple}'\n")

# Sc√©nario 1 : Analyse de sentiment (on garde plus d'infos)
print("üé≠ Sc√©nario 1 : Analyse de sentiment")
sentiment = nettoyer_texte_basique(texte_exemple, 
                                  supprimer_emails=True,
                                  supprimer_hashtags=True,
                                  supprimer_ponctuation=False)  # On garde ! et ???
print(f"R√©sultat : '{sentiment}'")
print("üí° On garde les exclamations qui expriment l'√©motion\n")

# Sc√©nario 2 : Classification de texte (nettoyage maximal)
print("üìä Sc√©nario 2 : Classification de texte")
classification = nettoyer_texte_basique(texte_exemple)  # Tout nettoyer
print(f"R√©sultat : '{classification}'")
print("üí° Focus sur les mots porteurs de sens\n")

# Sc√©nario 3 : Recherche (nettoyage mod√©r√©)
print("üîç Sc√©nario 3 : Recherche")
recherche = nettoyer_texte_basique(texte_exemple,
                                  supprimer_emails=False,  # Peut √™tre utile
                                  supprimer_hashtags=False)  # Mots-cl√©s
print(f"R√©sultat : '{recherche}'")
print("üí° On garde les √©l√©ments qui peuvent √™tre recherch√©s")

üîß NETTOYAGE PERSONNALIS√â

Texte : 'J'adore ce produit !!! Contact: info@boutique.fr #super'

üé≠ Sc√©nario 1 : Analyse de sentiment
R√©sultat : 'j'adore ce produit !!! contact:'
üí° On garde les exclamations qui expriment l'√©motion

üìä Sc√©nario 2 : Classification de texte
R√©sultat : 'j'adore ce produit contact'
üí° Focus sur les mots porteurs de sens

üîç Sc√©nario 3 : Recherche
R√©sultat : 'j'adore ce produit contact infofr super'
üí° On garde les √©l√©ments qui peuvent √™tre recherch√©s


## üéØ Exercices Pratiques

√Ä vous de jouer ! Testez vos comp√©tences :

### Exercice 1 : Nettoyage de Commentaires Clients

In [16]:
# üéØ EXERCICE 1 : Commentaires clients e-commerce
commentaires_clients = [
    "SUPER produit !!! Je le recommande √† 100% !!!",
    "Bof... pas terrible üòï Service client = nul",
    "Livraison rapide ! Contact: service@boutique.fr si probl√®me",
    "Prix correct (29,99‚Ç¨) mais qualit√©    moyenne...",
    "N'achetez PAS !!! ARNAQUE totale !!! #attention"
]

print("üõí EXERCICE 1 : Nettoyage de commentaires clients\n")
print("üìù Votre mission : Nettoyer ces commentaires pour une analyse de sentiment\n")

# TODO: Nettoyez chaque commentaire
# Conseil: Gardez les exclamations car elles expriment l'√©motion
# Supprimez les emails et prix pour vous concentrer sur l'opinion

for i, commentaire in enumerate(commentaires_clients, 1):
    print(f"Commentaire {i} :")
    print(f"  Original : '{commentaire}'")
    
    # üéØ VOTRE CODE ICI
    # Utilisez la fonction nettoyer_texte_basique avec les bons param√®tres
    commentaire_nettoye = "TODO: Votre nettoyage ici"
    
    print(f"  Nettoy√©  : '{commentaire_nettoye}'")
    print()

print("üí° Solution dans la cellule suivante !")

üõí EXERCICE 1 : Nettoyage de commentaires clients

üìù Votre mission : Nettoyer ces commentaires pour une analyse de sentiment

Commentaire 1 :
  Original : 'SUPER produit !!! Je le recommande √† 100% !!!'
  Nettoy√©  : 'TODO: Votre nettoyage ici'

Commentaire 2 :
  Original : 'Bof... pas terrible üòï Service client = nul'
  Nettoy√©  : 'TODO: Votre nettoyage ici'

Commentaire 3 :
  Original : 'Livraison rapide ! Contact: service@boutique.fr si probl√®me'
  Nettoy√©  : 'TODO: Votre nettoyage ici'

Commentaire 4 :
  Original : 'Prix correct (29,99‚Ç¨) mais qualit√©    moyenne...'
  Nettoy√©  : 'TODO: Votre nettoyage ici'

Commentaire 5 :
  Original : 'N'achetez PAS !!! ARNAQUE totale !!! #attention'
  Nettoy√©  : 'TODO: Votre nettoyage ici'

üí° Solution dans la cellule suivante !


In [17]:
# ‚úÖ SOLUTION EXERCICE 1
print("‚úÖ SOLUTION EXERCICE 1\n")

for i, commentaire in enumerate(commentaires_clients, 1):
    print(f"Commentaire {i} :")
    print(f"  Original : '{commentaire}'")
    
    # Configuration optimale pour l'analyse de sentiment
    commentaire_nettoye = nettoyer_texte_basique(
        commentaire,
        minuscules=True,
        supprimer_ponctuation=False,  # Garder ! et ? pour l'√©motion
        supprimer_emails=True,
        supprimer_hashtags=True
    )
    
    # Nettoyage suppl√©mentaire : supprimer prix et emojis
    commentaire_nettoye = re.sub(r'\d+[,.]\d+‚Ç¨?', '', commentaire_nettoye)
    commentaire_nettoye = re.sub(r'[üòïüòäüòçüò¢üò°]', '', commentaire_nettoye)
    commentaire_nettoye = re.sub(r'\s+', ' ', commentaire_nettoye).strip()
    
    print(f"  Nettoy√©  : '{commentaire_nettoye}'")
    print()

print("üéØ Objectif atteint : Textes pr√™ts pour l'analyse de sentiment !")

‚úÖ SOLUTION EXERCICE 1

Commentaire 1 :
  Original : 'SUPER produit !!! Je le recommande √† 100% !!!'
  Nettoy√©  : 'super produit !!! je le recommande √† 100% !!!'

Commentaire 2 :
  Original : 'Bof... pas terrible üòï Service client = nul'
  Nettoy√©  : 'bof... pas terrible service client = nul'

Commentaire 3 :
  Original : 'Livraison rapide ! Contact: service@boutique.fr si probl√®me'
  Nettoy√©  : 'livraison rapide ! contact: si probl√®me'

Commentaire 4 :
  Original : 'Prix correct (29,99‚Ç¨) mais qualit√©    moyenne...'
  Nettoy√©  : 'prix correct () mais qualit√© moyenne...'

Commentaire 5 :
  Original : 'N'achetez PAS !!! ARNAQUE totale !!! #attention'
  Nettoy√©  : 'n'achetez pas !!! arnaque totale !!!'

üéØ Objectif atteint : Textes pr√™ts pour l'analyse de sentiment !


### Exercice 2 : Analysez Vos Propres Donn√©es

In [18]:
# üéØ EXERCICE 2 : Testez avec vos propres donn√©es
print("üì± EXERCICE 2 : Analysez vos propres donn√©es\n")
print("Modifiez la liste ci-dessous avec vos propres textes :")

# TODO: Remplacez par vos propres textes
vos_textes = [
    "Ajoutez ici vos propres textes √† nettoyer",
    "Par exemple des tweets, emails, ou commentaires",
    "Testez diff√©rents types de contenu !"
]

# Analysez vos textes
for i, texte in enumerate(vos_textes, 1):
    if texte.startswith("Ajoutez") or texte.startswith("Par exemple"):
        print(f"üìù Remplacez ce texte exemple par le v√¥tre : '{texte}'")
        continue
        
    print(f"Texte {i} :")
    print(f"  Original : '{texte}'")
    
    # Nettoyage standard
    nettoye = nettoyer_texte_basique(texte)
    print(f"  Nettoy√©  : '{nettoye}'")
    
    # Statistiques
    mots_avant = len(texte.split())
    mots_apres = len(nettoye.split())
    print(f"  Mots     : {mots_avant} ‚Üí {mots_apres}")
    print()

print("üí° Plus vous testez, mieux vous comprendrez les enjeux du nettoyage !")

üì± EXERCICE 2 : Analysez vos propres donn√©es

Modifiez la liste ci-dessous avec vos propres textes :
üìù Remplacez ce texte exemple par le v√¥tre : 'Ajoutez ici vos propres textes √† nettoyer'
üìù Remplacez ce texte exemple par le v√¥tre : 'Par exemple des tweets, emails, ou commentaires'
Texte 3 :
  Original : 'Testez diff√©rents types de contenu !'
  Nettoy√©  : 'testez diff√©rents types de contenu'
  Mots     : 6 ‚Üí 5

üí° Plus vous testez, mieux vous comprendrez les enjeux du nettoyage !


## üìä M√©triques et Validation

Comment √©valuer la qualit√© de notre nettoyage ?

In [19]:
def analyser_nettoyage(texte_original, texte_nettoye):
    """
    Analyse l'impact du nettoyage sur un texte.
    """
    # Statistiques de base
    stats = {
        'caracteres_avant': len(texte_original),
        'caracteres_apres': len(texte_nettoye),
        'mots_avant': len(texte_original.split()),
        'mots_apres': len(texte_nettoye.split()) if texte_nettoye.strip() else 0,
    }
    
    # Calculs d√©riv√©s
    stats['reduction_caracteres'] = stats['caracteres_avant'] - stats['caracteres_apres']
    stats['reduction_mots'] = stats['mots_avant'] - stats['mots_apres']
    stats['pourcentage_reduction'] = (stats['reduction_caracteres'] / stats['caracteres_avant']) * 100 if stats['caracteres_avant'] > 0 else 0
    
    # D√©tection d'√©l√©ments nettoy√©s
    elements_detectes = {
        'urls': len(re.findall(r'https?://\S+', texte_original)),
        'emails': len(re.findall(r'\S+@\S+', texte_original)),
        'mentions': len(re.findall(r'@\w+', texte_original)),
        'hashtags': len(re.findall(r'#\w+', texte_original)),
        'ponctuation': len([c for c in texte_original if c in string.punctuation])
    }
    
    return stats, elements_detectes

# Test sur un √©chantillon
texte_test = "RT @user: SUPER article!!! https://bit.ly/xyz contact@email.fr #NLP #IA ??? üî•"
texte_test_nettoye = nettoyer_texte_basique(texte_test)

stats, elements = analyser_nettoyage(texte_test, texte_test_nettoye)

print("üìä ANALYSE DU NETTOYAGE\n")
print(f"Texte original : '{texte_test}'")
print(f"Texte nettoy√©  : '{texte_test_nettoye}'\n")

print("üìà Statistiques :")
print(f"  Caract√®res : {stats['caracteres_avant']} ‚Üí {stats['caracteres_apres']} (-{stats['reduction_caracteres']})")
print(f"  Mots       : {stats['mots_avant']} ‚Üí {stats['mots_apres']} (-{stats['reduction_mots']})")
print(f"  R√©duction  : {stats['pourcentage_reduction']:.1f}%\n")

print("üîç √âl√©ments d√©tect√©s dans l'original :")
for element, count in elements.items():
    if count > 0:
        print(f"  {element.capitalize()} : {count}")

print("\nüí° Ces m√©triques vous aident √† valider votre nettoyage !")

üìä ANALYSE DU NETTOYAGE

Texte original : 'RT @user: SUPER article!!! https://bit.ly/xyz contact@email.fr #NLP #IA ??? üî•'
Texte nettoy√©  : 'rt super article'

üìà Statistiques :
  Caract√®res : 77 ‚Üí 16 (-61)
  Mots       : 10 ‚Üí 3 (-7)
  R√©duction  : 79.2%

üîç √âl√©ments d√©tect√©s dans l'original :
  Urls : 1
  Emails : 1
  Mentions : 2
  Hashtags : 2
  Ponctuation : 17

üí° Ces m√©triques vous aident √† valider votre nettoyage !


## üéì R√©sum√© et Bonnes Pratiques

### ‚úÖ Ce que vous avez appris

1. **Normalisation de la casse** : Unifier "SUPER" et "super"
2. **Suppression de ponctuation** : Nettoyer tout en gardant le sens
3. **Nettoyage web** : G√©rer URLs, emails, mentions, hashtags
4. **Normalisation d'espaces** : √âliminer les espaces parasites
5. **Gestion des accents** : Choisir selon le contexte
6. **Pipeline modulaire** : Fonction r√©utilisable et configurable

### üí° Bonnes Pratiques

- **Adaptez au contexte** : Sentiment ‚â† Classification ‚â† Recherche
- **Gardez l'original** : Toujours conserver une copie du texte brut
- **Testez sur √©chantillons** : V√©rifiez manuellement quelques exemples
- **Mesurez l'impact** : Utilisez des m√©triques pour valider
- **Documentez vos choix** : Expliquez pourquoi vous gardez/supprimez

### ‚ö†Ô∏è Pi√®ges √† √©viter

- **Sur-nettoyage** : Ne pas supprimer trop d'informations utiles
- **Sous-nettoyage** : Laisser du bruit qui nuit aux performances
- **Ordre des op√©rations** : Nettoyer AVANT de tokeniser
- **One-size-fits-all** : Adapter selon le type de texte

### üöÄ Prochaines √©tapes

Maintenant que vous ma√Ætrisez le nettoyage basique :

1. **Tokenisation** : D√©couper le texte en mots intelligemment
2. **Techniques avanc√©es** : Stopwords, lemmatisation, stemming
3. **Pipeline complet** : Int√©grer toutes les √©tapes

---

## üéâ F√©licitations !

Vous ma√Ætrisez maintenant les fondamentaux du nettoyage de texte ! Ces comp√©tences sont essentielles pour tous vos projets NLP.

**Pr√™t(e) pour la suite ?** Direction la tokenisation ! ‚úÇÔ∏è