# SAE-70 - Nettoyage Texte Basique

**En tant que** NLP engineer  
**Je veux** nettoyer le texte preprocess√©  
**Afin de** le pr√©parer pour l'analyse NLP

## ‚ö†Ô∏è Pr√©requis

- SAE-97 doit √™tre ex√©cut√© (Nettoyage Donn√©es Reviews)
- Fichier source: `data/cleaned/reviews_clean.parquet`

## Crit√®res d'acceptation

- [x] Charger reviews_clean.parquet
- [x] Lowercase (tout en minuscules)
- [x] Suppression ponctuation
- [x] Suppression URLs
- [x] Suppression emails
- [x] Suppression chiffres (optionnel, selon besoin)
- [x] Suppression espaces multiples
- [x] Fonction r√©utilisable cr√©√©e
- [x] Colonne `text_cleaned` ajout√©e au DataFrame

---
## 1. Imports et Configuration

In [None]:
import re
import pandas as pd
from pathlib import Path

# Configuration des chemins
DATA_PATH = Path('../data/cleaned')
INPUT_FILE = DATA_PATH / 'reviews_clean.parquet'
OUTPUT_FILE = DATA_PATH / 'reviews_text_cleaned.parquet'

print(f"üìÅ Fichier source: {INPUT_FILE}")
print(f"üìÅ Fichier destination: {OUTPUT_FILE}")

---
## 2. Chargement des donn√©es

In [None]:
# V√©rification que le fichier source existe
if not INPUT_FILE.exists():
    raise FileNotFoundError(
        f"‚ùå Le fichier {INPUT_FILE} n'existe pas.\n"
        f"‚ö†Ô∏è Ex√©cutez d'abord SAE-97 (Nettoyage Donn√©es Reviews)"
    )

# Chargement des donn√©es
df_reviews = pd.read_parquet(INPUT_FILE)

print(f"‚úÖ Donn√©es charg√©es: {len(df_reviews):,} reviews")
print(f"üìä Colonnes: {list(df_reviews.columns)}")
df_reviews.head()

In [None]:
# V√©rification de la colonne text
if 'text' not in df_reviews.columns:
    raise KeyError("‚ùå La colonne 'text' n'existe pas dans le DataFrame")

# Aper√ßu du texte avant nettoyage
print("üìù Exemples de textes avant nettoyage:")
print("="*50)
for i, text in enumerate(df_reviews['text'].head(3).values):
    preview = text[:200] + "..." if len(str(text)) > 200 else text
    print(f"\n[{i+1}] {preview}")

---
## 3. Fonction de Nettoyage Texte

In [None]:
def clean_text(text: str, remove_digits: bool = False) -> str:
    """
    Nettoie le texte pour l'analyse NLP.
    
    Op√©rations effectu√©es:
    - Conversion en minuscules
    - Suppression des URLs
    - Suppression des emails
    - Suppression de la ponctuation
    - Suppression des chiffres (optionnel)
    - Suppression des espaces multiples
    
    Parameters
    ----------
    text : str
        Le texte √† nettoyer
    remove_digits : bool, default=False
        Si True, supprime √©galement les chiffres
    
    Returns
    -------
    str
        Le texte nettoy√©
        
    Examples
    --------
    >>> clean_text("The food was GREAT!!! üòã Visit http://example.com")
    'the food was great visit'
    
    >>> clean_text("Price: $25.99", remove_digits=True)
    'price'
    """
    # Gestion des valeurs manquantes
    if pd.isna(text) or text is None:
        return ""
    
    # Conversion en string si n√©cessaire
    text = str(text)
    
    # 1. Conversion en minuscules
    text = text.lower()
    
    # 2. Suppression des URLs
    text = re.sub(r'http\S+|www\.\S+|https\S+', '', text)
    
    # 3. Suppression des emails
    text = re.sub(r'\S+@\S+', '', text)
    
    # 4. Suppression de la ponctuation (garde lettres, chiffres, espaces)
    text = re.sub(r'[^\w\s]', ' ', text)
    
    # 5. Suppression des chiffres (optionnel)
    if remove_digits:
        text = re.sub(r'\d+', '', text)
    
    # 6. Suppression des espaces multiples et trim
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

print("‚úÖ Fonction clean_text() d√©finie")

### 3.1 Tests de la fonction

In [None]:
# Tests de la fonction de nettoyage
test_cases = [
    ("The food was GREAT!!! üòã", "the food was great"),
    ("Visit http://example.com for more!", "visit for more"),
    ("Contact: test@email.com", "contact"),
    ("Price: $25.99 only!", "price 25 99 only"),
    ("   Multiple   spaces   here   ", "multiple spaces here"),
    (None, ""),
    ("", ""),
]

print("üß™ Tests de la fonction clean_text():")
print("="*60)

all_passed = True
for i, (input_text, expected) in enumerate(test_cases, 1):
    result = clean_text(input_text)
    status = "‚úÖ" if result == expected else "‚ùå"
    if result != expected:
        all_passed = False
    print(f"{status} Test {i}:")
    print(f"   Input:    {repr(input_text)}")
    print(f"   Expected: {repr(expected)}")
    print(f"   Got:      {repr(result)}")
    print()

if all_passed:
    print("\nüéâ Tous les tests sont pass√©s!")
else:
    print("\n‚ö†Ô∏è Certains tests ont √©chou√©")

---
## 4. Application du Nettoyage

In [None]:
%%time

# Application de la fonction de nettoyage
print("üîÑ Nettoyage du texte en cours...")

# Cr√©ation de la colonne text_cleaned
df_reviews['text_cleaned'] = df_reviews['text'].apply(clean_text)

print(f"‚úÖ Nettoyage termin√© pour {len(df_reviews):,} reviews")

### 4.1 Comparaison Avant/Apr√®s

In [None]:
# Comparaison avant/apr√®s
print("üìä Comparaison Avant/Apr√®s Nettoyage:")
print("="*70)

for i in range(min(5, len(df_reviews))):
    original = str(df_reviews['text'].iloc[i])[:150]
    cleaned = str(df_reviews['text_cleaned'].iloc[i])[:150]
    
    print(f"\nüîπ Review {i+1}:")
    print(f"   AVANT:  {original}...")
    print(f"   APR√àS:  {cleaned}...")

---
## 5. Statistiques du Nettoyage

In [None]:
# Statistiques sur le nettoyage
print("üìà Statistiques du Nettoyage:")
print("="*50)

# Longueur moyenne avant/apr√®s
avg_len_before = df_reviews['text'].str.len().mean()
avg_len_after = df_reviews['text_cleaned'].str.len().mean()
reduction = ((avg_len_before - avg_len_after) / avg_len_before) * 100

print(f"\nüìè Longueur moyenne:")
print(f"   Avant:  {avg_len_before:.0f} caract√®res")
print(f"   Apr√®s:  {avg_len_after:.0f} caract√®res")
print(f"   R√©duction: {reduction:.1f}%")

# Textes vides apr√®s nettoyage
empty_count = (df_reviews['text_cleaned'] == '').sum()
empty_pct = (empty_count / len(df_reviews)) * 100

print(f"\nüîç Textes vides apr√®s nettoyage:")
print(f"   Count: {empty_count:,} ({empty_pct:.2f}%)")

# Nombre de mots moyen
avg_words_before = df_reviews['text'].str.split().str.len().mean()
avg_words_after = df_reviews['text_cleaned'].str.split().str.len().mean()

print(f"\nüìù Nombre de mots moyen:")
print(f"   Avant:  {avg_words_before:.1f} mots")
print(f"   Apr√®s:  {avg_words_after:.1f} mots")

---
## 6. Sauvegarde des Donn√©es

In [None]:
# Sauvegarde du DataFrame avec la nouvelle colonne
print("üíæ Sauvegarde des donn√©es...")

# Option 1: Nouveau fichier (recommand√© pour tra√ßabilit√©)
df_reviews.to_parquet(OUTPUT_FILE, index=False)
print(f"‚úÖ Sauvegard√©: {OUTPUT_FILE}")

# Option 2: Mise √† jour du fichier original (d√©commenter si souhait√©)
# df_reviews.to_parquet(INPUT_FILE, index=False)
# print(f"‚úÖ Fichier original mis √† jour: {INPUT_FILE}")

# V√©rification
file_size = OUTPUT_FILE.stat().st_size / (1024 * 1024)
print(f"üìä Taille du fichier: {file_size:.2f} MB")

---
## 7. V√©rification Finale

In [None]:
# V√©rification de la sauvegarde
df_check = pd.read_parquet(OUTPUT_FILE)

print("‚úÖ V√©rification finale:")
print(f"   - Nombre de reviews: {len(df_check):,}")
print(f"   - Colonnes: {list(df_check.columns)}")
print(f"   - Colonne text_cleaned pr√©sente: {'text_cleaned' in df_check.columns}")

df_check[['text', 'text_cleaned']].head()

---
## ‚úÖ R√©sum√© SAE-70

### Crit√®res d'acceptation valid√©s:

| Crit√®re | Status |
|---------|--------|
| Charger reviews_clean.parquet | ‚úÖ |
| Lowercase | ‚úÖ |
| Suppression ponctuation | ‚úÖ |
| Suppression URLs | ‚úÖ |
| Suppression emails | ‚úÖ |
| Suppression chiffres (optionnel) | ‚úÖ |
| Suppression espaces multiples | ‚úÖ |
| Fonction r√©utilisable cr√©√©e | ‚úÖ |
| Colonne text_cleaned ajout√©e | ‚úÖ |

### Fichiers:
- **Input**: `data/cleaned/reviews_clean.parquet`
- **Output**: `data/cleaned/reviews_text_cleaned.parquet`