# Étape 3 : Nettoyage des Données

Prétraitement rapide des données textuelles et numériques.

## Objectifs :
- Nettoyer et traiter les données numériques (ratings)
- Prétraiter les données textuelles (titres, auteurs, avis)
- Identifier et traiter les valeurs manquantes
- Normaliser les données pour l'analyse

Dataset : Reviews de livres français avec colonnes : `book_title`, `author`, `reader_review`, `rating`, `label`

In [None]:
# Import des bibliothèques essentielles
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
import warnings

warnings.filterwarnings("ignore")

# Chargement des données
df = pd.read_csv("docs/french_books_reviews.csv")
print(f"Dataset: {df.shape}")
print(f"Colonnes: {list(df.columns)}")
df.head()

# Configuration de l'affichage
plt.style.use("default")
pd.set_option("display.max_columns", None)
pd.set_option("display.max_colwidth", 100)

print("Bibliothèques importées avec succès")

Dataset: (9658, 5)
Colonnes: ['book_title', 'author', 'reader_review', 'rating', 'label']
Bibliothèques importées avec succès


In [38]:
# Fonctions de prétraitement du texte
def clean_text(text):
    """
    Fonction pour nettoyer le texte français
    """
    if pd.isna(text):
        return ""

    text = str(text).lower()

    # Suppression des caractères spéciaux, mais conservation des lettres avec accents
    text = re.sub(r"[^\w\s\àâäéèêëîïôöùûüÿç]", " ", text)

    return re.sub(r"\s+", " ", text).strip()


# Test des fonctions de nettoyage
print("Test des fonctions de nettoyage")
test_text = "Voici un EXEMPLE de texte avec des caractères spéciaux !@# et des   espaces multiples."
print(f"Texte original : {test_text}")
print(f"Texte nettoyé : {clean_text(test_text)}")

# Exemple avec des caractères français
test_french = "C'est un très bon livre! Il m'a plu énormément... àâäéèêëîïôöùûüÿç"
print(f"\nTexte français original : {test_french}")
print(f"Texte français nettoyé : {clean_text(test_french)}")


# Nettoyage rapide du texte
def clean_text(text):
    if pd.isna(text):
        return ""
    text = str(text).lower()
    text = re.sub(r"[^\w\s\àâäéèêëîïôöùûüÿç]", " ", text)
    return re.sub(r"\s+", " ", text).strip()


# Application et features
df_cleaned = df.copy()
df_cleaned["book_title"] = df_cleaned["book_title"].apply(clean_text)
df_cleaned["author"] = df_cleaned["author"].apply(clean_text)
df_cleaned["reader_review"] = df_cleaned["reader_review"].apply(clean_text)
df_cleaned["review_length"] = df_cleaned["reader_review"].str.len()

# Export
df_cleaned.to_csv("french_books_reviews_cleaned.csv", index=False)
print(f"Données nettoyées et exportées : {df_cleaned.shape}")
df_cleaned.head()

Test des fonctions de nettoyage
Texte original : Voici un EXEMPLE de texte avec des caractères spéciaux !@# et des   espaces multiples.
Texte nettoyé : voici un exemple de texte avec des caractères spéciaux et des espaces multiples

Texte français original : C'est un très bon livre! Il m'a plu énormément... àâäéèêëîïôöùûüÿç
Texte français nettoyé : c est un très bon livre il m a plu énormément àâäéèêëîïôöùûüÿç
Données nettoyées et exportées : (9658, 6)
Données nettoyées et exportées : (9658, 6)


Unnamed: 0,book_title,author,reader_review,rating,label,review_length
0,le démon de la colline aux loups,dimitri rouchon borie,ce n est pas le premier roman à aborder les thèmes lourds de l inceste et de l enfance martyre m...,5.0,1,490
1,simple,marie aude murail,simple alias barnabé est un jeune homme de 22 ans qui a l âge mental d un enfant de 3 ans kléber...,4.0,1,608
2,la plus secrète mémoire des hommes,mohamed mbougar sarr,pour écrire la plus secrète mémoire des hommes mohamed mbougar sarr s est inspiré du destin bris...,4.0,1,296
3,trancher,amélie cordonnier,la violence d aurélien est revenue par la fenêtre peut être bien c est une surprise qui te foudr...,3.5,0,710
4,la guerre d alan tome 2,emmanuel guibert,dans ce second album de la guerre d alan emmanuel guibert m a fait suivre à nouveau les pas de c...,5.0,1,183
