In [None]:
import pandas as pd
import re
from datetime import datetime

# Charger le fichier CSV
def load_csv(file_path):
    try:
        return pd.read_csv(file_path, delimiter=',')
    except Exception as e:
        print(f"Erreur lors du chargement du fichier : {e}")
        return None

# Nettoyer le texte
def clean_text(text):
    if pd.isnull(text):
        return ""
    text = re.sub(r"[^a-zA-Z0-9À-ÿ' ]", " ", text)  # Supprimer les caractères spéciaux
    text = re.sub(r"\s+", " ", text).strip()        # Supprimer les espaces multiples
    if len(text) > 512:
        text = text[:510]  # Truncate to fit model input size
    if len(text) < 2:
        text += "N/A"  # Handle very short or empty reviews
    return text

# Formater la date
def format_date(date_str):
    try:
        return datetime.strptime(date_str, "%Y-%m-%dT%H:%M:%S.%fZ").strftime("%Y-%m-%d")
    except Exception:
        return None

# Nettoyer et structurer les données
def clean_and_structure_data(file_path, output_path):

    df = load_csv(file_path)
    if df is None:
        return

    required_columns = ["Username", "Title", "Content", "Rating", "Date"]
    for col in required_columns:
        if col not in df.columns:
            print(f"Colonne manquante : {col}")
            return

    df["Username"] = df["Username"].apply(clean_text)
    df["Title"] = df["Title"].apply(clean_text)
    df["Content"] = df["Content"].apply(clean_text)
    df["Date"] = df["Date"].apply(format_date)
    df["Rating"] = pd.to_numeric(df["Rating"], errors="coerce")  # Convertir en numérique
    df = df.dropna(subset=["Rating", "Date"])  # Supprimer les lignes avec notes ou dates manquantes

    # Sauvegarder les données nettoyées dans un nouveau fichier CSV
    try:
        df.to_csv(output_path, index=False)
        print(f"Fichier nettoyé et structuré sauvegardé sous : {output_path}\n")
    except Exception as e:
        print(f"Erreur lors de la sauvegarde : {e}")

# Exemple d'utilisation
input_file = ".\scrapping_reviews\Tesla_Trustpilot_Reviews.csv"  # Remplacer par le chemin de votre fichier
output_file = "donnees_nettoyees.csv"
clean_and_structure_data(input_file, output_file)


Fichier nettoyé et structuré sauvegardé sous : donnees_nettoyees.csv



  input_file = ".\scrapping_reviews\Tesla_Trustpilot_Reviews.csv"  # Remplacer par le chemin de votre fichier
