In [1]:
import os
import sys
import traceback
from datetime import datetime
from pyspark.sql import SparkSession
from pyspark.ml.feature import Tokenizer, HashingTF, StringIndexer
from pyspark.ml.classification import (
    LogisticRegression,
    RandomForestClassifier,
    NaiveBayes,
    DecisionTreeClassifier
)
from pyspark.ml import Pipeline
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
from pyspark.ml.tuning import ParamGridBuilder, CrossValidator
from pymongo import MongoClient
import pyspark.sql.functions as F
from pyspark.sql.types import StructType, StructField, StringType

In [13]:
# ===== Configuration pour exécution sur Windows =====
os.environ['PYSPARK_PYTHON'] = sys.executable
os.environ['PYSPARK_DRIVER_PYTHON'] = sys.executable

winutils_path = "C:\\hadoop"
if os.path.exists(winutils_path):
    os.environ["HADOOP_HOME"] = winutils_path
    os.environ["PATH"] = f"{os.environ['PATH']};{winutils_path}\\bin"

In [14]:
def create_spark_session():
    print("Initialisation de la session Spark...")
    try:
        spark = SparkSession.builder \
            .appName("Train Sentiment Analysis Model") \
            .config("spark.driver.memory", "2g") \
            .config("spark.executor.memory", "2g") \
            .config("spark.sql.shuffle.partitions", "2") \
            .master("local[2]") \
            .getOrCreate()
        spark.sparkContext.setLogLevel("WARN")
        print("Session Spark initialisée avec succès")
        return spark
    except Exception as e:
        print(f"Erreur lors de l'initialisation de Spark: {str(e)}")
        traceback.print_exc()
        sys.exit(1)

In [15]:
def load_data_from_mongodb(spark):
    print("Tentative de connexion à MongoDB...")
    try:
        mongo_client = MongoClient("mongodb://root:example@localhost:27017", serverSelectionTimeoutMS=5000)
        mongo_client.server_info()
        print("Connexion MongoDB établie avec succès")
        
        db = mongo_client["big_data_project"]
        collection = db["preprocessed_reviews"]
        
        print("Récupération des données depuis MongoDB...")
        raw_data = list(collection.find({}, {"_id": 0, "cleanedReviewText": 1, "label": 1}))
        print(f"Nombre de documents récupérés: {len(raw_data)}")
        
        clean_data = []
        for doc in raw_data:
            try:
                text = str(doc.get("cleanedReviewText", "")).strip()
                label = str(doc.get("label", "")).lower()
                if text and label:
                    clean_data.append({"cleanedReviewText": text, "label": label})
            except Exception as e:
                print(f"Erreur de traitement document: {str(e)}")
                continue
        
        print(f"Nombre de documents valides après nettoyage: {len(clean_data)}")
        
        if not clean_data:
            raise ValueError("Aucune donnée valide n'a été récupérée")
        
        schema = StructType([
            StructField("cleanedReviewText", StringType(), nullable=False),
            StructField("label", StringType(), nullable=False)
        ])
        
        df = spark.createDataFrame(clean_data, schema=schema).cache()
        count = df.count()
        print(f"DataFrame créé avec {count} lignes")
        return df
    except Exception as e:
        print(f"Erreur lors du chargement des données MongoDB: {str(e)}")
        traceback.print_exc()
        return None

In [16]:
def split_data(df):
    print("Partitionnement des données...")
    train_data, val_data, test_data = df.randomSplit([0.8, 0.1, 0.1], seed=42)
    
    print(f"Données d'entraînement: {train_data.count()} exemples")
    print(f"Données de validation: {val_data.count()} exemples")
    print(f"Données de test: {test_data.count()} exemples")
    
    return train_data, val_data, test_data

In [17]:
def save_predictions_to_mongodb(predictions_df):
    print("\nSauvegarde des prédictions dans MongoDB...")
    try:
        predictions_to_save = predictions_df.select(
            F.col("cleanedReviewText").alias("review_text"),
            F.col("label").alias("actual_label"),
            F.col("prediction").alias("predicted_label"),
            F.lit(datetime.now()).alias("prediction_timestamp")
        ).toPandas()

        mongo_client = MongoClient("mongodb://root:example@localhost:27017")
        db = mongo_client["big_data_project"]
        collection = db["offline_predictions"]
        
        if not predictions_to_save.empty:
            collection.insert_many(predictions_to_save.to_dict('records'))
            print(f"{len(predictions_to_save)} prédictions sauvegardées")
        else:
            print("Aucune prédiction à sauvegarder")

    except Exception as e:
        print(f"Erreur lors de la sauvegarde : {str(e)}")
        traceback.print_exc()

In [18]:
def save_model_metadata(best_model, model_name, test_accuracy):
    print("\nSauvegarde des métadonnées du modèle...")
    try:
        params = {param.name: value for param, value in best_model.stages[-1].extractParamMap().items()}
        
        metadata = {
            "model_name": model_name,
            "accuracy": float(test_accuracy),
            "hyperparameters": params,
            "training_date": datetime.now(),
            "model_path": "models/best_model.pkl",
            "test_size_percentage": 10
        }

        mongo_client = MongoClient("mongodb://root:example@localhost:27017")
        db = mongo_client["big_data_project"]
        collection = db["model_metadata"]
        
        collection.insert_one(metadata)
        print("Métadonnées sauvegardées avec succès")

    except Exception as e:
        print(f"Erreur lors de la sauvegarde : {str(e)}")
        traceback.print_exc()

In [19]:
def train_and_evaluate_models(train_data, val_data, test_data):
    print("Configuration du pipeline...")
    tokenizer = Tokenizer(inputCol="cleanedReviewText", outputCol="words")
    hashing_tf = HashingTF(inputCol="words", outputCol="features")
    label_indexer = StringIndexer(inputCol="label", outputCol="indexedLabel").fit(train_data)
    
    models = {
        "Logistic Regression": LogisticRegression(featuresCol="features", labelCol="indexedLabel"),
        "Random Forest": RandomForestClassifier(featuresCol="features", labelCol="indexedLabel"),
        "Naive Bayes": NaiveBayes(featuresCol="features", labelCol="indexedLabel"),
        "Decision Tree": DecisionTreeClassifier(featuresCol="features", labelCol="indexedLabel")
    }
    
    best_model = None
    best_accuracy = 0
    best_model_name = ""
    
    evaluator = MulticlassClassificationEvaluator(
        labelCol="indexedLabel", predictionCol="prediction", metricName="accuracy"
    )
    
    for model_name, model in models.items():
        print(f"\n=== Entraînement {model_name} ===")
        
        # Configuration des hyperparamètres
        param_grid = ParamGridBuilder()
        if model_name == "Logistic Regression":
            param_grid = param_grid \
                .addGrid(hashing_tf.numFeatures, [1000, 5000]) \
                .addGrid(model.regParam, [0.01, 0.1])
        elif model_name == "Random Forest":
            param_grid = param_grid \
                .addGrid(hashing_tf.numFeatures, [1000, 5000]) \
                .addGrid(model.numTrees, [10, 50]) \
                .addGrid(model.maxDepth, [5, 10])
        elif model_name == "Naive Bayes":
            param_grid = param_grid.addGrid(hashing_tf.numFeatures, [1000, 5000])
        elif model_name == "Decision Tree":
            param_grid = param_grid \
                .addGrid(hashing_tf.numFeatures, [1000, 5000]) \
                .addGrid(model.maxDepth, [5, 10])
        
        # Pipeline et validation croisée
        pipeline = Pipeline(stages=[label_indexer, tokenizer, hashing_tf, model])
        cross_validator = CrossValidator(
            estimator=pipeline,
            estimatorParamMaps=param_grid.build(),
            evaluator=evaluator,
            numFolds=3
        )
        
        # Entraînement
        cv_model = cross_validator.fit(train_data)
        predictions = cv_model.transform(val_data)
        accuracy = evaluator.evaluate(predictions)
        print(f"Précision validation: {accuracy:.4f}")
        
        if accuracy > best_accuracy:
            best_accuracy = accuracy
            best_model = cv_model.bestModel
            best_model_name = model_name
    
    # Évaluation finale
    final_predictions = best_model.transform(test_data)
    final_accuracy = evaluator.evaluate(final_predictions)
    print(f"\n=== Meilleur modèle: {best_model_name} ===")
    print(f"Précision test: {final_accuracy:.4f}")
    
    # Sauvegardes MongoDB
    save_predictions_to_mongodb(final_predictions)
    save_model_metadata(best_model, best_model_name, final_accuracy)
    
    return best_model

In [20]:
def main():
    spark = create_spark_session()
    try:
        df = load_data_from_mongodb(spark)
        if df is None:
            print("ERREUR: Données non chargées")
            return
        
        print("\nAperçu des données:")
        df.show(3, truncate=50)
        
        train_data, val_data, test_data = split_data(df)
        trained_model = train_and_evaluate_models(train_data, val_data, test_data)
        
        if trained_model:
            print("\n=== Entraînement réussi ===")
        else:
            print("\nÉchec de l'entraînement")
            
    except Exception as e:
        print(f"ERREUR: {str(e)}")
        traceback.print_exc()
    finally:
        print("\nNettoyage des ressources...")
        spark.stop()
        print("Session Spark fermée")

In [None]:
if __name__ == "__main__":
    main()

Initialisation de la session Spark...
Session Spark initialisée avec succès
Tentative de connexion à MongoDB...
Connexion MongoDB établie avec succès
Récupération des données depuis MongoDB...
Nombre de documents récupérés: 10257
Nombre de documents valides après nettoyage: 10250
DataFrame créé avec 10250 lignes

Aperçu des données:
+--------------------------------------------------+-------+
|                                 cleanedReviewText|  label|
+--------------------------------------------------+-------+
|much write exactly supposed filter pop sound re...|positif|
|product exactly quite affordablei realized doub...|positif|
|primary job device block breath would otherwise...|positif|
+--------------------------------------------------+-------+
only showing top 3 rows

Partitionnement des données...
Données d'entraînement: 8253 exemples
Données de validation: 1003 exemples
Données de test: 994 exemples
Configuration du pipeline...

=== Entraînement Logistic Regression ===
Précis