# Notebook 3 - Machine Learning Fraud Detection
**Objectif :** Entra√Æner le GBTClassifier, mieux adapt√© aux donn√©es d√©s√©quilibr√©es, et utiliser l'AUC-PR pour une √©valuation pertinente.

In [8]:
# üîπ √âtape 1 : Initialisation Spark et Imports
import findspark
findspark.init()
from pyspark.ml.feature import VectorAssembler

from pyspark.sql import SparkSession
from pyspark.sql.functions import col
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import GBTClassifier # Changement : GBTClassifier au lieu de LogisticRegression
from pyspark.ml.evaluation import BinaryClassificationEvaluator

spark = SparkSession.builder \
    .appName("Fraud-ML") \
    .getOrCreate()

In [9]:
# üîπ √âtape 2 : Chargement des donn√©es Parquet

# Chemin de base HDFS (h√¥te:port)
hdfs_base_path = "hdfs://namenode:8020/fraud_data"

# Chargement des donn√©es Parquet
train_df = spark.read.parquet(f"{hdfs_base_path}/train")
test_df = spark.read.parquet(f"{hdfs_base_path}/test")

# V√©rification du sch√©ma (pour s'assurer que 'features' et 'label' sont pr√©sents)
print("Sch√©ma du DataFrame d'entra√Ænement :")
train_df.printSchema()

# Affichage des d√©comptes
print(f"\nNombre d'enregistrements dans Train: {train_df.count()}")
print(f"Nombre d'enregistrements dans Test: {test_df.count()}")

Sch√©ma du DataFrame d'entra√Ænement :
root
 |-- features: vector (nullable = true)
 |-- label: integer (nullable = true)


Nombre d'enregistrements dans Train: 228225
Nombre d'enregistrements dans Test: 56582


In [10]:
# üîπ √âtape 3 : Entra√Ænement du Mod√®le GBT

print("--- Entra√Ænement du GBTClassifier (les donn√©es sont d√©j√† pr√©par√©es) ---")

# 1. D√©finition du mod√®le
gbt = GBTClassifier(
    featuresCol='features', 
    labelCol='label', 
    maxIter=10 # Vous pouvez ajuster cette valeur si l'entra√Ænement est trop long ou si la pr√©cision n'est pas suffisante
)

# 2. Entra√Ænement
gbt_model = gbt.fit(train_df)

print("Mod√®le GBT entra√Æn√© avec succ√®s.")

--- Entra√Ænement du GBTClassifier (les donn√©es sont d√©j√† pr√©par√©es) ---
Mod√®le GBT entra√Æn√© avec succ√®s.


In [11]:
# üîπ √âtape 4 : √âvaluation du Mod√®le GBT 

print("--- Pr√©dictions et √âvaluation ---")

# Imports de l'API moderne
from pyspark.ml.evaluation import BinaryClassificationEvaluator, MulticlassClassificationEvaluator
from pyspark.sql.functions import lit

# 1. Faire des pr√©dictions sur le jeu de test
predictions = gbt_model.transform(test_df)

# --- 2. Calculer l'AUC (Area Under ROC) ---
evaluator_auc = BinaryClassificationEvaluator(
    labelCol="label",
    rawPredictionCol="rawPrediction",
    metricName="areaUnderROC"
)
auc = evaluator_auc.evaluate(predictions)
print(f"\nArea Under ROC (AUC) sur le jeu de test : {auc:.4f}")
print("-" * 40)

# --- 3. Calculer les m√©triques de classification (Pr√©cision, Rappel, F1) ---
evaluator_multi = MulticlassClassificationEvaluator(
    labelCol="label",
    predictionCol="prediction"
)

# Calculer la Pr√©cision pour la classe de Fraude (label=1)
precision_fraud = evaluator_multi.evaluate(predictions, {evaluator_multi.metricName: "weightedPrecision"})
recall_fraud = evaluator_multi.evaluate(predictions, {evaluator_multi.metricName: "weightedRecall"})
f1_score_weighted = evaluator_multi.evaluate(predictions, {evaluator_multi.metricName: "weightedFMeasure"})

print(f"Pr√©cision Pond√©r√©e (Weighted Precision) : {precision_fraud:.4f}")
print(f"Rappel Pond√©r√© (Weighted Recall) : {recall_fraud:.4f}")
print(f"F1-Score Pond√©r√© (Weighted F1-Score) : {f1_score_weighted:.4f}")

# --- 4. Afficher la matrice de confusion (pour voir le d√©tail) ---
print("\nMatrice de Confusion (Seuil 0.5):")
predictions.groupBy("label", "prediction").count().show()

--- Pr√©dictions et √âvaluation ---

Area Under ROC (AUC) sur le jeu de test : 0.9693
----------------------------------------
Pr√©cision Pond√©r√©e (Weighted Precision) : 0.9993
Rappel Pond√©r√© (Weighted Recall) : 0.9993
F1-Score Pond√©r√© (Weighted F1-Score) : 0.9992

Matrice de Confusion (Seuil 0.5):
+-----+----------+-----+
|label|prediction|count|
+-----+----------+-----+
|    1|       0.0|   34|
|    0|       0.0|56473|
|    1|       1.0|   69|
|    0|       1.0|    6|
+-----+----------+-----+



In [14]:
# üîπ √âtape 5 : Pr√©dictions sur le test set
predictions = gbt_model.transform(test_df)
print("--- Aper√ßu des pr√©dictions ---")
predictions.select("features", "label", "prediction", "probability").show(5, truncate=False)

--- Aper√ßu des pr√©dictions ---
+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+-----+----------+----------------------------------------+
|features                                                                                                                                                                                                                                                                                                                                                                         

In [13]:
# üîπ √âtape 5 & 6 (Final) : √âvaluation et Sauvegarde

# Import pour la sauvegarde (correction du NameError)
import time 

# 1. Pr√©dictions
predictions = gbt_model.transform(test_df)
print("--- Aper√ßu des pr√©dictions ---")
predictions.select("features", "label", "prediction", "probability").show(5, truncate=False)

# 2. √âvaluation des M√©triques
print("\n--- √âvaluation des M√©triques ---")

evaluator = BinaryClassificationEvaluator(labelCol="label", rawPredictionCol="rawPrediction")

# AUC-ROC
roc_auc = evaluator.evaluate(predictions, {evaluator.metricName: "areaUnderROC"})
print(f"ROC AUC: {roc_auc:.4f}")

# AUC-PR (Plus pertinent pour l'imbalance)
pr_auc = evaluator.evaluate(predictions, {evaluator.metricName: "areaUnderPR"})
print(f"PR AUC (Area Under PR): {pr_auc:.4f}")

# 3. Sauvegarde du Mod√®le GBT dans HDFS
import time

timestamp = int(time.time())
# CORRECTION : Utiliser un sous-chemin du r√©pertoire de donn√©es o√π l'√©criture est autoris√©e.
HDFS_SAVE_PATH = f"hdfs://namenode:8020/fraud_data/models/fraude_gbt_final_{timestamp}" 

print(f"\n--- Sauvegarde du Mod√®le GBT dans HDFS : {HDFS_SAVE_PATH} ---")

try:
    # Sauvegarde le mod√®le GBT
    gbt_model.write().overwrite().save(HDFS_SAVE_PATH)
    print("Sauvegarde r√©ussie dans HDFS.")
    
except Exception as e:
    print(f"√âCHEC CRITIQUE de sauvegarde HDFS : {e}")
    # Si cette nouvelle tentative √©choue, il y a un probl√®me de configuration HDFS plus large.
    raise e

# D√©finir le chemin final pour l'√©tape de streaming ou GraphX
FINAL_MODEL_PATH = HDFS_SAVE_PATH
print(f"\n Le chemin FINAL √† utiliser pour la suite est : {FINAL_MODEL_PATH}")

--- Aper√ßu des pr√©dictions ---
+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+-----+----------+----------------------------------------+
|features                                                                                                                                                                                                                                                                                                                                                                         