# Notebook : 01_fruits_pipeline_cloud.ipynb - Version corrig√©e
# Pipeline de traitement des images de fruits avec PySpark

# ============================================================================
# üìã CELLULE 1 : IMPORTS ET CONFIGURATION
# ============================================================================

In [None]:
import os
import sys
import warnings

# === SUPPRESSION RADICALE DE TOUS LES WARNINGS ===
warnings.filterwarnings('ignore')

# Configuration AVANT tous les imports
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'
os.environ['PYTHONWARNINGS'] = 'ignore'
os.environ['TF_ENABLE_ONEDNN_OPTS'] = '0'
os.environ['CUDA_VISIBLE_DEVICES'] = '0'
os.environ['TF_FORCE_GPU_ALLOW_GROWTH'] = 'true'
os.environ['TF_GPU_THREAD_MODE'] = 'gpu_private'

# Redirection temporaire de stderr pour masquer les messages TensorFlow/CUDA
original_stderr = sys.stderr
if os.name != 'nt':  # Linux/Mac
    sys.stderr = open('/dev/null', 'w')
else:  # Windows
    sys.stderr = open('nul', 'w')

try:
    from pyspark.sql import SparkSession
    from pyspark.sql import functions as F
    from pyspark.ml.feature import PCA
    import matplotlib.pyplot as plt
    import numpy as np
    from tensorflow.python.client import device_lib
    
finally:
    # Restauration de stderr apr√®s les imports
    sys.stderr.close() 
    sys.stderr = original_stderr

# Configuration matplotlib silencieuse
plt.rcParams.update({'figure.max_open_warning': 0})
import matplotlib
matplotlib.use('Agg')  # Mode non-interactif

# Pr√©servation de la fonction sum() native Python
python_sum = __builtins__['sum'] if isinstance(__builtins__, dict) else __builtins__.sum

# Ajout du r√©pertoire src au PYTHONPATH pour les imports
sys.path.append('../src')

# Imports des modules personnalis√©s
from preprocessing import load_images_from_directory, extract_features_mobilenet
from pca_reduction import convert_array_to_vector, get_optimal_pca_k, plot_variance_explained, apply_pca_on_features, plot_variance_curve
from utils import export_dataframe_if_needed, setup_project_directories, clean_gpu_cache

clean_gpu_cache()

print("‚úÖ Imports r√©alis√©s avec succ√®s")

In [None]:
# Test 1: Imports critiques
import boto3
import localstack
import s3fs
print("‚úÖ Imports OK")

# Test 2: Compatibility check  
import tensorflow as tf
import pyspark
print("‚úÖ Pas de r√©gression TF/Spark")

# Test 3: Jupyter toujours fonctionnel
import jupyter
print("‚úÖ Jupyter OK")

# ============================================================================
# üìã CELLULE 2 : INITIALISATION SPARK
# ============================================================================
## 2.1 - Configuration Spark pour minimiser les logs

In [None]:
spark = SparkSession.builder \
    .appName("FruitsPipelineCloud") \
    .config("spark.sql.adaptive.enabled", "true") \
    .config("spark.sql.adaptive.coalescePartitions.enabled", "true") \
    .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") \
    .config("spark.sql.execution.arrow.pyspark.enabled", "true") \
    .config("spark.sql.adaptive.advisoryPartitionSizeInBytes", "128MB") \
    .getOrCreate()

## 2.2 - Configuration des logs pour r√©duire la verbosit√© au minimum

In [None]:
spark.sparkContext.setLogLevel("ERROR")

print(f"üöÄ Session Spark cr√©√©e : {spark.version}")
print(f"üìä Nombre de c≈ìurs disponibles : {spark.sparkContext.defaultParallelism}")

# ============================================================================
# üìã CELLULE 3 : CONFIGURATION DES CHEMINS ET R√âPERTOIRES
# ============================================================================

## 3.1 - Configuration des chemins de travail

In [None]:
DATA_PATH = "../data/fruits-360/Test"
OUTPUTS_PATH = "../outputs"
CACHE_PATH = "../outputs/cache"

## 3.2 - Cr√©ation automatique de l'arborescence du projet

In [None]:
directories = setup_project_directories(base_path="../")

print(f"üìÅ Chemin des donn√©es : {DATA_PATH}")
print(f"üìÅ Chemin de sortie : {OUTPUTS_PATH}")

## 3.3 - V√©rification de l'existence des donn√©es

In [None]:
if not os.path.exists(DATA_PATH):
    print(f"‚ùå ERREUR : Le r√©pertoire {DATA_PATH} n'existe pas !")
    print("üí° Assure-toi d'avoir t√©l√©charg√© et extrait le dataset Fruits-360")
else:
    # Utilisation de la fonction sum() native Python (pr√©serv√©e en cellule 1)
    total_images = python_sum([len(files) for r, d, files in os.walk(DATA_PATH) if files])
    print(f"üì∏ Nombre total d'images d√©tect√©es : {total_images}")

# ============================================================================
# üìã CELLULE 4 : CHARGEMENT DES DONN√âES
# ============================================================================

In [None]:
print("üîÑ √âtape 1/5 : Chargement des images depuis le r√©pertoire...")

## 4.1 - Chargement des chemins d'images et labels via la fonction externalis√©e

In [None]:
df_images = load_images_from_directory(
    spark=spark, 
    data_path=DATA_PATH,
    sample_size=500,  # Limitation pour les tests - √† augmenter en production
    cache_path=f"{CACHE_PATH}/images_paths.parquet",
    force_retrain=False
)

print("‚úÖ Chargement termin√©")
print("üìä Aper√ßu des donn√©es :")
df_images.show(5, truncate=False)
print(f"üìà Nombre total d'images charg√©es : {df_images.count()}")

# ============================================================================
# üìã CELLULE 5 : EXTRACTION DES FEATURES AVEC MOBILENETV2
# ============================================================================

In [None]:
print("\nüîÑ √âtape 2/5 : Extraction des features avec MobileNetV2...")
print("‚ö†Ô∏è  Cette √©tape peut prendre plusieurs minutes selon le nombre d'images")

## 5.1 - Extraction des caract√©ristiques via transfert learning - fonction externalis√©e

In [None]:
df_features = extract_features_mobilenet(
    spark = spark,
    df = df_images,
    cache_path = f"{CACHE_PATH}/features_mobilenet_gpu.parquet",
    force_retrain = False,
    batch_size = 32  # Optimis√© pour GTX 1060 6GB
)

print("‚úÖ Extraction des features termin√©e")
print("üìä V√©rification des dimensions des features :")
print(device_lib.list_local_devices())

## 5.2 - Inspection d'un √©chantillon de features

In [None]:
sample_features = df_features.select("features").first()["features"]
print(f"üéØ Dimension des vecteurs de caract√©ristiques : {len(sample_features)}")
print(f"üéØ Type des donn√©es : {type(sample_features)}")
print(f"üéØ Exemple de valeurs : {sample_features[:10]}...")

# ============================================================================
# üìã CELLULE 6 : CONVERSION AU FORMAT SPARK ML
# ============================================================================

In [None]:
print("\nüîÑ √âtape 3/5 : Conversion des donn√©es au format Spark ML...")

### Conversion n√©cessaire pour PCA via fonction externalis√©e
## 6.1 - MobileNetV2 retourne des arrays Python, mais PCA Spark attend des VectorUDT

In [None]:
df_features_converted = convert_array_to_vector(df_features, features_col = "features")

print("‚úÖ Conversion termin√©e")

## 6.2 - V√©rification du nouveau format

In [None]:
print("üìä V√©rification du sch√©ma apr√®s conversion :")
df_features_converted.printSchema()

# ============================================================================
# üìã CELLULE 7 : CALCUL DE LA VARIANCE CUMUL√âE POUR D√âTERMINER K OPTIMAL
# ============================================================================

In [None]:
print("\nüîÑ √âtape 4/5 : Analyse de la variance pour d√©terminer le nombre optimal de composantes...")
print("üìä Recherche du nombre de composantes pour 95% de variance expliqu√©e")

## 7.1 - Appel de la fonction externalis√©e pour calculer k optimal
- max_k augment√© √† 200 pour MobileNetV2 (1280 features)

In [None]:
k_optimal, variance_data = get_optimal_pca_k(
    df=df_features_converted,
    spark=spark,
    max_k=200,
    threshold=0.95,
    force_retrain=False,
    cache_path=f"{CACHE_PATH}/pca_variance_analysis.parquet"
)

print(f"\nüéØ R√âSULTAT : k_optimal = {k_optimal} composantes")
print(device_lib.list_local_devices())

In [None]:
# Donn√©es (assure-toi que variance_data est bien d√©fini)
ks = [row[0] for row in variance_data]
cum_vars = [row[2] for row in variance_data]

# Trac√©
plt.figure(figsize=(10, 6))
plt.plot(ks, cum_vars, marker='o', linestyle='-', color='blue')
plt.axhline(y=0.95, color='red', linestyle='--', label='Seuil 95%')
plt.axvline(x=k_optimal, color='green', linestyle='--', label=f'k optimal = {k_optimal}')
plt.title("Variance cumul√©e en fonction de k (PCA)")
plt.xlabel("Nombre de composantes principales (k)")
plt.ylabel("Variance cumul√©e")
plt.grid(True)
plt.legend()
plt.tight_layout()

# Sauvegarde (√† la place de plt.show())
plt.savefig("../outputs/pca_variance_plot.png")
print("üìà Graphique sauvegard√© dans outputs/pca_variance_plot.png")

In [None]:
plot_variance_curve(variance_data, k_optimal, save_path=f"{OUTPUTS_PATH}/pca_variance_final.png")

# ============================================================================
# üìã CELLULE 8 : G√âN√âRATION DU GRAPHIQUE EMPIRIQUE DE VARIANCE EXPLIQU√âE
# ============================================================================

In [None]:
print("\nüìà G√©n√©ration du graphique de variance expliqu√©e...")

## 8.1 - Cr√©ation du graphique empirique via fonction externalis√©e

In [None]:
plot_variance_explained(
    variance_data=variance_data,
    threshold=0.95,
    save_path=f"{OUTPUTS_PATH}/pca_variance_analysis.png"
)

print("‚úÖ Graphique g√©n√©r√© et sauvegard√©")

# ============================================================================
# üìã CELLULE 9 : APPLICATION DE L'ACP AVEC K OPTIMAL
# ============================================================================

In [None]:
print(f"\nüîÑ √âtape 5/5 : Application de l'ACP avec k={k_optimal} composantes...")

## 9.1 - Application de la r√©duction PCA avec le k optimal d√©termin√© via fonction externalis√©e

In [None]:
df_pca_optimal = apply_pca_on_features(
    spark=spark,
    df=df_features_converted,
    k=k_optimal,
    features_col="features",
    output_path=f"{OUTPUTS_PATH}/features_pca_optimal.parquet",
    force_retrain=False
)

print("‚úÖ ACP appliqu√©e avec succ√®s")
print(device_lib.list_local_devices())

## 9.2 - V√©rification des r√©sultats

In [None]:
print("üìä V√©rification des donn√©es apr√®s ACP :")
df_pca_optimal.printSchema()

## 9.3 - Inspection des dimensions r√©duites

In [None]:
sample_pca = df_pca_optimal.select("features_pca").first()["features_pca"]
print(f"üéØ Dimensions apr√®s r√©duction : {sample_pca.size}")
print(f"üéØ Facteur de r√©duction : {1280 / sample_pca.size:.1f}x")

# ============================================================================
# üìã CELLULE 10 : SAUVEGARDE ET VALIDATION FINALE
# ============================================================================

In [None]:
print("\nüíæ Sauvegarde des r√©sultats finaux...")

## 10.1 - S√©lection des colonnes finales pour la sauvegarde

In [None]:
df_final = df_pca_optimal.select("path", "label", "features_pca")

## 10.2 - Sauvegarde au format Parquet (optimal pour Spark)

In [None]:
final_parquet_path = f"{OUTPUTS_PATH}/final_results.parquet"
df_final.write.mode("overwrite").parquet(final_parquet_path)

## 10.3 - Sauvegarde au format CSV pour compatibilit√©

In [None]:
# Drop des colonnes non compatibles avec CSV
df_export = df_final.drop("features_pca")

# Sauvegarde CSV propre
final_csv_path = f"{OUTPUTS_PATH}/final_results.csv"
df_export.coalesce(1).write.mode("overwrite").option("header", "true").csv(final_csv_path)

print(f"‚úÖ R√©sultats sauvegard√©s :")
print(f"   - Format Parquet : {final_parquet_path}")
print(f"   - Format CSV : {final_csv_path}")

# ============================================================================
# üìã CELLULE 11 : R√âSUM√â ET STATISTIQUES FINALES
# ============================================================================

In [None]:
print("\n" + "="*60)
print("üìä R√âSUM√â DU PIPELINE DE TRAITEMENT")
print("="*60)

print(f"üóÇÔ∏è  Nombre d'images trait√©es : {df_final.count()}")
print(f"üè∑Ô∏è  Nombre de classes d√©tect√©es : {df_final.select('label').distinct().count()}")
print(f"üìê Dimensions originales (MobileNetV2) : 1280")
print(f"üìê Dimensions apr√®s ACP : {k_optimal}")
print(f"üìä Variance expliqu√©e : 95%+")

## 11.1 - Calcul de la taille du fichier final

In [None]:
if os.path.exists(final_parquet_path):
    file_size_mb = sum([os.path.getsize(os.path.join(final_parquet_path, f)) 
                       for f in os.listdir(final_parquet_path) 
                       if os.path.isfile(os.path.join(final_parquet_path, f))]) / (1024*1024)
    print(f"üíæ Taille du fichier final : {file_size_mb:.1f} MB (Parquet)")

print("\n‚úÖ PIPELINE TERMIN√â AVEC SUCC√àS !")
print("üí° Les donn√©es sont pr√™tes pour le d√©ploiement cloud ou l'entra√Ænement de mod√®les")

## 11.2 - Arr√™t propre de la session Spark

In [None]:
# spark.stop()
# print("üî¥ Session Spark ferm√©e")