# Notebook : 01_fruits_pipeline_cloud.ipynb - Version corrig√©e
# Pipeline de traitement des images de fruits avec PySpark

# ============================================================================
# üìã CELLULE 1 : IMPORTS ET CONFIGURATION
# ============================================================================

In [1]:
import os
import sys
import warnings

# === SUPPRESSION RADICALE DE TOUS LES WARNINGS ===
warnings.filterwarnings('ignore')

# Configuration AVANT tous les imports
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'
os.environ['PYTHONWARNINGS'] = 'ignore'
os.environ['TF_ENABLE_ONEDNN_OPTS'] = '0'
os.environ['CUDA_VISIBLE_DEVICES'] = '0'
os.environ['TF_FORCE_GPU_ALLOW_GROWTH'] = 'true'
os.environ['TF_GPU_THREAD_MODE'] = 'gpu_private'

# Redirection temporaire de stderr pour masquer les messages TensorFlow/CUDA
original_stderr = sys.stderr
if os.name != 'nt':  # Linux/Mac
    sys.stderr = open('/dev/null', 'w')
else:  # Windows
    sys.stderr = open('nul', 'w')

try:
    from pyspark.sql import SparkSession
    from pyspark.sql import functions as F
    from pyspark.ml.feature import PCA
    import matplotlib.pyplot as plt
    import numpy as np
    from tensorflow.python.client import device_lib
    
finally:
    # Restauration de stderr apr√®s les imports
    sys.stderr.close() 
    sys.stderr = original_stderr

# Configuration matplotlib silencieuse
plt.rcParams.update({'figure.max_open_warning': 0})
import matplotlib
matplotlib.use('Agg')  # Mode non-interactif

# Pr√©servation de la fonction sum() native Python
python_sum = __builtins__['sum'] if isinstance(__builtins__, dict) else __builtins__.sum

# Ajout du r√©pertoire src au PYTHONPATH pour les imports
sys.path.append('../src')

# Imports des modules personnalis√©s
from preprocessing import load_images_from_directory, extract_features_mobilenet
from pca_reduction import convert_array_to_vector, get_optimal_pca_k, plot_variance_explained, apply_pca_on_features, plot_variance_curve
from utils import export_dataframe_if_needed, setup_project_directories, clean_gpu_cache

clean_gpu_cache()

print("‚úÖ Imports r√©alis√©s avec succ√®s")

[INFO] M√©moire GPU nettoy√©e avec succ√®s.
‚úÖ Imports r√©alis√©s avec succ√®s


# ============================================================================
# üìã CELLULE 2 : INITIALISATION SPARK
# ============================================================================
## 2.1 - Configuration Spark pour minimiser les logs

In [2]:
spark = SparkSession.builder \
    .appName("FruitsPipelineCloud") \
    .config("spark.sql.adaptive.enabled", "true") \
    .config("spark.sql.adaptive.coalescePartitions.enabled", "true") \
    .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") \
    .config("spark.sql.execution.arrow.pyspark.enabled", "true") \
    .config("spark.sql.adaptive.advisoryPartitionSizeInBytes", "128MB") \
    .getOrCreate()

your 131072x1 screen size is bogus. expect trouble
25/07/24 17:19:35 WARN Utils: Your hostname, PC-ARNAUD resolves to a loopback address: 127.0.1.1; using 10.255.255.254 instead (on interface lo)
25/07/24 17:19:35 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/07/24 17:19:36 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


## 2.2 - Configuration des logs pour r√©duire la verbosit√© au minimum

In [3]:
spark.sparkContext.setLogLevel("ERROR")

print(f"üöÄ Session Spark cr√©√©e : {spark.version}")
print(f"üìä Nombre de c≈ìurs disponibles : {spark.sparkContext.defaultParallelism}")

üöÄ Session Spark cr√©√©e : 3.4.1
üìä Nombre de c≈ìurs disponibles : 16


# ============================================================================
# üìã CELLULE 3 : CONFIGURATION DES CHEMINS ET R√âPERTOIRES
# ============================================================================

## 3.1 - Configuration des chemins de travail

In [4]:
DATA_PATH = "../data/fruits-360/Test"
OUTPUTS_PATH = "../outputs"
CACHE_PATH = "../outputs/cache"

## 3.2 - Cr√©ation automatique de l'arborescence du projet

In [5]:
directories = setup_project_directories(base_path="../")

print(f"üìÅ Chemin des donn√©es : {DATA_PATH}")
print(f"üìÅ Chemin de sortie : {OUTPUTS_PATH}")

üìÅ Tous les r√©pertoires existent d√©j√†
üìÅ Chemin des donn√©es : ../data/fruits-360/Test
üìÅ Chemin de sortie : ../outputs


## 3.3 - V√©rification de l'existence des donn√©es

In [6]:
if not os.path.exists(DATA_PATH):
    print(f"‚ùå ERREUR : Le r√©pertoire {DATA_PATH} n'existe pas !")
    print("üí° Assure-toi d'avoir t√©l√©charg√© et extrait le dataset Fruits-360")
else:
    # Utilisation de la fonction sum() native Python (pr√©serv√©e en cellule 1)
    total_images = python_sum([len(files) for r, d, files in os.walk(DATA_PATH) if files])
    print(f"üì∏ Nombre total d'images d√©tect√©es : {total_images}")

üì∏ Nombre total d'images d√©tect√©es : 22688


# ============================================================================
# üìã CELLULE 4 : CHARGEMENT DES DONN√âES
# ============================================================================

In [7]:
print("üîÑ √âtape 1/5 : Chargement des images depuis le r√©pertoire...")

üîÑ √âtape 1/5 : Chargement des images depuis le r√©pertoire...


## 4.1 - Chargement des chemins d'images et labels via la fonction externalis√©e

In [8]:
df_images = load_images_from_directory(
    spark=spark, 
    data_path=DATA_PATH,
    sample_size=500,  # Limitation pour les tests - √† augmenter en production
    cache_path=f"{CACHE_PATH}/images_paths.parquet",
    force_retrain=False
)

print("‚úÖ Chargement termin√©")
print("üìä Aper√ßu des donn√©es :")
df_images.show(5, truncate=False)
print(f"üìà Nombre total d'images charg√©es : {df_images.count()}")

‚úÖ Chargement depuis le cache : ../outputs/cache/images_paths.parquet


                                                                                

‚úÖ Chargement termin√©
üìä Aper√ßu des donn√©es :
+---------------------------------------------------+-------------+
|path                                               |label        |
+---------------------------------------------------+-------------+
|../data/fruits-360/Test/Grape White 3/169_100.jpg  |Grape White 3|
|../data/fruits-360/Test/Grape White 3/132_100.jpg  |Grape White 3|
|../data/fruits-360/Test/Grape White 3/r_153_100.jpg|Grape White 3|
|../data/fruits-360/Test/Grape White 3/147_100.jpg  |Grape White 3|
|../data/fruits-360/Test/Strawberry/r_52_100.jpg    |Strawberry   |
+---------------------------------------------------+-------------+
only showing top 5 rows

üìà Nombre total d'images charg√©es : 500


# ============================================================================
# üìã CELLULE 5 : EXTRACTION DES FEATURES AVEC MOBILENETV2
# ============================================================================

In [9]:
print("\nüîÑ √âtape 2/5 : Extraction des features avec MobileNetV2...")
print("‚ö†Ô∏è  Cette √©tape peut prendre plusieurs minutes selon le nombre d'images")


üîÑ √âtape 2/5 : Extraction des features avec MobileNetV2...
‚ö†Ô∏è  Cette √©tape peut prendre plusieurs minutes selon le nombre d'images


## 5.1 - Extraction des caract√©ristiques via transfert learning - fonction externalis√©e

In [10]:
df_features = extract_features_mobilenet(
    spark = spark,
    df = df_images,
    cache_path = f"{CACHE_PATH}/features_mobilenet_gpu.parquet",
    force_retrain = False,
    batch_size = 32  # Optimis√© pour GTX 1060 6GB
)

print("‚úÖ Extraction des features termin√©e")
print("üìä V√©rification des dimensions des features :")
print(device_lib.list_local_devices())

‚úÖ Chargement depuis le cache : ../outputs/cache/features_mobilenet_gpu.parquet
‚úÖ Extraction des features termin√©e
üìä V√©rification des dimensions des features :
[name: "/device:CPU:0"
device_type: "CPU"
memory_limit: 268435456
locality {
}
incarnation: 8506407642985989002
xla_global_id: -1
, name: "/device:GPU:0"
device_type: "GPU"
memory_limit: 4807720960
locality {
  bus_id: 1
  links {
  }
}
incarnation: 16688862185808198896
physical_device_desc: "device: 0, name: NVIDIA GeForce GTX 1060 6GB, pci bus id: 0000:06:00.0, compute capability: 6.1"
xla_global_id: 416903419
]


## 5.2 - Inspection d'un √©chantillon de features

In [11]:
sample_features = df_features.select("features").first()["features"]
print(f"üéØ Dimension des vecteurs de caract√©ristiques : {len(sample_features)}")
print(f"üéØ Type des donn√©es : {type(sample_features)}")
print(f"üéØ Exemple de valeurs : {sample_features[:10]}...")

üéØ Dimension des vecteurs de caract√©ristiques : 1280
üéØ Type des donn√©es : <class 'list'>
üéØ Exemple de valeurs : [0.690702497959137, 0.9102954268455505, 0.0, 0.0, 0.08946313709020615, 0.0, 0.3325121998786926, 0.7319117188453674, 0.1733175814151764, 0.023059630766510963]...


# ============================================================================
# üìã CELLULE 6 : CONVERSION AU FORMAT SPARK ML
# ============================================================================

In [12]:
print("\nüîÑ √âtape 3/5 : Conversion des donn√©es au format Spark ML...")


üîÑ √âtape 3/5 : Conversion des donn√©es au format Spark ML...


### Conversion n√©cessaire pour PCA via fonction externalis√©e
## 6.1 - MobileNetV2 retourne des arrays Python, mais PCA Spark attend des VectorUDT

In [13]:
df_features_converted = convert_array_to_vector(df_features, features_col = "features")

print("‚úÖ Conversion termin√©e")

üîÑ Conversion des arrays Python vers des vecteurs Spark ML...
‚úÖ Conversion termin√©e - les features sont maintenant au format VectorUDT
‚úÖ Conversion termin√©e


## 6.2 - V√©rification du nouveau format

In [14]:
print("üìä V√©rification du sch√©ma apr√®s conversion :")
df_features_converted.printSchema()

üìä V√©rification du sch√©ma apr√®s conversion :
root
 |-- path: string (nullable = true)
 |-- label: string (nullable = true)
 |-- features: vector (nullable = true)



# ============================================================================
# üìã CELLULE 7 : CALCUL DE LA VARIANCE CUMUL√âE POUR D√âTERMINER K OPTIMAL
# ============================================================================

In [15]:
print("\nüîÑ √âtape 4/5 : Analyse de la variance pour d√©terminer le nombre optimal de composantes...")
print("üìä Recherche du nombre de composantes pour 95% de variance expliqu√©e")


üîÑ √âtape 4/5 : Analyse de la variance pour d√©terminer le nombre optimal de composantes...
üìä Recherche du nombre de composantes pour 95% de variance expliqu√©e


## 7.1 - Appel de la fonction externalis√©e pour calculer k optimal
- max_k augment√© √† 200 pour MobileNetV2 (1280 features)

In [16]:
k_optimal, variance_data = get_optimal_pca_k(
    df=df_features_converted,
    spark=spark,
    max_k=200,
    threshold=0.95,
    force_retrain=False,
    cache_path=f"{CACHE_PATH}/pca_variance_analysis.parquet"
)

print(f"\nüéØ R√âSULTAT : k_optimal = {k_optimal} composantes")
print(device_lib.list_local_devices())

‚úÖ Cache de variance charg√© depuis ../outputs/cache/pca_variance_analysis.parquet

üß™ Aper√ßu des r√©sultats :
+---+--------------------+--------------------+
|k  |individual_variance |cum_variance        |
+---+--------------------+--------------------+
|1  |0.2655833735146533  |0.2655833735146533  |
|2  |0.20852696638906548 |0.4741103399037188  |
|3  |0.11059546457472673 |0.5847058044784457  |
|4  |0.01242247940609405 |0.053790039499492494|
|5  |0.031028624082689037|0.6948871523099389  |
|6  |0.02876907008832725 |0.7236562223982663  |
|7  |0.02184833911639816 |0.7455045615146643  |
|8  |0.016204624921230506|0.7617091864358949  |
|9  |0.013424473540920011|0.7751336599768149  |
|10 |0.011709280162410884|0.7868429401392261  |
|11 |0.010219268569100324|0.7970622087083259  |
|12 |0.00919384975557515 |0.8062560584639012  |
|13 |0.010533789831949896|0.1552042951903053  |
|14 |0.008077442165124614|0.8232170192551493  |
|15 |0.007609229970823866|0.8308262492259728  |
|16 |0.00676363148194

In [17]:
# Donn√©es (assure-toi que variance_data est bien d√©fini)
ks = [row[0] for row in variance_data]
cum_vars = [row[2] for row in variance_data]

# Trac√©
plt.figure(figsize=(10, 6))
plt.plot(ks, cum_vars, marker='o', linestyle='-', color='blue')
plt.axhline(y=0.95, color='red', linestyle='--', label='Seuil 95%')
plt.axvline(x=k_optimal, color='green', linestyle='--', label=f'k optimal = {k_optimal}')
plt.title("Variance cumul√©e en fonction de k (PCA)")
plt.xlabel("Nombre de composantes principales (k)")
plt.ylabel("Variance cumul√©e")
plt.grid(True)
plt.legend()
plt.tight_layout()

# Sauvegarde (√† la place de plt.show())
plt.savefig("../outputs/pca_variance_plot.png")
print("üìà Graphique sauvegard√© dans outputs/pca_variance_plot.png")

üìà Graphique sauvegard√© dans outputs/pca_variance_plot.png


In [18]:
plot_variance_curve(variance_data, k_optimal, save_path=f"{OUTPUTS_PATH}/pca_variance_final.png")

# ============================================================================
# üìã CELLULE 8 : G√âN√âRATION DU GRAPHIQUE EMPIRIQUE DE VARIANCE EXPLIQU√âE
# ============================================================================

In [19]:
print("\nüìà G√©n√©ration du graphique de variance expliqu√©e...")


üìà G√©n√©ration du graphique de variance expliqu√©e...


## 8.1 - Cr√©ation du graphique empirique via fonction externalis√©e

In [20]:
plot_variance_explained(
    variance_data=variance_data,
    threshold=0.95,
    save_path=f"{OUTPUTS_PATH}/pca_variance_analysis.png"
)

print("‚úÖ Graphique g√©n√©r√© et sauvegard√©")

üìà G√©n√©ration du graphique de variance expliqu√©e...
üíæ Graphique sauvegard√© : ../outputs/pca_variance_analysis.png
‚úÖ Graphique g√©n√©r√© et sauvegard√©


# ============================================================================
# üìã CELLULE 9 : APPLICATION DE L'ACP AVEC K OPTIMAL
# ============================================================================

In [21]:
print(f"\nüîÑ √âtape 5/5 : Application de l'ACP avec k={k_optimal} composantes...")


üîÑ √âtape 5/5 : Application de l'ACP avec k=56 composantes...


## 9.1 - Application de la r√©duction PCA avec le k optimal d√©termin√© via fonction externalis√©e

In [22]:
df_pca_optimal = apply_pca_on_features(
    spark=spark,
    df=df_features_converted,
    k=k_optimal,
    features_col="features",
    output_path=f"{OUTPUTS_PATH}/features_pca_optimal.parquet",
    force_retrain=False
)

print("‚úÖ ACP appliqu√©e avec succ√®s")
print(device_lib.list_local_devices())

‚úî Chargement des donn√©es PCA depuis le cache : ../outputs/features_pca_optimal.parquet
‚úÖ ACP appliqu√©e avec succ√®s
[name: "/device:CPU:0"
device_type: "CPU"
memory_limit: 268435456
locality {
}
incarnation: 9854933878986181916
xla_global_id: -1
, name: "/device:GPU:0"
device_type: "GPU"
memory_limit: 4807720960
locality {
  bus_id: 1
  links {
  }
}
incarnation: 5688865627447631963
physical_device_desc: "device: 0, name: NVIDIA GeForce GTX 1060 6GB, pci bus id: 0000:06:00.0, compute capability: 6.1"
xla_global_id: 416903419
]


## 9.2 - V√©rification des r√©sultats

In [23]:
print("üìä V√©rification des donn√©es apr√®s ACP :")
df_pca_optimal.printSchema()

üìä V√©rification des donn√©es apr√®s ACP :
root
 |-- path: string (nullable = true)
 |-- label: string (nullable = true)
 |-- features: vector (nullable = true)
 |-- features_pca: vector (nullable = true)



## 9.3 - Inspection des dimensions r√©duites

In [24]:
sample_pca = df_pca_optimal.select("features_pca").first()["features_pca"]
print(f"üéØ Dimensions apr√®s r√©duction : {sample_pca.size}")
print(f"üéØ Facteur de r√©duction : {1280 / sample_pca.size:.1f}x")

üéØ Dimensions apr√®s r√©duction : 56
üéØ Facteur de r√©duction : 22.9x


# ============================================================================
# üìã CELLULE 10 : SAUVEGARDE ET VALIDATION FINALE
# ============================================================================

In [25]:
print("\nüíæ Sauvegarde des r√©sultats finaux...")


üíæ Sauvegarde des r√©sultats finaux...


## 10.1 - S√©lection des colonnes finales pour la sauvegarde

In [26]:
df_final = df_pca_optimal.select("path", "label", "features_pca")

## 10.2 - Sauvegarde au format Parquet (optimal pour Spark)

In [27]:
final_parquet_path = f"{OUTPUTS_PATH}/final_results.parquet"
df_final.write.mode("overwrite").parquet(final_parquet_path)

## 10.3 - Sauvegarde au format CSV pour compatibilit√©

In [28]:
# Drop des colonnes non compatibles avec CSV
df_export = df_final.drop("features_pca")

# Sauvegarde CSV propre
final_csv_path = f"{OUTPUTS_PATH}/final_results.csv"
df_export.coalesce(1).write.mode("overwrite").option("header", "true").csv(final_csv_path)

print(f"‚úÖ R√©sultats sauvegard√©s :")
print(f"   - Format Parquet : {final_parquet_path}")
print(f"   - Format CSV : {final_csv_path}")

‚úÖ R√©sultats sauvegard√©s :
   - Format Parquet : ../outputs/final_results.parquet
   - Format CSV : ../outputs/final_results.csv


# ============================================================================
# üìã CELLULE 11 : R√âSUM√â ET STATISTIQUES FINALES
# ============================================================================

In [29]:
print("\n" + "="*60)
print("üìä R√âSUM√â DU PIPELINE DE TRAITEMENT")
print("="*60)

print(f"üóÇÔ∏è  Nombre d'images trait√©es : {df_final.count()}")
print(f"üè∑Ô∏è  Nombre de classes d√©tect√©es : {df_final.select('label').distinct().count()}")
print(f"üìê Dimensions originales (MobileNetV2) : 1280")
print(f"üìê Dimensions apr√®s ACP : {k_optimal}")
print(f"üìä Variance expliqu√©e : 95%+")


üìä R√âSUM√â DU PIPELINE DE TRAITEMENT
üóÇÔ∏è  Nombre d'images trait√©es : 500
üè∑Ô∏è  Nombre de classes d√©tect√©es : 4
üìê Dimensions originales (MobileNetV2) : 1280
üìê Dimensions apr√®s ACP : 56
üìä Variance expliqu√©e : 95%+


## 11.1 - Calcul de la taille du fichier final

In [30]:
if os.path.exists(final_parquet_path):
    file_size_mb = sum([os.path.getsize(os.path.join(final_parquet_path, f)) 
                       for f in os.listdir(final_parquet_path) 
                       if os.path.isfile(os.path.join(final_parquet_path, f))]) / (1024*1024)
    print(f"üíæ Taille du fichier final : {file_size_mb:.1f} MB (Parquet)")

print("\n‚úÖ PIPELINE TERMIN√â AVEC SUCC√àS !")
print("üí° Les donn√©es sont pr√™tes pour le d√©ploiement cloud ou l'entra√Ænement de mod√®les")

üíæ Taille du fichier final : 0.3 MB (Parquet)

‚úÖ PIPELINE TERMIN√â AVEC SUCC√àS !
üí° Les donn√©es sont pr√™tes pour le d√©ploiement cloud ou l'entra√Ænement de mod√®les


## 11.2 - Arr√™t propre de la session Spark

In [31]:
# spark.stop()
# print("üî¥ Session Spark ferm√©e")