# Fichier aws


In [1]:
# L'exécution de cette cellule démarre l'application Spark

In [2]:
 #Import des librairies
import pandas as pd
import numpy as np
import io
import os
import tensorflow as tf

from PIL import Image
from tensorflow.keras.applications.mobilenet_v2 import MobileNetV2, preprocess_input
from tensorflow.keras.preprocessing.image import img_to_array
from tensorflow.keras import Model
from pyspark.sql.functions import udf, lit, col, pandas_udf, PandasUDFType, element_at, split


FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

In [3]:
# Définition des PATH pour charger les images et enregistrer les résultats
PATH = 's3://p8-ocr'
PATH_Data = PATH+'/Test'
PATH_Result = PATH+'/Results'
print('PATH:        '+\
      PATH+'\nPATH_Data:   '+\
      PATH_Data+'\nPATH_Result: '+PATH_Result)

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

PATH:        s3://p8-ocr
PATH_Data:   s3://p8-ocr/Test
PATH_Result: s3://p8-ocr/Results

## Chargement des données
Les images sont chargées au format binaire, ce qui offre,
plus de souplesse dans la façon de prétraiter les images.

Avant de charger les images, nous spécifions que nous voulons charger
uniquement les fichiers dont l'extension est jpg.

Nous indiquons également de charger tous les objets possibles contenus
dans les sous-dossiers du dossier communiqué.

In [4]:
# Chargement des données
images = spark.read.format("binaryFile") \
  .option("pathGlobFilter", "*.jpg") \
  .option("recursiveFileLookup", "true") \
  .load(PATH_Data)

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

Affichage des 5 premières images contenant :

- le path de l'image
- la date et heure de sa dernière modification
- sa longueur
- son contenu encodé en valeur hexadécimal

In [5]:
images.show(5)

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

+--------------------+-------------------+------+--------------------+
|                path|   modificationTime|length|             content|
+--------------------+-------------------+------+--------------------+
|s3://p8-ocr/Test/...|2023-06-07 09:39:09|  7353|[FF D8 FF E0 00 1...|
|s3://p8-ocr/Test/...|2023-06-07 09:39:11|  7350|[FF D8 FF E0 00 1...|
|s3://p8-ocr/Test/...|2023-06-07 09:39:10|  7349|[FF D8 FF E0 00 1...|
|s3://p8-ocr/Test/...|2023-06-07 09:39:10|  7348|[FF D8 FF E0 00 1...|
|s3://p8-ocr/Test/...|2023-06-07 09:39:55|  7328|[FF D8 FF E0 00 1...|
+--------------------+-------------------+------+--------------------+
only showing top 5 rows

In [6]:
#Je ne conserve que le path de l'image 
#j'ajoute une colonne contenant les labels de chaque image 
images = images.withColumn('label', element_at(split(images['path'], '/'),-2))
print(images.printSchema())
print(images.select('path','label').show(5,False))

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

root
 |-- path: string (nullable = true)
 |-- modificationTime: timestamp (nullable = true)
 |-- length: long (nullable = true)
 |-- content: binary (nullable = true)
 |-- label: string (nullable = true)

None
+-----------------------------------------+----------+
|path                                     |label     |
+-----------------------------------------+----------+
|s3://p8-ocr/Test/Watermelon/r_106_100.jpg|Watermelon|
|s3://p8-ocr/Test/Watermelon/r_109_100.jpg|Watermelon|
|s3://p8-ocr/Test/Watermelon/r_108_100.jpg|Watermelon|
|s3://p8-ocr/Test/Watermelon/r_107_100.jpg|Watermelon|
|s3://p8-ocr/Test/Watermelon/r_95_100.jpg |Watermelon|
+-----------------------------------------+----------+
only showing top 5 rows

None

## Préparation du modèle
Je vais utiliser la technique du transfert learning pour extraire les features des images.
J'ai choisi d'utiliser le modèle MobileNetV2 pour sa rapidité d'exécution comparée
à d'autres modèles comme VGG16 par exemple.

Pour en savoir plus sur la conception et le fonctionnement de MobileNetV2,
je vous invite à lire cet article.

Voici le schéma de son architecture globale :

Il existe une dernière couche qui sert à classer les images
selon 1000 catégories que nous ne voulons pas utiliser.
L'idée dans ce projet est de récupérer le vecteur de caractéristiques
de dimensions (1,1,1280) qui servira, plus tard, au travers d'un moteur
de classification à reconnaitre les différents fruits du jeu de données.

Comme d'autres modèles similaires, MobileNetV2, lorsqu'on l'utilise
en incluant toutes ses couches, attend obligatoirement des images
de dimension (224,224,3). Nos images étant toutes de dimension (100,100,3),
nous devrons simplement les redimensionner avant de les confier au modèle.

Dans l'odre :

Nous chargeons le modèle MobileNetV2 avec les poids précalculés
issus d'imagenet et en spécifiant le format de nos images en entrée
Nous créons un nouveau modèle avec:
en entrée : l'entrée du modèle MobileNetV2
en sortie : l'avant dernière couche du modèle MobileNetV2

In [7]:
model = MobileNetV2(weights='imagenet',
                    include_top=True,
                    input_shape=(224, 224, 3))

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

In [8]:
new_model = Model(inputs=model.input,
                  outputs=model.layers[-2].output)

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

In [9]:
brodcast_weights = sc.broadcast(new_model.get_weights())

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

Affichage du résumé de notre nouveau modèle où nous constatons
que nous récupérons bien en sortie un vecteur de dimension (1, 1, 1280) :

In [10]:
new_model.summary()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

Model: "model"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
 input_1 (InputLayer)           [(None, 224, 224, 3  0           []                               
                                )]                                                                
                                                                                                  
 Conv1 (Conv2D)                 (None, 112, 112, 32  864         ['input_1[0][0]']                
                                )                                                                 
                                                                                                  
 bn_Conv1 (BatchNormalization)  (None, 112, 112, 32  128         ['Conv1[0][0]']                  
                                )                                                             

In [11]:
def model_fn():
    """
    Returns a MobileNetV2 model with top layer removed 
    and broadcasted pretrained weights.
    """
    model = MobileNetV2(weights='imagenet',
                        include_top=True,
                        input_shape=(224, 224, 3))
    for layer in model.layers:
        layer.trainable = False
    new_model = Model(inputs=model.input,
                  outputs=model.layers[-2].output)
    new_model.set_weights(brodcast_weights.value)
    return new_model

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

## Définition du processus de chargement des images et application de leur featurisation à travers l'utilisation de pandas UDF

In [12]:
# Définition du processus de chargement des images
#et application de leur featurisation à travers l'utilisation de pandas UDF

def preprocess(content):
    """
    Preprocesses raw image bytes for prediction.
    """
    img = Image.open(io.BytesIO(content)).resize([224, 224])
    arr = img_to_array(img)
    return preprocess_input(arr)

def featurize_series(model, content_series):
    """
    Featurize a pd.Series of raw images using the input model.
    :return: a pd.Series of image features
    """
    input = np.stack(content_series.map(preprocess))
    preds = model.predict(input)
    # For some layers, output features will be multi-dimensional tensors.
    # We flatten the feature tensors to vectors for easier storage in Spark DataFrames.
    output = [p.flatten() for p in preds]
    return pd.Series(output)

@pandas_udf('array<float>', PandasUDFType.SCALAR_ITER)
def featurize_udf(content_series_iter):
    '''
    This method is a Scalar Iterator pandas UDF wrapping our featurization function.
    The decorator specifies that this returns a Spark DataFrame column of type ArrayType(FloatType).

    :param content_series_iter: This argument is an iterator over batches of data, where each batch
                              is a pandas Series of image data.
    '''
    # With Scalar Iterator pandas UDFs, we can load the model once and then re-use it
    # for multiple data batches.  This amortizes the overhead of loading big models.
    model = model_fn()
    for content_series in content_series_iter:
        yield featurize_series(model, content_series)

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…



In [13]:
#Exécutions des actions d'extractions de features
features_df = images.repartition(24).select(col("path"),
                                            col("label"),
                                            featurize_udf("content").alias("features")
                                           )

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

In [14]:
features_df.count()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

22680

In [15]:
features_df.show()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

+--------------------+--------------+--------------------+
|                path|         label|            features|
+--------------------+--------------+--------------------+
|s3://p8-ocr/Test/...|    Watermelon|[0.6506585, 0.230...|
|s3://p8-ocr/Test/...|    Watermelon|[0.08841578, 0.83...|
|s3://p8-ocr/Test/...|    Watermelon|[0.13241422, 0.22...|
|s3://p8-ocr/Test/...|Pineapple Mini|[0.002079701, 4.6...|
|s3://p8-ocr/Test/...|Pineapple Mini|[0.0, 4.49807, 0....|
|s3://p8-ocr/Test/...|    Watermelon|[0.0, 0.91131, 0....|
|s3://p8-ocr/Test/...|Pineapple Mini|[0.0, 4.583824, 0...|
|s3://p8-ocr/Test/...|    Watermelon|[0.13633335, 0.20...|
|s3://p8-ocr/Test/...|    Watermelon|[0.0, 0.22407952,...|
|s3://p8-ocr/Test/...|    Watermelon|[0.23570964, 0.15...|
|s3://p8-ocr/Test/...|     Raspberry|[0.14059144, 0.45...|
|s3://p8-ocr/Test/...|     Raspberry|[0.40123066, 0.05...|
|s3://p8-ocr/Test/...|   Cauliflower|[0.0, 0.32475963,...|
|s3://p8-ocr/Test/...|     Raspberry|[0.028396703, 0.2..

# Réduction de dimensions PCA

In [16]:
from pyspark.ml.feature import PCA
from pyspark.ml.feature import StandardScaler
from pyspark.ml.linalg import Vectors, VectorUDT, DenseVector

def preprocess(dataframe):
  '''
     opérations à effectuer :
     - features sont de type array, il faudra la convertir en vecteur dense
     - standardisation
    
  '''
  
  # conversion des données images en vecteur dense
  transform_vecteur_dense = udf(lambda r: Vectors.dense(r), VectorUDT())
  dataframe = dataframe.withColumn('features_vectors', transform_vecteur_dense('features'))
  # Standardisation 
  scaler_std = StandardScaler(inputCol="features_vectors", outputCol="features_scaled", withStd=True, withMean=True)
  model_std = scaler_std.fit(dataframe)
  # Mise à l'échelle
  dataframe = model_std.transform(dataframe)
  
  return dataframe

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

In [17]:
# Recherche du nombre de composante expliquant 95% de la variance
def nb_composante(dataframe, nb_comp=100):
    pca = PCA(k = nb_comp,
              inputCol="features_scaled", 
              outputCol="features_pca")
 
    model_pca = pca.fit(dataframe)
    variance = model_pca.explainedVariance
 
    for i in range(100):
        a = variance.cumsum()[i]
        if a >= 0.95:
            print("{} composantes principales expliquent au moins 95% de la variance totale".format(i))
    return i
  

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

In [18]:
# Pré-processing (vecteur dense, standardisation)
df_preprocess = preprocess(features_df)


FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

In [19]:
# Nombre de composante expliquant 95% de la variance
nombre_cp = nb_composante(df_preprocess)


FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

In [20]:
# Réduction de dimension PCA
# Entrainement de l'algorithme
pca = PCA(k=nombre_cp, inputCol='features_scaled', outputCol='vectors_pca')
action_pca = pca.fit(df_preprocess)



FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

In [21]:
# Transformation des images sur les k premières composantes
df_final= action_pca.transform(df_preprocess)

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

In [23]:
df_final.show()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

+--------------------+--------------+--------------------+--------------------+--------------------+--------------------+
|                path|         label|            features|    features_vectors|     features_scaled|         vectors_pca|
+--------------------+--------------+--------------------+--------------------+--------------------+--------------------+
|s3://p8-ocr/Test/...|    Watermelon|[0.6506585, 0.230...|[0.65065848827362...|[0.44808956363776...|[-17.281090895514...|
|s3://p8-ocr/Test/...|    Watermelon|[0.08841578, 0.83...|[0.08841577917337...|[-0.5936218928654...|[-14.425315457069...|
|s3://p8-ocr/Test/...|    Watermelon|[0.13241422, 0.22...|[0.13241422176361...|[-0.5121025045787...|[-11.327575276781...|
|s3://p8-ocr/Test/...|Pineapple Mini|[0.002079701, 4.6...|[0.00207970105111...|[-0.7535835610806...|[-13.450613627224...|
|s3://p8-ocr/Test/...|Pineapple Mini|[0.0, 4.49807, 0....|[0.0,4.4980697631...|[-0.7574367874115...|[-8.4788524004423...|
|s3://p8-ocr/Test/...|  

In [24]:
print(PATH_Result)

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

s3://p8-ocr/Results

In [26]:
# Sauvegarde des données 
df_final.write.mode("overwrite").parquet(PATH_Result)

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

In [27]:
#Chargement des données enregistrées et validation du résultat
df = pd.read_parquet(PATH_Result, engine='pyarrow')

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

In [28]:
df.head()

FloatProgress(value=0.0, bar_style='info', description='Progress:', layout=Layout(height='25px', width='50%'),…

                                          path  ...                                        vectors_pca
0     s3://p8-ocr/Test/Watermelon/r_72_100.jpg  ...  {'type': 1, 'size': None, 'indices': None, 'va...
1    s3://p8-ocr/Test/Watermelon/r_109_100.jpg  ...  {'type': 1, 'size': None, 'indices': None, 'va...
2    s3://p8-ocr/Test/Watermelon/r_105_100.jpg  ...  {'type': 1, 'size': None, 'indices': None, 'va...
3  s3://p8-ocr/Test/Pineapple Mini/140_100.jpg  ...  {'type': 1, 'size': None, 'indices': None, 'va...
4  s3://p8-ocr/Test/Pineapple Mini/130_100.jpg  ...  {'type': 1, 'size': None, 'indices': None, 'va...

[5 rows x 6 columns]