# Parcours Datascience - Projet 8: Déployez un modèle dans le Cloud

Etudiant: Vincent GAGNOT

En tant que Data Scientist pour la start-up "Fruits!", nous travaillons à l'implémentation d'une nouvelle application, dont la fonction fondamentale est la reconnaissance visuelle de fruits.  
Nous sommes chargés de développer, dans un environnement Big Data, un première chaîne de traitement des données, qui comprendra le preprocessing et une étape de réduction de dimension.

Des précisions sont apportées sur le travail attendu:  
 - Les Scripts devront être développés en Pyspark, la version de Spark adaptée à Python.
 - Une architecture Big Data doit être mise en place.

J'ai effectué le travail en 2 séquences successives, et je l'expose ainsi ci-dessous:
1) Préparation en local: je prépare le traitement des images localement, de manière à pouvoir le tester et le corriger plus facilement,  
2) Transfert sur le cloud: je passe le script préparé dans l'environnement AWS.

# 1- Prétraitement en local

Pour cette première étape, je tente de traiter un échantillon réduit d'images, de manière à arriver à un process éprouvé, que je pourrai ensuite utiliser pour la seconde étape.  
Le traitement utilisé ici est inspiré de celui proposé ici: (url databricks)

## a) Imports des packages

In [1]:
import pandas as pd
from PIL import Image
import numpy as np
import io
import os
import pyspark
import tensorflow as tf

from tensorflow.keras.applications.resnet50 import ResNet50, preprocess_input
from tensorflow.keras.preprocessing.image import img_to_array
from pyspark.sql.functions import col, pandas_udf, PandasUDFType, element_at, split
from pyspark.sql import SparkSession
from tensorflow.keras.applications.mobilenet_v2 import MobileNetV2
from tensorflow.keras.models import Model

## b) Construction session spark

Je configure et lance la session spark.  

In [2]:
spark = SparkSession.builder.appName('App').master('local')
spark = spark.config("spark.sql.parquet.writeLegacyFormat", 'true')
spark = spark.getOrCreate()

## c) Lecture des images
Je demande à Spark d'aller chercher les images jpg dans le dossier où j'ai placé l'échantillon sur lequel je veux travailler.  
Les images sont stockées dans un dataframe Spark.

In [21]:
images = spark.read.format("binaryFile")\
.option("pathGlobFilter", "*.jpg")\
.option("recursiveFileLookup", "true")\
.load("Quelques_exemples_de_photos/*/*.jpg")

J'ajoute à chaque une étiquette correspondant au fruit représenté.

In [22]:
images = images.withColumn('label', 
                           element_at(split(images['path'], '/'),
                                      -2
                                     )
                          )

In [23]:
images.show(5)

+--------------------+-------------------+------+--------------------+--------------+
|                path|   modificationTime|length|             content|         label|
+--------------------+-------------------+------+--------------------+--------------+
|file:/home/vgagno...|2021-07-14 09:21:22|  4773|[FF D8 FF E0 00 1...|Apple Braeburn|
|file:/home/vgagno...|2021-07-14 09:21:24|  4757|[FF D8 FF E0 00 1...|Apple Braeburn|
|file:/home/vgagno...|2021-07-14 09:21:24|  4756|[FF D8 FF E0 00 1...|Apple Braeburn|
|file:/home/vgagno...|2021-07-14 09:21:22|  4755|[FF D8 FF E0 00 1...|Apple Braeburn|
|file:/home/vgagno...|2021-07-14 09:21:22|  4750|[FF D8 FF E0 00 1...|Apple Braeburn|
+--------------------+-------------------+------+--------------------+--------------+
only showing top 5 rows



## d) Préparation du preprocessing
J'applique le preprocessing proposé sur la page databricks.  
  
Ce preprocessing est une application de Transfer Learning: je m'appuie sur un modèle déjà entraîné.  
En utilisant comme sortie l'avant dernière couche du modèle (ResNet50), j'utilise la capacité du modèle à identifier des features dans une image, et à réduire la dimension du problème au nombre d'éléments de cette couche (2048).

Voici le modèle, et la couche de sortie.

In [8]:
model = ResNet50()
model = Model(inputs=model.inputs, 
              outputs=model.layers[-2].output
             )
model.summary()

Model: "model"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            [(None, 224, 224, 3) 0                                            
__________________________________________________________________________________________________
conv1_pad (ZeroPadding2D)       (None, 230, 230, 3)  0           input_1[0][0]                    
__________________________________________________________________________________________________
conv1_conv (Conv2D)             (None, 112, 112, 64) 9472        conv1_pad[0][0]                  
__________________________________________________________________________________________________
conv1_bn (BatchNormalization)   (None, 112, 112, 64) 256         conv1_conv[0][0]                 
______________________________________________________________________________________________

Je construis la séquence d'opérations à exécuter pour le traitement:
 - On appelle et on paramètre le modèle,  
 - On retravaille l'image pour l'adapter à notre modèle (ici, juste un changement de dimension puis une transformation en array),  
 - On applique le modèle à l'image (predict), de manière à obtenir une le score de l'image sur chacune des 2048 dimensions du modèle.

In [9]:
bc_model_weights = spark.sparkContext.broadcast(model.get_weights())

def model_fn():
    """
    Returns a ResNet50 model with top layer removed and broadcasted pretrained weights.
    """
    model = ResNet50()
    model = Model(inputs=model.inputs, 
                  outputs=model.layers[-2].output
                 )
    model.set_weights(bc_model_weights.value)
    return model

def preprocess(content):
    """
    Preprocesses raw image bytes for prediction.
    """
    img = Image.open(io.BytesIO(content)).resize([224, 224])
    arr = img_to_array(img)
    return preprocess_input(arr)

def featurize_series(model, content_series):
    """
    Featurize a pd.Series of raw images using the input model.
    :return: a pd.Series of image features
    """
    input = np.stack(content_series.map(preprocess))
    preds = model.predict(input)
    # For some layers, output features will be multi-dimensional tensors.
    # We flatten the feature tensors to vectors for easier storage in Spark DataFrames.
    output = [p.flatten() for p in preds]
    return pd.Series(output)

@pandas_udf('array<float>', PandasUDFType.SCALAR_ITER)
def featurize_udf(content_series_iter):
    '''
    This method is a Scalar Iterator pandas UDF wrapping our featurization function.
    The decorator specifies that this returns a Spark DataFrame column of type ArrayType(FloatType).
  
    :param content_series_iter: This argument is an iterator over batches of data, where each batch
                                is a pandas Series of image data.
    '''
    # With Scalar Iterator pandas UDFs, we can load the model once and then re-use it
    # for multiple data batches.  This amortizes the overhead of loading big models.
    model = model_fn()
    for content_series in content_series_iter:
        yield featurize_series(model, content_series)



## e) Application du preprocessing

Pour chacune des images listées dans le dataframe, on applique le process que l'on vient de créer.  
Grâce à spark, le traitement est fait de manière distribuée.

In [24]:
import time
t0 = time.time()

In [25]:
features_df = images.repartition(16).select(col("path"), 
                                            col("label"), 
                                            featurize_udf("content").alias("features")
                                           )

In [26]:
features_df.show(5)

+--------------------+--------------+--------------------+
|                path|         label|            features|
+--------------------+--------------+--------------------+
|file:/home/vgagno...|Apple Braeburn|[1.2770748, 1.289...|
|file:/home/vgagno...|Apple Braeburn|[1.3386323, 1.164...|
|file:/home/vgagno...|       Apricot|[0.61263424, 0.39...|
|file:/home/vgagno...|       Apricot|[0.44949114, 0.07...|
|file:/home/vgagno...|Apple Braeburn|[1.3164302, 1.289...|
+--------------------+--------------+--------------------+
only showing top 5 rows



In [27]:
temps_calcul = time.time()-t0
temps_calcul

105.20622396469116

## f) Ecriture des données de sortie

On enregistre les résultats en les inscrivant dans un fichier "features", stocké localement.  
Si on peut, après un traitement local, examiner facilement et directement les sorties, ça n'est pas le cas si l'opération est effectuée pour un volume de données comme on s'attend à en avoir, et donc dans le cloud.

In [13]:
features_df.write.mode("overwrite").parquet("features")

## g) Lecture et examen des données de sortie

Ce qui a été écrit correspond-il à ce qu'on a vu précédemment, et à ce qu'on attend?

In [14]:
df_results = pd.read_parquet('/home/vgagnot/Documents/features', 
                             engine='pyarrow'
                            )

In [15]:
df_results.head()

Unnamed: 0,path,label,features
0,file:/home/vgagnot/Documents/Quelques_exemples...,Apple Braeburn,"[1.2770748, 1.2895648, 1.0106452, 0.0, 0.21025..."
1,file:/home/vgagnot/Documents/Quelques_exemples...,Apple Braeburn,"[1.3386323, 1.1642445, 0.90288675, 0.022249406..."
2,file:/home/vgagnot/Documents/Quelques_exemples...,Apricot,"[0.61263424, 0.39622456, 0.50903857, 0.3348994..."
3,file:/home/vgagnot/Documents/Quelques_exemples...,Apricot,"[0.44949114, 0.074641705, 0.35935965, 0.255101..."
4,file:/home/vgagnot/Documents/Quelques_exemples...,Apple Braeburn,"[1.3164302, 1.2891917, 1.0979763, 0.001181656,..."


On retrouve les éléments qu'on avait précédemment.  
Le score de chaque image pour chacun des features est listé dans la dernière colonne du dataframe.

In [17]:
len(df_results.loc[0, 'features'])

2048

La longueur du vecteur features pour la première image est bien de 2048: c'est ce qu'on attendait, puisque c'est le nombre d'éléments de l'avant dernière couche du ResNet50.

## Download du notebook créé via EMR

In [9]:
s3 = boto3.resource('s3')

In [10]:
bucket = s3.Bucket('bucketocproj8vgag')

In [17]:
result = bucket.meta.client.list_objects(Bucket=bucket.name,
                                         Delimiter='/')
for o in result.get('CommonPrefixes'):
    print(o.get('Prefix'))

Data_OC_P8/
Output/
jupyter/


In [27]:
result = client.list_objects(Bucket=bucket.name,
                             Prefix='Data_OC_P8/',
                             Delimiter='/'
                             )
for o in result.get('CommonPrefixes'):
    print(o.get('Prefix'))

Data_OC_P8/Apricot/
Data_OC_P8/Lemon/
Data_OC_P8/Orange/
Data_OC_P8/Pear/


In [28]:
result = client.list_objects(Bucket=bucket.name, Prefix='jupyter')
result

{'ResponseMetadata': {'RequestId': 'ZH1BEMAFCTJPKEF3',
  'HostId': 'AK8VWV5pwIU/oD5P+iO9FTYiOQejTERqxeOC9hnqBRCskqbTWxyKRnzFbZsV0B9+ORD+8tynEA8=',
  'HTTPStatusCode': 200,
  'HTTPHeaders': {'x-amz-id-2': 'AK8VWV5pwIU/oD5P+iO9FTYiOQejTERqxeOC9hnqBRCskqbTWxyKRnzFbZsV0B9+ORD+8tynEA8=',
   'x-amz-request-id': 'ZH1BEMAFCTJPKEF3',
   'date': 'Fri, 13 Aug 2021 15:19:16 GMT',
   'x-amz-bucket-region': 'us-east-1',
   'content-type': 'application/xml',
   'transfer-encoding': 'chunked',
   'server': 'AmazonS3'},
  'RetryAttempts': 0},
 'IsTruncated': False,
 'Marker': '',
 'Contents': [{'Key': 'jupyter/jovyan/.s3keep',
   'LastModified': datetime.datetime(2021, 8, 13, 9, 24, 57, tzinfo=tzutc()),
   'ETag': '"d41d8cd98f00b204e9800998ecf8427e"',
   'Size': 0,
   'StorageClass': 'STANDARD',
   'Owner': {'DisplayName': 'vincent.gagnot',
    'ID': '595e4849189c301ab4b50a64c9d8a6e1536de8a9ee70f2d35599351605f2bcef'}},
  {'Key': 'jupyter/jovyan/Test traitement simple.ipynb',
   'LastModified': datetime

In [30]:
%cd /home/vgagnot/Documents

# Je télécharge le notebook (dans un dossier Download dans le répertoire actuel)
client.download_file(
        'bucketocproj8vgag', 
        'jupyter/jovyan/Untitled1.ipynb', 
        'Download/Untitled1.ipynb')

/home/vgagnot/Documents


Amazon EC2 (Amazon Elastic Compute Cloud): Le service EC2 donne accès à des machines virtuelles. Les machines peuvent être généralistes ou optimisées pour un usage particulier (Quantité de mémoire, processeurs, etc.)  
Amazon EMR (Amazon Elastic Map Reduce): EMR est une plateforme de clusters préconfigurée, par exemple et dans notre cas, pour l'usage de Spark. EMR exploite la puissance de calcul fournie par EC2. 