# Projet 8: Déployez un modèle dans le cloud

Fruits est une start-up de l'agri-tech qui a pour volonté de préserver la **biodiversité des fruits** en développant des **robots cueilleurs intelligents** qui appliqueraient des **traitements spécifiques à chaque espèce** de fruits lors de la récolte.

Pour se faire connaître auprès du grand public, elle souhaite mettre à sa disposition une **application mobile** qui permettrait aux utilisateurs de **prendre en photo** un fruit et d'obtenir des **informations** sur ce dernier. Trois principaux objectifs:
- sensibiliser le grand public à la biodiversité des fruits
- mettre en place une première version du moteur de classification des images de fruits
- construire une première version de l'architecture Big Data nécessaire

**Contraintes à prendre en compte:**
- le **volume des données va augmenter très rapidement** après la livraison de ce projet => architecture Big Data avec scripts en Pyspark
- compléter le script d'un **traitement de diffusion des poids du modèle Tensorflow sur les clusters**
- compléter le script d'une étape de **réduction de dimension de type PCA** en PySpark
- les **serveurs** doivent être situés sur le **territoire européen**
- faire un **retour critique** sur le choix de l'architecture Big Data choisie

Ce notebook contient les **scripts en PySpark exécutables** sur **Databricks** c'est à dire les **étapes de preprocessing** et la **réduction de dimension** de type PCA (Principal Component Analysis).

## Introduction au Big Data

Le **web 3.0** est celui de la **mobilité**, des **objets connectés** et des **données**. C'est un web sémantique où l'internaute est "fiché", notamment au travers de sa navigation et de ses différents profils sur les réseaux sociaux. 

L'**utilisation massive** d'internet et des objets connectés comme le téléphone, l'ordinateur, la montre, la balance etc engendre la **production de quantités astronomiques de données** ce qui pose des **problématiques de stockage et de traitement approprié** pour les entreprises qui les exploitent afin de prendre notamment des décisions stratégiques et concurrentielles.

Cette infographie offre une vision très parlante du monde de la donnée aujourd'hui:

![Data](files/tables/img/data_infographie.PNG)

A titre d'exemple, en 2009, 800 000 pétaoctets de données étaient produits, 35 zettaoctets en 2020 et plus de 180 zettaoctets de données prévus d'ici 2025 (*5 en 5 ans!).

Il faut donc des **technologies innovantes** capables de traiter:
- des volumes de données énormes et en constante augmentation
- des données provenant de sources multiples et de natures diverses
- des besoins analytiques vitaux à fournir dans des délais impartis

Le Big Data désigne le courant technologique que nous voyons émerger ces dernières années autour des données, des **mégadonnées que nous permettent de stocker aujourd’hui les serveurs**. Le Big Data vient du fait que les données de certaines entreprises ou institutions sont devenues tellement volumineuses que les outils techniques classiques de gestion, de requête sur les bases dites structurées et de traitement des données sont devenus obsolètes, avec des difficultés dans l’instanciation de celles-ci, les temps d’extraction, de traitement devenant trop long.

Le socle commun sur lequel à peu près tout le monde s’entend pour caractériser les problématiques de Big Data, ce sont les 4V : Volume, Vitesse, Variété et Véracité.
- **Volume** : des volumes de données énormes en constante augmentation
- **Vitesse** : des besoins analytiques importants à fournir dans des délais impartis
- **Varieté** : des données provenant de sources multiples et de natures diverses
- **Véracité** : fait référence à la fiabilité de la donnée, la qualité et la précision sont moins vérifiables

Le choix de l'**architecture de données** à mettre en place est donc essentiel.

## Choix d'utiliser Databricks

Plusieurs raisons m'ont poussé à transférer les traitements sur Databricks qui est un environnement SaaS (Software-as-a-Service) permettant d'accéder aux données et aux ressources de calcul:

![Databricks](files/tables/img/databricks_logo.PNG)


- **simplicité**: Databricks permet une seule architecture de données unifiée sur S3 (solution de stockage des données sur Amazon) pour l'analytique SQL, la data science et le machine learning
- **rapport performance / prix**: performances du data warehouse au prix d'un data lake grâce à des clusters de calcul optimisés par SQL
- **réputation**: des clients prestigieux comme HP, Nasdac, Hotels.com ont mis en œuvre Databricks sur AWS pour mettre à disposition une plateforme d'analytique révolutionnaire répondant à tous les cas d'usage de l'analytique et de l'IA.

Construire des modèles de ML est difficile et les mettre en production est encore plus difficile:
- la **diversité des frameworks de ML** complique la gestion des environnements de ML
- les **transferts entre équipes sont difficile**s en raison de la disparité des outils et des processus, de la préparation des données à l'expérimentation et à la production
- la difficulté de suivre les expériences, les modèles, les dépendances et les artefacts rend **difficile la reproduction des résultats**
- il y a des **risques liés à la sécurité et à la conformité**

Le maintien de la qualité des données et de la précision des modèles au fil du temps ne sont que quelques-uns des défis à relever. Databricks va **rationaliser le développement ML**, de la préparation des données à l'entraînement et au déploiement des modèles, à **grande échelle** tout en permettant la collaboration:
- **workspace**: un lieu central pour stocker et partager des notebooks, des expériences et des projets, avec un contrôle d'accès basé sur les rôles
- **notebooks** collaboratifs: prise en charge de plusieurs langues (R, Python, SQL, Scala) et le versionning intégré permettent aux équipes de partager et d'itérer sur le code plus rapidement
- **AutoML**: obtention de résultats plus rapides grâce à l'ajustement automatique des hyperparamètres et à la recherche de modèles avec les intégrations Hyperopt, Apache SparkTM et MLflow
- **Experiments Tracking**: suivre automatiquement les expériences et utiliser les visualisations intégrées pour voir et comparer les résultats de milliers d'essais, sélectionner les paramètres, les mesures et identifier le meilleur essai.
- **Model Registry**: enregistrer le modèle à mettre en production dans un seul endroit et gérer son cycle de vie de manière collaborative

## Monter un bucket AWS S3 sur Databricks

**L'analyse des données directement dans un entrepôt de données peut s'avérer coûteuse**, c'est pourquoi les entreprises recherchent d'autres plateformes capables de stocker et de traiter tout ou partie de leurs données. 

L'un de ces outils est **Amazon S3** qui est un service en ligne qui offre un **stockage flexible aux entreprises**. Son contrôle d'accès granulaire, son chargement de métadonnées et d'autres caractéristiques de ce type en font le premier choix de tous les analystes de données. Aujourd'hui, les entreprises **transfèrent des informations de Databricks vers S3 afin d'utiliser un espace de stockage évolutif à un prix inférieur**.

Pour monter un bucket AWS S3 sur Databricks, se référer au notebook suivant:
- Mount_AWS_S3_Bucket.ipynb

## Import des librairies

In [0]:
# from pyspark.sql.functions import col, pandas_udf, PandasUDFType, element_at, split
from pyspark.sql.functions import col, pandas_udf, PandasUDFType, element_at, split

## Preprocessing des données

### Chargement des données

Dans cette partie, j'ai enregistré sur l'espace de stockage de Databricks quelques dossiers de fruits comportants chacun 5 images afin de tester le script sur un jeu de données réduit dans un premier temps. J'avais uploadé des images sur Amazon S3 dans un premier temps mais cela revenait cher. Je profite de l'essai gratuit de Databricks pendant 14 jours pour l'élaboration du script avant de l'appliquer sur les données présentes sur S3.

In [0]:
# Dossiers présents dans FileStore
dbutils.fs.ls("/FileStore/tables/")

In [0]:
# Vérification du dossier où sont stockées les images
dbutils.fs.ls("/FileStore/tables/data/test_S3/")

Les différentes vues du fruit sont présentes dans des dossiers qui portent le nom du fruit. Nous allons **charger les données avec une extension.jpg**. \
Databricks recommande d'utiliser la source de données **fichier binaire** pour charger les données d'image dans le DataFrame Spark sous forme d'octets bruts.\
https://docs.databricks.com/external-data/image.html

Databricks prend en charge les fichiers binaires et convertit chacun d’eux en un enregistrement unique qui contient le **contenu brut et les métadonnées du fichier**. La source de données de fichier binaire produit un DataFrame avec les colonnes suivantes et éventuellement des colonnes de partition :
- **path (StringType)** : Chemin d'accès au fichier.
- **modificationTime (TimestampType)** : Heure de dernière modification de l'événement. Dans certaines implémentations Hadoop FileSystem, ce paramètre peut ne pas être disponible et la valeur est définie sur une valeur par défaut.
- **length (LongType)** : Longueur du fichier en octets.
- **content (BinaryType)** : Contenu du fichier.

In [0]:
# Chemin d'accès des données
path_data = "/FileStore/tables/data/test_S3/"

# lecture des fichiers jpg de manière récursive à partir du répertoire 
# d'entrée en ignorant la détection de la partition
images = spark.read.format("binaryFile") \ # lire les fichiers binaires
  .option("pathGlobFilter", "*.jpg") \ # lit tous les fichiers JPG du répertoire d’entrée
  .option("recursiveFileLookup", "true") \ # recherche de manière récursive le fichiers
  .load(path_data) # chargement

In [0]:
# 5 premières lignes du dataframe issu de la source de données de fichier binaire
images.show(5)

In [0]:
# Configure image path
sample_img_dir = "/FileStore/tables/data/test_S3/Apple Braeburn/"

# Chargement des images
df_img = spark.read.format("image").load(sample_img_dir)

# Affichage des images
display(df_img)

In [0]:
Testons l'affichage des photos du premier dossier.\


Le message d'erreur nous indique un chemin d'accès erroné: l'espace dans le nom du dossier a été remplacé par des caractères spéciaux. Nous allons dans un premier temps remplacer tous les espaces dans le nom des dossiers par un underscore.

In [0]:
images = images.withColumn('label', element_at(split(images['path'], '/'),-2))
print(images.printSchema())
print(images.select('path','label').show(5,False))

In [0]:
import os
path = "/FileStore/tables/data/test_S3/"
for foldername in os.listdir(path):
    print(filename)
    #os.rename(os.path.join(path,filename),os.path.join(path, filename.replace(' ', '_').lower())) 