In [None]:
import pyspark

En faisant appel à la méthode <code>SparkContext()</code> nous partons une session Spark, créant un objet qui encapsule tout le nécessaire pour ‘communiquer avec’ un cluster Spark. Il est une convention de nommer cet objet  <code>sc</code>. C’est ce que vous trouverez sur des exemples dans la documentation officielle de Spark, ainsi que ailleurs sur le web. 

In [None]:
sc = pyspark.SparkContext()

Maintenant que nous avons une session Spark active dans l’objet <code>sc</code>, nous sommes prêts pour créer des RDDs. Il y a deux façons pour créer un RDD. Ici, nous examinons la prémière: la méthode <code>parallelize</code>

In [None]:
# Let's create an RDD containing a small list with integers for elements:

some_numbers = [1,2,3,4,5,6,7,8,9,10]

my_first_rdd = sc.parallelize(some_numbers)

In [None]:
my_first_rdd

Qu’est-ce que nous avons fait?

Spark a pris notre liste de chiffres et l’a brisée en plusieurs morceaux. On nomme ces morceaux des **Partitions**. Chacune de ces partitions peut être manipulée de manière indépendante par des Executors, ce qui permet à Spark de ‘diviser pour mieux régner' et de réaliser des opérations de calcul sur vos données en parallèle!

In [None]:
# Regardons en combien de partitions Spark a divisé notre liste
my_first_rdd.

In [None]:
# Regardons ce qu'il y a dans nos partitions

my_first_rdd.

Le nombre de partitions est l’un des paramètres importants d’un programme Spark dont vous devez prendre connaissance. Divisez vos données en un nombre trop petit de partitions et Spark ne pourra pas faire autant d’opérations en parallèle que ce que le Hardware dans votre cluster le permettrait. Divisez vos données en un trop grand nombre de partitions et vous aurez des partitions vides, ou bien, vous ne profiterez pas complètement du parallélisme de Spark, car les Executors travailleront sur un grand nombre de petites tâches en séquence.

Ici, nous demandons à Spark d'utiliser 10 partitions:

In [None]:
my_first_rdd_repartitioned = my_first_rdd.
my_first_rdd_repartitioned.getNumPartitions()

L’API RDD continent deux types de méthodes: les **Transformations** et les **Actions**. Les Transformations sont des opérations sur des RDDs dont le résultat est un autre RDD. Les Actions sont des opérations sur des RDDs dont le résultat **n’est pas** un autre RDD. Dans la ligne ci-dessus, <code>repartition</code> est une Transformation et <code>getNumPartitions</code> est une Action. Voici quelques exemples pour voir ce concepte en pratique:

In [None]:
# Notre première 'vraie' transformation: additionons +1 à chaque chiffre dans notre liste:

my_first_rdd_repartitioned.

La méthode <code>map</code> applique une fonction à chaque élément de chaque partition d’un RDD. Le résultat nous dit que cela a retourné un autre RDD. Comment faire pour examiner le contenu de ce RDD? D’abord, il faut le transférer du Cluster au Driver.

In [None]:
# La méthode collect() transfert le contenu d'un RDD du Cluster au Driver, où nous pouvons le voir:

my_first_rdd_repartitioned.

Nos chiffres ne sont plus en ordre, mais nous avons toujours notre liste de chiffres de 1 à 10. Nous avions appliqué une transformation à notre RDD, ce qui a créé un nouveau RDD… mais nous ne pouvions pas l’utiliser, car il n’avait pas été stocké dans une variable!

In [None]:
# Les RDDs sont immuables! Notre transformation avait créé un autre RDD qui n'avait pas de 'nom' dans le Driver!

my_second_rdd = my_first_rdd.

my_second_rdd.

En créant des nouveaux RDDs à chaque transformation, Spark nous offre de la tolérance aux pannes! Spark enregistre chaque transformation dans un GAD. Si jamais il y a une panne dans un nœud au complet, ou dans un seul Executor, Spark peut immédiatement recalculer nos RDDs et nous ne perdons pas notre travail!

In [None]:
# Spark enregistre une lignée de nos transformations et peut les recalculer à tout moment en cas de panne!

my_second_rdd.

Mais attendons une minute… Spark produit des nouveaux RDDs à chaque Transformation, et nous avons vu que Spark garde nos données en mémoire… Est-ce que cela veut dire que nous remplirons la mémoire assez vite en appliquant des Transformations successivement? 

La réponse est NON! Spark fait de  ‘l’évaluation paresseuse’ (aussi appelée ‘appel par nécessité'). En d’autres mots, Spark enregistre tous nos transformations sur un GAD sans réellement faire aucun calcul et sans charger quoi que ce soit en mémoire avant qu’une **Action** ne soit appliqué à un RDD!

Regardons ce concept en action de manière intuitive, en appliquant une longue chaîne de Transformations à un RDD et en comptant le temps que cela va prendre... 

In [None]:
# Spark fait de l'evaluation paresseuse: Aucun calcul n'est fait avant qu'une Action ne soit appliqué à un RDD:

%time my_third_rdd = 

... L'output nous indique une opération pratiquement instantanée! Ajoutons une Action à la chaîne et mesurons le temps d'exécution:

In [None]:
#La méthode reduce() est une Action. Pour une liste complète des Actions sur Spark lisez: https://spark.apache.org/docs/latest/rdd-programming-guide.html#actions 

%time my_third_rdd.

Et voici des bonnes nouvelles pour ceux qui n'aiment pas la syntaxe ‘lambda function. Ceci marche aussi bien:’

In [None]:
%time my_third_rdd.

Les RDDs sont un concept très puissant et si vous devez vous rappeler d’une seule chose après l’atelier, ça devrait être ceci: RDDs sont une manière simple de faire du **Parallélisme de Donnée**.

En d’autres mots, vous pouvez écrire votre code presque exactement comme vous le feriez dans un programme serial (càd, pas parallèle) et Spark exécutera votre code sur des morceaux de votre jeu de données tous en même temps.

Tout ce que vous devez faire c’est d’envelopper votre code habituel avec un, ou plusieurs, des méthodes de l’API RDD et savoir ce qu’il y a dans les éléments des Partitions, ce qui vous permettra de choisir les bonnes méthodes à utiliser. Une fois que vous l’avez fait, Spark s’occupera de la partie 'Parallélisme de Donnée’!

Voici un exemple un peu plus complexe: utilisons Spark pour multiplier chaque élément d’un array numpy par un chiffre choisi aléatoirement!

Pourquoi est-ce plus complexe? Parce que nous ferons du Parallélisme de Donnée non pas sur un objet Python natif (comme une liste), mais un objet créé par une bibliothèque non-native: numpy. 

Commençons par créer l’objet: un array 1-d de 100 éléments.

In [None]:
import numpy as np

an_object = np.linspace(0,1,100)

In [None]:
an_object

In [None]:
my_new_rdd = sc.

Vous serez peut-être tentés à faire comme dans les examples précedents et faire ce que vous auriez fait normalement sans Spark:

In [None]:
my_new_rdd.

Cela ne marchera pas et vous aurez une erreur si vous roulez ce code sur un Cluster (et non pas sur un seul ordinateur). Pourquoi? Parce que nous avons importé la biliothèque <code>numpy</code> sur le Driver, mais nous voulons que les Executors puissent l'utiliser... nous devons dire aux Executors qu'ils doivent importer numpy aussi!

In [None]:
def multiply_by_random(x):
   

In [None]:
my_new_rdd.

Ça devrait avoir marché! Mais est-ce la meilleure façon de le faire? Rappelez-vous: la méthode <code>map</code> applique n'importe quoi que vous lui donnez comme argument à chaque élément de chaque partition!

Est-ce que cela veut dire que nous avons importé <code>numpy</code> 100 fois dans notre example? 

Oui!

Voilà une bonne opportunité pour parler d'une autre Transformation très utile: 

In [None]:
def partition_multiply_by_random(x):
   

In [None]:
my_new_rdd.

La méthode <code>mapPartition</code> applique ce que vous lui donnez comme argument à chaque **Partition**, mais avec une différence importante: votre fonction doit itérer sur les éléments de la Partition. Donc, en pratique, cette méthode appliquera, elle aussi, votre fonction aux éléments s'une Partition, mais vous aurez plus de fléxibilité pour faire des choses comme importer une biliothèque seulement une fois par Partition... ou n'importe quoi d'autre qui ne doit pas être executé à repetition pour chaque élément d'une Partition. 

**Avis important:** si votre code importe des bibliothèques, vous devez vous certifier qu'elles sont installés dans tous les noeuds du Cluster! En général cela veut dire que vous devez demander à votre administrateur de le faire pour vous...

Nous verons d'autres options pour passer les dépandances de votre code au Cluster dans la 2eme journée d'atelier!

## Example guidé  1 - Analyse des logs du site web de la NASA

Jusqu’à présent nous avons vu des exemples simples pour montrer le fonctionnement de l’API RDD et de quelques de ses Transformations et Actions. Examinons maintenant un exemple plus proche de la réalité: prenons un fichier ‘semi-structuré’ relativement gros et transformons-le en quelque chose qu’un Data Scientist serait prêt à utiliser. Tant qu’à le faire, nous allons nous servir de Spark pour  un peu de Data Science avec ces données en même temps.

Ce fichier est un log standard d’un webserver Apache. Dedans, nous trouverons un mois au complèt de logs d’accès au site de la NASA dans l’année lointaine de 1995.

Le log contient l’information suivante:

1. L’adresse IP ou le nom DNS à l’origine de l’accèst
2. L’horodatage de l’accès en format "dd/Mon/YYYY:hh:mm:ss Timezone"
3.Le type de requête (méthode HTTP) et l’adresse de la ressource demandée, ainsi que la version du protocole utilisé. 
4.Le code de statut retourné par le serveur (200 OK, 404 Not Found etc...)
5. La taille de la ressource.

Nous utiliserons la méthode <code>textFile</code> pour charger le fichier. Cette méthode, tout comme la méthode <code>parallelize</code>, transforme les données dans le fichier en RDD. Il y a deux choses importantes à savoir à propos de cette méthode:

Dans un vrai cluster Spark, l’endroit où le fichier est stocké (l’argument que nous allons passer à la méthode <code>textFile</code>) doit être visible et accessible à tous les nœuds du cluster. Très souvent, cet endroit sera un path dans un Hadoop Distributed File System (HDFS), mais ça pourrait également être n’importe quel Système d’Archives sur Réseau, un path monté sur tous les noeuds, un bucket sur Amazon S3… tant que l’endroit soit visible et accessible sur tous les noeuds! 
Cette méthode transforme **chaque ligne** du fichier en un élément d’une Partition. Donc, **peu importe le format du fichier**, quand il est transformé en RDD, **chaque ligne** (démarquée par un ‘\n’) devient un élément d’une Partition.

Sans plus attendre, passons à l'example!

In [None]:
nasa_logs = sc.textFile('../../data/NASA_access_log_Jul95.gz')

Un bon prémier pas dans n'importe quel problème d'analyse de données c'est de les regarder pour avoir une idée de la nature du problème. L'API RDD contient l'Action <code>take</code>, qui nous permet de transferer un nombre limité d'éléments (rappelez-vous: un élément dans cet exemple est une ligne du fichier original) du Cluster au Driver où nous pouvons les voir. Il est important de ne pas transferer trop d'éléments au Driver, car vous pourrez dépasser sa capacité en mémoire!

In [None]:
nasa_logs.take(5)

Une autre bonne pratique c'est de compter le nombre total d'éléments pour avoir une idée de la taille du problème. Nous pouvons nous servir de la méthode <code>count</code> pour le faire:

In [None]:
nasa_logs.count()

Maintenant que nous avons vu de quoi nos données ont l'air, séparer non données en morceaux délimités par un ' ' (espace) semble un bon premier pas:

In [None]:
nasa_logs.

Ensuite, disons que nous ne sommes pas intéressées par les lignes où il y a des données manquantes. En d'autres mots, nous voulons garder seulement les lignes où tous les 10 éléments sont présents. Nous nous servirons de la méthode <code>filter</code> pour filtrer tous les lignes où nous n'avons pas tous les 10 éléments:

In [None]:
nasa_logs.

Nous disons que les logs d'un webserver sont 'semi-structurés' pour une raison: nous pouvons être pas mal certains que chaque ligne aura le même format. Cela veut dire que tous les élément dans nos Partitions se ressembleront  entre eux après notre premier pas. Nous pouvons aussi être certains que les mêmes caractères dont nous n'avons pas besoin se trouveront dans les éléments de toutes les Partitions de notre RDD. Le prochain pas sera de les éliminer:

In [None]:
nasa_logs_structured = 

Vous vous demandez peut-être si utiliser la méthode <code>take</code> constantment pour examiner nos résultats est une bonne idée... et la réponse est non. À chaque fois que nous l'utilisons, Spark crée doit 'materializer' un nouveau RDD et, pour ce faire, le CLuster doit travailler. Dans la vraie vie, vous aurez rarement un Cluster Spark entièrement pour vous. Vous devez alors essayer de minimizer le nombre de fois où vous demandez au Cluster de travailler et, par consequence, vous devez minimizer le nombre de fois où vous demandez au Cluster de passer des données au Driver.

Donc, en pratique, un idée serait d'utiliser la méthode <code>sample</code> pour extraire un échantillon de vos données et les examiner dans le Driver. Une fois que vous aurez une bonne idée de ce que votre code devra faire avec ces données, vous pourrez passer au Cluster. La méthode <code>take</code> fonctionnerait bien aussi, mais utiliser un échantillon aléatoire au lieu des premiers N éléments de votre RDD est presque toujours une meilleure idée.

In [None]:
# Ici nous prenons 0.001% du RDD en échantillon. Dans un jeu de Megadonnées, même cette petite proportion peut signifier une quantité massive de données que votre Driver ne pourra pas charger!

local_sample = nasa_logs.sample(withReplacement=False,fraction=0.0001).collect()

print(local_sample)

Notre RDD devrait maintenant contenir les éléments suivants: IP/NAME_OF_ORIGIN, DATE/TIME, TIMEZONE, REQUEST_METHOD, RESOURCE_REQUESTED, PROTOCOL, STATUS_CODE, SIZE_OF_RESOURCE

Ça resemble pas mal à un fichier CSV, le format préféré des Data Scientists!

Nous pouvons donc sauvegarder nos données dans un endroit où votre équipe de Data Scientists pourra aller les chercher.

Malheureusement, l'API RDD n'a pas de méthode pour écrire des fichiers CSV directement: nous devrons ajouter les virgules et forcer notre RDD à devenir un CSV avant de le sauvegarder:

In [None]:
def CSVfy(rdd_element):
  

nasa_logs_structured.map(CSVfy).take(5)

In [None]:
csv_to_be_saved = nasa_logs_structured.map(CSVfy)

csv_to_be_saved.saveAsTextFile('nasa_logs.csv')

La méthode <code>saveAsTextFile</code> a les mêmes particularités que son cousin <code>textFile</code>: l'endroit ou vous souhaitez sauvegarder vos données doit être visible et accessible sur tous les noeuds du Cluster. Comme avant, cet endroit sera tipiquement un path sur un Hadoop DFS.

Si vous ne souhaitez pas sauvegarder vos données dans un Système d'Archives Distribué comme HDFS, vous pouvez toujours utiliser la méthode <code>collect</code> pour apporter la totalité de votre RDD au Driver, où vous pouvez sauvegarder les données dans votre disque local en utilisant vos fonctions ou bibliothèques préférées sans vous soucier avec Spark. Mais encore là, le point d'avoir un cluster Spark est de pouvoir travailler avec des quantités massives de données qui ne rentreraient pas nécessairement dans votre disque local.

Vous vous demandez peut-être 'comment ça se fait que Spark n'a pas de méthode to_csv() comme padas pour écrire des CSV directement?', en remarquant que notre solution ne fonctionerait surement pas s'il y avait des virgules **à l'interieur des éléments** de notre RDD.

Vous auriez raison.

Il se trouve que Spark **a** en fait une méthode pour écrire des CSVs. Cette méthode est capable de gérer des  caractères speciaux, guillemets, virgules et tous les autres problèmes communs quand il est question de travailler avec des CSVs. Cette méthode n'est pas dans API RDD toutefois, mais dans l'API SparkSQL, dont nous parlerons à la 2eme journée de l'atelier.

Mais ça suffit de parler de CSVs pour le moment! Profitons de notre RDD fraichement structuré pour voir si nous serions capables faire un peu de Data Science directement sur Spark avec l'API RDD! Trouvons d'où est venu le plus grand nombre d'accèes au site de la NASA dans note jeu de données.

Pour le faire, rappelons-nous de la discussion sur la plateforme Hadoop et servons-nous d'un peu de Map-Reduce:

In [None]:
# Prenons chaque ligne de notre log structuré et créons une pair clé-valeur

nasa_logs_structured.

In [None]:
# Contrairement à reduce(), reduceByKey() n'est pas une Action!

nasa_logs_structured.

## Exercise 1 - à quelle date la NASA a eu le plus de traffic?

C'est votre tour! Prenez notre RDD <code>nasa_logs_structured</code> et trouvez l'horodatage du moment où le web serveur a enregistré le plus haut montant de données servis. Si vous voulez un défi, essayez de trouver le **Jour** où le serveur a servi le plus de données!



HINT: Quelques requêtes ne routernent aucune donnée, la taille de la ressource dans ces cas est "-".

HINT2: Tous les éléments dans notre RDD sont des Strings... 

In [None]:
nasa_logs_structured.persist()

In [None]:
nasa_logs_structured.is_cached

In [None]:
nasa_logs_structured.

## Exercise 2 - Quelle ressource a eu le plus de accès uniques?

Êtes-vous capables de trouver quel ressource de la NASA a eu le plus de visiteurs ou requêtes dans notre jeu des données?

HINT: La méthode <code>distinct</code> fais exactement ce que son nom suggère.


In [None]:
nasa_logs_structured.

## Exercise 3 - Word count

Si nous prenons l'élément de notre RDD où se trouvent les noms de ressources et que nous remplaçons les "/"s et les "."s par des " "s, nous avons des 'mots'. Combien de mots avons-nous dans le jeu de données et quel est le mot le plus fréquent?

HINT: Le code du programe word count est sur nos slides!
HINT2: Utilisez la méthode <code>count</code>.

In [None]:
words = nasa_logs_structured.

In [None]:
words.

Example guidé 2 - Une nuit au musée

L'API RDD est très puissante, mais seule elle a des serieuses limites. Ironiquement, une des plus grosses limites est son utilité quand il est question de données structurées... comme des fichiers CSV. 

Nous avons eu un aperçu de ce problème avec l'example du site web de la NASA. Maintenant nous nous tournons vers un CSV plus representatif de la vraie vie pour l'illustrer et nous profiterons pour voir pour la première fois l'API SparkSQL en action.  

Le fichier ci-dessous contient des données sur toutes les pièces d'art du Metropolitan Museum of Art à New York. Tel que nous l'avons déjà vu, l'API RDD chargera des fichiers de n'importe quel format comme un fichier texte commun.

In [None]:
museum_data = sc.textFile('../../data/MetObjects.csv.gz')

In [None]:
museum_data.take(5)

In [None]:
museum_data.count()

In [None]:
museum_data_split = museum_data.map(lambda line : line.split(","))

In [None]:
museum_data_split.take(1)

In [None]:
from pyspark.sql import SQLContext

In [None]:
sqlContext = SQLContext(sc)

In [None]:
museum_dataframe = sqlContext.read.options(header='true').csv('../../data/MetObjects.csv.gz')

In [None]:
museum_dataframe

In [None]:
museum_dataframe.head(1)