# Introduction de base

## Création d'un RDD

### Interactivement à partir d'une structure

In [302]:
num1 = sc.parallelize([1,1,1,2,3,4,5,5,6,7,8,8,8])
num2 = sc.parallelize(xrange(4,11))
txt1 = sc.parallelize(['allo les amis', 'ne riez pas', 'de mon apprentissage'])

### Pointer vers un fichier

In [303]:
txt2 = sc.textFile("/etc/passwd")

Nombre d'éléments?

In [304]:
num1.count(), num2.count(), txt1.count(), txt2.count()

(13, 7, 3, 51)

## Transformations de base

### map()

__Utilité:__ applique une fonction sur chaque élément d'un RDD et retourne un RDD comme résultat.


In [305]:
num1.map(lambda x: x * x).collect()

[1, 1, 1, 4, 9, 16, 25, 25, 36, 49, 64, 64, 64]

In [306]:
txt1.map(lambda x: x.upper()).collect()

['ALLO LES AMIS', 'NE RIEZ PAS', 'DE MON APPRENTISSAGE']

### flatMap()

__Utilité:__ applique une fonction sur chaque élément d'un RDD et retourne un RDD contenant les entrées des itérateurs retournés par la fonction. Utile si on veut décomposer une chaîne en mots ou exploser une rangée.

In [307]:
txt1.flatMap(lambda x: x.split()).collect()


['allo', 'les', 'amis', 'ne', 'riez', 'pas', 'de', 'mon', 'apprentissage']

In [308]:
num1.flatMap(lambda x: xrange(5,x)).collect()

[5, 5, 6, 5, 6, 7, 5, 6, 7, 5, 6, 7]

### filter()
__Utilité:__ retourne un RDD qui consiste de seulement les éléments qui réussissent à un filtre passé à la fonction.

In [309]:
num1.filter(lambda x: x >= 5).collect()

[5, 5, 6, 7, 8, 8, 8]

In [310]:
txt1.filter(lambda ligne: "allo" in ligne).collect()

['allo les amis']

### distinct()
__Utilité:__ enlève les dupicas.

In [311]:
num1.distinct().collect()

[8, 4, 1, 5, 2, 6, 3, 7]

### sample(withReplacement, fraction, [seed])
__Utilité:__ échantillone un RDD, avec ou sans remplacement.

In [312]:
num1.count()

13

In [313]:
num1.collect() 

[1, 1, 1, 2, 3, 4, 5, 5, 6, 7, 8, 8, 8]

In [314]:
num1.sample(False, 0.5).collect()

[1, 7, 8, 8]

Tester avec distinct...

In [315]:
num1.distinct().count()

8

In [316]:
num1.distinct().collect()

[8, 4, 1, 5, 2, 6, 3, 7]

In [317]:
num1.distinct().sample(True, 0.5).collect()

[4, 4, 5, 5, 5, 2, 2, 3, 7]

##  Transformations sur 2 RDDs

In [318]:
num1.collect()

[1, 1, 1, 2, 3, 4, 5, 5, 6, 7, 8, 8, 8]

In [319]:
num2.collect()

[4, 5, 6, 7, 8, 9, 10]

### union()
__Utilité:__ produit un RDD contenantles éléments de 2 RDDs

In [320]:
num1.union(num2).collect()

[1, 1, 1, 2, 3, 4, 5, 5, 6, 7, 8, 8, 8, 4, 5, 6, 7, 8, 9, 10]

Il est bon de remarquer que, contrairement au SQL, l'union n'enlève pas les duplicas. C'est un peu l'équivalent d'un UNION ALL en SQL.

### intersection()
__Utilité:__ produit un RDD contenant seulement les éléments qui se retrouvent dans les 2 RDDs.

In [321]:
num1.intersection(num2).collect()

[8, 4, 5, 6, 7]

On peut voir que intersection() supprime aussi les duplicats.

### subtract()
__Utilité:__ enlève les éléments d'un RDD.

In [322]:
num1.subtract(num2).collect()

[1, 1, 1, 2, 3]

### cartesian()
__Utilité:__ crée un produit cartésien avec un autre RDD.

In [323]:
num1.cartesian(num2).top(10)

[(8, 10),
 (8, 10),
 (8, 10),
 (8, 9),
 (8, 9),
 (8, 9),
 (8, 8),
 (8, 8),
 (8, 8),
 (8, 7)]

Semble créer des tuples... :)

## Actions de base
Les actions déclenchent un réel traitement.

### collect()
__Utilité:__ retourne tous les éléments du RDD.


### count()
__Utilité:__ compte le nombre d'éléments dans le RDD.

### countByValue()
__Utilité:__ retourne le nombre de fois un élément apparait dans le RDD. La structure retournée est un dictionnaire de (valeur, nombre)


In [324]:
num1.countByValue()

defaultdict(<type 'int'>, {1: 3, 2: 1, 3: 1, 4: 1, 5: 2, 6: 1, 7: 1, 8: 3})

In [325]:
resultat = num1.countByValue()
print resultat.keys()

[1, 2, 3, 4, 5, 6, 7, 8]


### take(nb)
__Utilité:__ retourne un nombre de premiers éléments du RDD. Fonctionne par scan d'une partition et utilise les résultats de celle-ci pour estimer le nombre de partitions additionneles nécessaire pour satisfaire la limite. En tentant de minimiser le nombre de partitions accédées, cela peut retourner un résultat biaisé.


In [326]:
num1.take(5) 

[1, 1, 1, 2, 3]

### top(nb)
__Utilité:__ retourne le top nb elements.
Note: retourne la liste en ordre descendant.

In [327]:
num1.top(4)

[8, 8, 8, 7]

###  takeOrdered(nb)(ordre)
__Utilité:__ retourne un nombre d'éléments en ordre acendant ou comme spécifié par la fonction (optionnelle).

In [328]:
num2.takeOrdered(5)

[4, 5, 6, 7, 8]

In [329]:
num2.takeOrdered(5, key=str)

[10, 4, 5, 6, 7]

### takeSample(withReplacement, nb, [seed])
__Utilité:__ retourne un nombre d'éléments de manière aléatoire.

In [330]:
num1.takeSample(False, 30)

[5, 5, 7, 8, 1, 6, 4, 2, 8, 1, 1, 8, 3]

In [331]:
num1.count()

13

### reduce(func)
__Utilité:__ combine ensemble les éléments d'un RDD en parallèle avec une fonction cummulative and associative binaire.

In [332]:
num1.reduce(lambda x, y: x+y)

59

### fold(zero, func)
__Utilité:__ comme reduce(), mais avec une valeur zéro.

In [333]:
num1.fold(0, lambda x, y: x+y)


59

### aggregate(zeroValue, seqOp, combOp)
__Utilité:__ similaire à reduce() mais utilisé pour retourner un type différent.

http://spark.apache.org/docs/latest/api/python/pyspark.html?highlight=sample#pyspark.RDD.aggregate

Agrège les éléments de chaque partition, et ensuite les résultats de celles-ci en utilisant une fonction de combinaison et une valeur neutre (zero).

The functions op(t1, t2) is allowed to modify t1 and return it as its result value to avoid object allocation; however, it should not modify t2.

The first function (seqOp) can return a different result type, U, than the type of this RDD. Thus, we need one operation for merging a T into an U and one operation for merging two U.

In [334]:
# Valeur initiale
init = (0,0)

# Combinaisons à l'intérieur de la même partition...
# La partition est parcourue séquentiellement, x est l'accumulateur qui possède la même structure que notre valeur 
# initiale tandis que y est la valeur courante.

seqOp  = (lambda x, y: (x[0] + y, x[1] + 1))

# Combinaisons des résultats de partitions...

combOp = (lambda x, y: (x[0] + y[0], x[1] + y[1]))

# Procédons!
agg = num1.aggregate(init, seqOp, combOp)
agg

(59, 13)

In [335]:
# Calculer la moyenne
agg[0] / agg[1]

4

Cela retourne un couplet avec la somme et le nombre d'éléments agrégés.

### forEach(func)
__Utilité:__ Applique la fonction à chaque élément du RDD, ne retourne rien.

Sometimes it is useful to perform an action on all of the elements in the RDD, but
without returning any result to the driver program. A good example of this would be
posting JSON to a webserver or inserting records into a database. In either case, the
foreach() action lets us perform computations on each element in the RDD without
bringing it back locally.

In [336]:
tmp.foreach(lambda x: x * x)

## Conversion entre les types de RDD