# Exercice 1: Apprendre à manipuler les RDD

## Programmation des RDD avancées 1/4

### Installer les librairies nécessaire

In [1]:
#Installer pyspark
!pip install pyspark



In [2]:
#Installer findspark pour rendre pyspark importable en tant que bibliothèque
!python -m pip install findspark



### Importation

In [4]:
#Import
import pyspark
import findspark
from pyspark.sql import SparkSession
from pyspark import SparkContext

In [5]:
#Initialisation de findspark
findspark.init()

In [6]:
#Création du SparkSession
spark = SparkSession.builder.appName("Exemple Spark").getOrCreate()
sc = SparkContext.getOrCreate()

### Map

**Objectif de la fonction**: La fonction map() applique une fonction donnée à chaque élément d'un itérable et retourne une liste des résultats

In [7]:
#Création du RDD pour référencer le fichier
rdd = sc.textFile(r"C:\Users\yohan\OneDrive\Bureau\Formations\Cours\Spark\")

In [8]:
#Afficher le rdd
rdd.collect()

["Bonjour, ceci est un test pour l'exercice sur SPARK."]

In [9]:
#Transformer le texte en majuscule
upper = rdd.map(lambda x: x.upper())

In [10]:
#Afficher le rdd
upper.collect()

["BONJOUR, CECI EST UN TEST POUR L'EXERCICE SUR SPARK."]

### FlatMap

**Objectif de la fonction**: Le flatMap() est défini comme l'opération de transformation qui aplatit le Resilient Distributed Dataset ou DataFrame (c'est-à-dire les colonnes de tableau/map DataFrame) après avoir appliqué la fonction sur chaque élément et renvoie ensuite le nouveau PySpark RDD ou DataFrame.

**Différence avec Map**: flatMap, comme on peut le deviner par son nom, est la combinaison de Map et de Flat. Cela signifie que l'on applique d'abord une fonction aux éléments, puis qu'on les aplatis. Alors que Map applique uniquement une fonction sans aplatir.

In [11]:
#Création du RDD avec une liste
rdd = sc.parallelize(["mot1 mot2","mot3 mot4","mot5 mot6"])

In [12]:
#Obtenir une liste de chaque mot avec Map
map_fun = rdd.map(lambda x: x.split(" "))

In [13]:
#Afficher le rdd
map_fun.collect()

[['mot1', 'mot2'], ['mot3', 'mot4'], ['mot5', 'mot6']]

In [14]:
#Obtenir une liste de chaque mot avec flatMap
flatmap_fun = rdd.flatMap(lambda x: x.split(" "))

In [15]:
#Afficher le rdd
flatmap_fun.collect()

['mot1', 'mot2', 'mot3', 'mot4', 'mot5', 'mot6']

### Filter

**Objectif de la fonction**: On peut créer un nouvel itérateur à partir d’un itérateur existant comme une liste ou un dictionnaire en filtrant efficacement les éléments en utilisant une fonction qu'on lui fournit. La fonction filter() fournit un moyen de filtrer les valeurs qui peut souvent être plus efficace que la compréhension d’une liste, en particulier lorsqu'on travaille avec des ensembles de données plus importants.

In [16]:
#Création du RDD avec une liste de prénoms
rdd = sc.parallelize([ "Pierre", "Alpha", "Mehdi", "Jean-Pierre", "Thierry"])

In [17]:
#Chercher les prénoms composés dans cette liste à l’aide de la méthode filter
prenom_comp = rdd.filter(lambda x : ('-' in x))

In [18]:
#Afficher le rdd
prenom_comp.collect()

['Jean-Pierre']

### Distinct

**Objectif de la fonction**: Renvoie un nouveau RDD contenant les éléments distincts de ce RDD.

In [19]:
#Création du RDD avec une liste de prénoms
rdd = sc.parallelize([ "Pierre", "Alpha", "Mehdi", "Jean-Pierre", "Thierry", "Pierre"])

In [20]:
#Supprimer les doublons de la liste 
doublon = rdd.distinct()

In [21]:
#Afficher le rdd
doublon.collect()

['Thierry', 'Pierre', 'Mehdi', 'Alpha', 'Jean-Pierre']

### Groupby

**Objectif de la fonction**: Retourne un RDD avec les items groupés

In [22]:
#Création du RDD avec une liste de prénoms
rdd = sc.parallelize([ "Pierre", "Alpha", "Mehdi", "Jean-Pierre", "Thierry", "Pascal"])

In [23]:
#Regrouper sur chaque premier élément de chaque caractère de la liste suivante
group = rdd.groupBy(lambda x: x[0])

In [24]:
#Afficher le rdd
group.collect()

[('J', <pyspark.resultiterable.ResultIterable at 0x1b1c8f24d60>),
 ('A', <pyspark.resultiterable.ResultIterable at 0x1b1c8f25210>),
 ('M', <pyspark.resultiterable.ResultIterable at 0x1b1c8f25270>),
 ('P', <pyspark.resultiterable.ResultIterable at 0x1b1c8f252d0>),
 ('T', <pyspark.resultiterable.ResultIterable at 0x1b1c8f25330>)]

In [25]:
result = group.collect()
sorted([(x, sorted(y)) for (x, y) in result])

[('A', ['Alpha']),
 ('J', ['Jean-Pierre']),
 ('M', ['Mehdi']),
 ('P', ['Pascal', 'Pierre']),
 ('T', ['Thierry'])]

### Sample

**Objectif de la fonction**: Renvoie un sous-ensemble échantillonné de ce RDD.

In [26]:
#Création du RDD avec une liste de 1 à 999999
rdd = sc.parallelize(range(1, 1000000), 1)

In [27]:
#Prendre un échantillon de 50% sur une tranche de 1 à 999999
sample = rdd.sample(False, 0.5, 42)

In [28]:
#Afficher le rdd
sample.collect()

[1,
 2,
 4,
 5,
 8,
 11,
 14,
 15,
 17,
 18,
 19,
 26,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 41,
 42,
 43,
 44,
 48,
 50,
 51,
 58,
 59,
 60,
 61,
 62,
 65,
 67,
 69,
 70,
 71,
 73,
 76,
 77,
 80,
 81,
 82,
 85,
 86,
 87,
 92,
 96,
 98,
 99,
 100,
 103,
 105,
 108,
 111,
 116,
 117,
 118,
 122,
 123,
 126,
 127,
 128,
 131,
 132,
 134,
 136,
 137,
 140,
 141,
 144,
 146,
 147,
 148,
 150,
 151,
 152,
 154,
 157,
 158,
 160,
 161,
 164,
 167,
 168,
 169,
 170,
 171,
 175,
 176,
 177,
 179,
 180,
 181,
 182,
 183,
 184,
 186,
 189,
 195,
 196,
 197,
 198,
 199,
 200,
 202,
 204,
 205,
 210,
 211,
 216,
 220,
 222,
 223,
 226,
 227,
 229,
 232,
 236,
 238,
 239,
 241,
 242,
 244,
 245,
 248,
 249,
 250,
 254,
 255,
 261,
 263,
 266,
 267,
 268,
 270,
 273,
 275,
 276,
 279,
 280,
 281,
 282,
 285,
 288,
 289,
 290,
 296,
 297,
 298,
 303,
 304,
 305,
 308,
 310,
 316,
 318,
 323,
 325,
 328,
 330,
 331,
 333,
 334,
 335,
 336,
 339,
 341,
 345,
 347,
 349,
 350,
 351,
 353,
 356,
 358,
 360

In [29]:
#Afficher le nombre d'échantillon
sample.count()

499823

## Programmation des Rdds avancées 2/4

### Union

**Objectif de la fonction**: Renvoie l'union de ce RDD et d'un autre.

In [30]:
rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize([3, 4, 5])

In [31]:
Union = rdd1.union(rdd2)

In [32]:
Union.collect()

[1, 2, 3, 3, 4, 5]

### Intersection

**Objectif de la fonction**: Renvoie l'intersection de ce RDD et d'un autre. La sortie ne contiendra aucun élément en double, même si les RDD d'entrée en contenaient.
Cette méthode effectue un shuffle en interne.

In [33]:
rdd1.intersection(rdd2).collect()

[3]

### Substract

**Objectif de la fonction**: Renvoie chaque valeur de l'un qui n'est pas contenue dans l'autre.

In [34]:
rdd1.subtract(rdd2).collect()

[1, 2]

### Cartesian

**Objectif de la fonction**: 
Renvoie le produit cartésien de ce RDD et un autre, c'est-à-dire le RDD de toutes les paires d'éléments (a, b)

In [35]:
sorted(rdd1.cartesian(rdd2).collect())

[(1, 3), (1, 4), (1, 5), (2, 3), (2, 4), (2, 5), (3, 3), (3, 4), (3, 5)]

### Reduce

**Objectif de la fonction**: Réduit les éléments de ce RDD à l'aide de l'opérateur binaire commutatif et associatif spécifié. Réduit actuellement les partitions localement.

In [36]:
rdd = sc.parallelize(range(1, 6))

In [37]:
from operator import add
rdd.reduce(add)

15

**Particularité de la fonction**:   

- Besoin d'un import pour faire le calcul,   
- Pas besoin de collect pour afficher le résultat

## Programmation des Rdds avancées 3/4 

### Création d’un pair rdd : map() et keyBy()

**Objectif de la fonction keyby**: Crée des tuples des éléments de ce RDD en appliquant une fonction. 

In [38]:
rdd = sc.parallelize(["cle1 valeur1", "cle2 valeur2", "cle3 valeur3"])

In [39]:
pair = rdd.map(lambda x: (x.split(" ")[0]))

In [40]:
pair.collect()

['cle1', 'cle2', 'cle3']

In [41]:
pair_keyby = rdd.keyBy(lambda x:(x.split(" ")[0]))

In [42]:
pair_keyby.collect()

[('cle1', 'cle1 valeur1'), ('cle2', 'cle2 valeur2'), ('cle3', 'cle3 valeur3')]

### groupByKey

**Objectif de la fonction**: Regroupe les valeurs de chaque clé du RDD en une seule séquence. 

In [43]:
rdd = sc.parallelize(["0 , 11","1 , 11","0 , 4","2 , 8","1 , 1","9 , 8"])

In [44]:
pairs = rdd.map(lambda x: (x.split(" ")[0], (x.split(" ")[2])))

In [45]:
pairs.collect()

[('0', '11'), ('1', '11'), ('0', '4'), ('2', '8'), ('1', '1'), ('9', '8')]

In [46]:
sorted(pairs.groupByKey().collect())

[('0', <pyspark.resultiterable.ResultIterable at 0x1b1c8f25900>),
 ('1', <pyspark.resultiterable.ResultIterable at 0x1b1ca2894e0>),
 ('2', <pyspark.resultiterable.ResultIterable at 0x1b1ca288880>),
 ('9', <pyspark.resultiterable.ResultIterable at 0x1b1ca2883a0>)]

### reduceByKey

**Objectif de la fonction**: Fusionne les valeurs de chaque clé à l'aide d'une fonction de réduction associative et commutative.
La sortie sera partitionnée avec des partitions numPartitions, ou le niveau de parallélisme par défaut si numPartitions n'est pas spécifié. Le partitionneur par défaut est hash-partition.

In [47]:
sorted(pairs.reduceByKey(add).collect())

[('0', '114'), ('1', '111'), ('2', '8'), ('9', '8')]

### mapValues

**Objectif de la fonction**: Transmettez chaque valeur de la paire clé-valeur RDD via une fonction de mappage sans modifier les clés ; cela conserve également le partitionnement du RDD d'origine.

In [48]:
def f(x): 
    return len(x)
pairs.mapValues(f).collect()

[('0', 2), ('1', 2), ('0', 1), ('2', 1), ('1', 1), ('9', 1)]

In [49]:
pairs.mapValues(lambda x: int(x)**2).collect()

[('0', 121), ('1', 121), ('0', 16), ('2', 64), ('1', 1), ('9', 64)]

### Keys/Values

In [50]:
keys = rdd.map(lambda x: (x.split(" ")[0]))

In [51]:
keys.collect()

['0', '1', '0', '2', '1', '9']

In [74]:
pairs.keys().collect()

['0', '1', '0', '2', '1', '9']

In [52]:
values = rdd.map(lambda x: (x.split(" ")[2]))

In [53]:
values.collect()

['11', '11', '4', '8', '1', '8']

In [75]:
pairs.values().collect()

['11', '11', '4', '8', '1', '8']

## sortByKey

**Objectif de la fonction**: Trie ce RDD, qui est supposé être composé de paires (clé, valeur).

In [54]:
pairs.sortByKey().first()

('0', '11')

In [55]:
pairs.sortByKey(True).collect()

[('0', '11'), ('0', '4'), ('1', '11'), ('1', '1'), ('2', '8'), ('9', '8')]

## Programmation des Rdds avancées 4/4 

### Join

**Objectif de la fonction**: Renvoie un RDD contenant toutes les paires d'éléments avec des clés correspondantes dans self et other. Chaque paire d'éléments sera renvoyée sous la forme d'un tuple (k, (v1, v2)), où (k, v1) est dans self et (k, v2) est dans other.

In [56]:
rdd1 = sc.parallelize(["a , 1", "b , 10", "c , 4"])
rdd2 = sc.parallelize(["d , 6", "e , 1", "a , 9"])

In [57]:
pairs1 = rdd1.map(lambda x: (x.split(" ")[0], (x.split(" ")[2])))

In [58]:
pairs2 = rdd2.map(lambda x: (x.split(" ")[0], (x.split(" ")[2])))

In [59]:
sorted(pairs1.join(pairs2).collect())

[('a', ('1', '9'))]

### rightOuterJoin

**Objectif de la fonction**: Effectue une jointure externe droite de self et autre.
Pour chaque élément (k, w) dans other, le RDD résultant contiendra soit toutes les paires (k, (v, w)) pour v dans this, soit la paire (k, (None, w)) si aucun élément dans self avoir la clé k.


In [76]:
sorted(pairs1.rightOuterJoin(pairs2).collect())

[('a', ('1', '9')), ('d', (None, '6')), ('e', (None, '1'))]

### leftOuterJoin

**Objectif de la fonction**: Effectue une jointure externe gauche de self et autre.

Pour chaque élément (k, v) dans self, le RDD résultant contiendra soit toutes les paires (k, (v, w)) pour w dans other, soit la paire (k, (v, None)) si aucun élément dans other avoir la clé k.

In [77]:
sorted(pairs1.leftOuterJoin(pairs2).collect())

[('a', ('1', '9')), ('b', ('10', None)), ('c', ('4', None))]

### fullOuterJoin

**Objectif de la fonction**:Effectuez une jointure externe droite de self et autre.

Pour chaque élément (k, v) dans self, le RDD résultant contiendra soit toutes les paires (k, (v, w)) pour w dans other, soit la paire (k, (v, None)) si aucun élément dans other a la clé k.

De même, pour chaque élément (k, w) dans other, le RDD résultant contiendra soit toutes les paires (k, (v, w)) pour v dans self, soit la paire (k, (None, w)) si aucun élément de self ont la clé k.

In [78]:
sorted(pairs1.fullOuterJoin(pairs2).collect())

[('a', ('1', '9')),
 ('b', ('10', None)),
 ('c', ('4', None)),
 ('d', (None, '6')),
 ('e', (None, '1'))]

# Exercice 2:

In [64]:
rdd = sc.textFile(r"C:/Users/yohan/OneDrive/Bureau/Formations/Cours/Spark/Exercices_RDD/fakefriends.csv")

In [65]:
rdd.collect()

['0,Will,33,385',
 '1,Jean-Luc,26,2',
 '2,Hugh,55,221',
 '3,Deanna,40,465',
 '4,Quark,68,21',
 '5,Weyoun,59,318',
 '6,Gowron,37,220',
 '7,Will,54,307',
 '8,Jadzia,38,380',
 '9,Hugh,27,181',
 '10,Odo,53,191',
 '11,Ben,57,372',
 '12,Keiko,54,253',
 '13,Jean-Luc,56,444',
 '14,Hugh,43,49',
 '15,Rom,36,49',
 '16,Weyoun,22,323',
 '17,Odo,35,13',
 '18,Jean-Luc,45,455',
 '19,Geordi,60,246',
 '20,Odo,67,220',
 '21,Miles,19,268',
 '22,Quark,30,72',
 '23,Keiko,51,271',
 '24,Julian,25,1',
 '25,Ben,21,445',
 '26,Julian,22,100',
 '27,Leeta,42,363',
 '28,Martok,49,476',
 '29,Nog,48,364',
 '30,Keiko,50,175',
 '31,Miles,39,161',
 '32,Nog,26,281',
 '33,Dukat,53,197',
 '34,Jean-Luc,43,249',
 '35,Beverly,27,305',
 '36,Kasidy,32,81',
 '37,Geordi,58,21',
 '38,Deanna,64,65',
 '39,Morn,31,192',
 '40,Odo,52,413',
 '41,Hugh,67,167',
 '42,Brunt,54,75',
 '43,Guinan,58,345',
 '44,Nerys,35,244',
 '45,Dukat,52,77',
 '46,Morn,25,96',
 '47,Brunt,24,49',
 '48,Nog,20,1',
 '49,Ezri,40,254',
 '50,Quark,51,283',
 '51,Lwaxa

In [79]:
moy_age = rdd.map(lambda x: (x.split(',')[2], int(x.split(',')[3])))

In [80]:
from statistics import mean
sorted(moy_age.groupByKey().mapValues(mean).collect())

[('18', 343.375),
 ('19', 213.27272727272728),
 ('20', 165),
 ('21', 350.875),
 ('22', 206.42857142857142),
 ('23', 246.3),
 ('24', 233.8),
 ('25', 197.45454545454547),
 ('26', 242.05882352941177),
 ('27', 228.125),
 ('28', 209.1),
 ('29', 215.91666666666666),
 ('30', 235.8181818181818),
 ('31', 267.25),
 ('32', 207.9090909090909),
 ('33', 325.3333333333333),
 ('34', 245.5),
 ('35', 211.625),
 ('36', 246.6),
 ('37', 249.33333333333334),
 ('38', 193.53333333333333),
 ('39', 169.28571428571428),
 ('40', 250.8235294117647),
 ('41', 268.55555555555554),
 ('42', 303.5),
 ('43', 230.57142857142858),
 ('44', 282.1666666666667),
 ('45', 309.53846153846155),
 ('46', 223.69230769230768),
 ('47', 233.22222222222223),
 ('48', 281.4),
 ('49', 184.66666666666666),
 ('50', 254.6),
 ('51', 302.14285714285717),
 ('52', 340.6363636363636),
 ('53', 222.85714285714286),
 ('54', 278.0769230769231),
 ('55', 295.53846153846155),
 ('56', 306.6666666666667),
 ('57', 258.8333333333333),
 ('58', 116.545454545454

# Exercice 3

In [81]:
rdd = sc.textFile(r"C:/Users/yohan/OneDrive/Bureau/Formations/Cours/Spark/Exercices_RDD/1800.csv")

In [83]:
rdd.take(5)

['ITE00100554,18000101,TMAX,-75,,,E,',
 'ITE00100554,18000101,TMIN,-148,,,E,',
 'GM000010962,18000101,PRCP,0,,,E,',
 'EZE00100082,18000101,TMAX,-86,,,E,',
 'EZE00100082,18000101,TMIN,-135,,,E,']

In [84]:
Min = rdd.filter(lambda x: 'TMIN' in x)

In [85]:
Min.collect()

['ITE00100554,18000101,TMIN,-148,,,E,',
 'EZE00100082,18000101,TMIN,-135,,,E,',
 'ITE00100554,18000102,TMIN,-125,,,E,',
 'EZE00100082,18000102,TMIN,-130,,,E,',
 'ITE00100554,18000103,TMIN,-46,,I,E,',
 'EZE00100082,18000103,TMIN,-73,,,E,',
 'ITE00100554,18000104,TMIN,-13,,,E,',
 'EZE00100082,18000104,TMIN,-74,,,E,',
 'ITE00100554,18000105,TMIN,-6,,,E,',
 'EZE00100082,18000105,TMIN,-58,,,E,',
 'ITE00100554,18000106,TMIN,13,,,E,',
 'EZE00100082,18000106,TMIN,-57,,,E,',
 'ITE00100554,18000107,TMIN,10,,,E,',
 'EZE00100082,18000107,TMIN,-50,,,E,',
 'ITE00100554,18000108,TMIN,14,,,E,',
 'EZE00100082,18000108,TMIN,-31,,,E,',
 'ITE00100554,18000109,TMIN,23,,,E,',
 'EZE00100082,18000109,TMIN,-46,,,E,',
 'ITE00100554,18000110,TMIN,31,,,E,',
 'EZE00100082,18000110,TMIN,-75,,,E,',
 'ITE00100554,18000111,TMIN,41,,,E,',
 'EZE00100082,18000111,TMIN,-62,,,E,',
 'ITE00100554,18000112,TMIN,29,,,E,',
 'EZE00100082,18000112,TMIN,-60,,,E,',
 'ITE00100554,18000113,TMIN,13,,,E,',
 'EZE00100082,18000113,TMIN,-

In [86]:
Max = rdd.filter(lambda x: 'TMAX' in x)

In [87]:
Max.collect()

['ITE00100554,18000101,TMAX,-75,,,E,',
 'EZE00100082,18000101,TMAX,-86,,,E,',
 'ITE00100554,18000102,TMAX,-60,,I,E,',
 'EZE00100082,18000102,TMAX,-44,,,E,',
 'ITE00100554,18000103,TMAX,-23,,,E,',
 'EZE00100082,18000103,TMAX,-10,,,E,',
 'ITE00100554,18000104,TMAX,0,,,E,',
 'EZE00100082,18000104,TMAX,-55,,,E,',
 'ITE00100554,18000105,TMAX,10,,,E,',
 'EZE00100082,18000105,TMAX,-40,,,E,',
 'ITE00100554,18000106,TMAX,13,,,E,',
 'EZE00100082,18000106,TMAX,-39,,,E,',
 'ITE00100554,18000107,TMAX,31,,,E,',
 'EZE00100082,18000107,TMAX,-30,,,E,',
 'ITE00100554,18000108,TMAX,29,,,E,',
 'EZE00100082,18000108,TMAX,-1,,,E,',
 'ITE00100554,18000109,TMAX,35,,,E,',
 'EZE00100082,18000109,TMAX,5,,,E,',
 'ITE00100554,18000110,TMAX,46,,,E,',
 'EZE00100082,18000110,TMAX,-46,,,E,',
 'ITE00100554,18000111,TMAX,66,,,E,',
 'EZE00100082,18000111,TMAX,1,,,E,',
 'ITE00100554,18000112,TMAX,41,,,E,',
 'EZE00100082,18000112,TMAX,-33,,,E,',
 'ITE00100554,18000113,TMAX,23,,,E,',
 'EZE00100082,18000113,TMAX,-20,,,E,',
 

In [88]:
KeyValueMin = Min.map(lambda x: (x.split(",")[0], int(x.split(",")[3])))

In [89]:
KeyValueMin.collect()

[('ITE00100554', -148),
 ('EZE00100082', -135),
 ('ITE00100554', -125),
 ('EZE00100082', -130),
 ('ITE00100554', -46),
 ('EZE00100082', -73),
 ('ITE00100554', -13),
 ('EZE00100082', -74),
 ('ITE00100554', -6),
 ('EZE00100082', -58),
 ('ITE00100554', 13),
 ('EZE00100082', -57),
 ('ITE00100554', 10),
 ('EZE00100082', -50),
 ('ITE00100554', 14),
 ('EZE00100082', -31),
 ('ITE00100554', 23),
 ('EZE00100082', -46),
 ('ITE00100554', 31),
 ('EZE00100082', -75),
 ('ITE00100554', 41),
 ('EZE00100082', -62),
 ('ITE00100554', 29),
 ('EZE00100082', -60),
 ('ITE00100554', 13),
 ('EZE00100082', -60),
 ('ITE00100554', 23),
 ('EZE00100082', -35),
 ('ITE00100554', 41),
 ('EZE00100082', -23),
 ('ITE00100554', 41),
 ('EZE00100082', -37),
 ('ITE00100554', 48),
 ('EZE00100082', -35),
 ('ITE00100554', 46),
 ('EZE00100082', 9),
 ('ITE00100554', 50),
 ('EZE00100082', 34),
 ('ITE00100554', 25),
 ('EZE00100082', 17),
 ('ITE00100554', 30),
 ('EZE00100082', 8),
 ('ITE00100554', 74),
 ('EZE00100082', -16),
 ('ITE00

In [90]:
KeyValueMax = Max.map(lambda x: (x.split(",")[0], int(x.split(",")[3])))

In [91]:
KeyValueMax.collect()

[('ITE00100554', -75),
 ('EZE00100082', -86),
 ('ITE00100554', -60),
 ('EZE00100082', -44),
 ('ITE00100554', -23),
 ('EZE00100082', -10),
 ('ITE00100554', 0),
 ('EZE00100082', -55),
 ('ITE00100554', 10),
 ('EZE00100082', -40),
 ('ITE00100554', 13),
 ('EZE00100082', -39),
 ('ITE00100554', 31),
 ('EZE00100082', -30),
 ('ITE00100554', 29),
 ('EZE00100082', -1),
 ('ITE00100554', 35),
 ('EZE00100082', 5),
 ('ITE00100554', 46),
 ('EZE00100082', -46),
 ('ITE00100554', 66),
 ('EZE00100082', 1),
 ('ITE00100554', 41),
 ('EZE00100082', -33),
 ('ITE00100554', 23),
 ('EZE00100082', -20),
 ('ITE00100554', 41),
 ('EZE00100082', 0),
 ('ITE00100554', 54),
 ('EZE00100082', 10),
 ('ITE00100554', 56),
 ('EZE00100082', -11),
 ('ITE00100554', 84),
 ('EZE00100082', 14),
 ('ITE00100554', 59),
 ('EZE00100082', 47),
 ('ITE00100554', 59),
 ('EZE00100082', 66),
 ('ITE00100554', 60),
 ('EZE00100082', 58),
 ('ITE00100554', 80),
 ('EZE00100082', 31),
 ('ITE00100554', 81),
 ('EZE00100082', 8),
 ('ITE00100554', 85),
 

Minimum avec 2 méthodes

In [92]:
KeyValueMin.reduceByKey(lambda x,y : x if x < y else y).collect()

[('ITE00100554', -148), ('EZE00100082', -135)]

In [93]:
KeyValueMin.reduceByKey(min).collect()

[('ITE00100554', -148), ('EZE00100082', -135)]

Maximum avec 2 méthodes

In [94]:
KeyValueMax.reduceByKey(lambda x,y : x if x > y else y).collect()

[('ITE00100554', 323), ('EZE00100082', 323)]

In [95]:
KeyValueMax.reduceByKey(max).collect()

[('ITE00100554', 323), ('EZE00100082', 323)]

Rassembler Min & Max dans un tuple

In [96]:
KeyValueMin.reduceByKey(min).join(KeyValueMax.reduceByKey(max)).collect()

[('ITE00100554', (-148, 323)), ('EZE00100082', (-135, 323))]

# Exercice 4

In [97]:
rdd = sc.textFile(r"C:/Users/yohan/OneDrive/Bureau/Formations/Cours/Spark/Exercices_RDD/Lorem_Ipsum.txt")

In [98]:
rdd.take(5)

['What is Lorem Ipsum?',
 "Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book. It has survived not only five centuries, but also the leap into electronic typesetting, remaining essentially unchanged. It was popularised in the 1960s with the release of Letraset sheets containing Lorem Ipsum passages, and more recently with desktop publishing software like Aldus PageMaker including versions of Lorem Ipsum.",
 '',
 'Why do we use it?',
 "It is a long established fact that a reader will be distracted by the readable content of a page when looking at its layout. The point of using Lorem Ipsum is that it has a more-or-less normal distribution of letters, as opposed to using 'Content here, content here', making it look like readable English. Many desktop publishing packages and web page editors now use

In [100]:
words = rdd.flatMap(lambda x: x.split(' ')).map(lambda x: x.strip("''?().,").lower())

In [101]:
words_count = words.groupBy(lambda x: x)

In [103]:
sorted(words_count.mapValues(len).collect())

[('', 2),
 ('1500s', 1),
 ('1960s', 1),
 ('a', 7),
 ('accident', 1),
 ('aldus', 1),
 ('also', 1),
 ('an', 1),
 ('and', 6),
 ('as', 2),
 ('at', 1),
 ('be', 1),
 ('been', 1),
 ('book', 1),
 ('but', 1),
 ('by', 2),
 ('centuries', 1),
 ('containing', 1),
 ('content', 3),
 ('default', 1),
 ('desktop', 2),
 ('distracted', 1),
 ('distribution', 1),
 ('do', 1),
 ('dummy', 2),
 ('editors', 1),
 ('electronic', 1),
 ('english', 1),
 ('essentially', 1),
 ('established', 1),
 ('ever', 1),
 ('evolved', 1),
 ('fact', 1),
 ('five', 1),
 ('for', 1),
 ('galley', 1),
 ('has', 3),
 ('have', 1),
 ('here', 2),
 ('humour', 1),
 ('in', 2),
 ('including', 1),
 ('industry', 1),
 ("industry's", 1),
 ('infancy', 1),
 ('injected', 1),
 ('into', 1),
 ('ipsum', 8),
 ('is', 4),
 ('it', 7),
 ('its', 1),
 ('layout', 1),
 ('leap', 1),
 ('letraset', 1),
 ('letters', 1),
 ('like', 3),
 ('long', 1),
 ('look', 1),
 ('looking', 1),
 ('lorem', 8),
 ('make', 1),
 ('making', 1),
 ('many', 2),
 ('model', 1),
 ('more', 1),
 ('mor