# Une classe pour simplifier l'accès aux données

In [8]:
object PrenomUtils extends Serializable {
    def extractField(s: String, fieldNumber: Int): String = {
        val fields = s.split('\t')
        if (fieldNumber >= fields.length) "" else fields(fieldNumber)
    }
}

In [9]:
println(PrenomUtils.extractField("2	CASSIOPEE	2009	33	3.0000", 0))
println(PrenomUtils.extractField("2	CASSIOPEE	2009	33	3.0000", 1))
println(PrenomUtils.extractField("2	CASSIOPEE	2009	33	3.0000", 2))
println(PrenomUtils.extractField("2	CASSIOPEE	2009	33	3.0000", 3))
println(PrenomUtils.extractField("2	CASSIOPEE	2009	33	3.0000", 4))
println(PrenomUtils.extractField("2	CASSIOPEE	2009	33	3.0000", 5))

2
CASSIOPEE
2009
33
3.0000


# Charger les données
1. Créer le RDD `lignes` à partir du répertoire `prenoms_sample.txt`

In [10]:
val lignes = sc.textFile("prenoms_sample.txt")
lignes.take(10).foreach(println)

1	AARON	2011	17	13.0000
1	AARON	2015	33	49.0000
1	ABDALLAH	1977	42	4.0000
1	ABDALLAH	2005	92	13.0000
1	ABDELAZIZ	1971	28	3.0000
1	ABDELAZIZ	1978	08	3.0000
1	ABDERRAHMAN	2011	06	3.0000
1	ABDOULAYE	2005	75	23.0000
1	ABEL	1908	58	8.0000
1	ADAM	2002	22	3.0000


# Transformer les lignes en prénoms
1. En appliquant la méthode `map`, créer le RDD prenoms à partir de `lignes`

In [11]:
val prenoms = lignes.map(l => (
    PrenomUtils.extractField(l, 0).charAt(0),
    PrenomUtils.extractField(l, 1),
    PrenomUtils.extractField(l, 2).toInt,
    PrenomUtils.extractField(l, 3).toInt,
    PrenomUtils.extractField(l, 4).toDouble.toInt
))
prenoms.take(10).foreach(println)

(1,AARON,2011,17,13)
(1,AARON,2015,33,49)
(1,ABDALLAH,1977,42,4)
(1,ABDALLAH,2005,92,13)
(1,ABDELAZIZ,1971,28,3)
(1,ABDELAZIZ,1978,8,3)
(1,ABDERRAHMAN,2011,6,3)
(1,ABDOULAYE,2005,75,23)
(1,ABEL,1908,58,8)
(1,ADAM,2002,22,3)


# Interroger les données
La documentation des méthodes d'un RDD est disponible ([RDD](https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD), [PairRDDFunctions](https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.PairRDDFunctions)).

1. Donner, pour chaque prénom, son nombre d'occurences (`map` et `reduceByKey`)

In [15]:
val effectifParPrenoms = prenoms.map(p => (p._2, p._5)).reduceByKey((n1, n2) => n1 + n2)
effectifParPrenoms.take(10).foreach(println)

(BRICE,16)
(OCEANE,17)
(ASSIA,39)
(YOEN,3)
(NICOLLE,27)
(A�NHOA,3)
(AM�LIE,102)
(DANIELE,14)
(ANNE-SOPHIE,35)
(EMMANUEL,186)


* Fonctions à explorer
  * transformations : map, filter, groupByKey, reduceByKey, aggregateByKey, join, coalesce, repartition
  * actions : reduce, collect, count, foreach
  * persist/cache
  * shuffle
