Author: Mohamed-Amine Baazizi
Affiliation: LIP6 - Faculté des Sciences - Sorbonne Université
Email: mohamed-amine.baazizi@lip6.fr

# Prise en main de Scala (30 mn)

Cet exercice illustre les différentes structures de contrôle de Scala présentées en cours. 
Il permet de comprendre le paradigme fonctionnel : seules les fonctions `map, reduce, flatten, filter, flatMap` sont autorisées.

Temps consillé : 30 mn

## Question 1

Définir trois fonctions qui prennent en entrée une liste d'entiers `liste` et réalisent les opérations suivantes:
* `maxEntiers` retourne le plus grand des entiers de `liste` 
* `scEntiers` retourne la somme des carrés des entiers de `liste`
* `moyEntiers` retourne la moyenne des entiers de `liste`

Tester votre réponses en invoquant ces fonctions sur `listeEntiers` définie comme suit

In [None]:
val listeEntiers = List.range(1,11)

In [None]:
def maxEntiers(liste: ... ) = 
...
...

## Question 2

Soit une liste chaine de caractères construite à l'aide de l'instruction suivante.

In [None]:
val listeTemp = List("7,2010,04,27,75", "12,2009,01,31,78", "41,2009,03,25,95", "2,2008,04,28,76", "7,2010,02,32,91")


Chaque élément représente un enregistrement fictif de températures avec le format (station, année, mois, température, code_département). On voudrais calculer pour, l'année 2009, le maximum et la moyenne de ses températures.
Compléter l'instruction suivante qui permet les transformations et les conversions de type nécessaires pour l'évaluation de ces deux calculs. 


In [None]:
val temp2009 = listeTemp. 

println("max des temps " + maxEntiers(temp2009))

println("moy des temps " + moyEntiers(temp2009))

## Question 3

Soit une liste chaine de caractères construite à l'aide de l'instruction suivante.

In [None]:
val melange = List("1233,100,3,20171010", "1224,22,4,20171009", "100,lala,comedie", "22,loup,documentaire")

Deux types d'éléments existent : ceux de la forme (userID, movieID, rating, timestamp) et ceux de la forme (movieID, title, genre). Le domaine des userID est [1000, 2000] et celui des movieID est [0, 100].

Il est demandé de construire à partir de `melange` deux listes distinctes :

* `notes` contenant les éléments de la forme (userID, movieID, rating, timestamp) et dont le type est (Int, String, Int, Int) 
* `films` contenant les éléments de la forme (movieID, title, genre) et dont le type est (Int, String, String).

In [None]:
val notes = melange. ...
val films = melange. ...

## Question 4

Soit une liste personnes contenant des tuples ayant trois attributs décrivant des personnes :

* le premier attribut est le nom de la personne;
* le second attribut est le type de la personne : etudiant (etu), enseignant (ens) ou inconnu (nan);
* la troisième attribut est l'année d'inscription (s'il s'agit d'un étudiant) ou les années d'ancienneté pour les enseignants.

In [None]:
val personnes = List(("Joe", "etu", 3), ("Lee", "etu", 4), ("Sara", "ens", 10), ("John", "ens", 5), ("Bill", "nan",20))

Définir une classe `Etu(nom:String, annee:Int)` et une classe `Ens(nom:String, annee:Int)`

Transformer la liste `personnes` en une liste d'objets de la classe `Etu` ou `Ens` encapsulant les information des tuples en entrée. Par exemple, le tuple `("Joe", "etu", 3)` devra être transformé en un objet `Etu("Joe", 3)`.

Attention Les personnes de type inconnu ne doivent être dans le résultat!

Utiliser le pattern matching pour répondre à cette question.



# Prise en main de Spark RDD

Prendre le temps de lire la documentation Spark sur l'utilisation des RDD
https://spark.apache.org/docs/latest/rdd-programming-guide.html

et sur l'API RDD
https://spark.apache.org/docs/2.1.1/api/scala/index.html#org.apache.spark.rdd.RDD

## Préparation datasets

Créer un répertoire dans votre dossier `tmp` en tapant

`mkdir -p /tmp/BDLE/dataset`

* Pour le dataset `wordcount` copier en tapant

 `cp /Infos/bd/spark/bdle/2015/data/wordcount.txt.bz2 /tmp/BDLE/dataset` 
 
 `cd /tmp/BDLE/dataset`
 
 `bunzip2 wordcount.txt.bz2`
  
  Vérifier que vous avez bien le fichier `wordcount.txt`


* Pour le dataset `books` copier en tapant

    `cp -r /Infos/bd/spark/dataset/Books /tmp/BDLE/dataset`

    `cd /tmp/BDLE/dataset/Books`
    
     Vérifier que vous avez bien les fichiers 
     
     `books.csv`  `ratings.csv`	et `users.csv`


## Exercice 1 (30 mn) 

Cet exercice utilise le dataset `wordcount`

Exécuter la commande suivante pour le charger dans la valeur `data` et tester que le chargement marche bien en lisant les 10 premieres lignes. 

In [None]:
val path = "/tmp/BDLE/dataset/" 
val data = sc.textFile(path + "wordcount.txt")

data.take(10)

*Remarque* pour partitionner une chaîne de caractères en utilisant le point (.) comme délimiteur à l'aide de la méthode `split()`, il faut protéger le point avec deux backslahs comme suit `split("\\.")`

#### Q1. Structurer le contenu de data de sorte à obtenir un tableau de tableaux de chaines de caractères. Ce dernier devra être stocké dans une nouvelle variable nommée list.

In [None]:
val list = data.

list.take(10)

#### Q2. Afficher les 100 premiers éléments de la 3e colonne de `list`.

In [None]:
val q2 = list. 

q2.take(100)

#### Q3. Transformer le contenu de `list` en une liste de paires `(mot, nb)` où `mot` correspond à la première colonne de `list` et `nb` sa troisième colonne.

In [None]:
val q3 = list.

q2.take(10)

#### Q4. Grouper les paires par l'attribut `mot` et additionner leur nombres respectifs.

In [None]:
val q4 = q3.


#### Q5. Reprendre les questions Q3 et Q4 en calculant `mot` différemment : 

désormais, `mot` doit correspondre au préfixe du premier sous-élément de chaque élément de `list`, 

Exemple
* pour `en.d`, mot doit être `en`
* pour `fr.d`, mot doit être `fr`, etc. 

Comparer les résultats avec ceux obtenus précédemment.

In [None]:
val q5 =

## Exercice 2 (60 mn) 


Pour cet exercice, on utilise le jeux de données Books qui renseigne sur des livres (books.csv), des utilsateurs (users.csv) et des notes réalisées par les utilsateurs (ratings.csv).

Les schémas des tables sont 

* `Users (userid: Number, country: Text, age: Number)`
* `Books (bookid: Number, titlewords: Number, authorwords: Number, year: Number, publisher: Number)`
* `Ratings (userid: Number, bookid: Number, rating: Number)`

In [None]:
val path = "/tmp/BDLE/dataset/Books/" 

val books_data = sc.textFile(path + "books.csv")
val users_data = sc.textFile(path + "users.csv")
val ratings_data = sc.textFile(path + "ratings.csv")


books_data.take(10)
users_data.take(10)
ratings_data.take(10)

### Préparation

Afin de formater les données, créer une classe pour chaque table puis charger les données de chaque fichier dans une RDD content des objets de la classe.  

In [None]:
class Users(userid: Int, country: String, age: Int)
//a compléter
class Books (...) 
class Rating(...)

Pour chaque table, créer une RDD contenant des objets de la classe lui correspondant. Compléter les instructions ci-dessous.

In [None]:
val books = books_data.map(x=>x.split(",")).map{case(u,c,a)=>User(u.toInt,c,a.toInt)}
books.take(10)

val users = users_data. ...
users.take(10)

val ratings = ratings_data. ...
notes.take(10)

Exprimer les requêtes ci-dessous en opérateurs RDD

### Requêtes sur une seule table

#### Identifiants d'utilisateurs du pays 'france'

In [None]:
val s0 = users.
s0.take(10)

#### Identifiants des livres dont la date est 2000

In [None]:
val s1 = books. 

#### Identifiants des livres notés plus que 3

In [None]:
val s2 = notes.

### Requêtes d'agrégation

#### Nombres d'utilisateurs par pays, triés par ordre décroissant de ce nombre

In [None]:
val q1 = users.

#### Pays qui a le plus grand nombre d'utilisateurs. Il n y a pas d'ex aequo

In [None]:
val q2 = 

#### Année avec le plus grand nombre de livres édités. Il n y a pas d'ex aequo

In [None]:
val q3 = books. 

### Requêtes avec jointure

#### Les éditeurs de livres ayant été notés par des utilisateurs habitant en France

#### Les éditeurs de livres n'ayant pas été notés par des utilisateurs habitant en France

#### Pour chaque livre, la moyenne d'age des utilisateurs qui l'ont noté