# Des classes pour représenter les données

In [30]:
case class Prenom(sexe: String, prenom: String, annee: Int, codeDept: Int, nombre: Int)
case class Dept(region: Int, codeDept: String, chefLieu: String, typeNom: Int, nom: String, nomEnrichi: String)

defined class Prenom
defined class Dept


# Chargement des données
1. Créer un dataset pour les prénoms

In [9]:
// Pour les conversions implicites de RDDs vers DataFrames
val sparkRO = spark // bricolage pour que cela fonctionne dans le notebool (inutile sinon)
import sparkRO.implicits._

sparkRO: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSession@7067a0eb
import sparkRO.implicits._


In [10]:
val prenoms = spark.read.load("prenomsParDeptsEtAnnees.parquet").as[Prenom]
prenoms.createOrReplaceTempView("prenoms")
prenoms.show

+----+-------------+------+--------+-----+
|sexe|       prenom|nombre|codeDept|annee|
+----+-------------+------+--------+-----+
|   1|       WASSIL|     5|      69| 2009|
|   1|     ZACHARIA|     3|      69| 2009|
|   2|   LEOPOLDINE|     4|      69| 2009|
|   2|        LINDA|     9|      69| 2009|
|   2|MARIE-TH�R�SE|    41|      57| 1961|
|   2|   ROSE-MARIE|    14|      57| 1961|
|   2|    ABIGAELLE|     5|      97| 2012|
|   2|        A�CHA|     5|      97| 2012|
|   2|      JOHANNA|    18|      97| 2012|
|   1|         STAN|     3|      97| 2008|
|   1|       YANAEL|     5|      97| 2008|
|   2|        GRACE|     5|      97| 2008|
|   1|       SECKOU|     3|      93| 2011|
|   1|        SOREN|     6|      93| 2011|
|   2|        DJENA|     3|      93| 2011|
|   1|     ANASTASE|    10|      97| 1955|
|   1|        DONAT|     4|      97| 1955|
|   1|    FLORIBERT|     3|      97| 1955|
|   1|       GILDAS|     4|      97| 1955|
|   1|      JOAQUIN|     3|      75| 1955|
+----+-----

prenoms: org.apache.spark.sql.Dataset[Prenom] = [sexe: string, prenom: string ... 3 more fields]


1. Faire de même pour les départements

In [24]:
//TODO
val deps = spark.read.load("depts.parquet").as[Dept]
deps.createOrReplaceTempView("deps")
deps.show

+------+--------+--------+-------+--------------------+--------------------+
|region|codeDept|chefLieu|typeNom|                 nom|          nomEnrichi|
+------+--------+--------+-------+--------------------+--------------------+
|    44|      52|   52121|      3|         HAUTE-MARNE|         Haute-Marne|
|    52|      53|   53130|      3|             MAYENNE|             Mayenne|
|    44|      54|   54395|      0|  MEURTHE-ET-MOSELLE|  Meurthe-et-Moselle|
|    44|      55|   55029|      3|               MEUSE|               Meuse|
|    53|      56|   56260|      2|            MORBIHAN|            Morbihan|
|    44|      57|   57463|      3|             MOSELLE|             Moselle|
|    27|      58|   58194|      3|              NIEVRE|              Ni�vre|
|    32|      59|   59350|      2|                NORD|                Nord|
|    32|      60|   60057|      5|                OISE|                Oise|
|    28|      61|   61001|      5|                ORNE|                Orne|

deps: org.apache.spark.sql.Dataset[Dept] = [region: int, codeDept: string ... 4 more fields]


# Interroger les données

* La documentation sur Spark SQL est disponible [ici](https://spark.apache.org/docs/latest/sql-programming-guide.html) (de même pour [Dataset](https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.Dataset))
* Pour chaque question, vous donnerez la réponse avec le DSL et en SQL

1. Donner, pour chaque prénom, son nombre d'occurences

## DSL

In [21]:
//TODO
prenoms.groupBy("prenom").agg(sum("nombre")).show

+------------+-----------+
|      prenom|sum(nombre)|
+------------+-----------+
|       NORIA|          3|
|        ANNA|         90|
|        JADE|          7|
|     L�ANDRE|          3|
|      ELIANE|         75|
|     MATTHEW|          4|
|      SALOM�|         46|
|    ALPHONSE|         72|
|      FRANCK|        423|
|       MORAD|          8|
|       MARAM|          3|
|       GRACE|          5|
|SAINTE-CROIX|          6|
|    FERNANDA|          3|
|        JO�L|        110|
|      ANNICK|         75|
|      LUCILE|          3|
|      SANDIE|          5|
|      AMEDEE|         10|
|       FABIO|         29|
+------------+-----------+
only showing top 20 rows



## SQL

In [17]:
//TODO
spark.sql("select prenom, sum(nombre) from prenoms group by prenom").show

+------------+-----------+
|      prenom|sum(nombre)|
+------------+-----------+
|       NORIA|          3|
|        ANNA|         90|
|        JADE|          7|
|     L�ANDRE|          3|
|      ELIANE|         75|
|     MATTHEW|          4|
|      SALOM�|         46|
|    ALPHONSE|         72|
|      FRANCK|        423|
|       MORAD|          8|
|       MARAM|          3|
|       GRACE|          5|
|SAINTE-CROIX|          6|
|    FERNANDA|          3|
|        JO�L|        110|
|      ANNICK|         75|
|      LUCILE|          3|
|      SANDIE|          5|
|      AMEDEE|         10|
|       FABIO|         29|
+------------+-----------+
only showing top 20 rows



1. Donner le nombre total de naissances avec un prénom féminin

## DSL

In [12]:
//TODO
prenoms.where($"sexe">1).agg(sum("nombre")).show

+-----------+
|sum(nombre)|
+-----------+
|      33273|
+-----------+



## SQL

In [22]:
//TODO
spark.sql("select sum(nombre) from prenoms where sexe =2").show

+-----------+
|sum(nombre)|
+-----------+
|      33273|
+-----------+



1. Donner l'effectif maximal et minimal par prénom

## DSL

In [66]:
//TODO
prenoms.groupBy("prenom").agg(min("nombre"), max("nombre")).show

+------------+-----------+-----------+
|      prenom|min(nombre)|max(nombre)|
+------------+-----------+-----------+
|       NORIA|          3|          3|
|        ANNA|          3|         55|
|        JADE|          7|          7|
|     L�ANDRE|          3|          3|
|      ELIANE|          6|         39|
|     MATTHEW|          4|          4|
|      SALOM�|          6|         28|
|    ALPHONSE|         24|         48|
|      FRANCK|          3|        203|
|       MORAD|          8|          8|
|       MARAM|          3|          3|
|       GRACE|          5|          5|
|SAINTE-CROIX|          6|          6|
|    FERNANDA|          3|          3|
|        JO�L|          3|         48|
|      ANNICK|          9|         66|
|      LUCILE|          3|          3|
|      SANDIE|          5|          5|
|      AMEDEE|          5|          5|
|       FABIO|          3|         26|
+------------+-----------+-----------+
only showing top 20 rows



## SQL

In [24]:
//TODO
spark.sql("select prenom, Min(nombre), Max(nombre)from prenoms group by prenom").show

+------------+-----------+-----------+
|      prenom|min(nombre)|max(nombre)|
+------------+-----------+-----------+
|       NORIA|          3|          3|
|        ANNA|          3|         55|
|        JADE|          7|          7|
|     L�ANDRE|          3|          3|
|      ELIANE|          6|         39|
|     MATTHEW|          4|          4|
|      SALOM�|          6|         28|
|    ALPHONSE|         24|         48|
|      FRANCK|          3|        203|
|       MORAD|          8|          8|
|       MARAM|          3|          3|
|       GRACE|          5|          5|
|SAINTE-CROIX|          6|          6|
|    FERNANDA|          3|          3|
|        JO�L|          3|         48|
|      ANNICK|          9|         66|
|      LUCILE|          3|          3|
|      SANDIE|          5|          5|
|      AMEDEE|          5|          5|
|       FABIO|          3|         26|
+------------+-----------+-----------+
only showing top 20 rows



1. Donner, pour chaque nom de département, le nombre moyen de prénoms depuis l'année 2000

## DSL

In [35]:
//TODO
prenoms.join(deps,prenoms("codeDept")===deps("codeDept")).where($"annee">2000).groupBy(deps("nom"))
.agg("nombre"->"SUM").show

+-------------------+-----------+
|                nom|sum(nombre)|
+-------------------+-----------+
|     SEINE-ET-MARNE|        188|
|PYRENEES-ORIENTALES|         71|
|      HAUTE-GARONNE|        204|
|        HAUTE-SAONE|          5|
|               AUBE|         30|
|    ILLE-ET-VILAINE|         89|
|    ALPES-MARITIMES|        172|
|     LOT-ET-GARONNE|         44|
|             LOIRET|         22|
|           ARDENNES|          6|
|               NORD|        581|
|       EURE-ET-LOIR|         19|
|             VIENNE|         48|
|              DOUBS|         66|
|             ARIEGE|         10|
|           CALVADOS|         28|
|              RHONE|        519|
|     HAUTS-DE-SEINE|        334|
|             LANDES|         23|
|              PARIS|        441|
+-------------------+-----------+
only showing top 20 rows



## SQL

In [32]:
//TODO
spark.sql("select avg(p.nombre), first(d.codeDept), d.nom from prenoms p, Deps d where p.annee >= 2000 and d.codeDept=p.codeDept group by d.nom").show

+------------------+---------------+-------------------+
|       avg(nombre)|first(codeDept)|                nom|
+------------------+---------------+-------------------+
|              13.5|             77|     SEINE-ET-MARNE|
|              17.0|             66|PYRENEES-ORIENTALES|
|              10.6|             31|      HAUTE-GARONNE|
|               5.0|             70|        HAUTE-SAONE|
|              10.0|             10|               AUBE|
|10.333333333333334|             35|    ILLE-ET-VILAINE|
|              14.0|             06|    ALPES-MARITIMES|
|14.666666666666666|             47|     LOT-ET-GARONNE|
|               4.4|             45|             LOIRET|
|               3.0|             08|           ARDENNES|
|             29.25|             59|               NORD|
|               9.5|             28|       EURE-ET-LOIR|
|               9.6|             86|             VIENNE|
| 7.333333333333333|             25|              DOUBS|
|               5.0|           