# Initialisation de Spark

In [1]:
from pyspark.sql import SparkSession
spark = SparkSession \
    .builder \
    .appName("Exemples avec les formats de stockage") \
    .getOrCreate()
sc = spark.sparkContext

Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
25/11/04 06:02:06 WARN Utils: Your hostname, papamor-ROG-Zephyrus-G14-GA401IV-GA401IV, resolves to a loopback address: 127.0.1.1; using 172.16.6.49 instead (on interface wlp2s0)
25/11/04 06:02:06 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/11/04 06:02:07 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
25/11/04 06:02:08 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
25/11/04 06:02:08 WARN Utils: Service 'SparkUI' could not bind on port 4041. Attempting port 4042.
25/11/04 06:02:08 WARN Utils: Service 'SparkUI' could not bind on port 4042. Attempting port 4043.
25

# Chargement des données
1. Créer un dataframe pour les prénoms

In [2]:
prenoms = spark.read.load("prenomsParDeptsEtAnnees.parquet")
prenoms.createOrReplaceTempView("prenoms")
prenoms.show()

                                                                                

+----+--------------+--------+---+-----+
|sexe|        prenom|effectif|dep|annee|
+----+--------------+--------+---+-----+
|   1|          ABEL|      13| 75| 2004|
|   1|         EDERN|       3| 75| 2004|
|   1|         NOHAM|       3| 75| 2004|
|   1|          PAUL|     293| 75| 2004|
|   1|      SALVADOR|       4| 75| 2004|
|   1|       WILFRID|       7| 92| 1978|
|   2|_PRENOMS_RARES|     280| 92| 1978|
|   2|        ÉLODIE|       7| 92| 1978|
|   1|       AGHILES|       3| 93| 2000|
|   1|       RICHARD|       3| 93| 2000|
|   1|          SAMI|      28| 93| 2000|
|   1|        ULYSSE|       4| 93| 2000|
|   1|          ADIL|       7| 92| 2013|
|   1|         JALIL|       3| 92| 2013|
|   1|  PIERRE-LOUIS|       3| 92| 2013|
|   1|       LEONARD|       4| 93| 1992|
|   1|     NATHANAEL|       4| 93| 1992|
|   1|        SOFIAN|      13| 93| 1992|
|   1|       DIMITRI|       3| 93| 2011|
|   1|        EDUARD|       3| 93| 2011|
+----+--------------+--------+---+-----+
only showing top

1. Faire de même pour les départements

In [3]:
#TODO
depts = spark.read.load("depts.parquet")
depts.createOrReplaceTempView("depts")
depts.show()

+---+---+--------+----+--------------------+--------------------+--------------------+
|dep|reg|cheflieu|tncc|                 ncc|              nccenr|             libelle|
+---+---+--------+----+--------------------+--------------------+--------------------+
| 52| 44|   52121|   3|         HAUTE MARNE|         Haute-Marne|         Haute-Marne|
| 53| 52|   53130|   3|             MAYENNE|             Mayenne|             Mayenne|
| 54| 44|   54395|   0|  MEURTHE ET MOSELLE|  Meurthe-et-Moselle|  Meurthe-et-Moselle|
| 55| 44|   55029|   3|               MEUSE|               Meuse|               Meuse|
| 56| 53|   56260|   2|            MORBIHAN|            Morbihan|            Morbihan|
| 57| 44|   57463|   3|             MOSELLE|             Moselle|             Moselle|
| 58| 27|   58194|   3|              NIEVRE|              Nièvre|              Nièvre|
| 59| 32|   59350|   2|                NORD|                Nord|                Nord|
| 60| 32|   60057|   5|                OISE

# Interroger les données

* La documentation sur Spark SQL est disponible [ici](https://spark.apache.org/docs/latest/sql-programming-guide.html) (de même pour [DataFrame](https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.html))
* Pour chaque question, vous donnerez la réponse avec le DSL et en SQL

1. Donner, pour chaque prénom, son nombre d'occurences

## DSL

In [None]:
#TODO
from pyspark.sql import functions as F

# total des effectifs par prénom (DSL)
prenoms.groupBy("prenom") \
       .agg(F.sum("effectif").alias("total")) \
       .orderBy(F.desc("total")) \
       .show(20)



+--------------+-----+
|        prenom|total|
+--------------+-----+
|          JEAN| 2086|
|_PRENOMS_RARES| 1528|
|        MICHEL| 1426|
|         MARIE| 1343|
|        PIERRE| 1003|
|     STÉPHANIE|  878|
|      PHILIPPE|  804|
|      STÉPHANE|  792|
|     MADELEINE|  776|
|          PAUL|  743|
|         LOUIS|  720|
|         HENRI|  673|
|        DENISE|  583|
|    JACQUELINE|  569|
|        ANNICK|  540|
|      SANDRINE|  531|
|         ROGER|  506|
|       MONIQUE|  499|
|       THIERRY|  488|
|          ERIC|  483|
+--------------+-----+
only showing top 20 rows


                                                                                

## SQL

In [5]:
#TODO
# total des effectifs par prénom (SQL)
spark.sql("""
    SELECT prenom, SUM(effectif) AS total
    FROM prenoms
    GROUP BY prenom
    ORDER BY total DESC
    LIMIT 20
""").show()



+--------------+-----+
|        prenom|total|
+--------------+-----+
|          JEAN| 2086|
|_PRENOMS_RARES| 1528|
|        MICHEL| 1426|
|         MARIE| 1343|
|        PIERRE| 1003|
|     STÉPHANIE|  878|
|      PHILIPPE|  804|
|      STÉPHANE|  792|
|     MADELEINE|  776|
|          PAUL|  743|
|         LOUIS|  720|
|         HENRI|  673|
|        DENISE|  583|
|    JACQUELINE|  569|
|        ANNICK|  540|
|      SANDRINE|  531|
|         ROGER|  506|
|       MONIQUE|  499|
|       THIERRY|  488|
|          ERIC|  483|
+--------------+-----+



                                                                                

1. Donner le nombre total de naissances avec un prénom féminin

## DSL

In [9]:
#TODO
prenoms.filter(F.col("sexe") == "2") \
        .agg(F.sum("effectif").alias("total_feminines")) \
        .show()



+---------------+
|total_feminines|
+---------------+
|          35716|
+---------------+



                                                                                

## SQL

In [8]:
#TODO
spark.sql("""
    SELECT SUM(effectif)
    FROM prenoms
    WHERE sexe = "2"
""").show()



+-------------+
|sum(effectif)|
+-------------+
|        35716|
+-------------+



                                                                                

1. Donner l'effectif maximal et minimal par prénom

## DSL

In [12]:
#TODO
prenoms.groupBy("prenom") \
       .agg(F.max("effectif").alias("max(effectif)"), F.min("effectif").alias("min(effectif)")) \
       .show(20)



+---------------+-------------+-------------+
|         prenom|max(effectif)|min(effectif)|
+---------------+-------------+-------------+
|        TRISTAN|           31|            3|
|           ADIL|            7|            7|
|         ÉLOÏSE|           10|            3|
|         AZENOR|            3|            3|
|            EVE|           10|            9|
|         JULINE|            3|            3|
|           SAMI|           28|           28|
|       GONZAGUE|            3|            3|
|       ANNAELLE|            3|            3|
| _PRENOMS_RARES|          402|            4|
|MARIE-DOMINIQUE|            5|            3|
|     MARIE-JOSÉ|           26|            7|
|   MARIE-ANNICK|           60|           60|
|        SOUHAYL|            6|            6|
|          MAËVA|           17|           17|
|        AGHILES|            3|            3|
|      JOSEPHINE|            6|            3|
|          EDERN|            3|            3|
|MARIE-FRANÇOISE|           51|   

                                                                                

## SQL

In [10]:
#TODO
spark.sql("""
    SELECT prenom, Max(effectif), Min(effectif)
    FROM prenoms
    GROUP BY prenom
    LIMIT 20
""").show()



+---------------+-------------+-------------+
|         prenom|max(effectif)|min(effectif)|
+---------------+-------------+-------------+
|        TRISTAN|           31|            3|
|           ADIL|            7|            7|
|         ÉLOÏSE|           10|            3|
|         AZENOR|            3|            3|
|            EVE|           10|            9|
|         JULINE|            3|            3|
|           SAMI|           28|           28|
|       GONZAGUE|            3|            3|
|       ANNAELLE|            3|            3|
| _PRENOMS_RARES|          402|            4|
|MARIE-DOMINIQUE|            5|            3|
|     MARIE-JOSÉ|           26|            7|
|   MARIE-ANNICK|           60|           60|
|        SOUHAYL|            6|            6|
|          MAËVA|           17|           17|
|        AGHILES|            3|            3|
|      JOSEPHINE|            6|            3|
|          EDERN|            3|            3|
|MARIE-FRANÇOISE|           51|   

                                                                                

1. Donner, pour chaque nom de département, le nombre moyen de prénoms depuis l'année 2000

## DSL

In [17]:
#TODO
prenoms.join(depts, prenoms.dep == depts.dep) \
       .filter(F.col("annee") >= 2000) \
       .groupBy(F.col("ncc")) \
       .agg(F.avg("effectif").alias("avg_effectif")) \
       .orderBy(F.desc("avg_effectif")) \
       .show(20)

+-----------------+------------------+
|              ncc|      avg_effectif|
+-----------------+------------------+
|    PAS DE CALAIS|              34.0|
|          GIRONDE|29.045454545454547|
|             NORD|              28.0|
|             GARD|24.666666666666668|
|             GERS|              22.0|
| LOIRE ATLANTIQUE| 19.05263157894737|
|            PARIS| 18.88235294117647|
|     HAUTE SAVOIE|            17.875|
|   SEINE MARITIME|17.166666666666668|
|      DEUX SEVRES|              16.0|
|  ILLE ET VILAINE|15.952380952380953|
|            SOMME|15.909090909090908|
|   HAUTS DE SEINE|             15.28|
|CHARENTE MARITIME|15.222222222222221|
|       VAL D OISE|              15.0|
|   LOT ET GARONNE|              14.5|
|          ESSONNE|14.333333333333334|
|            RHONE|13.857142857142858|
|         BAS RHIN| 13.76923076923077|
|     VAL DE MARNE|13.676470588235293|
+-----------------+------------------+
only showing top 20 rows


## SQL

In [16]:
#TODO
spark.sql("""
    SELECT ncc, AVG(effectif)
    FROM prenoms p join depts d ON p.dep = d.dep
    WHERE p.annee > 2000
    GROUP BY ncc
    LIMIT 20
""").show()

+-----------------+------------------+
|              ncc|     avg(effectif)|
+-----------------+------------------+
|   SEINE ET MARNE|11.764705882352942|
|           LOIRET| 6.526315789473684|
|             NORD|23.366666666666667|
|           VIENNE|               9.0|
|    HAUTE GARONNE|11.647058823529411|
|            RHONE| 14.25925925925926|
|            PARIS|             19.02|
|       LA REUNION|              8.75|
|           SAVOIE| 6.090909090909091|
|            YONNE|               5.0|
|   HAUTS DE SEINE|15.208333333333334|
|     EURE ET LOIR| 4.181818181818182|
|         MORBIHAN|12.733333333333333|
|          GIRONDE|29.045454545454547|
| BOUCHES DU RHONE|12.709677419354838|
|SEINE SAINT DENIS|              6.96|
|   SEINE MARITIME|              15.0|
|             JURA|             4.875|
|             GERS|              22.0|
|    PAS DE CALAIS|              36.9|
+-----------------+------------------+

