# Initialisation de Spark

In [1]:
from pyspark.sql import SparkSession
spark = SparkSession \
    .builder \
    .appName("Exemples avec les formats de stockage") \
    .getOrCreate()
sc = spark.sparkContext

Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
25/11/10 15:29:41 WARN Utils: Your hostname, Dell, resolves to a loopback address: 127.0.1.1; using 10.255.255.254 instead (on interface lo)
25/11/10 15:29:41 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/11/10 15:29:42 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


# Chargement des données
1. Créer un dataframe pour les prénoms

In [4]:
prenoms = spark.read.load("prenomsParDeptsEtAnnees.parquet")
prenoms.createOrReplaceTempView("prenoms")
prenoms.show()

+----+--------------+--------+---+-----+
|sexe|        prenom|effectif|dep|annee|
+----+--------------+--------+---+-----+
|   1|_PRENOMS_RARES|     190|971| 1934|
|   1|       GODFROY|       4|971| 1934|
|   1|       MODERAN|       4|971| 1934|
|   1|      CELESTIN|      12| 75| 2009|
|   1|       DIMITRI|      20| 75| 2009|
|   1|        MARLON|       5| 75| 2009|
|   1|        TAKUMI|       5| 75| 2009|
|   1|        YOUCEF|       6| 13| 2022|
|   2|       AMINATA|       5| 13| 2022|
|   2|       CAMERON|       5| 13| 2022|
|   1|      FRÉDÉRIC|      16| 67| 1956|
|   1|        GASTON|       3| 67| 1956|
|   1|         RALPH|       3| 67| 1956|
|   2|   ANNE-SOPHIE|       3| 31| 1972|
|   2|       LILIANE|       3| 31| 1972|
|   2|          NADA|      13| 75| 2011|
|   2|        OLYMPE|       7| 75| 2011|
|   2|        SELENA|       9| 75| 2011|
|   2|     SÉRAPHINE|       4| 75| 2011|
|   2|     PASCALINE|       3| 50| 1992|
+----+--------------+--------+---+-----+
only showing top

1. Faire de même pour les départements

In [9]:
from pyspark.sql import Row
lines = sc.textFile("dpts.txt")
depts_as_rdd = lines\
    .filter(lambda l: "dep" not in l and "2A" not in l and "2B" not in l)\
    .map(lambda l: l.split(","))\
    .map(lambda p: Row(\
        dep=int(p[0]),\
        reg=int(p[1]),\
        cheflieu=p[2],\
        tncc=p[3],\
        ncc=p[4],\
        nccenr=p[6],\
        libelle=p[6]))

depts = spark.createDataFrame(depts_as_rdd)
depts.createOrReplaceTempView("depts")
depts.show()

                                                                                

+---+---+--------+----+--------------------+--------------------+--------------------+
|dep|reg|cheflieu|tncc|                 ncc|              nccenr|             libelle|
+---+---+--------+----+--------------------+--------------------+--------------------+
|  1| 84|   01053|   5|                 AIN|                 Ain|                 Ain|
|  2| 32|   02408|   5|               AISNE|               Aisne|               Aisne|
|  3| 84|   03190|   5|              ALLIER|              Allier|              Allier|
|  4| 93|   04070|   4|ALPES DE HAUTE PR...|Alpes-de-Haute-Pr...|Alpes-de-Haute-Pr...|
|  5| 93|   05061|   4|        HAUTES ALPES|        Hautes-Alpes|        Hautes-Alpes|
|  6| 93|   06088|   4|     ALPES MARITIMES|     Alpes-Maritimes|     Alpes-Maritimes|
|  7| 84|   07186|   5|             ARDECHE|             Ardèche|             Ardèche|
|  8| 44|   08105|   4|            ARDENNES|            Ardennes|            Ardennes|
|  9| 76|   09122|   5|              ARIEGE

# Interroger les données

* La documentation sur Spark SQL est disponible [ici](https://spark.apache.org/docs/latest/sql-programming-guide.html) (de même pour [DataFrame](https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.html))
* Pour chaque question, vous donnerez la réponse avec le DSL et en SQL

1. Donner, pour chaque prénom, son nombre d'occurences

## DSL

In [17]:
#TODO
prenoms.groupBy("prenom").sum("effectif").show()




+---------------+-------------+
|         prenom|sum(effectif)|
+---------------+-------------+
|      SÉRAPHINE|            4|
|        MICHAEL|          500|
|      PASCALINE|            3|
| _PRENOMS_RARES|         3031|
|        LILIANE|           44|
|           NADA|           13|
|       CELESTIN|           16|
|     FRÉDÉRIQUE|           44|
|        CAMERON|            5|
|       MAROUANE|            3|
|       FABIENNE|          119|
|          CYRIL|          165|
|MARIE-FRANÇOISE|            5|
|          HABIB|            7|
|         GASTON|          241|
|           COME|            3|
|          ADÈLE|           36|
|  MARIE-THÉRÈSE|          352|
|         ALICYA|            3|
|          JOANE|            3|
+---------------+-------------+
only showing top 20 rows


                                                                                

## SQL

In [19]:
#TODO
spark.sql("select prenom,sum(effectif) from prenoms group by prenom ").show()



+---------------+-------------+
|         prenom|sum(effectif)|
+---------------+-------------+
|      SÉRAPHINE|            4|
|        MICHAEL|          500|
|      PASCALINE|            3|
| _PRENOMS_RARES|         3031|
|        LILIANE|           44|
|           NADA|           13|
|       CELESTIN|           16|
|     FRÉDÉRIQUE|           44|
|        CAMERON|            5|
|       MAROUANE|            3|
|       FABIENNE|          119|
|          CYRIL|          165|
|MARIE-FRANÇOISE|            5|
|          HABIB|            7|
|         GASTON|          241|
|           COME|            3|
|          ADÈLE|           36|
|  MARIE-THÉRÈSE|          352|
|         ALICYA|            3|
|          JOANE|            3|
+---------------+-------------+
only showing top 20 rows


                                                                                

1. Donner le nombre total de naissances avec un prénom féminin

## DSL

In [23]:
#TODO
prenoms.filter(prenoms["sexe"]== 2).groupBy().sum("effectif").show()



+-------------+
|sum(effectif)|
+-------------+
|        36039|
+-------------+



                                                                                

## SQL

In [25]:
#TODO
spark.sql("select sum(effectif) from prenoms where sexe == 2").show()



+-------------+
|sum(effectif)|
+-------------+
|        36039|
+-------------+



                                                                                

1. Donner l'effectif maximal et minimal par prénom

## DSL

In [34]:
from pyspark.sql.functions import max, min
prenoms.groupBy("prenom").agg(min("effectif"),max("effectif")).show()




+---------------+-------------+-------------+
|         prenom|min(effectif)|max(effectif)|
+---------------+-------------+-------------+
|      SÉRAPHINE|            4|            4|
|        MICHAEL|           28|          373|
|      PASCALINE|            3|            3|
| _PRENOMS_RARES|            3|         1166|
|        LILIANE|            3|           23|
|           NADA|           13|           13|
|       CELESTIN|            4|           12|
|     FRÉDÉRIQUE|           12|           18|
|        CAMERON|            5|            5|
|       MAROUANE|            3|            3|
|       FABIENNE|            5|           43|
|          CYRIL|            3|           81|
|MARIE-FRANÇOISE|            5|            5|
|          HABIB|            3|            4|
|         GASTON|            3|          114|
|           COME|            3|            3|
|          ADÈLE|            3|           17|
|  MARIE-THÉRÈSE|            5|          210|
|         ALICYA|            3|   

                                                                                

## SQL

In [27]:
#TODO
spark.sql("select prenom,min(effectif),max(effectif) from prenoms group by prenom").show()



+---------------+-------------+-------------+
|         prenom|min(effectif)|max(effectif)|
+---------------+-------------+-------------+
|      SÉRAPHINE|            4|            4|
|        MICHAEL|           28|          373|
|      PASCALINE|            3|            3|
| _PRENOMS_RARES|            3|         1166|
|        LILIANE|            3|           23|
|           NADA|           13|           13|
|       CELESTIN|            4|           12|
|     FRÉDÉRIQUE|           12|           18|
|        CAMERON|            5|            5|
|       MAROUANE|            3|            3|
|       FABIENNE|            5|           43|
|          CYRIL|            3|           81|
|MARIE-FRANÇOISE|            5|            5|
|          HABIB|            3|            4|
|         GASTON|            3|          114|
|           COME|            3|            3|
|          ADÈLE|            3|           17|
|  MARIE-THÉRÈSE|            5|          210|
|         ALICYA|            3|   

                                                                                

1. Donner, pour chaque nom de département, le nombre moyen de prénoms depuis l'année 2000

## DSL

In [48]:
#TODO
prenoms.join(depts,"dep").filter(prenoms["annee"]>2000).groupby("ncc").avg("effectif").show()

+--------------------+------------------+
|                 ncc|     avg(effectif)|
+--------------------+------------------+
|ALPES DE HAUTE PR...|               8.0|
|         HAUTE LOIRE|               5.5|
|                AUBE|               5.8|
|              LOIRET|             10.15|
|            ARDENNES| 5.333333333333333|
|               DOUBS| 6.181818181818182|
|       HAUTE GARONNE|              9.52|
|              ARIEGE|               3.0|
|      LOT ET GARONNE| 6.428571428571429|
|            CALVADOS|10.571428571428571|
|              LANDES|              10.0|
|             HERAULT| 6.842105263157895|
|        LOIR ET CHER|13.333333333333334|
|               MARNE|            10.375|
|                CHER|               6.4|
|      MAINE ET LOIRE|23.444444444444443|
|              CANTAL| 5.666666666666667|
|           FINISTERE|18.733333333333334|
|           COTE D OR|              9.75|
|                 AIN| 5.083333333333333|
+--------------------+------------

## SQL

In [47]:
#TODO
spark.sql("SELECT d.ncc, avg(p.effectif) FROM depts d JOIN prenoms p ON d.dep = p.dep WHERE p.annee >= 2000 GROUP BY d.ncc").show()

+--------------------+------------------+
|                 ncc|     avg(effectif)|
+--------------------+------------------+
|ALPES DE HAUTE PR...|               8.0|
|         HAUTE LOIRE|               5.5|
|                AUBE|               5.8|
|              LOIRET|             10.15|
|            ARDENNES|               7.1|
|               DOUBS|              6.25|
|       HAUTE GARONNE| 9.307692307692308|
|              ARIEGE|               3.0|
|      LOT ET GARONNE|               6.5|
|            CALVADOS|  8.88888888888889|
|              LANDES|              10.0|
|             HERAULT|              6.85|
|        LOIR ET CHER|13.333333333333334|
|               MARNE|            10.375|
|                CHER|               6.4|
|      MAINE ET LOIRE|23.444444444444443|
|              CANTAL| 5.666666666666667|
|           FINISTERE|             17.75|
|           COTE D OR|              9.75|
|                 AIN| 5.083333333333333|
+--------------------+------------