# Installation de Spark

In [None]:
# Install Spark
!wget -nc -q https://raw.githubusercontent.com/bamedro/training-bigdata/main/4-spark/setup-spark-on-ubuntu.sh
!chmod u+x setup-spark-on-ubuntu.sh
!./setup-spark-on-ubuntu.sh

In [None]:
# Définition des variables d'environnement (adapter si besoin)
!ls /usr/lib/jvm /content
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-17-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.5.5-bin-hadoop3"

# Démarrer une SparkSession

**Travail à faire**:

1. Démarrer une SparkSession en local appelée "TP Arbres"
2. Récupérer le SparkContext associé avec la fonction `getOrCreate()` (comprendre son fonctionnement)

In [None]:
# 1. Mise en place de la SparkSession

# Importer les modules pyspark requis par SparkSession puis SparkContext
...

# Créer une SparkSession
spark = ...

# Vérification que cette SparkSession est fonctionnelle
spark

Le SparkContext est créé lors de la création de la SparkSession, vérification ci-dessous

In [None]:
# 2. Récupération du SparkContext associé
sc = ...

sc

# Importation des données

**Travail à faire**:

1. Utiliser les fonctions `addFile` du SparkContext pour charger les données à partir de l'URL fournie.
2. Utiliser `listFiles` pour voir les fichiers chargés.
3. Utiliser `SparkFiles` pour charger les données dans un Dataframe Spark puis les visualiser.
4. Manipuler le Dataframe Spark.

Attention: lors de l'enregistrement du csv dans le SparkContext à l'aide de la fonction addFile, le nom du fichier devient "csv"

In [None]:
# 1. Chargement et visualisation des données

# Importer les modules pyspark requis par SparkFiles
from pyspark import ...

# Chargement des données à partir de l'URL
url = "https://opendata.paris.fr/api/v2/catalog/datasets/les-arbres/exports/csv?select=domanialite%2C%20arrondissement%2C%20libellefrancais%2C%20circonferenceencm%2C%20hauteurenm%2C%20stadedeveloppement&limit=-1&offset=0&timezone=UTC"
...

# 2. Lister les fichiers présents dans le SparkContext
...

# 3. Utiliser SparkFiles pour lire le fichier (il est au format csv)
df = ...

df.show(5)

+-----------+---------------+---------------+-----------------+----------+------------------+
|domanialite| arrondissement|libellefrancais|circonferenceencm|hauteurenm|stadedeveloppement|
+-----------+---------------+---------------+-----------------+----------+------------------+
|     Jardin|PARIS 15E ARRDT|          Hêtre|                0|         0|              null|
|     Jardin|PARIS 15E ARRDT|       Aubépine|               15|         5|              null|
|     Jardin|PARIS 16E ARRDT|       Poivrier|               10|         3|     Jeune (arbre)|
| Alignement|PARIS 16E ARRDT|        Platane|              170|        21|            Adulte|
| Alignement|PARIS 16E ARRDT|        Ailante|              121|        12|            Adulte|
+-----------+---------------+---------------+-----------------+----------+------------------+
only showing top 5 rows



In [None]:
# 4. Manipilation du Dataframe
# Afficher son schéma

...

root
 |-- domanialite: string (nullable = true)
 |-- arrondissement: string (nullable = true)
 |-- libellefrancais: string (nullable = true)
 |-- circonferenceencm: string (nullable = true)
 |-- hauteurenm: string (nullable = true)
 |-- stadedeveloppement: string (nullable = true)



Lorsque vous créez votre propre schéma et définissez les informations de champ, nullable est une option, par défaut, il est vrai, ce qui signifie que le champ que vous avez créé peut être nul.

In [None]:
# Nombres de lignes du Dataframe
...

207630

In [None]:
# Observer les différentes valeurs prises par une variable catégorielle
...

+-------------------+-----+
| stadedeveloppement|count|
+-------------------+-----+
|             Adulte|77992|
|Jeune (arbre)Adulte|38074|
|               null|47995|
|      Jeune (arbre)|36222|
|             Mature| 7347|
+-------------------+-----+

None


# Recherche de l'arrondissement ayant le moins d'arbres pour des plantations à venir

**Travail à faire**:

1. Sélectioner les colonnes *arrondissement*, *libellefrancais* et *stadedeveloppement* dans un nouveau DataFrame et fixer le type de ces colonnes à `string`
2. Trier le tableau pour déterminer les arrondissements ayant le moins d'arbres

**Sélection** des colonnes qui nous intéressent dans un nouveau DataFrame et changement de type de colonnes

In [None]:
# 1. Sélection des colonnes
df_plantations = ...

df_plantations.show(10)

+---------------+---------------+-------------------+
| arrondissement|libellefrancais| stadedeveloppement|
+---------------+---------------+-------------------+
|PARIS 15E ARRDT|          Hêtre|               null|
|PARIS 15E ARRDT|       Aubépine|               null|
|PARIS 16E ARRDT|       Poivrier|      Jeune (arbre)|
|PARIS 16E ARRDT|        Platane|             Adulte|
|PARIS 16E ARRDT|        Ailante|             Adulte|
|PARIS 11E ARRDT|        Tilleul|Jeune (arbre)Adulte|
| PARIS 8E ARRDT|     Marronnier|Jeune (arbre)Adulte|
|PARIS 16E ARRDT|          Chêne|      Jeune (arbre)|
|PARIS 13E ARRDT|        Tilleul|             Adulte|
|PARIS 17E ARRDT|        Tilleul|      Jeune (arbre)|
+---------------+---------------+-------------------+
only showing top 10 rows



In [None]:
# 2. Tri
tri_par_arrondissement = ...

tri_par_arrondissement.show()

+-----------------+-----+
|   arrondissement|count|
+-----------------+-----+
|   PARIS 2E ARRDT|  557|
|   PARIS 3E ARRDT| 1273|
|   PARIS 9E ARRDT| 1378|
|  PARIS 1ER ARRDT| 1668|
|   PARIS 6E ARRDT| 1793|
|   PARIS 5E ARRDT| 2646|
|   PARIS 4E ARRDT| 2781|
|  PARIS 10E ARRDT| 3597|
| BOIS DE BOULOGNE| 4100|
|   HAUTS-DE-SEINE| 5338|
|  PARIS 11E ARRDT| 6048|
|   PARIS 8E ARRDT| 7473|
|     VAL-DE-MARNE| 7583|
|   PARIS 7E ARRDT| 8744|
|  PARIS 18E ARRDT|10651|
|  PARIS 14E ARRDT|11585|
|  PARIS 17E ARRDT|11681|
|BOIS DE VINCENNES|11763|
|SEINE-SAINT-DENIS|12109|
|  PARIS 12E ARRDT|12804|
+-----------------+-----+
only showing top 20 rows



In [None]:
print("Les prochaines plantations à prévoir pourront se faire en priorité dans les deux localisations suivantes")
...

Les prochaines plantations à prévoir pourront se faire en priorité dans les localisations suivantes
+--------------+
|arrondissement|
+--------------+
|PARIS 2E ARRDT|
|PARIS 3E ARRDT|
+--------------+



# Pour aller plus loin

**Travail à faire**:

1. Pour chaque arrondissement, faire un double comptage de nombre d'arbres total et par stade de développement
2. Quelle est la hauteur moyenne des arbres par arrondissement?

In [None]:
# 1. Double comptage
...

result.show()

+---------------+-------------------+----------+-----+
| arrondissement| stadedeveloppement|count_dvpt|count|
+---------------+-------------------+----------+-----+
| PARIS 2E ARRDT|      Jeune (arbre)|        67|  557|
| PARIS 2E ARRDT|             Adulte|       358|  557|
| PARIS 2E ARRDT|Jeune (arbre)Adulte|        77|  557|
| PARIS 2E ARRDT|             Mature|        17|  557|
| PARIS 2E ARRDT|               null|        38|  557|
| PARIS 3E ARRDT|Jeune (arbre)Adulte|       256| 1273|
| PARIS 3E ARRDT|      Jeune (arbre)|       162| 1273|
| PARIS 3E ARRDT|             Adulte|       725| 1273|
| PARIS 3E ARRDT|               null|        86| 1273|
| PARIS 3E ARRDT|             Mature|        44| 1273|
| PARIS 9E ARRDT|Jeune (arbre)Adulte|       134| 1378|
| PARIS 9E ARRDT|               null|       165| 1378|
| PARIS 9E ARRDT|             Adulte|       771| 1378|
| PARIS 9E ARRDT|      Jeune (arbre)|       275| 1378|
| PARIS 9E ARRDT|             Mature|        33| 1378|
|PARIS 1ER

In [None]:
# 2. Calcul de la hauteur moyenne des arbres par arrondissement
...

hauteur_moyenne_par_arrondissement.show(40)

+-----------------+------------------+
|   arrondissement|   avg(hauteurenm)|
+-----------------+------------------+
|   HAUTS-DE-SEINE| 2.280629449231922|
|SEINE-SAINT-DENIS|  5.01577339169213|
|  PARIS 15E ARRDT| 6.535497660447114|
|     VAL-DE-MARNE| 7.152710009231175|
|  PARIS 1ER ARRDT| 8.299760191846524|
|  PARIS 13E ARRDT| 8.641970953136944|
|  PARIS 17E ARRDT| 8.769711497303312|
|  PARIS 12E ARRDT| 8.798344267416432|
|  PARIS 20E ARRDT| 9.046179359612195|
|  PARIS 14E ARRDT| 9.086750107898144|
|  PARIS 19E ARRDT| 9.105816210427681|
|BOIS DE VINCENNES| 9.428547139335203|
|   PARIS 9E ARRDT| 9.482583454281567|
|  PARIS 18E ARRDT| 9.556755234250305|
|   PARIS 2E ARRDT|  9.58527827648115|
|   PARIS 3E ARRDT| 9.688923802042419|
|  PARIS 11E ARRDT| 9.702711640211641|
|   PARIS 4E ARRDT|10.016540812657318|
|  PARIS 10E ARRDT|10.430914651098137|
|  PARIS 16E ARRDT|10.512878920623795|
|   PARIS 7E ARRDT| 10.91651418115279|
| BOIS DE BOULOGNE|10.972926829268292|
|   PARIS 5E ARRDT| 10.98