In [0]:
# Librairies néccessaire
import time

# File location and type
file_location = "/FileStore/tables/aggregated_velib_data.csv"
file_type = "csv"

# CSV options
infer_schema = "false"
first_row_is_header = "True"
delimiter = ","

# Chargement du fichier CSV
df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

display(df)

station_id,name,latitude,longitude,capacity,stationCode,numBikesAvailable,num_bikes_available_types_mechanical,num_bikes_available_types_ebike,numDocksAvailable
213688169,Benjamin Godard - Victor Hugo,48.865983,2.275725,35,16107,8,2,6,27
653222953,Mairie de Rosny-sous-Bois,48.871256519012,2.4865807592869,30,31104,23,9,14,7
36255,Toudouze - Clauzel,48.87929591733507,2.3373600840568547,21,9020,2,0,2,19
37815204,Mairie du 12ème,48.840855311763,2.3875549435616,30,12109,28,19,9,0
17278902806,Rouget de L'isle - Watteau,48.778192750803,2.3963020229163,0,44015,0,0,0,0
251039991,Cassini - Denfert-Rochereau,48.837525839067,2.3360354080796,25,14111,4,1,3,20
85002689,Jourdan - Stade Charléty,48.819428333369,2.3433353751898,60,14014,9,3,6,48
2515829865,Basilique,48.93626891059109,2.3588666820200914,22,32017,16,8,8,3
516709288,Charonne - Robert et Sonia Delaunay,48.855907555969,2.3925706744194,20,11104,0,0,0,19
120827885,Messine - Place Du Pérou,48.87544803396074,2.315508019010038,12,8026,10,3,7,1


In [0]:
# Create a view or table
temp_table_name = "aggregated_velib_data_csv"
df.createOrReplaceTempView(temp_table_name)

# Affichage du nombre de partitions
print("Nombre de partitions: ", df.rdd.getNumPartitions())

Nombre de partitions:  1


In [0]:
#Nombre moyen de places de vélos pour chaque station
station_avg_numDocksAvailable = df.groupBy("name") \
                 .agg({"numDocksAvailable": "avg"}) \
                 .withColumnRenamed("avg(numDocksAvailable)", "average")

# Nombre min de places de vélos pour chaque station
station_min_numDocksAvailable = df.groupBy("name") \
                 .agg({"numDocksAvailable": "min"}) \
                 .withColumnRenamed("min(numDocksAvailable)", "minimum") 
                
# Nombre max de places de vélos pour chaque station
station_max_numDocksAvailable = df.groupBy("name") \
                 .agg({"numDocksAvailable": "max"}) \
                 .withColumnRenamed("max(numDocksAvailable)", "maximum")

# Afficher les statistiques par station Velib
display(station_avg_numDocksAvailable)
display(station_min_numDocksAvailable)
display(station_max_numDocksAvailable)

name,average
Ramponeau - Belleville,38.94
Raspail - Varenne,8.32
Thouin - Cardinal Lemoine,14.86
Cambrai - Benjamin Constant,35.02
Bracion - Périphérique,26.94
Bois de Vincennes - Gare,43.46
Square Boucicaut,11.48
Messine - Place Du Pérou,1.1764705882352942
Bir Hakeim,4.34
Toudouze - Clauzel,19.62745098039216


name,minimum
Alibert - Jemmapes,46
André Karman - République,10
Basilique,3
Beaux-Arts - Bonaparte,0
Benjamin Godard - Victor Hugo,27
Bir Hakeim,2
Bois de Vincennes - Gare,42
Boétie - Ponthieu,2
Bracion - Périphérique,26
Cambrai - Benjamin Constant,34


name,maximum
Alibert - Jemmapes,53
André Karman - République,9
Basilique,5
Beaux-Arts - Bonaparte,1
Benjamin Godard - Victor Hugo,32
Bir Hakeim,8
Bois de Vincennes - Gare,44
Boétie - Ponthieu,4
Bracion - Périphérique,28
Cambrai - Benjamin Constant,36


In [0]:
# Le nombre moyen de place de velib pour chaque zone (définir par nous même)
zone_stats = df.filter("latitude > 48.865983 AND latitude < 48.91206062860357 AND longitude > 2.275725 AND longitude < 2.4865807592869").agg({"numDocksAvailable": "avg"})
zone_stats.show()

+----------------------+
|avg(numDocksAvailable)|
+----------------------+
|    26.662576687116566|
+----------------------+



In [0]:
# Stations avec parfois aucun vélo disponible
no_bike_stations = df.filter(df["numBikesAvailable"] == 0).select("name").distinct()
no_bike_stations.show()

+--------------------+
|                name|
+--------------------+
|Ramponeau - Belle...|
|Thouin - Cardinal...|
|Place Nelson Mand...|
|Rouget de L'isle ...|
|Rond-point du Dr ...|
|Charonne - Robert...|
+--------------------+



In [0]:
%sql
/* Nombre moyen, min et max de places de vélos pour chaque station */
SELECT 
  name,
  AVG(numDocksAvailable) AS average_place_station,
  MIN(numDocksAvailable) AS minimum_place_station,
  MAX(numDocksAvailable) AS maximum_place_station
FROM 
  `aggregated_velib_data_csv` 
GROUP BY 
  name

name,average_place_station,minimum_place_station,maximum_place_station
Alibert - Jemmapes,50.74,46,53
André Karman - République,8.02,10,9
Basilique,3.686274509803922,3,5
Beaux-Arts - Bonaparte,0.44,0,1
Benjamin Godard - Victor Hugo,30.62745098039216,27,32
Bir Hakeim,4.34,2,8
Bois de Vincennes - Gare,43.46,42,44
Boétie - Ponthieu,2.5,2,4
Bracion - Périphérique,26.94,26,28
Cambrai - Benjamin Constant,35.02,34,36


In [0]:
%sql
/* Nombre moyen de place de velib pour chaque zone (définir par nous même) */
/*Cette requête SQL sélectionne les colonnes latitude, longitude et num_bikes_available de la table velib_data, puis filtre les données selon les critères de latitude et de longitude spécifiés avec la clause WHERE. Elle divise ensuite la zone géographique restante en cellules rectangulaires en arrondissant les valeurs de latitude et longitude à deux décimales et en les concaténant avec une virgule. Elle utilise la fonction d'agrégation AVG pour calculer la moyenne du nombre de places de vélos disponibles pour chaque cellule. Les résultats sont renvoyés dans un tableau qui contient une ligne pour chaque cellule, avec les colonnes cell et average.*/
SELECT 
  CONCAT(ROUND(latitude, 2), ',', ROUND(longitude, 2)) AS zone,
  AVG(numDocksAvailable) AS average
FROM 
 
WHERE 
  latitude > 48.865983 AND latitude < 48.91206062860357 AND longitude > 2.275725 AND longitude < 2.4865807592869
GROUP BY 
  zone


[0;31m---------------------------------------------------------------------------[0m
[0;31mParseException[0m                            Traceback (most recent call last)
[0;32m<command-4259720334367807>[0m in [0;36m<cell line: 1>[0;34m()[0m
[1;32m      5[0m     [0mdisplay[0m[0;34m([0m[0mdf[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[1;32m      6[0m     [0;32mreturn[0m [0mdf[0m[0;34m[0m[0;34m[0m[0m
[0;32m----> 7[0;31m   [0m_sqldf[0m [0;34m=[0m [0m____databricks_percent_sql[0m[0;34m([0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0m[1;32m      8[0m [0;32mfinally[0m[0;34m:[0m[0;34m[0m[0;34m[0m[0m
[1;32m      9[0m   [0;32mdel[0m [0m____databricks_percent_sql[0m[0;34m[0m[0;34m[0m[0m

[0;32m<command-4259720334367807>[0m in [0;36m____databricks_percent_sql[0;34m()[0m
[1;32m      2[0m   [0;32mdef[0m [0m____databricks_percent_sql[0m[0;34m([0m[0;34m)[0m[0;34m:[0m[0;34m[0m[0;34m[0m[0m
[1;32m      3[0m     [0;32mimport

In [0]:
%sql
/*Le nombre de station et / ou la liste des stations qui ont parfois aucun vélib disponible*/
SELECT name
FROM `aggregated_velib_data_csv` 
WHERE numBikesAvailable=0

name
Rouget de L'isle - Watteau
Charonne - Robert et Sonia Delaunay
Rouget de L'isle - Watteau
Charonne - Robert et Sonia Delaunay
Rouget de L'isle - Watteau
Charonne - Robert et Sonia Delaunay
Rouget de L'isle - Watteau
Charonne - Robert et Sonia Delaunay
Rouget de L'isle - Watteau
Charonne - Robert et Sonia Delaunay


In [0]:
# Pour s'assurer que le jeu de données ne soit stocké que sur une seule partition dans Spark, nous pouvons utiliser la méthode coalesce(1) sur le DataFrame pour fusionner toutes les partitions en une seule partition. 
df = df.coalesce(1)
display(df)

# Dans notre cas vu la masse de donnée, les données sont déjà stocké que sur une seule partition 

station_id,name,latitude,longitude,capacity,stationCode,numBikesAvailable,num_bikes_available_types_mechanical,num_bikes_available_types_ebike,numDocksAvailable
213688169,Benjamin Godard - Victor Hugo,48.865983,2.275725,35,16107,8,2,6,27
653222953,Mairie de Rosny-sous-Bois,48.871256519012,2.4865807592869,30,31104,23,9,14,7
36255,Toudouze - Clauzel,48.87929591733507,2.3373600840568547,21,9020,2,0,2,19
37815204,Mairie du 12ème,48.840855311763,2.3875549435616,30,12109,28,19,9,0
17278902806,Rouget de L'isle - Watteau,48.778192750803,2.3963020229163,0,44015,0,0,0,0
251039991,Cassini - Denfert-Rochereau,48.837525839067,2.3360354080796,25,14111,4,1,3,20
85002689,Jourdan - Stade Charléty,48.819428333369,2.3433353751898,60,14014,9,3,6,48
2515829865,Basilique,48.93626891059109,2.3588666820200914,22,32017,16,8,8,3
516709288,Charonne - Robert et Sonia Delaunay,48.855907555969,2.3925706744194,20,11104,0,0,0,19
120827885,Messine - Place Du Pérou,48.87544803396074,2.315508019010038,12,8026,10,3,7,1


In [0]:
#Pour comparer le temps de traitement entre une partition et deux partitions, nous pouvons utiliser la méthode repartition(2) pour répartir le DataFrame sur deux partitions avant d'effectuer une opération de transformation et mesurer le temps d'exécution.

#Donnée sur une partion
df_one_partition=df

# Mesurer le temps d'exécution pour le comptage de lignes sur une partition 
start_time_with_one_partitions = time.time()
count_with_one_partitions = df_one_partition.count()
end_time_with_one_partitions = time.time()

# Répartition des données sur deux partitions
df_two_partitions = df.repartition(2)

# Mesurer le temps d'exécution pour le comptage de lignes sur deux partitions
start_time_with_two_partitions = time.time()
count_with_two_partitions = df_two_partitions.count()
end_time_with_two_partitions = time.time()

# Afficher le nombre de lignes et le temps d'exécution sur une partition
print("1 partition ")
print("Nombre de lignes : ", count_with_two_partitions)
print("Temps d'exécution : ", end_time_with_two_partitions - start_time_with_two_partitions, "secondes")

print("----------------------------------------------------------")

# Afficher le nombre de lignes et le temps d'exécution sur deux partitions
print("2 partitions ")
print("Nombre de lignes : ", count)
print("Temps d'exécution : ", end_time - start_time, "secondes")


1 partition 
Nombre de lignes :  2510
Temps d'exécution :  0.30688023567199707 secondes
----------------------------------------------------------
2 partitions 
Nombre de lignes :  2510
Temps d'exécution :  0.6374020576477051 secondes
