In [0]:
#Installation de follium pour la géovisualisation

%pip install folium

Python interpreter will be restarted.
Python interpreter will be restarted.


In [0]:
#Liste des librairies utilisées au sein du notebook

import numpy as np
import pandas as pd
import json
import time
from pyspark.sql.functions import *
import plotly.express as px
import plotly.graph_objs as go
import matplotlib.pyplot as plt
from plotly.subplots import make_subplots
import folium



In [0]:
#Vérification de la version de Spark

sc

In [0]:
#Chargement du fichier csv à l'intérieur du notebook

df = spark.read.format("csv") \
  .option("header", "true") \
  .option("delimiter", ",") \
  .load("/FileStore/tables/vélib_batch_par30__1_.csv")

df = df.withColumn('Heure', hour(df.Date))

display(df)

Date,Station,Code Station,Etat de la station,Nb bornes disponibles,Nombres de bornes en station,Nombre vélo en PARK+,Nb vélo mécanique,Nb vélo électrique,geo_lat,geo_long,Heure
2023-02-27 08:49:57,Benjamin Godard - Victor Hugo,16107,OUI,5,30,35,1,4,48.865983,2.275725,8
2023-02-27 08:49:57,Mairie de Rosny-sous-Bois,31104,OUI,28,2,30,12,16,48.871256519012,2.4865807592869,8
2023-02-27 08:49:57,Rouget de L'isle - Watteau,44015,NON,0,0,0,0,0,48.778192750803,2.3963020229163,8
2023-02-27 08:49:57,Cassini - Denfert-Rochereau,14111,OUI,19,6,25,15,4,48.837525839067,2.3360354080796,8
2023-02-27 08:49:57,Jourdan - Stade Charléty,14014,OUI,11,48,60,3,8,48.819428333369,2.3433353751898,8
2023-02-27 08:49:57,Basilique,32017,OUI,13,8,22,7,6,48.93626891059109,2.3588666820200914,8
2023-02-27 08:49:57,Charonne - Robert et Sonia Delaunay,11104,OUI,0,20,20,0,0,48.855907555969,2.3925706744194,8
2023-02-27 08:49:57,Harpe - Saint-Germain,5001,OUI,37,6,45,18,19,48.851518815017,2.3436703160405,8
2023-02-27 08:49:57,Saint-Sulpice,6003,OUI,15,5,21,14,1,48.85165383178419,2.3308077827095985,8
2023-02-27 08:49:57,Lacépède - Monge,5110,OUI,2,20,23,1,1,48.84389286531899,2.351966388523578,8


In [0]:
#Transformation du dataframe en RDD

rdd = df.rdd
rdd.getNumPartitions()

Out[4]: 1

Comment améliorer l’expérience utilisateur et renforcer l'usage

In [0]:
df.createOrReplaceTempView("data")

In [0]:
#Les différents calculs nécessaire à l'analyse de nos données : le nombre moyen, le min et le max de place de velib ainsi que le pourcentage de valo pour chaque station en heures de pointes
#Calculs basé sur les heures de pointe globale

spark.sql("select `Station`, min(`Nb vélo mécanique` + `Nb vélo électrique`) as `Minimum de vélos disponibles par station`, max(`Nb vélo mécanique` + `Nb vélo électrique`) as `Maximum de vélos disponibles par station`, avg(`Nb vélo mécanique` + `Nb vélo électrique`) as `Moyenne de vélos disponibles par station`, ((`Nb bornes disponibles` * 100) / `Nombre vélo en PARK+`) as `Pourcentage de vélo en station` from data where `Etat de la station` = 'OUI' and `Heure` in ('6', '7', '8', '9', '10', '16', '17', '18', '19', '20', '21') group by `Station`, `Nb bornes disponibles`, `Nombre vélo en PARK+`").show()

+--------------------+----------------------------------------+----------------------------------------+----------------------------------------+------------------------------+
|             Station|Minimum de vélos disponibles par station|Maximum de vélos disponibles par station|Moyenne de vélos disponibles par station|Pourcentage de vélo en station|
+--------------------+----------------------------------------+----------------------------------------+----------------------------------------+------------------------------+
|Gare de l'Est - F...|                                     2.0|                                     2.0|                                     2.0|                          6.25|
|   Paris - Laitières|                                     2.0|                                     2.0|                                     2.0|             9.090909090909092|
|Jules Guesdes - C...|                                    12.0|                                    12.0|           

In [0]:
#Application graphique des calculs pour pouvoir visualiser le pourcentage de velos par station en heures de pointes globale

stat_station = (spark.sql("select `Station`, min(`Nb vélo mécanique` + `Nb vélo électrique`) as `Minimum de vélos disponibles par station`, max(`Nb vélo mécanique` + `Nb vélo électrique`) as `Maximum de vélos disponibles par station`, avg(`Nb vélo mécanique` + `Nb vélo électrique`) as `Moyenne de vélos disponibles par station`,(((`Nb vélo mécanique` + `Nb vélo électrique`) * 100) / `Nombre vélo en PARK+`) as `Pourcentage de vélo en station`, `geo_lat` as `lat`, `geo_long` as `lon` from data where `Etat de la station` = 'OUI' and `Heure` in ('6', '7', '8', '9', '10', '16', '17', '18', '19', '20', '21') group by `Station`, `lat`, `lon`, `Nb vélo mécanique`, `Nb vélo électrique`, `Nombre vélo en PARK+`")).toPandas()

x = stat_station['Station']
#y_min = stat_station['Minimum de vélos disponibles par station'].sort_values()
#y_max = stat_station['Maximum de vélos disponibles par station'].sort_values()
#y_avg = stat_station['Moyenne de vélos disponibles par station'].sort_values()
y_per = stat_station['Pourcentage de vélo en station']

fig = go.Figure()
#fig.add_trace(go.Bar(
#    x=x,
##    y=y_min,
#    name='Minimum de vélos',
#    marker_color='indianred',
#))
#fig.add_trace(go.Bar(
#    x=x,
#    y=y_max,
#    name='Maximum de vélos',
#    marker_color='lightsalmon',
#))
#fig.add_trace(go.Bar(
#    x=x,
#    y=y_avg,
#    name='Moyenne de vélos',
#    marker_color='blue',
#))
fig.add_trace(go.Bar(
    x=x,
    y=y_per,
    name='Pourcentage de vélos en station',
))

fig.update_layout(barmode='group', xaxis_tickangle=-45)
fig.show()

In [0]:
#Jeu de données utilisé pour la représentation des graphes par station en heures de pointes globale

stat_station

Unnamed: 0,Station,Minimum de vélos disponibles par station,Maximum de vélos disponibles par station,Moyenne de vélos disponibles par station,Pourcentage de vélo en station,lat,lon
0,Stade de France,19.0,19.0,19.0,43.181818,48.919141953558054,2.362065576016903
1,Glacière - Soeur Catherine Marie,4.0,4.0,4.0,10.000000,48.829522989420596,2.343570403754711
2,Séminaire de Conflans - Liberté,2.0,2.0,2.0,7.692308,48.823194,2.404179
3,Vaneau - Sèvres,3.0,3.0,3.0,8.571429,48.84856323305935,2.3204218259345537
4,Favart - Italiens,15.0,15.0,15.0,88.235294,48.871446353921,2.3382901058508
...,...,...,...,...,...,...,...
12532,Thouin - Cardinal Lemoine,12.0,12.0,12.0,70.588235,48.84504716661511,2.3494647851273465
12533,Place Marcel Cachin,17.0,17.0,17.0,53.125000,48.81411442356866,2.39090770483017
12534,Place Violet,11.0,11.0,11.0,36.666667,48.84487893836502,2.2905756533145905
12535,Gaston Tessier - Rosa Parks RER,3.0,3.0,3.0,8.108108,48.8963765,2.3743692


In [0]:
#Géovisualition des stations de vélibs qui présente le plus de difficultés à fournir des vélos aux demandeurs

lat = 48.8566
lon = 2.3522

# Sélection des stations qui présentent les plus faibles ppourcentage de vélos en heures de pointes

stations_etd = (stat_station.loc[stat_station['Pourcentage de vélo en station'] < 5])

carte = folium.Map(location=[lat, lon], zoom_start=12)

for index, row in stations_etd.iterrows():
    popup_text = f"<b>{row['Station']}</b><br>"
    #popup_text += f"Minimum de vélos disponibles : {row['Minimum de vélos disponibles par station']}<br>"
    #popup_text += f"Maximum de vélos disponibles : {row['Maximum de vélos disponibles par station']}<br>"
    popup_text += f"Moyenne de vélos disponibles en heures de pointes : {row['Moyenne de vélos disponibles par station']}<br>"
    popup_text += f"Pourcentage de vélos disponibles en heures de pointes : {row['Pourcentage de vélo en station']}<br>"
    folium.Marker(location=[row['lat'], row['lon']], popup=popup_text).add_to(carte)

carte

In [0]:
#Répartion du parc global actif de vélo par tranches horaire

spark.sql("select `Heure`, ((100 * sum(`Nb bornes disponibles`))/sum(`Nombre vélo en PARK+`)) from data where `Etat de la station` = 'OUI' group by `Heure` ORDER BY `Heure` ASC").show()

+-----+----------------------------------------------------------------+
|Heure|((100 * sum(Nb bornes disponibles)) / sum(Nombre vélo en PARK+))|
+-----+----------------------------------------------------------------+
|    8|                                               34.22978534089645|
|    9|                                               35.95150706261818|
|   10|                                              38.183739294850405|
|   11|                                              38.317206094983874|
|   12|                                               37.76887999110221|
|   13|                                              37.547547547547545|
|   14|                                               37.89122455789123|
|   15|                                               37.74885997108219|
|   16|                                               37.39517295072851|
|   17|                                              36.126126126126124|
|   18|                                            

In [0]:
#Répartion du parc global actif de vélo dans la première phase d'heure de pointe (8h à 10h)

spark.sql("select ((100 * sum(`Nb bornes disponibles`))/sum(`Nombre vélo en PARK+`)) from data where `Etat de la station` = 'OUI' and `Heure` in ('8', '9', '10')").show()

+----------------------------------------------------------------+
|((100 * sum(Nb bornes disponibles)) / sum(Nombre vélo en PARK+))|
+----------------------------------------------------------------+
|                                               36.50005561116672|
+----------------------------------------------------------------+



In [0]:
#Répartion du parc global actif de vélo dans la première phase d'heure de pointe (16h à 19h)


spark.sql("select ((100 * sum(`Nb bornes disponibles`))/sum(`Nombre vélo en PARK+`)) from data where `Etat de la station` = 'OUI' and `Heure` in ('16', '17', '18', '19')").show() 

+----------------------------------------------------------------+
|((100 * sum(Nb bornes disponibles)) / sum(Nombre vélo en PARK+))|
+----------------------------------------------------------------+
|                                               35.42681570459348|
+----------------------------------------------------------------+



In [0]:
#Application graphique : visualiser le pourcentage de velos par station en heures de pointes première tranche (8h à 10h)

stat_station = (spark.sql("select `Station`, (((`Nb vélo mécanique` + `Nb vélo électrique`) * 100) / `Nombre vélo en PARK+`) as `Pourcentage de vélo en station`, `geo_lat` as `lat`, `geo_long` as `lon` from data where `Etat de la station` = 'OUI' and `Heure` in ('8', '9', '10') group by `Station`, `lat`, `lon`, `Nb vélo mécanique`, `Nb vélo électrique`, `Nombre vélo en PARK+`")).toPandas()

x = stat_station['Station']
y_per = stat_station['Pourcentage de vélo en station']

fig = go.Figure()
fig.add_trace(go.Bar(
    x=x,
    y=y_per,
    name='Pourcentage de vélos en station',
))

fig.update_layout(barmode='group', xaxis_tickangle=-45)
fig.show()

In [0]:
stat_station

Unnamed: 0,Station,Pourcentage de vélo en station,lat,lon
0,Stade de France,43.181818,48.919141953558054,2.362065576016903
1,Glacière - Soeur Catherine Marie,10.000000,48.829522989420596,2.343570403754711
2,Séminaire de Conflans - Liberté,7.692308,48.823194,2.404179
3,Vaneau - Sèvres,8.571429,48.84856323305935,2.3204218259345537
4,Favart - Italiens,88.235294,48.871446353921,2.3382901058508
...,...,...,...,...
5044,Gabriel Péri - Danielle Casanova,65.000000,48.790114,2.4025777
5045,Président Wilson - Jean Jaures,22.222222,48.89034054052266,2.2920683026313786
5046,Ancienne Mairie - André Morizet,84.000000,48.838311,2.234077
5047,Convention - Saint-Charles,42.105263,48.84315611111599,2.2831090539693832


In [0]:
#Application graphique : visualiser le pourcentage de velos par station en heures de pointes deuxième tranche (16h à 19h)

stat_station = (spark.sql("select `Station`, (((`Nb vélo mécanique` + `Nb vélo électrique`) * 100) / `Nombre vélo en PARK+`) as `Pourcentage de vélo en station`, `geo_lat` as `lat`, `geo_long` as `lon` from data where `Etat de la station` = 'OUI' and `Heure` in ('16', '17', '18', '19') group by `Station`, `lat`, `lon`, `Nb vélo mécanique`, `Nb vélo électrique`, `Nombre vélo en PARK+`")).toPandas()

x = stat_station['Station']
y_per = stat_station['Pourcentage de vélo en station']

fig = go.Figure()
fig.add_trace(go.Bar(
    x=x,
    y=y_per,
    name='Pourcentage de vélos en station',
))

fig.update_layout(barmode='group', xaxis_tickangle=-45)
fig.show()

In [0]:
stat_station

Unnamed: 0,Station,Pourcentage de vélo en station,lat,lon
0,Rond-Point Rhin et Danube,92.452830,48.840452820991764,2.2280225157737736
1,Ancien Canal - Hélène Brion,13.043478,48.89484799296163,2.4188338592648506
2,Parc Suzanne Lenglen,96.153846,48.833250690537874,2.2765403240919113
3,Anatole France - President Roosevelt,10.344828,48.9155156,2.3814103
4,Louis Pasteur - Albert Petit,6.451613,48.796261,2.317289
...,...,...,...,...
8584,Thouin - Cardinal Lemoine,70.588235,48.84504716661511,2.3494647851273465
8585,Place Marcel Cachin,53.125000,48.81411442356866,2.39090770483017
8586,Place Violet,36.666667,48.84487893836502,2.2905756533145905
8587,Gaston Tessier - Rosa Parks RER,8.108108,48.8963765,2.3743692


In [0]:
#Calcul du pourcentage global de vélo mécanique premiere phase de pointe (8h à 10h)

spark.sql("select ((100 * sum(`Nb vélo mécanique`))/sum(`Nombre vélo en PARK+`)) from data where `Etat de la station` = 'OUI' and `Heure` in ('8', '9', '10')").show()

+------------------------------------------------------------+
|((100 * sum(Nb vélo mécanique)) / sum(Nombre vélo en PARK+))|
+------------------------------------------------------------+
|                                          22.561672783895006|
+------------------------------------------------------------+



In [0]:
#Par station

stat_station = (spark.sql("select `Station`, (((`Nb vélo mécanique`) * 100) / `Nombre vélo en PARK+`) as `Pourcentage de vélo en station`, `geo_lat` as `lat`, `geo_long` as `lon` from data where `Etat de la station` = 'OUI' and `Heure` in ('8', '9', '10') group by `Station`, `lat`, `lon`, `Nb vélo mécanique`, `Nb vélo électrique`, `Nombre vélo en PARK+`")).toPandas()
stat_station

Unnamed: 0,Station,Pourcentage de vélo en station,lat,lon
0,Stade de France,11.363636,48.919141953558054,2.362065576016903
1,Glacière - Soeur Catherine Marie,5.000000,48.829522989420596,2.343570403754711
2,Séminaire de Conflans - Liberté,3.846154,48.823194,2.404179
3,Vaneau - Sèvres,5.714286,48.84856323305935,2.3204218259345537
4,Favart - Italiens,52.941176,48.871446353921,2.3382901058508
...,...,...,...,...
5044,Gabriel Péri - Danielle Casanova,40.000000,48.790114,2.4025777
5045,Président Wilson - Jean Jaures,11.111111,48.89034054052266,2.2920683026313786
5046,Ancienne Mairie - André Morizet,44.000000,48.838311,2.234077
5047,Convention - Saint-Charles,42.105263,48.84315611111599,2.2831090539693832


In [0]:
#Calcul du pourcentage global de vélo mécanique deuxième phase de pointe (16h à 19h)

spark.sql("select ((100 * sum(`Nb vélo mécanique`))/sum(`Nombre vélo en PARK+`)) from data where `Etat de la station` = 'OUI' and `Heure` in ('16', '17', '18', '19')").show()

+------------------------------------------------------------+
|((100 * sum(Nb vélo mécanique)) / sum(Nombre vélo en PARK+))|
+------------------------------------------------------------+
|                                          22.231120008897786|
+------------------------------------------------------------+



In [0]:
#Par station

stat_station = (spark.sql("select `Station`, (((`Nb vélo mécanique`) * 100) / `Nombre vélo en PARK+`) as `Pourcentage de vélo en station`, `geo_lat` as `lat`, `geo_long` as `lon` from data where `Etat de la station` = 'OUI' and `Heure` in ('16', '17', '18', '19') group by `Station`, `lat`, `lon`, `Nb vélo mécanique`, `Nb vélo électrique`, `Nombre vélo en PARK+`")).toPandas()
stat_station

Unnamed: 0,Station,Pourcentage de vélo en station,lat,lon
0,Rond-Point Rhin et Danube,69.811321,48.840452820991764,2.2280225157737736
1,Ancien Canal - Hélène Brion,4.347826,48.89484799296163,2.4188338592648506
2,Parc Suzanne Lenglen,78.846154,48.833250690537874,2.2765403240919113
3,Anatole France - President Roosevelt,3.448276,48.9155156,2.3814103
4,Louis Pasteur - Albert Petit,0.000000,48.796261,2.317289
...,...,...,...,...
8584,Thouin - Cardinal Lemoine,23.529412,48.84504716661511,2.3494647851273465
8585,Place Marcel Cachin,50.000000,48.81411442356866,2.39090770483017
8586,Place Violet,30.000000,48.84487893836502,2.2905756533145905
8587,Gaston Tessier - Rosa Parks RER,0.000000,48.8963765,2.3743692


In [0]:
#Calcul du pourcentage global de vélo électrique premiere phase de pointe (8h à 10h)

spark.sql("select ((100 * sum(`Nb vélo électrique`))/sum(`Nombre vélo en PARK+`)) from data where `Etat de la station` = 'OUI' and `Heure` in ('8', '9', '10')").show()

+-------------------------------------------------------------+
|((100 * sum(Nb vélo électrique)) / sum(Nombre vélo en PARK+))|
+-------------------------------------------------------------+
|                                           13.938382827271717|
+-------------------------------------------------------------+



In [0]:
#Par station

stat_station = (spark.sql("select `Station`, (((`Nb vélo mécanique` + `Nb vélo électrique`) * 100) / `Nombre vélo en PARK+`) as `Pourcentage de vélo en station`, `geo_lat` as `lat`, `geo_long` as `lon` from data where `Etat de la station` = 'OUI' and `Heure` in ('8', '9', '10') group by `Station`, `lat`, `lon`, `Nb vélo mécanique`, `Nb vélo électrique`, `Nombre vélo en PARK+`")).toPandas()
stat_station

Unnamed: 0,Station,Pourcentage de vélo en station,lat,lon
0,Stade de France,43.181818,48.919141953558054,2.362065576016903
1,Glacière - Soeur Catherine Marie,10.000000,48.829522989420596,2.343570403754711
2,Séminaire de Conflans - Liberté,7.692308,48.823194,2.404179
3,Vaneau - Sèvres,8.571429,48.84856323305935,2.3204218259345537
4,Favart - Italiens,88.235294,48.871446353921,2.3382901058508
...,...,...,...,...
5044,Gabriel Péri - Danielle Casanova,65.000000,48.790114,2.4025777
5045,Président Wilson - Jean Jaures,22.222222,48.89034054052266,2.2920683026313786
5046,Ancienne Mairie - André Morizet,84.000000,48.838311,2.234077
5047,Convention - Saint-Charles,42.105263,48.84315611111599,2.2831090539693832


In [0]:
#Calcul du pourcentage global de vélo électrique deuxième phase de pointe (16h à 19h)

spark.sql("select ((100 * sum(`Nb vélo électrique`))/sum(`Nombre vélo en PARK+`)) from data where `Etat de la station` = 'OUI' and `Heure` in ('16', '17', '18', '19')").show()

+-------------------------------------------------------------+
|((100 * sum(Nb vélo électrique)) / sum(Nombre vélo en PARK+))|
+-------------------------------------------------------------+
|                                           13.195695695695695|
+-------------------------------------------------------------+



In [0]:
#Par station

stat_station = (spark.sql("select `Station`, (((`Nb vélo mécanique` + `Nb vélo électrique`) * 100) / `Nombre vélo en PARK+`) as `Pourcentage de vélo en station`, `geo_lat` as `lat`, `geo_long` as `lon` from data where `Etat de la station` = 'OUI' and `Heure` in ('16', '17', '18', '19') group by `Station`, `lat`, `lon`, `Nb vélo mécanique`, `Nb vélo électrique`, `Nombre vélo en PARK+`")).toPandas()
stat_station

Unnamed: 0,Station,Pourcentage de vélo en station,lat,lon
0,Rond-Point Rhin et Danube,92.452830,48.840452820991764,2.2280225157737736
1,Ancien Canal - Hélène Brion,13.043478,48.89484799296163,2.4188338592648506
2,Parc Suzanne Lenglen,96.153846,48.833250690537874,2.2765403240919113
3,Anatole France - President Roosevelt,10.344828,48.9155156,2.3814103
4,Louis Pasteur - Albert Petit,6.451613,48.796261,2.317289
...,...,...,...,...
8584,Thouin - Cardinal Lemoine,70.588235,48.84504716661511,2.3494647851273465
8585,Place Marcel Cachin,53.125000,48.81411442356866,2.39090770483017
8586,Place Violet,36.666667,48.84487893836502,2.2905756533145905
8587,Gaston Tessier - Rosa Parks RER,8.108108,48.8963765,2.3743692


Pour conclure : 

  Afin d'améliorer l’expérience utilisateur et renforcer l'usage des vélibs en région parisienne, nous ciblons tout d'abord les plages horaires à forte affluence de flux de vélos qu'on répartira en deux grandes plages horaires. La première plage qui est représentée de 8 à 10h et la deuxième qui est sur l'intervalle de 16 à 18h. Mais finalement grâce a nos analyses on voit que les heures d'affluence n'ont pas une si grande importance que ce qu'on pourrait pense. Par contre grâce au taux de vélos disponible en station, nous allons affluer les zones qui présente le plus faibles pourcentage de vélos grâce aux vélos qui sont dans celles qui présentent un plus gros volume et qui sont dans des zones moins fréquentées. Ainsi nous contribuerons à renforcer l'usage des vélos mais aussi à maintenir la satisfaction clientèle parce que des vélos seront tout le temps disponibles.
  
  Ensuite dans le but d'améliorer le confort usagers nous proposons donc d'augmenter le parc de vélos électrique afin d'attirer une plus grande clientèle et avoir un parc de vélos qui pourra subvenir au trafic les plus volumineux.

Partie API

In [0]:
#Application du traitement avec l'API pour un affichage avec les données en temps réel

import requests
import pandas as pd

api_url = "https://opendata.paris.fr/api/records/1.0/search/"
api_params = {
    "dataset": "velib-disponibilite-en-temps-reel",
    "rows": 10000,
    "start": 0,
    "facet": [
        "name",
        "is_installed",
        "is_renting",
        "is_returning",
        "nom_arrondissement_communes"
    ],
    "format": "json",
    "timezone": "UTC"
}

response = requests.get(api_url, params=api_params)

if response.status_code == 200:
    data = response.json()
    records = data["records"]
    for record in records:
        fields = record["fields"]
        name = fields["name"]
        stationcode = fields["stationcode"]
        numbikesavailable = fields["numbikesavailable"]
        numdocksavailable = fields["numdocksavailable"]
else:
    print("Error:", response.status_code)
    
response = requests.get(api_url, params=api_params)

data = response.json()
df = pd.json_normalize(records)
df

Unnamed: 0,datasetid,recordid,record_timestamp,fields.name,fields.stationcode,fields.ebike,fields.mechanical,fields.coordonnees_geo,fields.duedate,fields.numbikesavailable,fields.numdocksavailable,fields.capacity,fields.is_renting,fields.is_installed,fields.nom_arrondissement_communes,fields.is_returning,geometry.type,geometry.coordinates
0,velib-disponibilite-en-temps-reel,9f0d4a2c19ea8d5bd80a8906ad3d952e64691fa0,2023-03-02T10:37:00.632Z,Mairie de Rosny-sous-Bois,31104,4,15,"[48.871256519012, 2.4865807592869]",2023-03-02T09:59:14+00:00,19,11,30,OUI,OUI,Rosny-sous-Bois,OUI,Point,"[2.4865807592869, 48.871256519012]"
1,velib-disponibilite-en-temps-reel,510b96609c43f3981aec7d7739c5cf9b9fe30661,2023-03-02T10:37:00.632Z,Rouget de L'isle - Watteau,44015,0,0,"[48.778192750803, 2.3963020229163]",2023-02-09T09:35:37+00:00,0,0,0,NON,NON,Vitry-sur-Seine,NON,Point,"[2.3963020229163, 48.778192750803]"
2,velib-disponibilite-en-temps-reel,dd04dc4f03baca4771c94081b1fefc2455c427cf,2023-03-02T10:37:00.632Z,Cassini - Denfert-Rochereau,14111,8,13,"[48.837525839067, 2.3360354080796]",2023-03-02T10:04:55+00:00,21,3,25,OUI,OUI,Paris,OUI,Point,"[2.3360354080796, 48.837525839067]"
3,velib-disponibilite-en-temps-reel,68c83d00671e095b54f6b5de0efa080fc297c345,2023-03-02T10:37:00.632Z,Charonne - Robert et Sonia Delaunay,11104,0,0,"[48.855907555969, 2.3925706744194]",2023-03-02T10:06:11+00:00,0,20,20,OUI,OUI,Paris,OUI,Point,"[2.3925706744194, 48.855907555969]"
4,velib-disponibilite-en-temps-reel,89a4a097f76b1bb06c4328d7f47cf92f0e487719,2023-03-02T10:37:00.632Z,Le Brun - Gobelins,13007,1,5,"[48.835092787824, 2.3534681351338]",2023-03-02T10:06:18+00:00,6,42,48,OUI,OUI,Paris,OUI,Point,"[2.3534681351338, 48.835092787824]"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1449,velib-disponibilite-en-temps-reel,9702dd9f408cfc0e5d7003ffd95511235dc5a194,2023-03-02T10:37:00.632Z,Jonquière - Docteur Paul Brousse,17010,2,2,"[48.894799816683985, 2.318705212173216]",2023-03-02T10:07:17+00:00,4,30,40,OUI,OUI,Paris,OUI,Point,"[2.318705212173216, 48.894799816683985]"
1450,velib-disponibilite-en-temps-reel,8c4842d53fa12f3422ff0cbf0f468dd7db6dd21f,2023-03-02T10:37:00.632Z,Ordener - Poissonniers,18023,1,2,"[48.891213890844654, 2.351288666219873]",2023-03-02T10:06:49+00:00,3,31,35,OUI,OUI,Paris,OUI,Point,"[2.351288666219873, 48.891213890844654]"
1451,velib-disponibilite-en-temps-reel,413a790640d7c8815e3c77d1b9e1d360fc1e9a1b,2023-03-02T10:37:00.632Z,Clignancourt - Ordener,18024,1,1,"[48.891457726153774, 2.348636478060487]",2023-03-02T10:03:16+00:00,2,33,35,OUI,OUI,Paris,OUI,Point,"[2.348636478060487, 48.891457726153774]"
1452,velib-disponibilite-en-temps-reel,4a8642027d37f20d370203d07d2bebdf7b7074ec,2023-03-02T10:37:00.632Z,Westermeyer - Paul Vaillant-Couturier,42004,22,13,"[48.819116181578764, 2.3966637253761296]",2023-03-02T10:05:36+00:00,35,0,25,OUI,OUI,Ivry-sur-Seine,OUI,Point,"[2.3966637253761296, 48.819116181578764]"


In [0]:
df_api = spark.createDataFrame(df)
rdd_api = df_api.rdd
rdd_api.getNumPartitions()
df_api.createOrReplaceTempView("data_api")

In [0]:
spark.sql("SELECT element_at(`fields.coordonnees_geo`, 1) AS `latitude`, element_at(`fields.coordonnees_geo`, 2) AS `longitude` FROM data_api LIMIT 1").show()


+---------------+---------------+
|       latitude|      longitude|
+---------------+---------------+
|48.871256519012|2.4865807592869|
+---------------+---------------+



In [0]:
#le nombre moyen, le min et le max de place de velib pour chaque station

stat_station_api = (spark.sql("select `fields.name` as `Station`,  min(`fields.numbikesavailable`) as `Minimum de vélos disponibles par station`,  max(`fields.numbikesavailable`) as `Maximum de vélos disponibles par station`, avg(`fields.numbikesavailable`) as `Moyenne de vélos disponibles par station`,(((`fields.numbikesavailable`) * 100) / `fields.capacity`) as `Pourcentage de vélo en station`, element_at(`fields.coordonnees_geo`, 1) as `lat`, element_at(`fields.coordonnees_geo`, 2) as `lon` from data_api where `fields.is_renting` = 'OUI' group by `fields.name`, `lat`, `lon`, `fields.numbikesavailable`, `fields.capacity`")).toPandas()

x = stat_station_api['Station']
#y_min = stat_station['Minimum de vélos disponibles par station'].sort_values()
#y_max = stat_station['Maximum de vélos disponibles par station'].sort_values()
#y_avg = stat_station['Moyenne de vélos disponibles par station'].sort_values()
y_per = stat_station_api['Pourcentage de vélo en station']

fig = go.Figure()
#fig.add_trace(go.Bar(
#    x=x,
##    y=y_min,
#    name='Minimum de vélos',
#    marker_color='indianred',
#))
#fig.add_trace(go.Bar(
#    x=x,
#    y=y_max,
#    name='Maximum de vélos',
#    marker_color='lightsalmon',
#))
#fig.add_trace(go.Bar(
#    x=x,
#    y=y_avg,
#    name='Moyenne de vélos',
#    marker_color='blue',
#))
fig.add_trace(go.Bar(
    x=x,
    y=y_per,
    name='Pourcentage de vélos en station',
))

fig.update_layout(barmode='group', xaxis_tickangle=-45)
fig.show()

In [0]:
lat = 48.8566
lon = 2.3522

# Sélection des stations qui présentent les plus faibles ppourcentage de vélos en heures de pointes

stations_api_etd = (stat_station_api.loc[stat_station_api['Pourcentage de vélo en station'] < 5])

carte = folium.Map(location=[lat, lon], zoom_start=12)

for index, row in stations_api_etd.iterrows():
    popup_text = f"<b>{row['Station']}</b><br>"
    #popup_text += f"Minimum de vélos disponibles : {row['Minimum de vélos disponibles par station']}<br>"
    #popup_text += f"Maximum de vélos disponibles : {row['Maximum de vélos disponibles par station']}<br>"
    popup_text += f"Moyenne de vélos disponibles en heures de pointes : {row['Moyenne de vélos disponibles par station']}<br>"
    popup_text += f"Pourcentage de vélos disponibles en heures de pointes : {row['Pourcentage de vélo en station']}<br>"
    folium.Marker(location=[row['lat'], row['lon']], popup=popup_text).add_to(carte)

carte