# Test unitaire - Activité 2

---
Nom : Azzouzi

Prénom : Oussama Abderraouf

Groupe de TP :

---

Le teste unitaire, `tu_Activite2.ipynb`, de l'activité consiste à mettre en place un programme qui permet de :
1. importer des données au format JSON disponibles en OpenData,
1. afficher les données sous forme d'un tableau,
1. analyser les données.
1. publier les résultats.

📂 Les données à traiter au format JSON sont celles disponibles sur le site de l'[*Open Data du service Vélib' Métropole*](https://www.velib-metropole.fr/donnees-open-data-gbfs-du-service-velib-metropole).

Ces données sont de deux types :
* des **données dites statiques** qui informent sur les caractéristiques des stations Vélib sur l'agglomération Parisienne,
* des **données dites dynamiques** qui informent en "temps réel" sur la disponibilité des stands et des vélos pour chaque station. Ces informations sont mises à jour toutes les minutes.

Il est possible de voir la structure de ces données au format JSON en cliquant sur les liens ci-dessous :

> 👁 Lien vers le JSON des [données statiques](
https://velib-metropole-opendata.smoove.pro/opendata/Velib_Metropole/station_information.json).<br/>
👁 Lien vers le JSON des [données dynamiques](https://velib-metropole-opendata.smoove.pro/opendata/Velib_Metropole/station_status.json).

## Préambule

Avant toute chose, il faut importer les bibliothèques et modules utiles :

> ⛔ ne pas modifier le code donné ci-dessous.

In [1]:
# installation de modules non natifs
# !pip install geopandas
# !pip install contextily

In [9]:
# importations et configuration
#

from google.colab import drive # pour l'accès au drive
import sys                     # pour l'accès au commandes système
import json                    # pour manipuler le format JSON
import pandas as pd            # pour extraire, calculer, publier

# montage du drive sur Colab (avec autorisation d'accès)
drive.mount('/content/drive', force_remount=True)
# cliquez sur le lien affiché dans la console afin d'obtenir votre clé d'accès
# et recopiez cette clé dans la zone de saisie de texte.

# pour inclure les fonctions "faites maison" et spécifiques
sys.path.insert(0,'/content/drive/MyDrive/Colab Notebooks/SAE15/tools')
import sae15_tools as tools
import sae15_spec as spec

Mounted at /content/drive


## Lecture des données statiques

Lire les **données statiques** au format JSON disponibles en OpenData de l'API Velib. Récupérer les informations sur les différentes stations à vélos. Convertir et afficher la structure JSON en Data Frame à l'aide de la bibiliothèque Pandas.

1. `tools.loadVelibInformation()` ➡ données statiques complètes aux format JSON
1. `tools.getVelibStations()` ➡ données sur les stations Vélib
1. `pandas.DataFrame()` ➡ mise sous forme d'un Data Frame
1. `display()` ➡ affichage amélioré


In [10]:
# chargement des données statiques Velib depuis l'OpenData
velib_info_data = tools.loadVelibInformation()

# sélection des données des différentes stations
velib_stations_data_static  = tools.getVelibStations(velib_info_data)

# transformation en DataFrame pour analyse
velib_stations_static_df = pd.DataFrame(velib_stations_data_static)
velib_stations_static_df = tools.exportToGeoDF(velib_stations_static_df)

# affichage amélioré
display(velib_stations_static_df)



Column names: Index(['station_id', 'name', 'lat', 'lon', 'capacity', 'stationCode',
       'rental_methods'],
      dtype='object')


Unnamed: 0,station_id,name,lat,lon,capacity,stationCode,rental_methods,geometry
0,213688169,Benjamin Godard - Victor Hugo,48.865983,2.275725,35,16107,,POINT (2.27572 48.86598)
1,653222953,Mairie de Rosny-sous-Bois,48.871257,2.486581,30,31104,[CREDITCARD],POINT (2.48658 48.87126)
2,17278902806,Rouget de L'isle - Watteau,48.778193,2.396302,20,44015,,POINT (2.39630 48.77819)
3,36255,Toudouze - Clauzel,48.879296,2.337360,21,9020,[CREDITCARD],POINT (2.33736 48.87930)
4,37815204,Mairie du 12ème,48.840855,2.387555,30,12109,,POINT (2.38755 48.84086)
...,...,...,...,...,...,...,...,...
1464,54000604,Ordener - Poissonniers,48.891214,2.351289,35,18023,[CREDITCARD],POINT (2.35129 48.89121)
1465,43247738,Ruisseau - Ordener,48.892995,2.340145,35,18026,[CREDITCARD],POINT (2.34014 48.89299)
1466,102311820,Clignancourt - Ordener,48.891458,2.348636,35,18024,[CREDITCARD],POINT (2.34864 48.89146)
1467,368766689,Westermeyer - Paul Vaillant-Couturier,48.819116,2.396664,25,42004,[CREDITCARD],POINT (2.39666 48.81912)


## Lecture des données dynamiques

Lire les **données dynamiques** au format JSON disponibles en OpenData de l'API Velib. Récupérer les informations sur les différentes stations à vélos. Convertir et afficher la structure JSON en Data Frame à l'aide de la bibiliothèque Pandas.

1. `tools.loadVelibSatus()` ➡ données dynamiques complètes aux format JSON
1. `tools.getVelibStations()` ➡ données sur les stations Vélib
1. `pandas.DataFrame()` ➡ mise sousforme de Data Frame
1. `display()` ➡ affichage amélioré

In [14]:
# chargement des données dynamiques Velib depuis l'OpenData
velib_status_data = tools.loadVelibStatus()

# sélection des données des différentes stations
velib_stations_data_dynamic  = tools.getVelibStations(velib_status_data)

# transformation en DataFrame pour analyse
velib_status_dynamic_df = pd.DataFrame(velib_stations_data_dynamic)
velib_status_dynamic_df = tools.exportToGeoDF(velib_status_dynamic_df)

# affichage amélioré
display(velib_status_dynamic_df.head())



Column names: Index(['stationCode', 'station_id', 'num_bikes_available', 'numBikesAvailable',
       'num_bikes_available_types', 'num_docks_available', 'numDocksAvailable',
       'is_installed', 'is_returning', 'is_renting', 'last_reported'],
      dtype='object')
Columns 'lon' and 'lat' not found.
Column names: Index(['station_id', 'name', 'lat', 'lon', 'capacity', 'stationCode',
       'rental_methods'],
      dtype='object')


Unnamed: 0,stationCode,station_id,num_bikes_available,numBikesAvailable,num_bikes_available_types,num_docks_available,numDocksAvailable,is_installed,is_returning,is_renting,last_reported,geometry
0,16107,213688169,10,10,"[{'mechanical': 5}, {'ebike': 5}]",25,25,1,1,1,1701023893,POINT (2.27572 48.86598)
1,31104,653222953,8,8,"[{'mechanical': 6}, {'ebike': 2}]",20,20,1,1,1,1701024012,POINT (2.48658 48.87126)
2,44015,17278902806,13,13,"[{'mechanical': 2}, {'ebike': 11}]",6,6,1,1,1,1701023715,POINT (2.39630 48.77819)
3,9020,36255,4,4,"[{'mechanical': 1}, {'ebike': 3}]",17,17,1,1,1,1701023905,POINT (2.33736 48.87930)
4,12109,37815204,28,28,"[{'mechanical': 23}, {'ebike': 5}]",2,2,1,1,1,1701023864,POINT (2.38755 48.84086)


## Analyse des données dynamiques

Comme on peut le voir sur l'affichage précédent, chaque station est constituée de différentes rubriques : `stationCode`, `station_id`, `num_bikes_available`,	`numBikesAvailable`, `num_bikes_available_types`, `num_docks_available`, `numDocksAvailable`, `is_installed`, `is_returning`, `is_renting`, `last_reported`.

Ici, nous nous intéresserons aux colonnes `numBikesAvailable` et  `numDocksAvailable` qui indiquent respectivement le nombre de vélos et de stands disponibles pour une station donnée.

On demande de produire des mesures qui indiquent :
1. le nombre total de stations de stands à vélos,
1. le nombre total de vélos disponibles sur l'ensemble des stations,
1. le nombre total de stands à vélos disponibles sur l'ensemble des stations,
1. le taux de disponibilité des vélos (en pourcentage) de chaque station : $taux=velos_{dispo}/(velos_{dispo}+stands_{dispo})$,
1. le taux moyen de disponibilité des vélos.

Chacune de ces mesures devra être mémorisée dans une variable numérique.

In [29]:
# analyser les données dynamiques
#

# récupération de la colonne 'numBikesAvailable'
numBikesAvailable = velib_status_dynamic_df['numBikesAvailable']

# récupération de la colonne 'numDocksAvailable'
numDocksAvailable = velib_status_dynamic_df['numDocksAvailable']

# mesures statistiques obtenues par les méthodes de Pandas
nb_stations = velib_status_dynamic_df.shape[0]
nbBikesAvailable = numBikesAvailable.sum()
nbDocksAvailable = numDocksAvailable.sum()

# taux de disponibilité
velib_status_dynamic_df['taux'] = numBikesAvailable/(numBikesAvailable+numDocksAvailable)
velib_status_dynamic_df['taux'] = velib_status_dynamic_df['taux']*100
display(velib_status_dynamic_df.head())


Unnamed: 0,stationCode,station_id,num_bikes_available,numBikesAvailable,num_bikes_available_types,num_docks_available,numDocksAvailable,is_installed,is_returning,is_renting,last_reported,geometry,taux
0,16107,213688169,10,10,"[{'mechanical': 5}, {'ebike': 5}]",25,25,1,1,1,1701023893,POINT (2.27572 48.86598),28.571429
1,31104,653222953,8,8,"[{'mechanical': 6}, {'ebike': 2}]",20,20,1,1,1,1701024012,POINT (2.48658 48.87126),28.571429
2,44015,17278902806,13,13,"[{'mechanical': 2}, {'ebike': 11}]",6,6,1,1,1,1701023715,POINT (2.39630 48.77819),68.421053
3,9020,36255,4,4,"[{'mechanical': 1}, {'ebike': 3}]",17,17,1,1,1,1701023905,POINT (2.33736 48.87930),19.047619
4,12109,37815204,28,28,"[{'mechanical': 23}, {'ebike': 5}]",2,2,1,1,1,1701023864,POINT (2.38755 48.84086),93.333333


⚠ attention : Avant de calculer le taux moyen de disponibilité, il faut remarquer que certaines stations indiquent des valeurs nulles pour `numBikesAvailable` et `numDocksAvailable`, ce qui produit une valeur du taux de disponibilité égale à `NaN` (résultat du calcul de 0/0). La velur `NaN` (pour *Not a Number*) doit donc être remplacée par 0 partout où elle apparaît avant de calculer le taux moyen.

> A cette fin, utiliser la méthode  [`pandas.fillna()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html#pandas-dataframe-fillna) de la bibliothèque Pandas.

In [30]:
# remplacement des NaN par des 0 et calcul du taux moyen
#

velib_status_dynamic_df['taux'].fillna(0, inplace=True)
# velib_status_dynamic_df['taux'] = velib_status_dynamic_df['taux'].astype(int)

# taux moyen de disponibilité des vélos
taux_moyen = velib_status_dynamic_df['taux'].mean()
# print("Taux moyen :", taux_moyen)

# display(velib_status_dynamic_df.head())


## Publication des résultats

Finalement, proposez une publication des mesures obtenues dans un format texte lisible et compréhensible. L'affichage se fait dans la console.

In [31]:
# publier les résultats
print("Nombre de stations :", nb_stations)
print("Nombre de vélos :", nbBikesAvailable)
print("Nombre de stands :", nbDocksAvailable)
print("Taux moyen :", taux_moyen)
#


Nombre de stations : 1469
Nombre de vélos : 15817
Nombre de stands : 28533
Taux moyen : 35.5279959488694


---
🎯 Livrer ce test unitaire sur Eprel

---



