# TD 9 : Emplacement des vélos STAR disponibles

Dans ce TD, vous allez travailler avec des données de la STAR indiquant la disponibilité des vélos de location sur le réseau.
Plus précisément, votre objectif sera de **calculer, pour chaque station de métro, le nombre total de vélos disponibles à la location**.

Vous manipulerez ces données à l'aide d'une structure de données bien particulière : les _DataFrames_ `pandas`.
Un _DataFrame_ peut être vu comme un jeu de données.
Cette structure de données permet un certain nombre de facilités de manipulation qui vous seront présentées au fur et à mesure du TD.
Sachez déjà que, contrairement à ce que vous avez été habitués à faire depuis le début du semestre, vous n'utiliserez pas de boucles ou autres pour parcourir vos _DataFrames_, mais plutôt des fonctions déjà codées permettant d'appliquer des transformations à vos jeux de données.

## Partie 1 : import des données

Dans ce TD, les données que nous allons manipuler sont disponibles au format CSV.
Vous utiliserez donc la fonction `read_csv` du module `pandas` pour les lire, donc la documentation est disponible [ici](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).

In [1]:
import pandas as pd

**Question 1.1.** Téléchargez les données disponibles sur la page [Topologie des stations de vélos en libre-service](https://data.explore.star.fr/explore/dataset/vls-stations-topologie-td/information/) de la STAR (téléchargeables via l'onglet "Export") au format CSV et enregistrez le fichier CSV dans votre dossier `PythonOpenData/TD9`.

**Question 1.2.** À l'aide de la fonction `pd.read_csv`, chargez ces données dans un _DataFrame_ `df0`.

In [2]:
df0 = pd.read_csv("vls-stations-topologie-td.csv", delimiter=";")

Vous pouvez utiliser le code ci-dessous pour visualiser les 10 premières lignes du jeu de données :

In [3]:
df0.head(10)

Unnamed: 0,Identifiant,Date de début de version,Date de fin de version,Est la version active,Code,Nom,Adresse (numéro),Adresse (voie),Commune (code INSEE),Commune (nom),Coordonnées,Station de métro en correspondance (ID),Emplacements,Station la plus proche 1 (ID),Station la plus proche 2 (ID),Station la plus proche 3 (ID),Avec terminal CB
0,5506,2018-08-01,,Oui,5506,Hôtel Dieu,2.0,Rue de la Cochardière,35238,Rennes,"48.117596, -1.677849",,26,5504,5505,5537,True
1,5507,2022-09-20,,Oui,5507,Jules Ferry,75.0,rue Jean Guéhenno,35238,Rennes,"48.118172, -1.670735",15056.0,31,5506,5504,5509,True
2,5509,2022-09-20,,Oui,5509,Saint-Georges Piscine,21.0,rue Victor Hugo,35238,Rennes,"48.112385, -1.674417",,18,5510,5502,5504,True
3,5512,2018-08-01,,Oui,5512,TNB,1.0,Square de Kergus,35238,Rennes,"48.107748, -1.673711",,28,5510,5516,5536,True
4,5514,2022-09-20,,Oui,5514,Bonnets Rouges,11.0,boulevard René Laënnec,35238,Rennes,"48.106846, -1.665814",,24,5535,5536,5540,True
5,5527,2018-08-29,,Oui,5527,Horizons,6.0,Rue de Brest,35238,Rennes,"48.111564, -1.689656",,24,5534,5526,5528,True
6,5537,2018-07-27,,Oui,5537,Auberge de Jeunesse,83.0,Rue de Saint-Malo,35238,Rennes,"48.120876, -1.681876",,29,5506,5533,5504,True
7,5540,2022-09-20,,Oui,5540,Croix Saint-Hélier,13.0,mail Louise Bourgeois,35238,Rennes,"48.10305, -1.66209",,20,5514,5590,5542,True
8,5544,2018-08-01,,Oui,5544,Metz - Sévigné,28.0,Boulevard de Metz,35238,Rennes,"48.115993, -1.658258",,16,5522,5542,5587,True
9,5552,2018-08-01,,Oui,5552,Villejean-Université,,Place Recteur Henri Le Moal,35238,Rennes,"48.121074, -1.70428",15002.0,26,5556,5539,5560,True


**Question 1.3.** En fait, la fonction `read_csv` peut prendre pour argument une URL au lieu d'un nom de fichier. 
Répétez l'opération précédente en récupérant cette fois les données directement depuis l'URL de téléchargement (clic droit sur le lien dans la page web, puis "Copier le lien").
Ne conservez que les colonnes "Identifiant", "Nom", "Station de métro en correspondance (ID)" et "Avec terminal CB".
Nommez vptre _DataFrame_ `df_topo_velo`.

In [4]:
df_topo_velo = pd.read_csv("https://data.explore.star.fr/api/explore/v2.1/catalog/datasets/vls-stations-topologie-td/exports/csv?lang=fr&timezone=Europe%2FBerlin&use_labels=true&delimiter=;", delimiter=";")
df_topo_velo = df_topo_velo[["Identifiant", "Nom", "Station de métro en correspondance (ID)", "Avec terminal CB"]]

In [5]:
df_topo_velo.head(10)

Unnamed: 0,Identifiant,Nom,Station de métro en correspondance (ID),Avec terminal CB
0,5516,Champs Libres,,True
1,5517,Charles de Gaulle,15007.0,True
2,5520,Pont de Nantes,,True
3,5523,La Rotonde,,True
4,5538,Marbeuf,,True
5,5548,Beaulieu - Université,15052.0,True
6,5561,Jacques Cartier,15009.0,True
7,5567,Binquenais,,True
8,5579,Les Gayeulles,15054.0,True
9,5581,Joliot-Curie - Chateaubriand,,True


**Question 1.4.** Combien y a-t-il de stations vélos (=de lignes) décrites dans ce jeu de données ?

In [6]:
print(df_topo_velo.shape[0])

57


# Partie 2 : Préparation des données

La colonne "Station de métro en correspondance (ID)" n'est pas satisfaisante en l'état : en effet les identifiants utilisés sont codés comme des nombres à virgule alors qu'il s'agit d'identifiants de type entier.
Cela est dû à la présence de valeurs manquantes (la valeur NaN n'existe que pour les colonnes de type nombre à virgule).
Le code ci-dessous remplace ces valeurs manquantes par -1 puis change le type de la colonne en "int".

In [7]:
df_topo_velo = df_topo_velo.fillna(value=-1)
df_topo_velo.head(10)

Unnamed: 0,Identifiant,Nom,Station de métro en correspondance (ID),Avec terminal CB
0,5516,Champs Libres,-1.0,True
1,5517,Charles de Gaulle,15007.0,True
2,5520,Pont de Nantes,-1.0,True
3,5523,La Rotonde,-1.0,True
4,5538,Marbeuf,-1.0,True
5,5548,Beaulieu - Université,15052.0,True
6,5561,Jacques Cartier,15009.0,True
7,5567,Binquenais,-1.0,True
8,5579,Les Gayeulles,15054.0,True
9,5581,Joliot-Curie - Chateaubriand,-1.0,True


In [8]:
df_topo_velo = df_topo_velo.astype({"Station de métro en correspondance (ID)": "int"})
df_topo_velo.head(10)

Unnamed: 0,Identifiant,Nom,Station de métro en correspondance (ID),Avec terminal CB
0,5516,Champs Libres,-1,True
1,5517,Charles de Gaulle,15007,True
2,5520,Pont de Nantes,-1,True
3,5523,La Rotonde,-1,True
4,5538,Marbeuf,-1,True
5,5548,Beaulieu - Université,15052,True
6,5561,Jacques Cartier,15009,True
7,5567,Binquenais,-1,True
8,5579,Les Gayeulles,15054,True
9,5581,Joliot-Curie - Chateaubriand,-1,True


## Partie 3 : récupération des données "temps réel" et jointure avec la topologie

La disponibilité des vélos de location est accessible via le jeu de données situé [à cette adresse](https://data.explore.star.fr/explore/dataset/vls-stations-etat-tr/information/).

**Question 3.1.** Chargez ces données dans un _DataFrame_ nommé `df_velos_tempsreel` et ne conservez que les colonnes "Station (ID)", "Emplacements actuels", "Emplacements disponibles" et "Vélos disponibles".

In [9]:
url = "https://data.explore.star.fr/api/explore/v2.1/catalog/datasets/vls-stations-etat-tr/exports/csv?lang=fr&timezone=Europe%2FBerlin&use_labels=true&delimiter=;"
df_velos_tempsreel = pd.read_csv(url, delimiter=";")
df_velos_tempsreel = df_velos_tempsreel[["Station (ID)", "Emplacements actuels", "Emplacements disponibles", "Vélos disponibles"]]

In [10]:
df_velos_tempsreel.head(10)

Unnamed: 0,Station (ID),Emplacements actuels,Emplacements disponibles,Vélos disponibles
0,5505,24,14,10
1,5506,26,23,3
2,5501,45,32,13
3,5509,18,16,2
4,5507,31,30,1
5,5502,24,4,20
6,5510,16,10,6
7,5523,20,15,5
8,5504,39,33,6
9,5514,24,11,13


On souhaite maintenant réunir dans un seul _DataFrame_ l'ensemble des données disponibles sur les stations de vélos.

**Question 3.2.** Pour cela, effectuez une jointure à l'aide de la fonction `join` (dont la documentation est disponible [ici](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html)) entre les _DataFrames_ `df_topo_velo` et `df_velos_tempsreel`. Sur quelle colonne devra se faire la jointure ? Nommez le _DataFrame_ résultat `df_velos`.

In [11]:
df_velos = df_topo_velo.merge(df_velos_tempsreel, left_on="Identifiant", right_on="Station (ID)")

In [12]:
df_velos.head(10)

Unnamed: 0,Identifiant,Nom,Station de métro en correspondance (ID),Avec terminal CB,Station (ID),Emplacements actuels,Emplacements disponibles,Vélos disponibles
0,5516,Champs Libres,-1,True,5516,24,15,9
1,5517,Charles de Gaulle,15007,True,5517,24,12,12
2,5520,Pont de Nantes,-1,True,5520,20,12,8
3,5523,La Rotonde,-1,True,5523,20,15,5
4,5538,Marbeuf,-1,True,5538,20,20,0
5,5548,Beaulieu - Université,15052,True,5548,30,23,7
6,5561,Jacques Cartier,15009,True,5561,24,16,8
7,5567,Binquenais,-1,True,5567,16,12,4
8,5579,Les Gayeulles,15054,True,5579,30,25,5
9,5581,Joliot-Curie - Chateaubriand,-1,True,5581,30,15,15


**Question 3.3.** Dans ce _DataFrame_, ne conservez que les lignes pour lesquelles l'attribut "Avec terminal CB" vaut `True`.

In [13]:
df_velos = df_velos[df_velos["Avec terminal CB"]]


In [14]:
df_velos.head(10)

Unnamed: 0,Identifiant,Nom,Station de métro en correspondance (ID),Avec terminal CB,Station (ID),Emplacements actuels,Emplacements disponibles,Vélos disponibles
0,5516,Champs Libres,-1,True,5516,24,15,9
1,5517,Charles de Gaulle,15007,True,5517,24,12,12
2,5520,Pont de Nantes,-1,True,5520,20,12,8
3,5523,La Rotonde,-1,True,5523,20,15,5
4,5538,Marbeuf,-1,True,5538,20,20,0
5,5548,Beaulieu - Université,15052,True,5548,30,23,7
6,5561,Jacques Cartier,15009,True,5561,24,16,8
7,5567,Binquenais,-1,True,5567,16,12,4
8,5579,Les Gayeulles,15054,True,5579,30,25,5
9,5581,Joliot-Curie - Chateaubriand,-1,True,5581,30,15,15


**Question 3.4.** Les identifiants utilisés pour les stations vélo dans ce jeu de données sont artificiellement grands. Soustrayez 5500 à toute la colonne "Identifiant".

In [15]:
df_velos["Identifiant"] -= 5500

In [16]:
df_velos.head(10)

Unnamed: 0,Identifiant,Nom,Station de métro en correspondance (ID),Avec terminal CB,Station (ID),Emplacements actuels,Emplacements disponibles,Vélos disponibles
0,16,Champs Libres,-1,True,5516,24,15,9
1,17,Charles de Gaulle,15007,True,5517,24,12,12
2,20,Pont de Nantes,-1,True,5520,20,12,8
3,23,La Rotonde,-1,True,5523,20,15,5
4,38,Marbeuf,-1,True,5538,20,20,0
5,48,Beaulieu - Université,15052,True,5548,30,23,7
6,61,Jacques Cartier,15009,True,5561,24,16,8
7,67,Binquenais,-1,True,5567,16,12,4
8,79,Les Gayeulles,15054,True,5579,30,25,5
9,81,Joliot-Curie - Chateaubriand,-1,True,5581,30,15,15


## Partie 4 : Récupération des noms de stations de métro

**Question 4.1.** À l'aide des données disponibles sur la page [Topologie des stations de métro du réseau STAR](https://data.explore.star.fr/explore/dataset/tco-metro-topologie-stations-td/information/), constituez un jeu de données, nommé `df_topo_metro` qui contiendra l'identifiant des stations de métro et une seconde colonne indiquant, pour chaque identifiant, le nom de la station de métro correspondante.

In [17]:
url = "https://data.explore.star.fr/api/explore/v2.1/catalog/datasets/tco-metro-topologie-stations-td/exports/csv?lang=fr&timezone=Europe%2FBerlin&use_labels=true&delimiter=%3B"
df_topo_metro = pd.read_csv(url, delimiter=";")
df_topo_metro = df_topo_metro[["Identifiant", "Nom"]]

In [18]:
df_topo_metro.head(10)

Unnamed: 0,Identifiant,Nom
0,15012,Italie
1,15013,Triangle
2,15056,Jules Ferry
3,15054,Les Gayeulles
4,15053,Joliot-Curie - Chateaubriand
5,15050,Cesson - Viasilva
6,15001,J.F. Kennedy
7,15014,Le Blosne
8,15002,Villejean-Université
9,15061,Mabilais


**Question 4.2.** Dans ce jeu de données, renommez la colonne "Nom" en "Nom station métro", à l'aide de la fonction `rename` dont la documentation est disponible [ici](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html).

In [19]:
df_topo_metro.rename(columns = {'Nom':'Nom station métro'}, inplace=True)

In [20]:
df_topo_metro.head(10)

Unnamed: 0,Identifiant,Nom station métro
0,15012,Italie
1,15013,Triangle
2,15056,Jules Ferry
3,15054,Les Gayeulles
4,15053,Joliot-Curie - Chateaubriand
5,15050,Cesson - Viasilva
6,15001,J.F. Kennedy
7,15014,Le Blosne
8,15002,Villejean-Université
9,15061,Mabilais


## Partie 5 : Calcul du nombre de vélos disponibles par station de métro

Dans cette partie, vous allez avoir deux choses à faire.
Tout d'abord, vous devrez rajouter, pour chaque station de vélo, l'information de la station de métro correspondante (en croisant les informations issues de `df_topo_metro`).
Ensuite, vous devrez regrouper les données par station de métro (car il peut y avoir plusieurs stations de vélo pour une station de métro) et calculer le nombre total de vélos disponibles par groupe.

**Question 5.1.** Créez un jeu de données `df_complet` qui ajoute au jeu de données `df_velos` l'information du nom de la station de métro à laquelle la station vélo est rattachée, s'il y en a.

In [21]:
df_complet = df_velos.merge(df_topo_metro, left_on="Station de métro en correspondance (ID)", right_on="Identifiant")

In [22]:
df_complet.head(10)

Unnamed: 0,Identifiant_x,Nom,Station de métro en correspondance (ID),Avec terminal CB,Station (ID),Emplacements actuels,Emplacements disponibles,Vélos disponibles,Identifiant_y,Nom station métro
0,17,Charles de Gaulle,15007,True,5517,24,12,12,15007,Charles de Gaulle
1,48,Beaulieu - Université,15052,True,5548,30,23,7,15052,Beaulieu - Université
2,61,Jacques Cartier,15009,True,5561,24,16,8,15009,Jacques Cartier
3,79,Les Gayeulles,15054,True,5579,30,25,5,15054,Les Gayeulles
4,78,Gros-Chêne,15055,True,5578,18,16,2,15055,Gros-Chêne
5,88,Gare Sud Féval,15008,True,5588,24,10,14,15008,Gares
6,92,Gares,15008,True,5592,50,9,41,15008,Gares
7,7,Jules Ferry,15056,True,5507,31,30,1,15056,Jules Ferry
8,52,Villejean-Université,15002,True,5552,25,21,4,15002,Villejean-Université
9,62,Clemenceau,15010,True,5562,22,10,12,15010,Clemenceau


**Question 5.2.** Dans ce jeu de données, conservez uniquement les colonnes "Nom station métro" et "Vélos disponibles".

In [23]:
df_complet = df_complet[["Nom station métro", "Vélos disponibles"]]

In [24]:
df_complet.head(10)

Unnamed: 0,Nom station métro,Vélos disponibles
0,Charles de Gaulle,12
1,Beaulieu - Université,7
2,Jacques Cartier,8
3,Les Gayeulles,5
4,Gros-Chêne,2
5,Gares,14
6,Gares,41
7,Jules Ferry,1
8,Villejean-Université,4
9,Clemenceau,12


**Question 5.3.** À l'aide des fonctions `groupby` et `sum` dont les documentations respectives sont disponibles [ici](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html) et [là](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html), calculez le total par station de métro du nombre de vélos disponibles.

In [25]:
df_complet.groupby(by="Nom station métro").sum()

Unnamed: 0_level_0,Vélos disponibles
Nom station métro,Unnamed: 1_level_1
Anatole France,0
Beaulieu - Université,7
Charles de Gaulle,12
Clemenceau,12
Colombier,15
Gares,55
Gros-Chêne,2
Jacques Cartier,8
Jules Ferry,1
La Poterie,6
