# TD 9 : Emplacement des vélos STAR disponibles

Dans ce TD, vous allez travailler avec des données de la STAR indiquant la disponibilité des vélos de location sur le réseau.

Vous manipulerez ces données à l'aide d'une structure de données bien particulière : les _DataFrames_ `pandas`.
Un _DataFrame_ peut être vu comme un jeu de données.
Cette structure de données permet un certain nombre de facilités de manipulation qui vous seront présentées au fur et à mesure du TD.
Sachez déjà que, contrairement à ce que vous avez été habitués à faire depuis le début du semestre, vous n'utiliserez pas de boucles ou autres pour parcourir vos _DataFrames_, mais plutôt des fonctions déjà codées permettant d'appliquer des transformations à vos jeux de données.

## Partie 1 : import des données

Dans ce TD, les données que nous allons manipuler sont disponibles au format CSV.
Vous utiliserez donc la fonction `read_csv` du module `pandas` pour les lire, donc la documentation est disponible [ici](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).

In [None]:
import pandas as pd

**Question 1.1.** Téléchargez les données disponibles sur la page [Topologie des stations de vélos en libre-service](https://data.explore.star.fr/explore/dataset/vls-stations-topologie-td/information/) de la STAR (téléchargeables via l'onglet "Export") au format CSV et enregistrez le fichier CSV dans votre dossier `PythonOpenData/TD9`.

**Question 1.2.** À l'aide de la fonction `pd.read_csv`, chargez ces données dans un _DataFrame_ `df0`.

Vous pouvez utiliser le code ci-dessous pour visualiser les 10 premières lignes du jeu de données :

In [None]:
df0.head(10)

**Question 1.3.** En fait, la fonction `read_csv` peut prendre pour argument une URL au lieu d'un nom de fichier. 
Répétez l'opération précédente en récupérant cette fois les données directement depuis l'URL de téléchargement (clic droit sur le lien dans la page web, puis "Copier le lien").
Ne conservez que les colonnes "Identifiant", "Nom", "Station de métro en correspondance (ID)" et "Avec terminal CB".
Nommez vptre _DataFrame_ `df_topo_velo`.

In [None]:
df_topo_velo.head(10)

**Question 1.4.** Combien y a-t-il de stations vélos (=de lignes) décrites dans ce jeu de données ?

# Partie 2 : Préparation des données

La colonne "Station de métro en correspondance (ID)" n'est pas satisfaisante en l'état : en effet les identifiants utilisés sont codés comme des nombres à virgule alors qu'il s'agit d'identifiants de type entier.
Cela est dû à la présence de valeurs manquantes (la valeur NaN n'existe que pour les colonnes de type nombre à virgule).

**Question 2.1.** À l'aide de la fonction `fillna` dont la documentation est disponible [ici](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html), remplacez les valeurs manquantes par la valeur -1.

In [None]:
df_topo_velo.head(10)

**Question 2.2.** À l'aide de la fonction `astype` dont la documentation est disponible [ici](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html), forcez la colonne "Station de métro en correspondance (ID)" à être de type "int".

In [None]:
df_topo_velo.head(10)

## Partie 3 : récupération des données "temps réel"

La disponibilité des vélos de location est accessible via le jeu de données situé [à cette adresse](https://data.explore.star.fr/explore/dataset/vls-stations-etat-tr/information/).

**Question 3.1.** Chargez ces données dans un _DataFrame_ nommé `df_velos_tempsreel` et ne conservez que les colonnes "Station (ID)", "Emplacements actuels", "Emplacements disponibles" et "Vélos disponibles".

In [None]:
df_velos_tempsreel.head(10)

Vous pouvez remarquer qu'à chaque ligne dans le _DataFrame_ correspond un index (sorte de numéro de ligne).
Il s'agit d'un identifiant unique (deux lignes ne peuvent pas avoir le même identifiant).
Lorsqu'un autre attribut est plus indiqué pour servir d'identifiant, il est possible de définir quelle colonne utiliser pour l'index, ce qui peut ensuite simplifier certaines manipulations.

# Partie 4 : jointure des données "topologie" et "temps réel"

On souhaite maintenant réunir dans un seul _DataFrame_ l'ensemble des données disponibles sur les stations de vélos.

**Question 4.1.** Pour cela, effectuez une jointure à l'aide de la fonction `join` (dont la documentation est disponible [ici](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html)) entre les _DataFrames_ `df_topo_velo` et `df_velos_tempsreel`. Sur quelle colonne devra se faire la jointure ? Nommez le _DataFrame_ résultat `df_velos`.

In [None]:
df_velos.head(10)

**Question 4.2.** Dans ce _DataFrame_, ne conservez que les lignes pour lesquelles l'attribut "Avec terminal CB" vaut `True`.

In [None]:
df_velos.head(10)

**Question 4.3.** Les identifiants utilisés pour les stations vélo dans ce jeu de données sont artificiellement grands. Soustrayez 5500 à toute la colonne "Identifiant".

In [None]:
df_velos.head(10)

## Partie 5 : Récupération des noms de stations de métro

**Question 5.1.** À l'aide des données disponibles sur la page [Topologie des stations de métro du réseau STAR](https://data.explore.star.fr/explore/dataset/tco-metro-topologie-stations-td/information/), constituez un jeu de données, nommé `df_topo_metro` qui contiendra l'identifiant des stations de métro et une seconde colonne indiquant, pour chaque identifiant, le nom de la station de métro correspondante.

In [None]:
df_topo_metro.head(10)

**Question 5.2.** Dans ce jeu de données, renommez la colonne "Nom" en "Nom station métro", à l'aide de la fonction `rename` dont la documentation est disponible [ici](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html).

In [None]:
df_topo_metro.head(10)

## Partie 6 : Calcul du nombre de vélos disponibles par station de métro

Dans cette partie, vous allez avoir deux choses à faire.
Tout d'abord, vous devrez rajouter, pour chaque station de vélo, l'information de la station de métro correspondante (en croisant les informations issues de `df_topo_metro`).
Ensuite, vous devrez regrouper les données par station de métro (car il peut y avoir plusieurs stations de vélo pour une station de métro) et calculer le nombre total de vélos disponibles par groupe.

**Question 6.1.** Créez un jeu de données `df_complet` qui ajoute au jeu de données `df_velos` l'information du nom de la station de métro à laquelle la station vélo est rattachée, s'il y en a.

In [None]:
df_complet.head(10)

**Question 6.2.** Dans ce jeu de données, conservez uniquement les colonnes "Nom station métro" et "Vélos disponibles".

In [None]:
df_complet.head(10)

**Question 6.3.** À l'aide des fonctions `groupby` et `sum` dont les documentations respectives sont disponibles [ici](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html) et [là](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html), calculez le total par station de métro du nombre de vélos disponibles.