# Traitement des données avec le langage Python

**Objectif**: Afficher sur une carte interactive les gares de voyageur d'Indre et Loire

## Récupération et visualisation basique des données

Nous utiliserons une librairie spécialisée dans le traitement des données connue sous le nom de `pandas`

In [1]:
import pandas

Sur l'open data de la SNCF, on trouve [la liste des gares](https://data.sncf.com/explore/dataset/liste-des-gares/export) dans différents formats...

Pour cet exemple, j'ai téléchargé le fichier *fichier_gares.csv*. Lisons le avec Python et pandas:

In [2]:
gares = pandas.read_csv('fichier_gares.csv', sep=";")
gares.head()

Unnamed: 0,code_uic,libelle,fret,voyageurs,code_ligne,rg_troncon,pk,commune,departement,idreseau,idgaia,x_l93,y_l93,x_wgs84,y_wgs84,c_geo
0,87734194,Parent-Coudes-Champeix,N,O,790000,1,444+105,PARENT,PUY-DE-DOME,5919,d9979676-6667-11e3-89ff-01f464e0362d,716888.9805,6501652.0,3.216705,45.614188,"45.6141878241,3.21670473557"
1,87781161,Coursan,N,O,640000,1,412+069,COURSAN,AUDE,3850,d98fa138-6667-11e3-89ff-01f464e0362d,704179.9976,6237223.0,3.051425,43.234195,"43.2341945388,3.05142456751"
2,87343103,St-Amand-les-Eaux,O,O,257000,1,034+247,SAINT-AMAND-LES-EAUX,NORD,6358,29adbd32-dfbc-11e3-a2ff-01a464e0362d,729743.6327,7038542.0,3.41812,50.443655,"50.4436546277,3.41811984865"
3,87615468,Castres,O,O,737000,1,366+152,CASTRES,TARN,3509,d9a2271e-6667-11e3-89ff-01f464e0362d,637726.581,6277962.0,2.22901,43.597974,"43.5979740495,2.2290097046"
4,87141069,Liverdun,N,O,70000,1,337+393,LIVERDUN,MEURTHE-ET-MOSELLE,5193,d9a5ea06-6667-11e3-89ff-01f464e0362d,925061.5124,6854272.0,6.061794,48.749287,"48.7492871272,6.06179351875"


### À faire toi-même

Dans la cellule qui suit:
- Enlève le `.head()` dans le code et exécute la cellule. Vois-tu à quoi il sert ?
- Que se passe-t-il si on change le séparateur par une virgule ?

In [None]:
# pour tester
test_gares = pandas.read_csv('fichier_gares.csv', sep=";")
test_gares.head()

## Sélection des gares pertinentes

Notre objectif est d'afficher les gares du départements sur une map (carte). Réaffichons les **descripteurs** de ces gares:

In [3]:
gares.columns

Index(['code_uic', 'libelle', 'fret', 'voyageurs', 'code_ligne', 'rg_troncon',
       'pk', 'commune', 'departement', 'idreseau', 'idgaia', 'x_l93', 'y_l93',
       'x_wgs84', 'y_wgs84', 'c_geo'],
      dtype='object')

### À faire toi-même

Dans le code qui suit, il manque le descripteur pertinent dans la zone à compléter `___`: complète-le. 

**Note**: Si tu réussis, seules les gares pertinentes s'affichent (les 5 premières...)

In [4]:
selection = gares['departement'] == 'INDRE-ET-LOIRE'
gares_mon_dpt = gares[selection]

gares_mon_dpt.head()

Unnamed: 0,code_uic,libelle,fret,voyageurs,code_ligne,rg_troncon,pk,commune,departement,idreseau,idgaia,x_l93,y_l93,x_wgs84,y_wgs84,c_geo
86,87571455,Reignac,O,O,594000,1,269+625,REIGNAC-SUR-INDRE,INDRE-ET-LOIRE,6218,29e78332-dfbc-11e3-a2ff-01a464e0362d,541188.6339,6681833.0,0.901298,47.217794,"47.2177935535,0.90129777732"
193,87571612,Druye,N,O,525000,1,233+464,DRUYE,INDRE-ET-LOIRE,4011,d9bf5776-6667-11e3-89ff-01f464e0362d,513696.9209,6692470.0,0.533823,47.306362,"47.3063620113,0.533822558376"
311,87575399,Trogues,O,N,571000,1,037+925,TROGUES,INDRE-ET-LOIRE,9050,d9db7f26-6667-11e3-89ff-01f464e0362d,510033.5163,6670997.0,0.494377,47.112108,"47.1121084706,0.494377239831"
422,87571794,Port-Boulet,O,O,515000,1,281+700,CHOUZÉ-SUR-LOIRE,INDRE-ET-LOIRE,6117,c0736bd8-f312-11e3-90ff-015864e0362d,484909.2769,6687025.0,0.155651,47.24866,"47.2486602752,0.155650519136"
607,87571513,La Membrolle-sur-Choisille,N,O,561000,1,246+830,SAINT-CYR-SUR-LOIRE,INDRE-ET-LOIRE,4707,c0b97a36-f312-11e3-90ff-015864e0362d,522197.8554,6706082.0,0.640903,47.431183,"47.4311825741,0.640902988409"


Pour comprendre un peu mieux le code ci-dessus, il n'est pas inutile d'inspecter les premières lignes de `selection`.

In [6]:
selection

0       False
1       False
2       False
3       False
4       False
5       False
6       False
7       False
8       False
9       False
10      False
11      False
12      False
13      False
14      False
15      False
16      False
17      False
18      False
19      False
20      False
21      False
22      False
23      False
24      False
25      False
26      False
27      False
28      False
29      False
        ...  
4252    False
4253    False
4254    False
4255    False
4256    False
4257    False
4258    False
4259    False
4260    False
4261    False
4262    False
4263    False
4264    False
4265    False
4266    False
4267    False
4268    False
4269    False
4270    False
4271    False
4272    False
4273    False
4274    False
4275    False
4276    False
4277    False
4278    False
4279    False
4280    False
4281    False
Name: departement, Length: 4282, dtype: bool

On appelle cela un **filtre**: les 5 premières gares ne respectent pas le critère: 

«le descripteur `departement` a pour valeur `INDRE-ET-LOIRE`» 

d'où les `False`. On ne conserve que les lignes où il y a `True`. 

Combien de gares y a-t-il dans mon département ?

In [7]:
len(gares_mon_dpt)

54

### À faire toi-même

Peux-tu compléter la première ligne du code qui suit pour conserver uniquement les gares qui prennent des voyageurs?

In [8]:
selection = gares_mon_dpt['voyageurs'] == 'O'
gares_mon_dpt = gares_mon_dpt[selection]
gares_mon_dpt.head()

Unnamed: 0,code_uic,libelle,fret,voyageurs,code_ligne,rg_troncon,pk,commune,departement,idreseau,idgaia,x_l93,y_l93,x_wgs84,y_wgs84,c_geo
86,87571455,Reignac,O,O,594000,1,269+625,REIGNAC-SUR-INDRE,INDRE-ET-LOIRE,6218,29e78332-dfbc-11e3-a2ff-01a464e0362d,541188.6339,6681833.0,0.901298,47.217794,"47.2177935535,0.90129777732"
193,87571612,Druye,N,O,525000,1,233+464,DRUYE,INDRE-ET-LOIRE,4011,d9bf5776-6667-11e3-89ff-01f464e0362d,513696.9209,6692470.0,0.533823,47.306362,"47.3063620113,0.533822558376"
422,87571794,Port-Boulet,O,O,515000,1,281+700,CHOUZÉ-SUR-LOIRE,INDRE-ET-LOIRE,6117,c0736bd8-f312-11e3-90ff-015864e0362d,484909.2769,6687025.0,0.155651,47.24866,"47.2486602752,0.155650519136"
607,87571513,La Membrolle-sur-Choisille,N,O,561000,1,246+830,SAINT-CYR-SUR-LOIRE,INDRE-ET-LOIRE,4707,c0b97a36-f312-11e3-90ff-015864e0362d,522197.8554,6706082.0,0.640903,47.431183,"47.4311825741,0.640902988409"
608,87574368,Noizay,N,O,570000,2,218+787,NOIZAY,INDRE-ET-LOIRE,5817,c0a2e208-f312-11e3-90ff-015864e0362d,541387.1926,6703156.0,0.896415,47.409731,"47.4097311418,0.896415399928"


Combien en a-t-on éliminé?

In [9]:
len(gares_mon_dpt)

51

## Sélection des descripteurs pertinents

### À faire toi-même

Pour notre application, seuls les descripteurs précisant le **nom de la gare** et sa **position geographique** nous intéressent. 

Peux-tu compléter le code qui suit?

In [10]:
descripteurs_interessants = ['libelle', 'c_geo']
gares_court = gares_mon_dpt[descripteurs_interessants]
gares_court.head()

Unnamed: 0,libelle,c_geo
86,Reignac,"47.2177935535,0.90129777732"
193,Druye,"47.3063620113,0.533822558376"
422,Port-Boulet,"47.2486602752,0.155650519136"
607,La Membrolle-sur-Choisille,"47.4311825741,0.640902988409"
608,Noizay,"47.4097311418,0.896415399928"


## Préparation des données

Pour notre application, nous avons besoin de transformer les coordonnées géographiques de façon à avoir un couple de nombres à virgules (un `float` en Python). Le problème:

Nous disposons de (par ex.): `'47.2177935535,0.90129777732'`

Or, nous avons besoin de: `(47.2177935535, 47.2177935535)` (remarquer qu'il n'y a plus de `'`).

La solution en trois cellules:

In [11]:
noms_et_positions = [ (gare['libelle'], gare['c_geo']) for numero , gare in gares_court.iterrows()]
noms_et_positions[0:3]

[('Reignac', '47.2177935535,0.90129777732'),
 ('Druye', '47.3063620113,0.533822558376'),
 ('Port-Boulet', '47.2486602752,0.155650519136')]

In [12]:
noms_et_positions = [(nom, pos.split(',')) for nom, pos in noms_et_positions]
noms_et_positions[0:3]

[('Reignac', ['47.2177935535', '0.90129777732']),
 ('Druye', ['47.3063620113', '0.533822558376']),
 ('Port-Boulet', ['47.2486602752', '0.155650519136'])]

In [13]:
noms_et_positions = [(nom, ( float(pos_x), float(pos_y) ) ) for nom, (pos_x, pos_y) in noms_et_positions]
noms_et_positions[0:3]

[('Reignac', (47.2177935535, 0.90129777732)),
 ('Druye', (47.3063620113, 0.533822558376)),
 ('Port-Boulet', (47.2486602752, 0.155650519136))]

Ouf! Nos données sont prêtes à être exploitées!

## Affichage sur une carte interactive

Pour cela, nous avons besoin d'utiliser une librairie qui gère la carte, les interactions etc.

Nous utiliserons la librairie *javascript* [leaflet](https://leafletjs.com/).

Pour pouvoir l'utiliser ici, nous aurons besoin d'importer la bibliothèque *python* `ipyleaflet`.

In [17]:
from ipyleaflet import Map, Marker

# Coordonnées de Tours pour centrer la carte
tours = (47.3879206614,0.695556792192)

#L'objet carte
carte = Map(center=tours, zoom=10)
display(carte)

Map(basemap={'url': 'https://{s}.tile.openstreetmap.org/{z}/{x}/{y}.png', 'max_zoom': 19, 'attribution': 'Map …


Il est temps d'utiliser nos données rangées dans `noms_et_positions`!

In [18]:
for nom, pos in noms_et_positions:
    marker = Marker(location=pos, title=nom, draggable=False)
    carte.add_layer(marker)