Introduction à la visualisation de données avec Bokeh

Créer des cartes géographiques

    Dans cet exercice nous allons voir comment visualiser des données géographiques avec Bokeh. Pour cela nous utiliserons principalement la tuile 'CARTODBPOSITRON' provenant du sous-module bokeh.tile_providers même si d'autres manières de faire existent.

    Exécuter cette cellule pour mettre en place l'environnement de travail.


In [1]:
# Importation des modules standards
import pandas as pd
import numpy as np 

# Importation des fonctions dont l'on se servira pour toutes les figures
from bokeh.plotting import figure, output_notebook, show

# Précision de l'affichage des graphiques dans des cellules jupyter
output_notebook()



    Nous allons maintenant charger un jeu de données qui contient l'emplacement de nombreuses villes du monde. Elles sont référencées par leurs latitudes et leurs longitudes.

    Charger dans un DataFrame nommé df la base de données locations.csv à l'aide de la fonction read_csv du package pandas.

    Afficher les 5 premières lignes du jeu de données.



In [3]:
# Chargement des données et affichage des 5 premières lignes
df = pd.read_csv("113.6_locations.csv",sep=';')
df.head(5)

Unnamed: 0,location_name,lat,lng
0,"malomo, Malawi",-1480000.0,3760000.0
1,"El Carrizal, Mexico",2340000.0,-11200000.0
2,"Linakeng, Thaba Tseka, Lesotho",-3450000.0,3220000.0
3,"Villa Hermosa de Buenos Aires, Costa Rica",1190000.0,-9510000.0
4,"Rike, Georgia",5120000.0,4990000.0




    Il est souvent utile de pouvoir relier des ensembles de données avec leur contexte réel. On peut représenter des données géographiques comme n'importe quel autre type de données ,en visualisant la distribution de celles-ci par exemple, mais Bokeh fournit plusieurs méthodes spécialisées pour visualiser des données géographiques de façon intéressante :

        La fonction gmap du sous-module bokeh.plotting permet de créer une figure Bokeh sur une carte Google Maps.

        Le sous-module bokeh.tile_providers qui contient la fonction get_providerpermettant de récupérer des tuiles telles que 'CARTODBPOSITRON' permet de récupérer des données géographiques à partir de n'importe quel serveur de cartes, comme Google Maps, Stamen, MapQuest, OpenStreetMap, ESRI ou d'un serveur personnalisé.

        Le format GeoJSON que l'on peut exploiter en important la classe GeoJSONDataSource du sous-module bokeh.models permet de lire des données au format GeoJSON, similaire à un objet de type ColumnDataSource, que l'on peut utiliser de la même façon qu'une figure et qui a donc les mêmes méthodes glyphs.

    Pour plus d'informations concernant ces différentes méthodes de représentation de données géographiques, vous pouvez regarder ceci. Ici, nous allons seulement exploiter la tuile CARTODBPOSITRON.

    Importer la fonction get_provider du sous-module bokeh.tile_providers.

    Affecter à la variable tuile le résultat de l'appel de la fonction get_provider avec l'argument 'CARTODBPOSITRON'.

    Créer une figure dont les paramètres x_range, y_range, x_axis_type et y_axis_type sont respectivement égaux à (-1000000, 7000000), (-7000000, 9000000), 'mercator' et 'mercator'.

    Ajouter la tuile tuile à la figure grâce à sa méthode add_tile.



In [4]:
# Importation de la fonciton get_provider pour obtenir des tuiles

from bokeh.tile_providers import get_provider

# Création de la tuile CARTODBPOSITRON à partir de get_provider

tuile = get_provider('CARTODBPOSITRON')

# Instanciation d'une figure

p = figure(x_range = (-1000000, 7000000), # étendue de l'axe des abscisses
           y_range = (-7000000, 9000000), # étendue de l'axe des ordonnées
           x_axis_type = 'mercator',      # Précision du type de l'axis, ici projection mercator qui sert à se repérer sur une 
                                          # carte plane de la Terre
           y_axis_type = 'mercator')      # // 

# Ajout de la tuile à la figure

p.add_tile(tuile)                   

# Affichage de la figure

show(p)



    Nous avons instancié la figure sur laquelle nous allons pouvoir afficher les points de notre jeu de données. Ici, les coordonnées sont déjà au format Mercator, elles peuvent donc être directement affichées sur la figure.

    Importer les classes ColumnDataSource, LabelSet du sous-module bokeh.models.

    Instancier à partir de df un objet ColumnDataSource nommé source.

    Créer une figure de mêmes paramètres que celle précédemment construite.

    Y ajouter de la même façon la tuile 'CARTODBPOSITRON'.

    Ajouter un nuage de points de source source d'abscisse 'lng', d'ordonnée 'lat', de couleur bleue et de taille 1010.

    Ajouter un label à chaque point de texte 'location_name' et de décalage sur l'axe des abscisses et ordonnées égal à 55.



In [5]:
from bokeh.tile_providers import get_provider
from bokeh.models import ColumnDataSource, LabelSet

source = ColumnDataSource(df)

# Création de la tuile CARTODBPOSITRON à partir de get_provider

tuile = get_provider('CARTODBPOSITRON')

# Instanciation d'une figure et ajout de tuile

p = figure(x_range = (-1000000, 7000000), # étendue de l'axe des abscisses
           y_range = (-7000000, 9000000), # étendue de l'axe des ordonnées
           x_axis_type = 'mercator',      # type de l'axe, ici projection mercator qui sert à se repérer sur une 
                                          # carte plane de la Terre
           y_axis_type = 'mercator')      # // 

# Ajout de la tuile à la figure

p.add_tile(tuile)                     

# Instanciation d'un nuage de points en forme de cercle

p.circle(x = 'lng',           # abscisses
         y = 'lat',           # ordonnées
         fill_color = 'blue', # couleur de remplissage des cercles
         size = 10,           # taille des cercles
         source = source)     # source des données

# Instanciation des labels

labels = LabelSet(x = 'lng',              # abscisses
                  y = 'lat',              # ordonnées
                  text = 'location_name', # texte à afficher
                  x_offset = 5,           # décalage sur l'axe des abscisses du label
                  y_offset = 5,           # décalage sur l'axe des ordonnées du label
                  source = source)        # source des données

# Ajout des labels à la figure p

p.add_layout(labels)              

# Affichage de la figure

show(p)