<hr style="border-width:2px;border-color:#75DFC1">
<center><h1>Introduction à la visualisation de données avec Bokeh</h1></center>
<center><h2>Graphiques usuels</h2></center>
<hr style="border-width:2px;border-color:#75DFC1">


### Création d'un histogramme
> Un histogramme est un graphique permettant de représenter la distribution d'une variable continue en la représentant avec des colonnes verticales.
>
> Malheureusement, il n'y a pas de méthodes prédéfinies de *bokeh* qui permettent de créer un histogramme. Il faut utiliser les méthodes *glyph* classiques de *bokeh* et les combiner avec des méthodes de *numpy* pour créer un histogramme.

* Lancer le code suivant pour importer les classes nécessaires et pouvoir afficher les dessins Bokeh dans des cellules jupyter.

In [3]:
import warnings
warnings.filterwarnings("ignore")

from bokeh.io import output_notebook, show
from bokeh.plotting import figure

output_notebook()

* A l'aide de la fonction `normal` du sous-module `numpy.random`, simuler un échantillon de 1000 variables aléatoires de loi normale d'espérance 0 et de variance 1 et stocker le résultat dans une variable `x`.


* Instancier une figure de largeur 600 et hauteur 400, de titre `Loi Normale centrée réduite` et d'étendue $[-5, 5]$ sur l'axe des abscisses.

In [4]:
import numpy as np

# Simulation d'un échantillon de loi normale

x = np.random.normal(loc = 0,         # espérance
                     scale = 1,       # écart-type
                     size = 1000)     # taille de l'échantillon

# Instanciation de la figure

p = figure(title="Loi Normale centrée réduite",     # titre
           plot_width = 600, plot_height = 400,     # dimensions
           x_range = (-5, 5))                       # étendue de l'axe des abscisses


> A l'aide de la fonction `histogram` du module `numpy`, nous pouvons créer les listes d'abscisses et d'ordonnées pour instancier l'histogramme de l'échantillon.
>
>
> Cette fonction a 3 paramètres:
> * `a` : Prend en argument une liste ou un *array*.
> * `density` : Prend en argument un booléen. Si `True`, la fonction va générer une liste de fréquences. Sinon, la fonction va générer une liste d'occurences.
> * `bins`: Le nombre de barres de l'histogramme.
>
> Elle renvoie 2 listes:
> * `hist`: *array* des valeurs en ordonnée de l'histogramme.
> * `bin_edges`: *array* des coordonnées en abscisse des bords des barres de l'histogramme.
>
> Grâce à ces listes, nous pouvons instancier une source pour notre histogramme.

* Lancer la cellule suivante pour générer les listes d'abscisses et d'ordonnées et la source pour l'histogramme.

In [5]:
from bokeh.models import ColumnDataSource

# Listes d'abscisses et d'ordonnées

hist, bin_edges = np.histogram(a = x,             # échantillon
                                density = True,   # pour obtenir un array de fréquences et non d'occurences
                                bins = 50)        # nombre de barres de l'histogramme

source = ColumnDataSource({
        'hist' : hist,
        'x' : bin_edges[:-1]      # l'array bin_edges contient un élément de plus que hist. Il faut enlever le dernier pour 
})                                # avoir deux array de même taille

> Nous pouvons maintenant instancier un diagramme à barres grâce à cette source.

* Instancier dans la figure un diagramme à barres verticales à partir de la source instanciée dans la cellule précedente. La largeur des barres pourra être obtenue par soustraction de deux éléments consécutifs de la liste des abscisses.


* Afficher la figure.

In [6]:
# Instanciation de l'histogramme

p.vbar(top = 'hist',                         # ordonnées
       x = 'x',                              # abscisses
       width = bin_edges[1] - bin_edges[0],  # largeur des barres
       source = source)                      # source des données

# Affichage de la figure

show(p)

##  Création d'une bande

> La classe **`Band`** est un type d'annotation qui permet de surligner une «bande» autour de données choisies. Une utilisation courante pour l'annotation `Band` est de surligner la zone d'incertitude liée à une série de mesures.
>
> Nous allons commencer par créer une série temporelle de points aléatoires.


* Importer les modules `pandas` et `numpy`.


* Créer les listes aléatoires avec suivantes :
```python
x = np.random.random(2500) * 140 - 20
y = np.random.normal(size = 2500) * 2 + 5
```

* Instancier un *DataFrame* **df1** contenant les colonnes "x" et "y" puis trier **df1** selon les valeurs de "x".


* Instancier un *DataFrame* **df2** à deux colonnes, "y_mean" et "y_std". Les valeurs de ces deux colonnes sont la moyenne et l'écart-type pour les 100 dernières observations de `y`. Pour cela, il suffira d'utiliser une fenêtre coulissante de longueur 100 grâce aux méthodes ``df1["y"].rolling(window = 100).agg({"y_mean": np.mean, "y_std": np.std}``.

> Les 100 premières entrées de `df2` seront des `NA` puisqu'il n'est pas possible de calculer la moyenne ou l'écart-type sur les 100 observations précédentes.

* A l'aide de la méthode `fillna`, remplir les cases où il y des valeurs manquantes avec la technique de votre choix.


* Instancier un *DataFrame* **df** qui est la concatenation de **df1** et **df2**.

In [7]:
import pandas as pd
import numpy as np


### Insérez votre code ici
x = np.random.random(2500) * 140 - 20
y = np.random.normal(size = 2500) * 2 + 5

df1 = pd.DataFrame({"x":x,
                    "y":y})

df1 = df1.sort_values(by=["x"])

print(df1.head())

df2 = df1['y'].rolling(window=100).agg({"y_mean": np.mean, "y_std": np.std})



df1 = df1.fillna(df1.mean())
df2 = df2.fillna(df2.mean())

print(df2.head())

df = pd.concat([df1,df2],axis=1)

print(df.head())


              x         y
467  -19.986739  3.789944
749  -19.938018  8.451850
745  -19.924306  6.092157
2012 -19.921660  6.532040
199  -19.875595  7.015225
        y_mean     y_std
467   4.968835  1.942496
749   4.968835  1.942496
745   4.968835  1.942496
2012  4.968835  1.942496
199   4.968835  1.942496
              x         y    y_mean     y_std
467  -19.986739  3.789944  4.968835  1.942496
749  -19.938018  8.451850  4.968835  1.942496
745  -19.924306  6.092157  4.968835  1.942496
2012 -19.921660  6.532040  4.968835  1.942496
199  -19.875595  7.015225  4.968835  1.942496


In [8]:
# Listes de coordonnées aléatoires

x = np.random.random(2500) * 140 - 20
y = np.random.normal(size=2500) * 2 + 5

# Instanciation de la première DataFrame

df1 = pd.DataFrame({'x' : x, 'y' : y})

df1 = df1.sort_values(by = 'x')  # tri du DataFrame

# Instanciation de la seconde DataFrame

df2 = df1.y.rolling(window = 100).agg({"y_mean": np.mean, "y_std": np.std}) 
# fenêtres coulissantes qui calculent la moyenne et l'écart-type sur les 100 données dans la fenêtre.

df2 = df2.fillna(method = 'bfill') # bfill: utilise la prochaine entrée valide pour combler les NA.

# Instanciation de la troisième DataFrame

df = pd.concat([df1, df2], axis=1)

> Nous allons maintenant appliquer à notre jeu de données les transformations nécessaires pour ajouter une bande.
>
>
> L'objectif de cette bande est de visualiser rapidement plusieurs informations : la moyenne des 100 dernières observations à chaque instant, mais aussi leur écart-type afin de mettre en valeur certains indices de tendance ou saisonnalité. 
>
>
> Puisque nous avons généré nos données aléatoirement, il sera impossible d'apercevoir ces indices mais le principe reste le même pour de "vraies" séries temporelles.

* Instancier un objet `ColumnDataSource` à partir de **df**.


* Instancier une figure de largeur 600 et hauteur 400, de titre `"Rolling Standard Deviation"`.


* A l'aide de la méthode *glyph* `scatter`, instancier un nuage de points à partir des colonnes `x` et `y` de la source tel que l'opacité du contour des points soit de 0, l'opacité de l'intérieur des points soit de 0.3 et la taille des points soit de 5. 


* A l'aide de la méthode *glyph* `line`, instancier une courbe de couleur rouge et d'épaisseur 0.9 à partir des colonnes `x` et `y_mean` de la source.


* Créer dans **df** la colonne `'lower'`, qui prend la valeur `y_mean - y_std`.


* Créer dans **df** la colonne `'upper'`, qui prend la valeur `upper = y_mean + y_std`.


* Importer la classe `Band` depuis le sous-module `bokeh.models`.


* Instancier un objet de type `Band` à partir de la source avec les paramètres:
    * `base = 'x'`      : abscisses sur lesquelles s'étend la bande.
    * `lower = 'lower'` : ordonnées inférieures de la bande.
    * `upper = 'upper'` : ordonnées supérieures de la bande.
    * `level = 'underlay'` : pour que la bande soit affichée en arrière-plan.
    * `fill_alpha = 1` : opacité du remplissage de la bande.
    * `line_color = 'black'` : couleur des bords de la bande.
    

* Ajouter la bande aux annotations de la figure grâce à sa méthode `add_layout`.


* Afficher la figure.

In [9]:
# Insérez votre code ici

source = ColumnDataSource(df)

p = figure(width=600, height=400, title="Rolling Standard Deviation")

p.scatter(x="x",
          y="y",
          line_alpha=0,
          fill_alpha=0.3,
          size=5,
          source=source)

p.line(x="x",
          y="y_mean",
          line_width=0.9,
          color="red",
          source=source)

df["lower"] = df["y_mean"] - df["y_std"]
df["upper"] = df["y_mean"] + df["y_std"]

from bokeh.models import Band

bande = Band(
    base="x",
    lower='lower',
    upper='upper',
    level='underlay',
    fill_alpha=1,
    line_color='black',
    source=source)

p.add_layout(bande)

show(p)


In [10]:
# Instanciation de la source

source = ColumnDataSource(df)

# Instanciation de la figure

p = figure(title = "Rolling Standard Deviation",
           plot_width = 600, plot_height = 400)

# Instanciation du nuage de points

p.scatter(x = 'x',             # abscisses
          y = 'y',             # ordonnées
          line_alpha = 0,      # opacité du contour
          fill_alpha = 0.3,    # opacité de remplissage
          size = 5,            # taille
          source = source)     # source des données

# Instanciation de la courbe

p.line(x = 'x',                # abscisses
       y = 'y_mean',           # ordonnées
       line_color = 'red',     # couleur du tracé
       line_width = 0.9,       # épaisseur du tracé
       source = source)        # source des données

# Création des colonnes d'ordonnées inférieures et supérieures

df['lower'] = df.y_mean - df.y_std      # moyenne - écart-type
df['upper'] = df.y_mean + df.y_std      # moyenne + écart-type

# Importation de la classe Band

from bokeh.models import Band

# Instanciation de la bande

band = Band(base = 'x',             # abscisses
            lower = 'lower',        # ordonnées inférieures
            upper = 'upper',        # ordonnées supérieures
            level = 'underlay',     # plan d'affichage
            fill_alpha = 1.0,       # opacité du remplissage
            line_color = 'black',   # couleur des bords
            source = source)        # source des données

# Ajout de la bande aux annotations de la figure

p.add_layout(band)

# Affichage de la figure

show(p)

> Malheureusement, *bokeh* ne possède pas de méthodes *glyph* pour créer directement de boxplot, camemberts ou d'autres types de graphiques communs.
>
> En revanche, vous trouverez [ici](https://bokeh.pydata.org/en/latest/docs/gallery.html) des exemples de courbes implémentées avec Bokeh avec des composantes interactives qui font tout l'intérêt de ce module.