# Matplotlib :

## tracer un diagramme en barres horizontales ( = Horizontal bar chart)

Présenter des données de façon graphique peut permettre d'en faire une meilleure analyse visuelle.

Le package matplotlib permet une multitude de représentations graphiques. 

C'est un package que nous avons déja rencontré lors de l'étude d'un programme Python en relation avec le cours de Sciences Physiques. 

Plus précisemment, nous avons eu affaire à l'un des modules de ce package, **pyplot** que nous allons retrouver ici. 

L'aide concernant ce module peut-être obtenue avec l'aide intégrée de Python, mais on pourra préférer voir l'aide en ligne : 

 https://matplotlib.org/3.2.1/api/_as_gen/matplotlib.pyplot.html#module-matplotlib.pyplot 
 
 On pourra y trouver un exemple de diagramme en barres horizontales :
 
 https://matplotlib.org/3.2.1/gallery/lines_bars_and_markers/barh.html#sphx-glr-gallery-lines-bars-and-markers-barh-py 
 
 mais pour démarrer, on pourra préférer le code ci-dessous, qui va à l'essentiel (bien que présentant des petits défauts). Il a été trouvé sur le site https://pythonspot.com/matplotlib-bar-chart/.
 
 Exécuter le code et aller voir les commentaires donnés en dessous. **Expérimenter** sur ce code en faisant des (tentatives de) modifications. Accompagner ces modifications d'une **lecture de la documentattion correspondante** (Cf le premier lien donné ci-dessus) :


In [None]:
 # Cette première ligne de 'code' est nécessaire pour le notebook jupyter.
# Ne pas la copier si on souhaite utiliser le reste du code dans Thonny :
%matplotlib inline 

import matplotlib.pyplot as plt
import numpy as np

objects = ('Python', 'C++', 'Java', 'Perl', 'Scala', 'Lisp')
y_pos = np.arange(len(objects))
performance = [10,8,6,4,2,1]

plt.barh(y_pos, performance, align='center', alpha=0.5)
plt.yticks(y_pos, objects)
plt.xlabel('Usage')
plt.title('Programming language usage')

plt.show()


### Commentaires :

#### 1- pyplot :

Pyplot étant un module de Matplotlib, l'utilisation d'une méthode de pyplot devrait se faire par :

 **matplotlib.pyplot.nom_de_la_methode()**
 
 ce qui serait assez fastidieux... Pour cette raison un alias est réalisé dans la ligne d'importation :
 
 **import matplotlib.pyplot as plt**
 
 Cet alias est celui proposé par la documentation de pyplot : on évitera d'en utiliser un autre. Cela permet une homogénéité d'écriture avec les autres développeurs.
 
 Dans le code on trouvera donc :
 
 **plt.nom_de_la_methode()** au lieu de **matplotlib.pyplot.nom_de_la_methode()**

#### 2- numpy :

Numpy est un module python que l'on retrouve souvent associé à Matplotlib... de ce fait certains utilisent systématiquement numpy et matplotlib ensemble bien que ce ne soit pas toujours justifié. 

Numpy permet de réaliser du calcul scientifique, en particulier sur des tableaux / matrices. Au bout des calculs scientifiques on a souvent une représentation graphique, et c'est là qu'entre en jeu Matplotlib avec son module Pyplot.

Mais on peut fort bien avoir fait du travail sur Python et vouloir faire une représentation grahique. Pyplot est alors utilisé, sans que l'on ait eu besoin de faire intervenir Numpy.

Dans le code d'exemple ci-dessus, numpy est utilisé dans une seule ligne d'instruction :

y_pos = np.arange(len(objects))

Voici ce que donne la documentation de numpy.arange (https://docs.scipy.org/doc/numpy/reference/generated/numpy.arange.html) :


**numpy.arange([start, ]stop, [step, ]dtype=None)**

    Return evenly spaced values within a given interval.

    Values are generated within the half-open interval [start, stop) (in other words, the interval including start but excluding stop). For integer arguments the function is equivalent to the Python built-in range function, but returns an ndarray rather than a list.

    When using a non-integer step, such as 0.1, the results will often not be consistent. It is better to use numpy.linspace for these cases.
    
On y apprend que cette méthode est équivalente à la fonction native range() de Python si on travaille avec des entiers. ( numpy.arange peut travailler avec des valeurs non entières contrairement à range()...mais on nous dit que les résultats pourraient ne pas être cohérents...). 

Une petite imprécision dans cette documentation : la fonction native range() ne renvoie plus une liste (c'était vrai avec Python 2), mais un itérateur sur une série de nombres. Si on veut une liste il faut la créer (avec la fonction native list).

Tester les codes ci-dessous pour voir la différence entre range(), list(range()) et np.arange() utilisées avec des entiers. On constate que le format de l'objet renvoyé par np.arange est différent, spécifique de la bibliothèque numpy (un objet de type 'array', type qui n'existe pas dans python)


In [None]:
range(2,10,2)


In [None]:
list(range(2,10,2))


In [None]:
import numpy as np
np.arange(2,10,2)


 Essai avec des nombres non entiers :

In [None]:
range(2,10,0.5)

In [None]:
import numpy as np
np.arange(2,6,0.5)


In [None]:
# un exemple de problème : avec ce code on devrait obtenir : array([2. , 2.2, 2.4]) car la valeur de stop 2.6 devrait
# être exclue... mais :
import numpy as np
np.arange(2.0, 2.6, 0.2)
# ce problème est du à la précision non infinie sur les flottants ...

On doit être capable de dire ce que fait cette ligne d'instruction :

**y_pos = np.arange(len(objects))**

et se demander si :
**y_pos = range(len(objects))** pourrait suffire **ici** (auquel cas l'importation du module numpy ne serait plus nécessaire). Il faut donc regarder à quoi sert par la suite y_pos ; doit-il avoir le type fourni par numpy ou être d'un autre type. On va donc explorer la documentation des méthodes dans lesquelles y_pos est utilisé.

Par exemple, aller voir l'aide sur barh() pour répondre aux questions suivantes :

 - Dans ce code les structures de données qui servent à alimenter le graphique ('objects' et 'performance') sont de deux types différents... Cela semble curieux... N'est-il pas possible d'utiliser le même type pour les deux (par exemple le type list) ?
  - Le paramètre align peut prendre deux valeurs. Lesquelles ? A-t-il une valeur par défaut ? Ici le développeur lui a donné la valeur 'center' : était-ce utile ? Tester avec la valeur 'edge' pour voir le résultat sur le graphique.
  - lorsque l'on va voir l'aide pour barh, on obtient :
  
  **matplotlib.pyplot.barh(y, width, height=0.8, left=None, \*, align='center', \*\*kwargs)**
  
  dans le code en exemple, on a :
  
  **plt.barh(y_pos, performance, align='center', alpha=0.5)**
   - y_pos = paramètre effectif du paramètre formel y
   - performance = paramètre effectif du paramètre formel width
   - pas de valeur donnée à height ; elle aura donc la valeur par défaut 0,8
   - pas de valeur donnée à left ; elle aura donc la valeur par défaut None
   - align avait été redéfini avec sa valeur par défaut ... ???
   - mais alpha n'apparaît pas dans la liste des paramètres ...
  
  En fait il y a un dernier paramètre formel appelé **kwargs** qui signifie **keyword arguments** et qui permet d'ajouter un nombre quelconque de paramètres supplémentaires, parfois nombreux et peu souvent utilisés, raison pour
laquelle ils ne sont pas détaillés. Ces paramètres sont bien sûr connus de la fonction et il faudra aller voir l'aide détaillée pour les trouver.
Pour la méthode barh ( https://matplotlib.org/3.2.1/api/_as_gen/matplotlib.pyplot.barh.html#matplotlib.pyplot.barh) la page web commence par décrire les 5 paramètres principaux (de y à align), puis donne le type retourné puis seulement après décrit les autres paramètres possibles : de 'color' à 'log' sans que l'on y trouve 'alpha'...et c'est seulement plus bas sur la page que l'on trouve :
'Other optional kwargs:' avec 'alpha' dans cette liste...où vous apprendrez que alpha est de type 'float or None'.

Essayer de modifier alpha (on verra que les valeurs possibles sont comprises entre 0 et 1. Observer l'effet : alpha premet de gérer la 'transparence'. C'est d'ailleurs un terme utilisé en infographie.


Essayer de modifier **étape par étape** le code ci-dessous :

In [None]:
# Cette première ligne de 'code' est nécessaire pour le notebook jupyter.
# Ne pas la copier si on souhaite utiliser le reste du code dans Thonny :
%matplotlib inline 

import matplotlib.pyplot as plt

# numpy n'a pas été conservé dans ce code modifié

objects = ['Python', 'C++', 'Java', 'Perl', 'Scala', 'Lisp']
y_pos = range(len(objects)) 
performance = [10,8,6,4,2,1]

plt.barh(y_pos, performance,height=0.4, align='edge', alpha=0.2)
plt.yticks(y_pos, objects)
plt.xlabel('Utilisation')
plt.title('Utilisation des langages de programmation')

plt.show()


## Améliorer la présentation avec une palette de couleurs

Le sujet est vaste. Pour s'en convaincre, aller sur cette page : https://matplotlib.org/3.1.0/gallery/color/colormap_reference.html

On se propose d'utiliser une gamme de couleur nommée 'veridis' dont on extraira les couleurs nécessaires pour fire une palette de couleurs adaptée à notre diagramme en barre (on va avoir une couleur différente par barre).

Cela nécessite l'importation d'une librairie supplémentaire

On crée la palette de couleurs adaptée aux nombre de barres : 

**palette = cm.get_cmap('viridis', len(objects) )**

On pourra remplacer la gamme chromatique 'veridis' par une autre proposée dans l'aide ('plasma', 'inferno', 'magma', 'cividis') selon l'effet recherché


In [None]:
# Cette première ligne de 'code' est nécessaire pour le notebook jupyter.
# Ne pas la copier si on souhaite utiliser le reste du code dans Thonny :
%matplotlib inline 

import matplotlib.pyplot as plt
import matplotlib.cm as cm
# numpy n'a pas été conservé dans ce code modifié

objects = ['Python', 'C++', 'Java', 'Perl', 'Scala', 'Lisp']
y_pos = range(len(objects)) 
performance = [10,8,6,4,2,1]

# on crée une palette de couleurs. Elle contient autant de couleurs différentes
# qu'il n'y a d'éléments dans la liste 'objects':
palette = cm.get_cmap('viridis', len(objects) )

# dans la méthode plt.barh on utilisera on donnera au paramètre 'color' la valeur 'palette.colors' 
# on peut toujours utiliser le paramètre 'alpha' :
plt.barh(y_pos, performance,height=0.6, color=palette.colors, alpha=0.6)
plt.yticks(y_pos, objects)
plt.xlabel('Utilisation')
plt.title('Utilisation des langages de programmation')

plt.show()