# Python pour la Data Science

## 3) Les graphiques avec Matplotlib 

### Visualisation avec Matplotlib

> - [Documentation Matplotlib](http://matplotlib.org/)  



Matplotlib permet de construire de très nombreux types de graphiques directement à partir de l’interpréteur Python et nous sera très utile pour visualiser des données, des fonctions de décision, etc. Nous nous servirons principalement de `matplotlib.pyplot`, à importer en début de session :

Avec Jupyter, on peut afficher directement les graphiques dans la fenêtre du navigateur à l'aide de la commande : %matplotlib notebook, pour éviter le recours systématique à plt.show()

In [1]:
import matplotlib
import matplotlib.pyplot as plt
%matplotlib notebook

In [2]:
import numpy as np
x=np.linspace(-10,10,100)
y=np.sin(x)
plt.plot(x,y,marker='o')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7f7cd9fe2f40>]

In [3]:
plt.figure(2, figsize=(8, 6))
x=np.linspace(0,2,10)
y=x**2
plt.plot(x,y)

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7f7cd9f01d30>]

In [4]:
plt.scatter(x,y)

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x7f7cd9f383a0>

Vous pouvez jouer avec quelques options utiles : label=   lw=   ls=  c= . Voir la documentation Matplotlib

## Visualisation d'un jeu de donnée

In [5]:
from sklearn import datasets

On importe le célèbre jeu de donnée sur la classification des iris 
d'Amérique du nord à l'aide de scikit-learn 

Vous en trouverez une description sur wikipedia :

[iris data set](https://en.wikipedia.org/wiki/Iris_flower_data_set)

In [6]:
iris = datasets.load_iris()
X = iris.data[:, :2]  # On ne tient compte que des 2 premières caractéristiques
Y = iris.target
#print(iris)

Pour la visualisation des jeux de données, nous utiliserons essentiellement la fonction scatter permettant la représentation des nuages de points :

In [8]:
plt.figure()
plt.scatter(X[:, 0], X[:, 1],c=Y,cmap=plt.cm.Set1)
plt.xlabel('Longueur des sépales')
plt.ylabel('Largeur des sépales')


<IPython.core.display.Javascript object>

Text(0, 0.5, 'Largeur des sépales')

  #### Structuration des figures :

In [10]:
# Définition de la zone de figure
plt.figure(figsize=(6, 4))
plt.plot(x,y,label='quadratique')
plt.plot(x,x**3,label='cubique')
plt.title('Figure n°4')
plt.xlabel('abscisse')
plt.ylabel('ordonnée')
plt.legend()

# Pour ceux qui ne sont pas sur Jupyter
#plt.show() 
#plt.savefig(('fig.png'))

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x7f7cd262edc0>

Tableaux de figures

In [11]:
plt.figure( figsize=(6, 4))
plt.subplot(2,1,1)
plt.plot(x,y,c='red')
plt.subplot(2,1,2)
plt.plot(x,x**3,c='blue')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7f7cd262c070>]

### Graphiques 3D

In [12]:
from mpl_toolkits.mplot3d import Axes3D
plt.figure( figsize=(6, 4))
fig1 = plt.axes(projection='3d')

<IPython.core.display.Javascript object>

In [13]:
# tracé de f(x,y) = x*y^2-x^3 
# Construction des données
X = np.arange(-5, 5, 0.25)
Y = np.arange(-5, 5, 0.25)
X, Y = np.meshgrid(X, Y)
Z = X*Y**2-X**3

# tracé de la surface
fig1.plot_surface(X, Y, Z)


<mpl_toolkits.mplot3d.art3d.Poly3DCollection at 0x7f7cd259a970>

In [14]:
#Lignes de niveau
plt.figure( figsize=(6, 4))
plt.contour(X,Y,Z)

<IPython.core.display.Javascript object>

<matplotlib.contour.QuadContourSet at 0x7f7cd2452dc0>

In [15]:
plt.figure( figsize=(6, 4))
plt.contourf(X,Y,Z,20,cmap='RdGy')

<IPython.core.display.Javascript object>

<matplotlib.contour.QuadContourSet at 0x7f7cd237a040>

In [16]:
# Retour aux Iris
plt.figure()
fig2 = plt.axes(projection='3d')
X = iris.data  
Y = iris.target
fig2.scatter(X[:, 0], X[:, 1],X[:, 2],c=Y)


<IPython.core.display.Javascript object>

<mpl_toolkits.mplot3d.art3d.Path3DCollection at 0x7f7cd22e67c0>

### Un indispensable de la Data Science : les histogrammes

In [17]:
# Toujours les iris... parce qu'on ne s'en lasse jamais!
plt.figure( figsize=(6, 4))
plt.hist(X[:,0],bins=20)
plt.hist(X[:,1],bins=20)

<IPython.core.display.Javascript object>

(array([ 1.,  3.,  4.,  3.,  8., 14., 14., 10., 26., 11., 19., 12.,  6.,
         4.,  9.,  2.,  1.,  1.,  1.,  1.]),
 array([2.  , 2.12, 2.24, 2.36, 2.48, 2.6 , 2.72, 2.84, 2.96, 3.08, 3.2 ,
        3.32, 3.44, 3.56, 3.68, 3.8 , 3.92, 4.04, 4.16, 4.28, 4.4 ]),
 <a list of 20 Patch objects>)

In [18]:
# Histogramme 2d
plt.figure( figsize=(6, 4))
plt.hist2d(X[:,0],X[:,1],cmap='Blues')
plt.xlabel('longueur sépal')
plt.ylabel('largeur sépal')
plt.colorbar()

<IPython.core.display.Javascript object>

<matplotlib.colorbar.Colorbar at 0x7f7cd094ab50>

In [19]:
# Application à l'analyse d'image
plt.figure( figsize=(6, 4))
from scipy import misc
face=misc.face(gray=True) # face est un tableau numpy
plt.imshow(face,cmap='gray') # affiche tous les tableaux numpy donc toutes les matrices

<IPython.core.display.Javascript object>

<matplotlib.image.AxesImage at 0x7f7cd092a370>

In [20]:
plt.figure()
plt.hist(face.ravel(),bins=255)

<IPython.core.display.Javascript object>

(array([2.900e+01, 6.600e+01, 5.700e+01, 1.300e+02, 3.920e+02, 8.390e+02,
        1.841e+03, 2.727e+03, 2.963e+03, 2.453e+03, 1.944e+03, 1.955e+03,
        2.176e+03, 2.567e+03, 2.775e+03, 3.073e+03, 2.973e+03, 3.565e+03,
        3.408e+03, 3.663e+03, 3.491e+03, 3.339e+03, 3.201e+03, 3.188e+03,
        3.071e+03, 3.127e+03, 2.945e+03, 2.709e+03, 2.690e+03, 2.509e+03,
        2.444e+03, 2.388e+03, 2.420e+03, 2.356e+03, 2.405e+03, 2.325e+03,
        2.458e+03, 2.330e+03, 2.348e+03, 2.314e+03, 2.341e+03, 2.455e+03,
        2.257e+03, 2.310e+03, 2.335e+03, 2.397e+03, 2.486e+03, 2.445e+03,
        2.497e+03, 2.459e+03, 0.000e+00, 2.653e+03, 2.617e+03, 2.731e+03,
        2.767e+03, 2.904e+03, 2.854e+03, 3.099e+03, 3.209e+03, 3.189e+03,
        3.358e+03, 3.396e+03, 3.458e+03, 3.460e+03, 3.589e+03, 3.768e+03,
        3.742e+03, 3.637e+03, 3.585e+03, 3.639e+03, 3.782e+03, 3.656e+03,
        3.717e+03, 3.783e+03, 3.773e+03, 3.801e+03, 3.880e+03, 3.790e+03,
        3.859e+03, 3.947e+03, 3.889e+0

In [None]:
# Application à l'affichage de matrice
# Affichons la matrice de corrélation des fleurs d'iris


In [21]:
plt.figure()
X = iris.data  
Y = iris.target
A=np.corrcoef(X.T)
plt.imshow(A,cmap='Blues')

<IPython.core.display.Javascript object>

<matplotlib.image.AxesImage at 0x7f7cd00da160>