# Numpy et matplotlib

Dans cette section, nous allons découvrir deux modules indispensables à la programmation scientifique: [Numpy](http://www.numpy.org/) et [Matplotlib](http://matplotlib.org/).

Cette section est adaptée d'un cours de Slim Essid et Alexandre Gramfort, qui était lui-même adapté du travail de J.R. Johansson (robert@riken.jp) http://dml.riken.jp/~rob/. Elle s'inspire aussi de la leçon du [Numpy avancé](https://paris-swc.github.io/advanced-numpy-lesson/) de Softwate Carpentry.

## Introduction

 

* `numpy` est un module utilisé dans presque tous les projets de calcul numérique sous Python
   * Il fournit des structures de données performantes pour la manipulation de vecteurs, matrices et tenseurs plus généraux
   * `numpy` est écrit en C et en Fortran d'où ses performances élevées lorsque les calculs sont vectorisés (formulés comme des opérations sur des vecteurs/matrices)

 * `matplotlib` est un module performant pour la génération de graphiques en 2D et 3D
   * syntaxe très proche de celle de Matlab
   * supporte texte et étiquettes en $\LaTeX$
   * sortie de qualité dans divers formats (PNG, PDF, SV, EPS...)
   * interface graphique interactive pour explorer les figures

Pour utiliser `numpy` et `matplotlib` il faut commencer par les importer :

In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
%matplotlib notebook

On peut aussi faire cela (mais ce n'est pas conseillé):

In [None]:
from numpy import *
from matplotlib.pyplot import *

## *Arrays* `numpy`

Dans la terminologie `numpy`, vecteurs, matrices et autres tenseurs sont appelés *arrays*.


## Création d'*arrays* `numpy` 

Plusieurs possibilités:

 * à partir de listes ou tuples
 * en utilisant des fonctions dédiées, telles que `arange`, `linspace`, etc.
 * par chargement à partir de fichiers

### A partir de listes

Au moyen de la fonction `numpy.array` :


In [None]:
# un vecteur: l'argument de la fonction est une liste Python
v = np.array([1, 3, 2, 4])
print(v)
print(type(v))

On peut alors visualiser ces données :

In [None]:
v = np.array([1, 3, 2, 4])
x = np.array([0, 1, 2, 3])

plt.figure()
plt.plot(x,v, 'rv--', label='v(x)')
plt.legend(loc='lower right')
plt.xlabel('x')
plt.ylabel('v')
plt.title('Mon titre')
plt.xlim([-1, 4])
plt.ylim([0, 5])
# plt.show()
plt.savefig('toto.png')

On peut omettre `plt.show()`, lorsque la méthode `plt.ion()` a été appelée ; c'est le cas dans Spyder et pylab

Pour définir une matrice (array de dimension 2 pour numpy):


In [None]:
# une matrice: l'argument est une liste emboitée
M = np.array([[1, 2], [3, 4]])
print(M)

In [None]:
M[0, 0]

Les objets `v` et `M` sont tous deux du type `ndarray` (fourni par `numpy`)

In [None]:
type(v), type(M)

`v` et `M` ne diffèrent que par leur taille, que l'on peut obtenir via la propriété `shape` :

In [None]:
v.shape

In [None]:
M.shape

Pour obtenir le nombre d'éléments d'un *array* :

In [None]:
v.size

In [None]:
M.size

Les *arrays* ont un type qu'on obtient via `dtype`:

In [None]:
print(M)
print(M.dtype)

Les types doivent être respectés lors d'assignations à des *arrays*

In [None]:
M[0, 0] = "hello"

### Attention !

In [None]:
a = np.array([1, 2, 3])
a[0] = 3.2
print(a)
a.dtype

On peut définir le type de manière explicite en utilisant le mot clé `dtype` en argument: 

In [None]:
a = np.array([1, 2, 3], dtype=np.int64)
b = np.array([2, 2, 3], dtype=np.int64)
b = b.astype(float)
print(a / b)

In [None]:
M = np.array([[1, 2], [3, 4]], dtype=complex)
M

 * Autres types possibles avec `dtype` : `int`, `float`, `complex`, `bool`, `object`, etc.

 * On peut aussi spécifier la précision en bits: `int64`, `int16`, `float128`, `complex128`.

### EXERCICE

* Créer un simple tableau à 2 dimensions (contenant les éléments que vous voulez).  
* Utiliser les fonctions `len()`, `np.shape()` sur votre tableau. Comment sont elles reliées? comment est ce relié à l'attribut `ndim`?

In [None]:
A = np.array([[2, 3, 4, 5], [3, 5, 6, 6], [2, 4, 5, 9]])

In [None]:
print(len(A))
print(A.shape)
print(A.ndim)
print(A.dtype)

### Utilisation de fonction de génération d'*arrays*

#### arange

In [None]:
# create a range
x = np.arange(0, 10, 2) # arguments: start, stop, step
x

In [None]:
x = np.arange(-1, 1, 0.1)
x

#### linspace

In [None]:
# avec linspace, le début et la fin SONT inclus
np.linspace(0, 10, 25)

In [None]:
np.linspace(0, 10, 11)

In [None]:
xx = np.linspace(-10, 10, 100)
plt.plot(xx, np.sin(xx))

#### Données aléatoires

Le module numpy.random peut être utilisé pour les données aléatoires.

Tirage uniforme dans [0, 1]

In [None]:
np.random.rand(5, 5)  

Tirage suivant une loi normale standard

In [None]:
np.random.randn(5, 5)

Affichage de l'histogramme des tirages

In [None]:
a = np.random.randn(10000)
hh = plt.hist(a, 40)

#### diag

In [None]:
# une matrice diagonale
np.diag([1, 2, 3])

In [None]:
# diagonale avec décalage par rapport à la diagonale principale
np.diag([1, 2, 3], k=1)

#### zeros et ones

In [None]:
np.zeros((3,), dtype=int)  

In [None]:
np.zeros((3, 3))

In [None]:
np.ones((3, 3))

In [None]:
print(np.zeros((3,), dtype=int))
print(np.zeros((1, 3), dtype=int))
print(np.zeros((3, 1), dtype=int))

##  Fichiers d'E/S

### Fichiers séparés par des virgules (CSV)

Un format fichier classique est le format CSV (comma-separated values), ou bien TSV (tab-separated values). Pour lire de tels fichiers, on peut utiliser `numpy.genfromtxt`. Par exemple:

In [None]:
!cat 2_numpy_data.csv

In [None]:
data = np.genfromtxt('2_numpy_data.csv', delimiter=',')
data

In [None]:
data.shape

On peut aussi utiliser une fonction très pratique de [pandas](http://pandas.pydata.org): `pandas.read_csv`. Les données sont alors un [pandas Dataframe](http://pandas.pydata.org/pandas-docs/stable/api.html#dataframe) que l'on peut convertir en numpy array.

In [None]:
import pandas as pd
df = pd.read_csv('2_numpy_data.csv')

In [None]:
type(df)

In [None]:
dn = np.array(df)
type(dn)

In [None]:
dn

In [None]:
np.array(pd.read_csv('2_numpy_data.csv', header=None))

A l'aide de `numpy.savetxt` on peut enregistrer un *array* `numpy` dans un fichier txt:

In [None]:
M = np.random.rand(3,3)
M

In [None]:
np.savetxt("random-matrix.txt", M)

In [None]:
!cat random-matrix.txt
#!type random-matrix.txt

In [None]:
np.savetxt("random-matrix.csv", M, fmt='%.5f', delimiter=',') # fmt spécifie le format

!cat random-matrix.csv
#!type random-matrix.csv

Ici aussi, on peut utiliser une fonction très pratique de pandas: `to_csv`, mais il faudrait convertir le tableau en pandas DataFrame.

In [None]:
df = pd.DataFrame(M)

In [None]:
df

In [None]:
df.to_csv("random_matrix_pd.csv", index=False, header=False, float_format='%.5f')

In [None]:
!cat random_matrix_pd.csv

## Manipulation d'*arrays*

### Indexation

In [None]:
v = np.arange(10)
print(v)
M = np.random.rand(3, 4)
print(M)

v est un vecteur, il n'a qu'une dimension -> un seul indice

In [None]:
v[0]

M est une matrice, ou un array à 2 dimensions -> deux indices 

In [None]:
M[1, 1]

Contenu complet :

In [None]:
M

La deuxième ligne :

In [None]:
M[1]

On peut aussi utiliser `:` 

In [None]:
M[1, :] # 2 ème ligne (indice 1)

In [None]:
M[:, 1] # 2 ème colonne (indice 1)

In [None]:
print(M.shape)
print(M[1, :].shape, M[:, 1].shape)

On peut assigner des nouvelles valeurs à certaines cellules :

In [None]:
M[0, 0] = 1

In [None]:
M

In [None]:
# on peut aussi assigner des lignes ou des colonnes
M[1, :] = -1
# M[1,:] = [1, 2, 3]

In [None]:
M

## *Slicing* ou accès par tranches

*Slicing* fait référence à la syntaxe `M[start:stop:step]` pour extraire une partie d'un *array*:

In [None]:
A = np.array([1, 2, 3, 4, 5])
A

In [None]:
A[1:3]

Les tranches sont modifiables :

In [None]:
A[1:3] = [-2, -3]
A

On peut omettre n'importe lequel des argument dans `M[start:stop:step]`:

In [None]:
A[::] # indices de début, fin, et pas avec leurs valeurs par défaut

In [None]:
A[::2] # pas = 2, indices de début et de fin par défaut

In [None]:
A[:3] # les trois premiers éléments

In [None]:
A[3:] # à partir de l'indice 3

In [None]:
M = np.arange(12).reshape(4, 3)
print(M)

On peut utiliser des indices négatifs :

In [None]:
A = np.array([1, 2, 3, 4, 5])

In [None]:
A[-1] # le dernier élément

In [None]:
A[-3:] # les 3 derniers éléments

Le *slicing* fonctionne de façon similaire pour les *array* multi-dimensionnels

In [None]:
A = np.array([[n + m * 10 for n in range(5)] for m in range(5)])

A

In [None]:
A[1:4, 1:4]  # sous-tableau

In [None]:
# sauts
A[::2, ::2]

In [None]:
A

In [None]:
A[[0, 1, 3]]

### EXERCICE: le plateau d'échec

Créez un tableau de zéros et le remplir pour obtenir un motif de plateau d'échec de dimension 8x8.
<img src="checkerboard.svg" width=300, height=300>

In [None]:
E = np.zeros((8, 8))
E[0::2, 0::2] = 1
E[1::2, 1::2] = 1
E

In [None]:
E = np.tile([[1, 0], [0, 1]], (4, 4))
E

In [None]:
np.tile?

### Indexation avancée (*fancy indexing*)

Lorsque qu'on utilise des listes ou des *array* pour définir des tranches : 

In [None]:
A = np.array([[n + m * 10 for n in range(5)] for m in range(5)])
row_indices = [1, 2, 3]
print(A)
print(A[row_indices])

In [None]:
print(A[[1, 2]])
A[[1, 2]][:, [3, 4]] = 0  # ATTENTION !
print(A)

In [None]:
A[np.ix_([1, 2], [3, 4])] = 0
print(A)

On peut aussi utiliser des masques binaires :

In [None]:
B = np.arange(5)
B

In [None]:
row_mask = np.array([True, False, True, False, False])
print(B[row_mask])
print(B[[0, 2]])

In [None]:
# de façon équivalente
row_mask = np.array([1, 0, 1, 0, 0], dtype=bool)
B[row_mask]

In [None]:
# ou encore
a = np.array([1, 2, 3, 4, 5])
print(a < 3)
print(B[a < 3])

In [None]:
print(A)
print(A[:, a < 3])

### EXERCICE

En utilisant l'indexation avancée, sélectionnez au hasard avec répétition 10 éléments d'un tableau contenant 100 éléments tirés au hasard. 
(Astuce: np.random.randint(max_int, size=n) génère n nombres au hasard de 0 à max_int)

In [None]:
r = np.random.rand(100)
ind = np.random.randint(100, size=10)
print(ind)
r[ind]

## Extraction de données à partir d'*arrays* et création d'*arrays*

#### where

Un masque binaire peut être converti en indices de positions avec `where`

In [None]:
x = np.arange(0, 10, 0.5)
print(x)
mask = (x > 5) * (x < 7.5)
print(mask)
indices = np.where(mask)
indices

In [None]:
x[indices] # équivalent à x[mask]

#### diag

Extraire la diagonale ou une sous-diagonale d'un *array* :

In [None]:
print(A)
np.diag(A)

In [None]:
np.diag(A, -1)

## Algèbre linéaire

La performance des programmes écrit en Python/Numpy dépend de la capacité à vectoriser les calculs (les écrire comme des opérations sur des vecteurs/matrices) en évitant au maximum les boucles `for/while`


### Opérations scalaires

On peut effectuer les opérations arithmétiques habituelles pour multiplier, additionner, soustraire et diviser des *arrays* avec/par des scalaires :

In [None]:
v1 = np.arange(5)
print(v1)

In [None]:
v1 * 2

In [None]:
v1 + 2

In [None]:
plt.figure()
plt.subplot(1, 2, 1)
plt.plot(v1 ** 2,'g--', label='$y = x^2$')
plt.legend(loc=0)
plt.subplot(1, 2, 2)
plt.plot(np.sqrt(v1), 'r*-', label='$y = \sqrt{x}$')
plt.legend(loc=2)
plt.show()

In [None]:
A = np.array([[n + m * 10 for n in range(5)] for m in range(5)])
print(A)

In [None]:
print(A * 2)

In [None]:
print(A + 2)

### Opérations terme-à-terme sur les *arrays*

Les opérations par défaut sont des opérations **terme-à-terme** :

In [None]:
A = np.array([[n + m * 10 for n in range(5)] for m in range(5)])
print(A)

In [None]:
A * A # multiplication terme-à-terme

In [None]:
(A + A.T) / 2

In [None]:
print(v1)
print(v1 * v1)

En multipliant des *arrays* de tailles compatibles, on obtient des multiplications terme-à-terme par ligne :

In [None]:
A.shape, v1.shape

In [None]:
print(A)
print(v1)
print(A * v1)

De façon plus générale, on peut faire des opérations sur des tableaux de différentes tailles. Dans certains cas, NumPy peut transformer les tableaux pour qu'ils aient la même taille, cette conversion s'appelle le **"Broadcasting"**.
<img src="numpy_broadcasting.png" width=600>

In [None]:
a = np.arange(4)
b = np.arange(5)
print(a, a.shape)
print(b, b.shape)
a * b

In [None]:
b = b[:, np.newaxis].T
a = a[:, np.newaxis]
c = a * b
print(a.shape, b.shape, c.shape)

Il existe une règle pour savoir dans quel cas on peut faire du "broadcasting":
**Dans une opération, la taille des axex des deux tableaux doit être soit la même, soit une des deux doit être 1**.
Dans la figure ci-dessus, cette règle est respectée:
```
a:      4 x 3   
b:      4 x 3
result: 4 x 3

a:      4 x 3
b:          3
result: 4 x 3

a:      4 x 1
b:          3
result: 4 x 3
```

Que donnerait les deux cas suivant?

```
Image  (3d array): 256 x 256 x 3
Scale  (1d array):             3
Result (3d array): 

A      (4d array):  8 x 1 x 6 x 1
B      (3d array):      7 x 1 x 5
Result (4d array):  
```

### EXERCICE:

Sans utiliser de boucles (`for/while`) :

 * Créer une matrice (5x6) aléatoire
 * Remplacer une colonne sur deux par sa valeur moins le double de la colonne suivante
 * Remplacer les valeurs négatives par 0 en utilisant un masque binaire


In [None]:
A = np.random.rand(5,6)
A

In [None]:
A[:, ::2] = A[:, ::2] - 2 * A[:,1::2]

In [None]:
A

In [None]:
A[np.where(A < 0)] = 0

In [None]:
A

Créez un tableau qui contient la somme de chaque élément de `x` avec chaque élément de `y`:

In [None]:
x = np.random.rand(3, 5)
y = np.random.randint(10, size=8)

In [None]:
print(x)
print(y)
x = x[:, :, np.newaxis]
z = x + y
print(z.shape)

In [None]:
print(z)

### Algèbre matricielle

Comment faire des multiplications de matrices ? Deux façons :
 
 * en utilisant les fonctions `dot`; (recommandé)
 * en utiliser le type `matrix`. (à éviter)


In [None]:
A = np.array([[n + m * 10 for n in range(5)] for m in range(5)])
v1 = np.arange(5)
print(A.shape, v1.shape)
print(A)
print(v1)
print(type(A), type(v1))

In [None]:
print(np.dot(A, A))  # multiplication matrice
print(A * A)  # multiplication élément par élément

In [None]:
A.dot(v1)

In [None]:
np.dot(v1, v1)

Avec le type `matrix` de Numpy

In [None]:
M = np.matrix(A)
v = np.matrix(v1).T # en faire un vecteur colonne

In [None]:
M * v

In [None]:
# produit scalaire
v.T * v

In [None]:
# avec les objets matrices, c'est les opérations standards sur les matrices qui sont appliquées
v + M * v

Si les dimensions sont incompatibles on provoque des erreurs :

In [None]:
v = np.matrix([1, 2, 3, 4, 5, 6]).T

In [None]:
np.shape(M), np.shape(v)

In [None]:
M * v

Voir également les fonctions : `inner`, `outer`, `cross`, `kron`, `tensordot`. Utiliser par exemple `help(kron)`.

### Transformations d'*arrays* ou de matrices

 * Plus haut `.T` a été utilisé pour transposer l'objet matrice `v`
 * On peut aussi utiliser la fonction `transpose`

**Autres transformations :**


In [None]:
C = np.array([[1j, 2j], [3j, 4j]])
C

In [None]:
np.conjugate(C)

Transposée conjuguée :

In [None]:
C.T.conjugate()

Parties réelles et imaginaires :

In [None]:
np.real(C) # same as: C.real

In [None]:
np.imag(C) # same as: C.imag

Argument et module :

In [None]:
np.angle(C + 1, deg=True) 

In [None]:
np.abs(C)

### Analyse de données

Numpy propose des fonctions pour calculer certaines statistiques des données stockées dans des *arrays* :

In [None]:
data = np.arange(20).reshape((5, 4))
data[3, :] = 9
data

#### mean

In [None]:
# np.mean(data)
print(np.mean(data, axis=0))

In [None]:
# la moyenne de la troisième colonne
np.mean(data[:, 2])

#### variance et écart type

In [None]:
np.var(data[:, 2]), np.std(data[:, 2])

#### min et max

In [None]:
data[:, 2].min()

In [None]:
data[:, 2].max()

In [None]:
data[:, 2].sum()

In [None]:
data[:, 2].prod()

#### sum, prod, et trace

In [None]:
d = np.arange(0, 10)
d

Somme des éléments

In [None]:
np.sum(d)

ou encore :

In [None]:
d.sum()

In [None]:
np.prod(d + 1)

Somme cumulée

In [None]:
np.cumsum(d)

Produit cumulé

In [None]:
np.cumprod(d + 1)

Trace (équivalent à diag(A).sum())

In [None]:
np.trace(data)

### Calculs aves données multi-dimensionnelles

Pour appliquer `min`, `max`, etc., par lignes ou colonnes :

In [None]:
m = np.random.rand(3,4)
m

In [None]:
# max global 
m.max()

In [None]:
# max dans chaque colonne
m.max(axis=0)

In [None]:
# max dans chaque ligne
m.max(axis=1)

Plusieurs autres méthodes des classes `array` et `matrix` acceptent l'argument (optional) `axis` keyword argument.

### EXERCICE :

Soustrayez de chaque colonne de `a` sa moyenne, puis faites de même avec les lignes

In [None]:
a = np.random.rand(100, 10)

In [None]:
b = a - np.mean(a, axis=0)
print(b.shape)
print(np.mean(b, axis=1).shape)
print(np.mean(b, axis=1)[:,np.newaxis].shape)
b = b - np.mean(b, axis=1)[:,np.newaxis]

## Copy

Pour des raisons de performance Python ne copie pas automatiquement les objets.

In [None]:
A = np.array([[0,  2], [ 3,  4]])
A

In [None]:
B = A

In [None]:
# changer B affecte A
B[0, 0] = 10
B

In [None]:
A

In [None]:
B = A
print(B is A)

On peut avoir accès à l'adresse mémoire de l'élément avec:

In [None]:
print(A.__array_interface__['data'][0])
print(B.__array_interface__['data'][0])

Pour éviter ce comportement, on peut demander une *copie profonde* (*deep copy*) de `A` dans `B`

In [None]:
# B = np.copy(A)
B = A.copy()

In [None]:
# maintenant en modifiant B, A n'est plus affecté
B[0, 0] = -5
print(B)
print(A)

In [None]:
print(A.__array_interface__['data'][0])
print(B.__array_interface__['data'][0])

## Concaténer, répéter des *arrays*

En utilisant les fonctions `repeat`, `tile`, `vstack`, `hstack`, et `concatenate`, on peut créer des vecteurs/matrices plus grandes à partir de vecteurs/matrices plus petites :


#### repeat et tile

In [None]:
a = np.array([[1, 2], [3, 4]])
a

In [None]:
# répéter chaque élément 3 fois
np.repeat(a, 3) # résultat 1-d

In [None]:
# on peut spécifier l'argument axis
np.repeat(a, 3, axis=1)

Pour répéter la matrice, il faut utiliser `tile`

In [None]:
# répéter la matrice 3 fois
np.tile(a, 3)

#### concatenate

In [None]:
b = np.array([[5, 6]])

In [None]:
np.concatenate((a, b), axis=0)

In [None]:
np.concatenate((a, b.T), axis=1)

#### hstack et vstack

In [None]:
np.vstack((a, b))

In [None]:
np.hstack((a, b.T))

## Itérer sur les éléments d'un *array*

 * Dans la mesure du possible, il faut éviter l'itération sur les éléments d'un *array* : c'est beaucoup plus lent que les opérations vectorisées
 * Mais il arrive que l'on n'ait pas le choix...

In [None]:
v = np.arange(4)

for element in v:
    print(element)

In [None]:
M = np.array([[1, 2], [3, 4]])

for row in M:
    print("row", row)
    
    for element in row:
        print(element)

Pour obtenir les indices des éléments sur lesquels on itère (par exemple, pour pouvoir les modifier en même temps) on peut utiliser `enumerate` :

In [None]:
for row_idx, row in enumerate(M):
    print("row_idx", row_idx, "row", row)
    
    for col_idx, element in enumerate(row):
        print("col_idx", col_idx, "element", element)
       
        # update the matrix M: square each element
        M[row_idx, col_idx] = element ** 2

In [None]:
# chaque élément de M a maintenant été élevé au carré
M

## Utilisation d'*arrays* dans des conditions

Losqu'on s'intéresse à des conditions sur tout on une partie d'un *array*, on peut utiliser `any` ou `all` :

In [None]:
M

In [None]:
if (M > 5).any():
    print("au moins un élément de M est plus grand que 5")
else:
    print("aucun élément de M n'est plus grand que 5")

In [None]:
if (M > 5).all():
    print("tous les éléments de M sont plus grands que 5")
else:
    print("tous les éléments de M sont plus petits que 5")

## *Type casting*

On peut créer une vue d'un autre type que l'original pour un *array*

In [None]:
M = np.array([[-1,2], [0,4]])
M.dtype

In [None]:
M2 = M.astype(float)
M2

In [None]:
M2.dtype

In [None]:
M3 = M.astype(bool)
M3

## Pour aller plus loin

* http://numpy.scipy.org
* http://scipy.org/Tentative_NumPy_Tutorial
* http://scipy.org/NumPy_for_Matlab_Users - Un guide pour les utilisateurs de MATLAB.