# `numpy` (tableaux de données multi-dimensionnels) et `matplotlib` (visualisation en 2D et 3D pour Python)

      Joseph Salmon : joseph.salmon@umontpellier.fr

Adapté du travail de 

- A. Gramfort (alexandre.gramfort@inria.fr) http://alexandre.gramfort.net/
- J.R. Johansson (robert@riken.jp) http://dml.riken.jp/~rob/

In [1]:
%matplotlib notebook

**Remarque**: la commande "magique" `%matplotlib inline` peut aussi avoir de l'intérêt (à essayer donc!)  

Voir aussi:
- https://jakevdp.github.io/PythonDataScienceHandbook/01.03-magic-commands.html
- https://ipython.org/ipython-doc/3/config/extensions/autoreload.html (pour `autoreload`)
- https://ipython.readthedocs.io/en/stable/interactive/magics.html

## Introduction

 

* `numpy` est un module utilisé dans presque tous les projets de calcul numérique sous `Python`
   * Il fournit des structures de données performantes pour la manipulation de vecteurs, matrices et tenseurs plus généraux
   * `numpy` est écrit en `C` et en `Fortran` d'où ses performances élevées lorsque les calculs sont vectorisés, c'est-à-dire formulés comme des opérations sur des vecteurs/matrices.

 * `matplotlib` est un module performant pour la génération de graphiques en 2D et 3D
   * syntaxe très proche de celle de Matlab
   * supporte texte et étiquettes en $\LaTeX$
   * sortie de qualité dans divers formats (.png, .pdf, .svg, .gif,etc.)
   * interface graphique intéractive pour explorer les figures
 
* `guiqwt.pyplot` est une alternative intéressante qui reprend la syntaxe de `matplotlib` (plus récente, encore peu utilisée)

Pour utiliser `numpy` et `matplotlib` il faut commencer par les importer :

In [2]:
import numpy as np  # raccourci usuel
import matplotlib.pyplot as plt # raccourci usuel

## *Arrays* en `numpy`

Dans la terminologie `numpy`, vecteurs, matrices et autres tenseurs (tableaux de dimension supérieure à 3) sont appelés *arrays*.


## Création d'*arrays* `numpy` 

Plusieurs possibilités:

 * a partir de listes ou n-uplets `Python`
 * en utilisant des fonctions dédiées, telles que `arange`, `linspace`, etc.
 * par chargement à partir de fichiers

### A partir de listes

Au moyen de la fonction `numpy.array` :


In [3]:
# un vecteur: l'argument de la fonction est une liste Python
v = np.array([1, 3, 2, 4])
print(v)
print(type(v))

[1 3 2 4]
<class 'numpy.ndarray'>


On peut alors visualiser ces données avec `matplotlib`:

In [4]:
v = np.array([1, 3, 2, 4])
x = np.array([0, 1, 2, 3])

fig = plt.figure()
plt.plot(x,v, 'rv--', label='v(x)')
plt.legend(loc='lower right')
plt.xlabel('x')
plt.ylabel('v')
plt.title('Mon titre')
plt.xlim([-1, 4])
plt.ylim([0, 5])
plt.show()
# fig.savefig('toto.svg')  # décommenter pour sauvegarder

<IPython.core.display.Javascript object>

**Remarque**: on peut omettre la commande `plt.show()` lorsque la méthode `ion()` (pour  *Interaction ON*) a été appelée.
C'est le cas dans `spyder` et `pylab` (qu'on lance par exemple avec la commande `ipython --pylab` dans un terminal Linux).

Pour définir une matrice (= array de dimension 2 pour `numpy`):


In [5]:
# Matrice: l'argument est une liste emboitée
M = np.array([[1, 2], [3, 4]])
print(M)

[[1 2]
 [3 4]]


In [6]:
M[0, 0]

1

Les objets `v` et `M` sont tous deux du type `ndarray` (fournis par `numpy`)

In [7]:
type(v), type(M)

(numpy.ndarray, numpy.ndarray)

`v` et `M` ne diffèrent que par leur taille, que l'on peut obtenir via la propriété `shape` :

In [8]:
v.shape  # noter qu'ici un vecteur a une dimension vide pour sa deuxième

(4,)

In [9]:
M.shape

(2, 2)

Pour obtenir le nombre d'éléments d'un *array* :

In [10]:
v.size

4

In [11]:
M.size

4

On peut aussi utiliser `numpy.shape` et `numpy.size`

In [12]:
np.shape(M)

(2, 2)

Les *arrays* ont un type qu'on obtient via `dtype`:

In [13]:
print(M)
print(M.dtype)

[[1 2]
 [3 4]]
int64


Les types doivent être respectés lors d'assignations à des *arrays*

In [14]:
M[0,0] = "hello"

ValueError: invalid literal for int() with base 10: 'hello'

### Attention !

In [15]:
a = np.array([1,2,3])
a[0] = 3.2
print(a)
a.dtype

[3 2 3]


dtype('int64')

In [16]:
a = np.array([1,2,3], dtype=np.int64)
b = np.array([2,2,3], dtype=np.int64)
b = b.astype(float)
print(a / b)

[0.5 1.  1. ]


On peut définir le type de manière explicite en utilisant le mot clé `dtype` en argument: 

In [17]:
M = np.array([[1, 2], [3, 4]], dtype=complex)
M

array([[1.+0.j, 2.+0.j],
       [3.+0.j, 4.+0.j]])

 * Autres types possibles avec `dtype` : `int`, `float`, `complex`, `bool`, `object`, etc.

 * On peut aussi spécifier la précision en bits: `int64`, `int16`, `float128`, `complex128`.

### Utilisation de fonction de génération d'*arrays*

#### `arange`

In [18]:
# Création d'un interval simple
x = np.arange(0, 10, 2) # arguments: start, stop, step
x

array([0, 2, 4, 6, 8])

In [19]:
x = np.arange(-1, 1, 0.1)
x

array([-1.00000000e+00, -9.00000000e-01, -8.00000000e-01, -7.00000000e-01,
       -6.00000000e-01, -5.00000000e-01, -4.00000000e-01, -3.00000000e-01,
       -2.00000000e-01, -1.00000000e-01, -2.22044605e-16,  1.00000000e-01,
        2.00000000e-01,  3.00000000e-01,  4.00000000e-01,  5.00000000e-01,
        6.00000000e-01,  7.00000000e-01,  8.00000000e-01,  9.00000000e-01])

#### `linspace` and `logspace`

In [20]:
# Attention : la fin EST inclus avec linspace
np.linspace(0, 10, 25)

array([ 0.        ,  0.41666667,  0.83333333,  1.25      ,  1.66666667,
        2.08333333,  2.5       ,  2.91666667,  3.33333333,  3.75      ,
        4.16666667,  4.58333333,  5.        ,  5.41666667,  5.83333333,
        6.25      ,  6.66666667,  7.08333333,  7.5       ,  7.91666667,
        8.33333333,  8.75      ,  9.16666667,  9.58333333, 10.        ])

In [21]:
np.linspace(0, 10, 11)

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [22]:
xx = np.linspace(-10, 10, 100)
fig = plt.figure(figsize=(5, 5))
plt.plot(xx, np.sin(xx))
plt.show()

<IPython.core.display.Javascript object>

In [25]:
print(np.logspace(0, 10, 10, base=np.e))

[1.00000000e+00 3.03773178e+00 9.22781435e+00 2.80316249e+01
 8.51525577e+01 2.58670631e+02 7.85771994e+02 2.38696456e+03
 7.25095809e+03 2.20264658e+04]


#### `mgrid`

In [26]:
x, y = np.mgrid[0:5, 0:5] 

In [27]:
x

array([[0, 0, 0, 0, 0],
       [1, 1, 1, 1, 1],
       [2, 2, 2, 2, 2],
       [3, 3, 3, 3, 3],
       [4, 4, 4, 4, 4]])

In [28]:
y

array([[0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4]])

In [29]:
xx, yy = np.mgrid[-50:50, -50:50]
plt.figure()
plt.figure(figsize=(3, 3))
plt.imshow(np.angle(xx + 1j * yy))
plt.axis('on')
plt.colorbar()
plt.figure(figsize=(3, 3))
plt.imshow(np.abs(xx + 1j * yy))
plt.axis('on')
plt.colorbar()
plt.show()

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [30]:
from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure(figsize=(5, 4))
ax = Axes3D(fig)
X = np.arange(-4, 4, 0.2)
Y = np.arange(-4, 4, 0.2)
X, Y = np.meshgrid(X, Y)
R = np.sqrt(X**2 + Y**2)
Z = np.sin(R)
ax.plot_surface(X, Y, Z, rstride=1, cstride=1, cmap='viridis')

<IPython.core.display.Javascript object>

<mpl_toolkits.mplot3d.art3d.Poly3DCollection at 0x7fd65e363e48>


#### Génération de données aléatoires 

In [31]:
from numpy import random

In [32]:
# tirage uniforme dans [0,1]
random.rand(5,5)  # ou np.random.rand

array([[0.71608175, 0.376784  , 0.07494485, 0.23146941, 0.46449925],
       [0.14069504, 0.28136771, 0.6827908 , 0.69700798, 0.48110041],
       [0.69779712, 0.0717874 , 0.92668177, 0.80840159, 0.12426204],
       [0.89106769, 0.02370884, 0.18526487, 0.02656341, 0.61528551],
       [0.245572  , 0.03147827, 0.3262637 , 0.225931  , 0.57178728]])

In [33]:
# tirage suivant une loi normale standard
random.randn(5,5)

array([[-0.45971314,  0.60973724,  0.93020781, -1.69652667,  0.04569228],
       [-0.46490629, -1.39963283, -1.49355732,  1.24747444,  0.6666105 ],
       [ 1.02785122, -0.2717404 ,  0.1966982 , -0.48156188, -1.18018053],
       [ 1.5032811 ,  0.857872  ,  2.26740582, -0.48296429,  0.69548263],
       [ 1.07539884,  1.42705288, -0.27928848, -0.95270636, -0.34308574]])

### Graine: 
Il est utile dans certains contexte de fixer la 'graine' du générateur aléatoire.
https://fr.wikipedia.org/wiki/Graine_al%C3%A9atoire

In [34]:
np.random.rand(12)

array([0.34252388, 0.09398204, 0.1811668 , 0.38534317, 0.48541938,
       0.05242996, 0.56698339, 0.01077597, 0.35271367, 0.17494433,
       0.67833943, 0.79255712])

Maintenant le résultat est toujours le même pour une même graine (en: *seed*) si on relance la cellule plusieurs fois:

In [35]:
np.random.seed(seed=33)
np.random.rand(12)

array([0.24851013, 0.44997542, 0.4109408 , 0.26029969, 0.87039569,
       0.18503993, 0.01966143, 0.95325203, 0.6804508 , 0.48658813,
       0.96502682, 0.39339874])

Affichage de l'histogramme des tirages

In [36]:
a = np.random.randn(10000)
plt.figure()
plt.subplot(2, 1, 1)
plt.hist(a, bins=40, density=False)
plt.title('Histogramme (effectifs)')
plt.ylabel('Effectifs')

plt.subplot(2, 1, 2)

plt.hist(a + 10, bins=40, density=True)
plt.title('Histogramme (densité)')
plt.ylabel('Densité')

plt.tight_layout() # évite certains chevauchement de noms d'axes

In [37]:
fig, axes = plt.subplots(2, 1, sharex='col')
# fig, axes = plt.subplots(2, 1) # alternative identique à la figure d'avant

axes[0].hist(a, bins=40, density=False)
plt.title('Histogramme (effectifs)')
plt.ylabel('Effectifs')


axes[1].hist(a + 10, bins=40, density=True)
plt.title('Histogramme (densité)')
plt.ylabel('Densité')

plt.tight_layout()

<IPython.core.display.Javascript object>

#### `diag`

In [38]:
# une matrice diagonale
np.diag([1,2,3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

In [39]:
# une matrice diagonale avec décalage par rapport à la diagonale principale
np.diag([1,2,3], k=1)

array([[0, 1, 0, 0],
       [0, 0, 2, 0],
       [0, 0, 0, 3],
       [0, 0, 0, 0]])

#### `zeros`, `ones` et  `full`

In [40]:
np.zeros((3,), dtype=int)  # attention zeros(3,3) est FAUX

array([0, 0, 0])

In [41]:
zero_mat_float = np.zeros((3,4))
print(zero_mat_float.dtype)
print(np.zeros((3,), dtype=int).dtype)

float64
int64


In [42]:
np.ones((3,3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [43]:
print(np.zeros((3,), dtype=int))
print(np.zeros((1, 3), dtype=int))
print(np.zeros((3, 1), dtype=int))

[0 0 0]
[[0 0 0]]
[[0]
 [0]
 [0]]


In [44]:
np.full((5,4), 9)

array([[9, 9, 9, 9],
       [9, 9, 9, 9],
       [9, 9, 9, 9],
       [9, 9, 9, 9],
       [9, 9, 9, 9]])

##  Fichiers d'Entrées/Sorties (E/S)

### Fichiers séparés par des virgules (CSV)

Un format fichier classique est le format CSV (Comma-Separated Values).
Pour lire de tels fichiers on peut utiliser `numpy.genfromtxt`, mais on utilisera surtout le module `pandas` par la suite pour cela.

A l'aide de `numpy.savetxt` on peut enregistrer un *array* `numpy` dans un fichier txt:

In [45]:
M = random.rand(3,3)
print(M)
np.savetxt("random-matrix.txt", M)  # regader dans votre dossier, un nouveau fichier est apparu

[[0.12843094 0.92549805 0.2476814 ]
 [0.36774804 0.80627121 0.55177599]
 [0.78544591 0.93278414 0.93175008]]


In [46]:
MM = np.genfromtxt('random-matrix.txt') # on peut alors générer un array depuis un fichier texte
print(MM)

[[0.12843094 0.92549805 0.2476814 ]
 [0.36774804 0.80627121 0.55177599]
 [0.78544591 0.93278414 0.93175008]]


### Format de fichier `numpy` natif (`.npy`)

Pour sauvegarder et recharger des *array* `numpy` : `numpy.save` et `numpy.load` :

In [47]:
np.save("random-matrix.npy", M)
!cat random-matrix.npy

�NUMPY v {'descr': '<f8', 'fortran_order': False, 'shape': (3, 3), }                                                          
�(�lp�?������?@��0��?*	�/��?c�I���?�Z&��?�Gx_"�?ojX^��?Z�(����?

In [48]:
N = np.load("random-matrix.npy")
N

array([[0.12843094, 0.92549805, 0.2476814 ],
       [0.36774804, 0.80627121, 0.55177599],
       [0.78544591, 0.93278414, 0.93175008]])

## Autres propriétés des *arrays* `numpy`

In [49]:
M

array([[0.12843094, 0.92549805, 0.2476814 ],
       [0.36774804, 0.80627121, 0.55177599],
       [0.78544591, 0.93278414, 0.93175008]])

In [50]:
M.dtype

dtype('float64')

In [51]:
M.itemsize # octets par élément

8

In [52]:
M.nbytes # nombre d'octets

72

In [53]:
M.nbytes / M.size

8.0

In [54]:
M.ndim # nombre de dimensions

2

In [55]:
print(np.zeros((3,), dtype=int).ndim)
print(np.zeros((1, 3), dtype=int).ndim)
print(np.zeros((3, 1), dtype=int).ndim)

1
2
2


## Manipulation d'*arrays*

### Indexation

In [56]:
# v est un vecteur, il n'a qu'une seule dimension -> un seul indice
v[0]

1

In [57]:
# M est une matrice, ou un array à 2 dimensions -> deux indices 
M[1,1]

0.8062712122968886

Contenu complet :

In [58]:
M

array([[0.12843094, 0.92549805, 0.2476814 ],
       [0.36774804, 0.80627121, 0.55177599],
       [0.78544591, 0.93278414, 0.93175008]])

La deuxième ligne :

In [59]:
M[1]

array([0.36774804, 0.80627121, 0.55177599])

On peut aussi utiliser `:` 

In [60]:
M[1,:] # 2 ème ligne (indice 1)

array([0.36774804, 0.80627121, 0.55177599])

In [61]:
M[:,1] # 2 ème colonne (indice 1)

array([0.92549805, 0.80627121, 0.93278414])

In [62]:
print(M.shape)
print(M[1,:].shape, M[:,1].shape)

(3, 3)
(3,) (3,)


On peut assigner des nouvelles valeurs à certaines cellules :

In [63]:
M[0,0] = 1

In [64]:
M

array([[1.        , 0.92549805, 0.2476814 ],
       [0.36774804, 0.80627121, 0.55177599],
       [0.78544591, 0.93278414, 0.93175008]])

In [65]:
# on peut aussi assigner des lignes ou des colonnes
M[1,:] = -1
M

array([[ 1.        ,  0.92549805,  0.2476814 ],
       [-1.        , -1.        , -1.        ],
       [ 0.78544591,  0.93278414,  0.93175008]])

In [66]:
M[1,:] = [1, 2, 3]
M

array([[1.        , 0.92549805, 0.2476814 ],
       [1.        , 2.        , 3.        ],
       [0.78544591, 0.93278414, 0.93175008]])

## *Slicing* ou accès par tranches

Le *Slicing* fait référence à la syntaxe `M[start:stop:step]` pour extraire une partie d'un *array* :

In [67]:
A = np.array([1,2,3,4,5])
A

array([1, 2, 3, 4, 5])

In [68]:
A[1:3]

array([2, 3])

Les tranches sont modifiables :

In [69]:
A[1:3] = [-2,-3]
A

array([ 1, -2, -3,  4,  5])

On peut omettre n'importe lequel des argument dans `M[start:stop:step]`:

In [70]:
A[::] # indices de début, fin, et pas avec leurs valeurs par défaut

array([ 1, -2, -3,  4,  5])

In [71]:
A[::2] # pas = 2, indices de début et de fin par défaut

array([ 1, -3,  5])

In [72]:
A[:3] # les trois premiers éléments

array([ 1, -2, -3])

In [73]:
A[3:] # à partir de l'indice 3

array([4, 5])

In [74]:
M = np.arange(12).reshape(4, 3)
print(M)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


On peut utiliser des indices négatifs :

In [75]:
A = np.array([1,2,3,4,5])

In [76]:
A[-1] # le dernier élément

5

In [77]:
A[-3:] # les 3 derniers éléments

array([3, 4, 5])

Le *slicing* fonctionne de façon similaire pour les *array* multi-dimensionnels

In [78]:
A = np.array([[n+m*10 for n in range(5)] for m in range(5)])
A

array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

In [79]:
A[1:4, 1:4]  # sous-tableau

array([[11, 12, 13],
       [21, 22, 23],
       [31, 32, 33]])

In [80]:
# sauts de deux en deux:
A[::2, ::2]

array([[ 0,  2,  4],
       [20, 22, 24],
       [40, 42, 44]])

In [81]:
A

array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

In [82]:
print(A[[0, 1, 3]])
print(A[[0, 1, 3],:])
print(A[:,[0, 1, 3]])


[[ 0  1  2  3  4]
 [10 11 12 13 14]
 [30 31 32 33 34]]
[[ 0  1  2  3  4]
 [10 11 12 13 14]
 [30 31 32 33 34]]
[[ 0  1  3]
 [10 11 13]
 [20 21 23]
 [30 31 33]
 [40 41 43]]


### Indexation avancée (*fancy indexing*)

Lorsque qu'on utilise des listes ou des *array* pour définir des tranches : 

In [83]:
row_indices = [1, 2, 3]
print(A)
print(A[row_indices])
print(A.shape)

[[ 0  1  2  3  4]
 [10 11 12 13 14]
 [20 21 22 23 24]
 [30 31 32 33 34]
 [40 41 42 43 44]]
[[10 11 12 13 14]
 [20 21 22 23 24]
 [30 31 32 33 34]]
(5, 5)


In [84]:
print(A[[1, 2], [3, 4]])

[13 24]


In [85]:
A[np.ix_([1, 2], [3, 4])] = 0
print(A)

[[ 0  1  2  3  4]
 [10 11 12  0  0]
 [20 21 22  0  0]
 [30 31 32 33 34]
 [40 41 42 43 44]]


On peut aussi utiliser des masques binaires :

In [86]:
B = np.arange(5)
B

array([0, 1, 2, 3, 4])

In [87]:
row_mask = np.array([True, False, True, False, False])
print(B[row_mask])
print(B[[0,2]])

[0 2]
[0 2]


In [88]:
# ou de façon équivalente
row_mask = np.array([1,0,1,0,0], dtype=bool)
B[row_mask]

array([0, 2])

In [89]:
# ou encore
a = np.array([1, 2, 3, 4, 5])
print(a < 3)
print(B[a < 3])

[ True  True False False False]
[0 1]


In [90]:
print(A)
print(A[:, a < 3])

[[ 0  1  2  3  4]
 [10 11 12  0  0]
 [20 21 22  0  0]
 [30 31 32 33 34]
 [40 41 42 43 44]]
[[ 0  1]
 [10 11]
 [20 21]
 [30 31]
 [40 41]]


## Extraction de données à partir d'*arrays* et création d'*arrays*

#### `where`

Un masque binaire peut être converti en indices de positions avec `where`

In [91]:
x = np.arange(0, 10, 0.5)
print(x)
mask = (x > 5) * (x < 7.5)
print(mask)
indices = np.where(mask)
indices

[0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5 5.  5.5 6.  6.5 7.  7.5 8.  8.5
 9.  9.5]
[False False False False False False False False False False False  True
  True  True  True False False False False False]


(array([11, 12, 13, 14]),)

In [92]:
print(x[indices]) # équivalent à x[mask]
print(x[mask])

[5.5 6.  6.5 7. ]
[5.5 6.  6.5 7. ]


#### `diag`

Cette fonction permet (aussi!) d'extraire la diagonale ou une sous-diagonale d'un *array* :

In [93]:
print(A)
print(np.diag(A))

[[ 0  1  2  3  4]
 [10 11 12  0  0]
 [20 21 22  0  0]
 [30 31 32 33 34]
 [40 41 42 43 44]]
[ 0 11 22 33 44]


In [94]:
np.diag(A, -1)

array([10, 21, 32, 43])

## Algèbre linéaire

La performance des programmes écrit en `Python/numpy` dépend de la capacité à vectoriser les calculs (les écrire comme des opérations sur des vecteurs/matrices) en évitant au maximum les boucles `for/while`.

### Opérations scalaires

On peut effectuer les opérations arithmétiques habituelles pour multiplier, additionner, soustraire et diviser des *arrays* avec/par des scalaires :

In [95]:
v1 = np.arange(0, 5)
print(v1)

[0 1 2 3 4]


In [96]:
v1 * 2

array([0, 2, 4, 6, 8])

In [97]:
v1 + 2

array([2, 3, 4, 5, 6])

In [98]:
plt.figure()
plt.subplot(1,2,1)
plt.plot(v1 ** 2,'g--', label='$y = x^2$')
plt.legend(loc=0)
plt.subplot(1,2,2)
plt.plot(np.sqrt(v1), 'r*-', label='$y = \sqrt{x}$')
plt.legend(loc=2)
plt.show()

<IPython.core.display.Javascript object>

In [99]:
A = np.array([[n+m*10 for n in range(5)] for m in range(5)])
print(A)

[[ 0  1  2  3  4]
 [10 11 12 13 14]
 [20 21 22 23 24]
 [30 31 32 33 34]
 [40 41 42 43 44]]


In [101]:
print(A * 2)

[[ 0  2  4  6  8]
 [20 22 24 26 28]
 [40 42 44 46 48]
 [60 62 64 66 68]
 [80 82 84 86 88]]


In [102]:
print(A + 2)

[[ 2  3  4  5  6]
 [12 13 14 15 16]
 [22 23 24 25 26]
 [32 33 34 35 36]
 [42 43 44 45 46]]


### Visualiser des matrices

In [103]:
C = random.rand(300,200)
plt.figure()
plt.imshow(C)
plt.colorbar()
plt.show()

<IPython.core.display.Javascript object>

### Opérations terme-à-terme sur les *arrays*

Les opérations par défaut sont des opérations **terme-à-terme** (contrairement à Matlab par exemple).

In [104]:
A = np.array([[n+m*10 for n in range(5)] for m in range(5)])
print(A)

[[ 0  1  2  3  4]
 [10 11 12 13 14]
 [20 21 22 23 24]
 [30 31 32 33 34]
 [40 41 42 43 44]]


In [105]:
A * A # multiplication terme-à-terme

array([[   0,    1,    4,    9,   16],
       [ 100,  121,  144,  169,  196],
       [ 400,  441,  484,  529,  576],
       [ 900,  961, 1024, 1089, 1156],
       [1600, 1681, 1764, 1849, 1936]])

In [106]:
(A + A.T) / 2 # la projection de A sur les matrices symétriques

array([[ 0. ,  5.5, 11. , 16.5, 22. ],
       [ 5.5, 11. , 16.5, 22. , 27.5],
       [11. , 16.5, 22. , 27.5, 33. ],
       [16.5, 22. , 27.5, 33. , 38.5],
       [22. , 27.5, 33. , 38.5, 44. ]])

In [107]:
print(v1)
print(v1 * v1)

[0 1 2 3 4]
[ 0  1  4  9 16]


En multipliant des *arrays* de tailles compatibles, on obtient des multiplications terme-à-terme par ligne :

In [108]:
A.shape, v1.shape

((5, 5), (5,))

In [109]:
print(A)
print(v1)
print(A * v1)

[[ 0  1  2  3  4]
 [10 11 12 13 14]
 [20 21 22 23 24]
 [30 31 32 33 34]
 [40 41 42 43 44]]
[0 1 2 3 4]
[[  0   1   4   9  16]
 [  0  11  24  39  56]
 [  0  21  44  69  96]
 [  0  31  64  99 136]
 [  0  41  84 129 176]]


<font color='red'> EXERCICE : Sans utiliser de boucles (`for/while`), </font>


 * <font color='red'> Créer une matrice (5x6) aléatoire</font>
 * <font color='red'> Remplacer une colonne sur deux par sa valeur moins le double de la colonne suivante</font>
 * <font color='red'> Remplacer les valeurs négatives par 0 en utilisant un masque binaire</font>


In [110]:
# XXX todo

### Algèbre matricielle

Comment faire des multiplications de matrices ? Deux façons :
 
 * en utilisant les fonctions `dot`; 
 * en utilisant le type `@/matmul` (pour les versions récentes de `numpy`).


In [111]:
print(A.shape)
print(A)
print(type(A))

(5, 5)
[[ 0  1  2  3  4]
 [10 11 12 13 14]
 [20 21 22 23 24]
 [30 31 32 33 34]
 [40 41 42 43 44]]
<class 'numpy.ndarray'>


In [112]:
print(np.dot(A, A))  # multiplication matrice
print(A.dot(A))  # multiplication matrice

print(A * A)  # multiplication élément par élément

[[ 300  310  320  330  340]
 [1300 1360 1420 1480 1540]
 [2300 2410 2520 2630 2740]
 [3300 3460 3620 3780 3940]
 [4300 4510 4720 4930 5140]]
[[ 300  310  320  330  340]
 [1300 1360 1420 1480 1540]
 [2300 2410 2520 2630 2740]
 [3300 3460 3620 3780 3940]
 [4300 4510 4720 4930 5140]]
[[   0    1    4    9   16]
 [ 100  121  144  169  196]
 [ 400  441  484  529  576]
 [ 900  961 1024 1089 1156]
 [1600 1681 1764 1849 1936]]


In [113]:
A.dot(v1)

array([ 30, 130, 230, 330, 430])

In [114]:
np.dot(v1, v1)

30

Voir également les fonctions : `inner`, `outer`, `cross`, `kron`, `tensordot`. Utiliser par exemple `help(kron)`.

### Transformations d'*arrays* ou de matrices

 * Plus haut `.T` a été utilisé pour transposer `v`
 * On peut aussi utiliser la fonction `transpose`

**Autres transformations :**

In [115]:
C = np.array([[1j, 2j], [3j, 4j]])
C

array([[0.+1.j, 0.+2.j],
       [0.+3.j, 0.+4.j]])

In [116]:
np.conj(C)  # conjuguée complexe

array([[0.-1.j, 0.-2.j],
       [0.-3.j, 0.-4.j]])

Transposée conjuguée :

In [117]:
C.conj().T

array([[0.-1.j, 0.-3.j],
       [0.-2.j, 0.-4.j]])

Parties réelles et imaginaires :

In [118]:
np.real(C) # équivalent à C.real

array([[0., 0.],
       [0., 0.]])

In [119]:
np.imag(C) # équivalent à C.imag

array([[1., 2.],
       [3., 4.]])

Argument et module :

In [120]:
np.angle(C+1) 

array([[0.78539816, 1.10714872],
       [1.24904577, 1.32581766]])

In [121]:
np.abs(C)

array([[1., 2.],
       [3., 4.]])

### Caclul matriciel

#### Analyse de données

`numpy` propose des fonctions pour calculer certaines statistiques des données stockées dans des *arrays* :

In [122]:
data = np.vander([1, 2, 3, 4], increasing=True)  # Matrice de Vandermonde
print(data)

[[ 1  1  1  1]
 [ 1  2  4  8]
 [ 1  3  9 27]
 [ 1  4 16 64]]


#### `moyenne`

In [123]:
print(np.mean(data))
print(np.mean(data, axis=0))
print(np.mean(data, axis=1))

9.0
[ 1.   2.5  7.5 25. ]
[ 1.    3.75 10.   21.25]


In [124]:
# la moyenne de la troisième colonne
np.mean(data[:,2])

7.5

#### variance et écart type

In [125]:
print(np.var(data[:, 2]), np.std(data[:, 2]))

32.25 5.678908345800274


In [126]:
# ddof : Delta Degrees of Freedom
print(np.var(data[:, 2], ddof=1), np.std(data[:, 2], ddof=1))

43.0 6.557438524302


#### min et max

In [127]:
data[:,2].min()

1

In [128]:
data[:,2].max()

16

In [129]:
data[:,2].sum()

30

In [130]:
data[:,2].prod()

576

#### `sum`, `prod`, et `trace`

In [131]:
d = np.arange(0, 10)
d

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [132]:
# somme des éléments
np.sum(d)

45

ou encore :

In [133]:
d.sum()

45

In [134]:
# produit des éléments
np.prod(d+1)

3628800

In [135]:
# somme cumulée
np.cumsum(d)

array([ 0,  1,  3,  6, 10, 15, 21, 28, 36, 45])

In [136]:
# produit cumulé
np.cumprod(d+1)

array([      1,       2,       6,      24,     120,     720,    5040,
         40320,  362880, 3628800])

In [137]:
# équivalent à diag(A).sum()
np.trace(data)

76

### <font color='red'> EXERCICE :  Calculer une approximation de $\pi$ par la formule de Wallis sans boucle `for`, mais avec `numpy` </font>

\begin{align}
    \text{Formule de Wallis:}\quad \pi&= 2 \cdot \prod_{n=1}^{\infty }\left({\frac{4 n^{2}}{4 n^{2} - 1}}\right)
\end{align}

### Calculs aves données multi-dimensionnelles

Pour appliquer `min`, `max`, etc., par lignes ou colonnes :

In [138]:
m = random.rand(3,4)
m

array([[0.02134434, 0.13129409, 0.08217084, 0.95342583],
       [0.03043018, 0.33813001, 0.49481427, 0.70168882],
       [0.81916028, 0.35858829, 0.88776516, 0.92784212]])

In [139]:
# max global 
m.max()

0.9534258266471464

In [140]:
# max dans chaque colonne
m.max(axis=0)

array([0.81916028, 0.35858829, 0.88776516, 0.95342583])

In [141]:
# max dans chaque ligne
m.max(axis=1)

array([0.95342583, 0.70168882, 0.92784212])

Plusieurs autres méthodes des classes `array` et `matrix` acceptent l'argument (optional) `axis` keyword argument.

## Copy et "deep copy"

Pour des raisons de performance `Python` ne copie pas automatiquement les objets (par exemple passage par référence des paramètres de fonctions).

In [142]:
A = np.array([[0,  2],[ 3,  4]])
A

array([[0, 2],
       [3, 4]])

In [143]:
B = A

In [144]:
# ATTENTION: changer B affecte A
B[0,0] = 10
B

array([[10,  2],
       [ 3,  4]])

In [145]:
A

array([[10,  2],
       [ 3,  4]])

In [146]:
B = A
print(B is A)

True


Pour éviter ce comportement, on peut demander une *copie profonde* (en: *deep copy*) de `A` dans `B`

In [147]:
B = A.copy()  # identique à B = np.copy(A)

In [148]:
# maintenant en modifiant B, A n'est plus affecté
B[0,0] = -5
B

array([[-5,  2],
       [ 3,  4]])

In [149]:
A  # A n'est pas modifié cette fois!

array([[10,  2],
       [ 3,  4]])

### <font color='red'> EXERCICE :  interpréter ce qui se passe dans l'exemple ci-dessous </font>


In [150]:
print(A - A[:,0])  # FAUX
print(A - A[:,0].reshape((2, 1)))  # OK

[[ 0 -1]
 [-7  1]]
[[ 0 -8]
 [ 0  1]]


## Changement de forme et de taille, et concaténation des *arrays*



In [151]:
A

array([[10,  2],
       [ 3,  4]])

In [152]:
n, m = A.shape

In [153]:
B = A.reshape((1, n * m))
B

array([[10,  2,  3,  4]])

In [154]:
B[0, 0:5] = 5  # modifier l'array
B

array([[5, 5, 5, 5]])

In [155]:
A

array([[5, 5],
       [5, 5]])

### Attention !

La variable originale est aussi modifiée ! B n'est qu'une nouvelle *vue* de A.

Pour transformer un *array* multi-dimmensionel en un vecteur. Mais cette fois-ci, une copie des données est créée :

In [156]:
A = np.array([[0,  2],[ 3,  4]])
B = A.flatten()
print(A,B)

[[0 2]
 [3 4]] [0 2 3 4]


In [157]:
B[0:5] = 10
B

array([10, 10, 10, 10])

In [158]:
A # A ne change pas car B est une copie de A

array([[0, 2],
       [3, 4]])

### Ajouter une nouvelle dimension avec `newaxis`

Par exemple pour convertir un vecteur en une matrice ligne ou colonne :

In [159]:
v = np.array([1,2,3])

In [160]:
np.shape(v)

(3,)

In [161]:
# créer une matrice à une colonne à partir du vectuer v
v[:, np.newaxis]

array([[1],
       [2],
       [3]])

In [162]:
v[:,np.newaxis].shape

(3, 1)

In [163]:
# créer une matrice à une ligne à partir du vectuer v
v[np.newaxis,:].shape

(1, 3)

### Concaténer, répéter des *arrays*

En utilisant les fonctions `repeat`, `tile`, `vstack`, `hstack`, et `concatenate`, on peut créer des vecteurs/matrices plus grandes à partir de vecteurs/matrices plus petites :


#### `repeat` et `tile`

In [164]:
a = np.array([[1, 2], [3, 4]])
a

array([[1, 2],
       [3, 4]])

In [165]:
# répéter chaque élément 3 fois
np.repeat(a, 3) # résultat 1-d

array([1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4])

In [166]:
# on peut spécifier l'argument axis
np.repeat(a, 3, axis=1)

array([[1, 1, 1, 2, 2, 2],
       [3, 3, 3, 4, 4, 4]])

Pour répéter la matrice, il faut utiliser `tile`

In [167]:
# répéter la matrice 3 fois
np.tile(a, 3)

array([[1, 2, 1, 2, 1, 2],
       [3, 4, 3, 4, 3, 4]])

#### `concatenate`

In [168]:
b = np.array([[5, 6]])

In [169]:
np.concatenate((a, b), axis=0)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [170]:
np.concatenate((a, b.T), axis=1)

array([[1, 2, 5],
       [3, 4, 6]])

#### `hstack` et `vstack`

In [171]:
np.vstack((a,b))

array([[1, 2],
       [3, 4],
       [5, 6]])

In [172]:
np.hstack((a,b.T))

array([[1, 2, 5],
       [3, 4, 6]])

## Itérer sur les éléments d'un *array*

 * Dans la mesure du possible, il faut éviter l'itération sur les éléments d'un *array* : c'est beaucoup plus lent que les opérations vectorisées
 * Mais il arrive que l'on n'ait pas le choix...

In [173]:
v = np.array([1,2,3,4])

for element in v:
    print(element)

1
2
3
4


In [174]:
M = np.array([[1, 2], [3, 4]])

for row in M:
    print("row", row)
    for element in row:
        print(element)

row [1 2]
1
2
row [3 4]
3
4


Pour obtenir les indices des éléments sur lesquels on itère (par exemple, pour pouvoir les modifier en même temps) on peut utiliser `enumerate` :

In [175]:
for row_idx, row in enumerate(M):
    print("row_idx", row_idx, "row", row)
    
    for col_idx, element in enumerate(row):
        print("col_idx", col_idx, "element", element)
       
        # update the matrix M: square each element
        M[row_idx, col_idx] = element ** 2

row_idx 0 row [1 2]
col_idx 0 element 1
col_idx 1 element 2
row_idx 1 row [3 4]
col_idx 0 element 3
col_idx 1 element 4


In [176]:
# chaque élément de M a maintenant été élevé au carré
M

array([[ 1,  4],
       [ 9, 16]])

## Utilisation d'*arrays* dans des conditions

Losqu'on s'intéresse à des conditions sur tout on une partie d'un *array*, on peut utiliser `any` ou `all` :

In [177]:
M

array([[ 1,  4],
       [ 9, 16]])

In [178]:
if (M > 5).any():
    print("Au moins un élément de M est plus grand que 5.")
else:
    print("Aucun élément de M n'est plus grand que 5.")

Au moins un élément de M est plus grand que 5.


In [179]:
if (M > 5).all():
    print("Tous les éléments de M sont plus grands que 5.")
else:
    print("Tous les éléments de M sont plus petits que 5.")

Tous les éléments de M sont plus petits que 5.


## *Type casting*

On peut créer une vue d'un autre type que l'original pour un *array*

In [180]:
M = np.array([[-1,2], [0,4]])
M.dtype

dtype('int64')

In [181]:
M2 = M.astype(float)
M2

array([[-1.,  2.],
       [ 0.,  4.]])

In [182]:
M2.dtype

dtype('float64')

In [183]:
M3 = M.astype(bool)
M3

array([[ True,  True],
       [False,  True]])

## Pour aller plus loin

* http://numpy.scipy.org
* http://scipy.org/Tentative_NumPy_Tutorial
* http://scipy-lectures.org/ - une bible pour les sujets avancés (e.g. matrice sparse)
* http://scipy.org/NumPy_for_Matlab_Users - Un guide pour les utilisateurs de MATLAB.