# Numpy (tableaux de données multi-dimensionnels)

    Laurent Morelli

## Introduction



* `numpy` est un module utilisé dans presque tous les projets de calcul numérique sous Python
   * Il fournit des structures de données performantes pour la manipulation de vecteurs, matrices et tenseurs plus généraux
   * `numpy` est écrit en C et en Fortran d'où ses performances élevées lorsque les calculs sont vectorisés (formulés comme des opérations sur des vecteurs/matrices)

Pour utiliser `numpy` il faut commencer par les importer :

In [None]:
import numpy as np

## *Arrays* `numpy`

Dans la terminologie `numpy`, vecteurs, matrices et autres tenseurs sont appelés *arrays*.


## Création d'*arrays* `numpy`

Plusieurs possibilités:

 * a partir de listes ou n-uplets Python
 * en utilisant des fonctions dédiées, telles que `arange`, `linspace`, etc.
 * par chargement à partir de fichiers

### A partir de listes

Au moyen de la fonction `numpy.array` :


In [None]:
# un vecteur: l'argument de la fonction est une liste Python
v = np.array([1, 3, 2, 4, 6, 8,4,4322])
print(v)
print(type(v))

On peut alors visualiser ces données :

Pour définir une matrice (array de dimension 2 pour numpy):


In [None]:
# une matrice: l'argument est une liste emboitée
M = np.array([[1, 2], [3, 4]])
print(M)

In [None]:
M[0, 0]

Les objets `v` et `M` sont tous deux du type `ndarray` (fourni par `numpy`)

In [None]:
type(v), type(M)

`v` et `M` ne diffèrent que par leur taille, que l'on peut obtenir via la propriété `shape` :

In [None]:
v.shape

In [None]:
M.shape

Pour obtenir le nombre d'éléments d'un *array* :

In [None]:
v.size

In [None]:
M.size

On peut aussi utiliser `numpy.shape` et `numpy.size`

In [None]:
np.shape(M)

Les *arrays* ont un type qu'on obtient via `dtype`:

In [None]:
print(M)
print(M.dtype)

Les types doivent être respectés lors d'assignations à des *arrays*

In [None]:
M[0,0] = "hello"

### Attention !

In [None]:
a = np.array([1,2,3])
a[0] = 3.2
print(a)
a.dtype

In [None]:
a = np.array([1,2,3], dtype=np.int64)
b = np.array([2,2,3], dtype=np.int64)
b = b.astype(float)
print(a / b)

On peut définir le type de manière explicite en utilisant le mot clé `dtype` en argument:

In [None]:
M = np.array([[1, 2], [3, 4]], dtype=complex)
M

 * Autres types possibles avec `dtype` : `int`, `float`, `complex`, `bool`, `object`, etc.

 * On peut aussi spécifier la précision en bits: `int64`, `int16`, `float128`, `complex128`.

### Utilisation de fonction de génération d'*arrays*

#### arange

In [None]:
# create a range
x = np.arange(0, 10, 2) # arguments: start, stop, step
x

In [None]:
x = np.arange(-1, 1, 0.1)
x

#### linspace

In [None]:
# avec linspace, le début et la fin SONT inclus
np.linspace(0, 10, 25)

In [None]:
np.linspace(0, 10, 11).astype(int)

In [None]:
xx = np.linspace(-10, 10, 100)
import matplotlib.pyplot as plt
%matplotlib inline
plt.plot(xx, np.sin(xx))

#### Données aléatoires

il existe pas mal de génerateur pour avoir des nombres aléatoires

In [None]:

from random import randint
print(randint(0, 9))

In [None]:
from random import uniform

# uniform gives you a floating-point value
frand = uniform(0, 10)
print(frand)

In [None]:
print([randint(0, 9) for p in range(0, randint(1, 9))])

In [None]:
#Important : pour respecter un tirage dans une gaussienne
from random import gauss
mu, sigma = 4, 1 # mean and standard deviation
print(gauss(mu,sigma))

In [None]:
from numpy import random

In [None]:
# tirage uniforme dans [0,1]
random.rand(5,5)  # ou np.random.rand

In [None]:
# tirage suivant une loi normale standard
random.randn(5,5)

In [None]:
# ou une loi normale custom
mu, sigma = 4, 1 # mean and standard deviation
print( np.random.normal(mu, sigma, 10))


Affichage de l'histogramme des tirages

In [None]:
a = random.randn(10000)
hh = plt.hist(a, 40)

#### diag

In [None]:
# une matrice diagonale
np.diag([1,2,3])

In [None]:
# diagonale avec décalage par rapport à la diagonale principale
np.diag([1,2,3], k=-1)

#### zeros et ones

In [None]:
np.zeros((3,), dtype=int)  # attention zeros(3,3) est FAUX

In [None]:
np.ones((3,3)) *5

In [None]:
print(np.zeros((3,), dtype=int))
print(np.zeros((1, 3), dtype=int))
print(np.zeros((3, 1), dtype=int))

## Autres propriétés des *arrays* `numpy`

In [None]:
M

In [None]:
M.dtype

In [None]:
M.itemsize # octets par élément

In [None]:
M.nbytes # nombre d'octets

In [None]:
M.nbytes / M.size

In [None]:
M.ndim # nombre de dimensions

## Manipulation d'*arrays*

### Indexation

In [None]:
# v est un vecteur, il n'a qu'une seule dimension -> un seul indice
v[0]

In [None]:
# M est une matrice, ou un array à 2 dimensions -> deux indices
M[1,1]

Contenu complet :

In [None]:
M

La deuxième ligne :

In [None]:
M[0]

On peut aussi utiliser `:`

In [None]:
M[1,:] # 2 ème ligne (indice 1)

In [None]:
M[:,0] # 2 ème colonne (indice 1)

In [None]:
print(M.shape)
print(M[1,:].shape, M[:,1].shape)

On peut assigner des nouvelles valeurs à certaines cellules :

In [None]:
M[0,0] = 1

In [None]:
M

In [None]:
# on peut aussi assigner des lignes ou des colonnes
M[1,:] = -1


In [None]:
M

## *Slicing* ou accès par tranches

*Slicing* fait référence à la syntaxe `M[start:stop:step]` pour extraire une partie d'un *array* :

In [None]:
A = np.array([1,2,3,4,5])
A

In [None]:
A[1:3]

Les tranches sont modifiables :

In [None]:
A[1:3] = [-2,-3]
A

On peut omettre n'importe lequel des argument dans `M[start:stop:step]`:

In [None]:
A[::] # indices de début, fin, et pas avec leurs valeurs par défaut

In [None]:
A[::2] # pas = 2, indices de début et de fin par défaut

In [None]:
A[:3] # les trois premiers éléments

In [None]:
A[3:] # à partir de l'indice 3

On peut utiliser des indices négatifs :

In [None]:
A = np.array([1,2,3,4,5])

In [None]:
A[-1] # le dernier élément

In [None]:
A[-3:] # les 3 derniers éléments

Le *slicing* fonctionne de façon similaire pour les *array* multi-dimensionnels

In [None]:
A = np.array([[n+m*10 for n in range(5)] for m in range(5)])

A

In [None]:
A[1:4, 1:4]  # sous-tableau

In [None]:
# sauts
A[::2, ::2]

In [None]:
A

In [None]:
A[[0, 1, 3]]

### Indexation avancée (*fancy indexing*)

Lorsque qu'on utilise des listes ou des *array* pour définir des tranches :

In [None]:
row_indices = [1, 2, 3]
#print(A)
print(A[row_indices])

In [None]:
A[[1, 2]][:, [3, 4]] = 0  # ATTENTION !
print(A)

In [None]:
print(A[[1, 2], [3, 4]])

In [None]:
A[np.ix_([1, 2], [3, 4])] = 0
print(A)

## Extraction de données à partir d'*arrays* et création d'*arrays*

In [None]:
print(A)

#### where

Un masque binaire peut être converti en indices de positions avec `where`

In [None]:
x = np.arange(0, 10, 0.5)
print(x)
mask = (x > 5) * (x < 7.5)
print(mask)
indices = np.where(mask)
indices

In [None]:
x[indices] # équivalent à x[mask]

#### diag

Extraire la diagonale ou une sous-diagonale d'un *array* :

In [None]:
print(A)
np.diag(A)

## Algèbre linéaire

La performance des programmes écrit en Python/Numpy dépend de la capacité à vectoriser les calculs (les écrire comme des opérations sur des vecteurs/matrices) en évitant au maximum les boucles `for/while`


### Opérations scalaires

On peut effectuer les opérations arithmétiques habituelles pour multiplier, additionner, soustraire et diviser des *arrays* avec/par des scalaires :

In [None]:
v1 = np.arange(0, 5)
print(v1)

In [None]:
v1 * 2

In [None]:
v1 + 2

In [None]:
A = np.array([[n+m*10 for n in range(5)] for m in range(5)])
print(A)

In [None]:
print(A * 2)

In [None]:
print(A + 2)

### Visualiser des matrices

In [None]:
C = random.rand(30,20)

plt.figure()
plt.imshow(C, interpolation='nearest')
plt.colorbar()
plt.show()

### Opérations terme-à-terme sur les *arrays*

Les opérations par défaut sont des opérations **terme-à-terme** :

In [None]:
A = np.array([[n+m*10 for n in range(5)] for m in range(5)])
print(A)

In [None]:
A * A # multiplication terme-à-terme

In [None]:
(A + A.T) / 2

In [None]:
print(v1)
print(v1 * v1)

En multipliant des *arrays* de tailles compatibles, on obtient des multiplications terme-à-terme par ligne :

In [None]:
A.shape, v1.shape

In [None]:
print(A)
print(v1)
print(A * v1)

### Algèbre matricielle

Comment faire des multiplications de matrices ? Deux façons :

 * en utilisant les fonctions `dot`; (recommandé)
 * en utiliser le type `matrix`. (à éviter)


In [None]:
print(A.shape)
print(A)
print(type(A))

In [None]:
print(np.dot(A, A))  # multiplication matrice
print(A * A)  # multiplication élément par élément

In [None]:
A.dot(v1)

In [None]:
np.dot(v1, v1)

Avec le type `matrix` de Numpy

In [None]:
M = np.matrix(A)
v = np.matrix(v1).T # en faire un vecteur colonne

In [None]:
print(np.shape(M), np.shape(v))
M * v

In [None]:
# produit scalaire
v.T * v

In [None]:
# avec les objets matrices, c'est les opérations standards sur les matrices qui sont appliquées
v + M*v

Si les dimensions sont incompatibles on provoque des erreurs :

In [None]:
v = np.matrix([1,2,3,4,5,6]).T

In [None]:
np.shape(M), np.shape(v)

In [None]:
M * v

Voir également les fonctions : `inner`, `outer`, `cross`, `kron`, `tensordot`. Utiliser par exemple `help(kron)`.

### Transformations d'*arrays* ou de matrices

 * Plus haut `.T` a été utilisé pour transposer l'objet matrice `v`
 * On peut aussi utiliser la fonction `transpose`

**Autres transformations :**


In [None]:
C = np.matrix([[1j, 2j], [3j, 4j]])
C

In [None]:
np.conjugate(C)

Transposée conjuguée :

In [None]:
C.H

Parties réelles et imaginaires :

In [None]:
np.real(C) # same as: C.real

In [None]:
np.imag(C) # same as: C.imag

Argument et module :

In [None]:
np.angle(C + 1)

In [None]:
np.abs(C)

### Caclul matriciel

### Analyse de données

Numpy propose des fonctions pour calculer certaines statistiques des données stockées dans des *arrays* :

In [None]:
data = np.vander([1, 2, 3, 4])
print(data)
print(data.shape)

#### mean

In [None]:
# np.mean(data)
print(np.mean(data, axis=0))

In [None]:
# la moyenne de la troisième colonne
np.mean(data[:,2])

#### variance et écart type

In [None]:
np.var(data[:,2]), np.std(data[:,2])

#### min et max

In [None]:
data.min()

In [None]:
data[:,2].max()

In [None]:
data[:,2].sum()

In [None]:
data[:,2].prod()

#### sum, prod, et trace

In [None]:
d = np.arange(0, 10)
d

In [None]:
# somme des éléments
np.sum(d)

ou encore :

In [None]:
d.sum()

In [None]:
# produit des éléments
np.prod(d + 1)

In [None]:
# somme cumulée
np.cumsum(d)

In [None]:
# produit cumulé
np.cumprod(d + 1)

In [None]:
# équivalent à diag(A).sum()
np.trace(data)

## EXERCICE :

Calculer une approximation de $\pi$ par la formule de Wallis sans boucle `for` avec Numpy

<!-- <img src="files/images/spyder-screenshot.jpg" width="800"> -->
<img src="http://scipy-lectures.github.io/_images/math/31913b3982be13ed2063b0ffccbcab9cf4931fdb.png" width="200">

In [None]:
#rappel
i = 1
n = 10000000
pi_approx = 2
while i < n:
    pi_approx *= (4 * (i ** 2)) / (4 * (i ** 2) - 1)
    i += 1
print(pi_approx)

### Calculs avec parties d'*arrays*

en utilisant l'indexation ou n'importe quelle méthode d'extraction de donnés à partir des *arrays*

In [None]:
data

In [None]:
np.unique(data[:,3])

In [None]:
mask = data[:,1] == 4

In [None]:
np.mean(data[mask,3])

### Calculs aves données multi-dimensionnelles

Pour appliquer `min`, `max`, etc., par lignes ou colonnes :

In [None]:
m = random.rand(3,4)
m

In [None]:
# max global
m.max()

In [None]:
# max dans chaque colonne
m.max(axis=0)

In [None]:
# max dans chaque ligne
m.max(axis=1)

Plusieurs autres méthodes des classes `array` et `matrix` acceptent l'argument (optional) `axis` keyword argument.

## Copy et "deep copy"

Pour des raisons de performance Python ne copie pas automatiquement les objets (par exemple passage par référence des paramètres de fonctions).

In [None]:
A = np.array([[0,  2],[ 3,  4]])
A

In [None]:
B = A

In [None]:
# changer B affecte A
B[0,0] = 10
B

In [None]:
A

In [None]:
B = A
print B is A

Pour éviter ce comportement, on peut demander une *copie profonde* (*deep copy*) de `A` dans `B`

In [None]:
# B = np.copy(A)
B = A.copy()

In [None]:
# maintenant en modifiant B, A n'est plus affecté
B[0,0] = -5

B

In [None]:
A  # A est aussi modifié !

In [None]:
print(A - A[:,0])  # FAUX
print(A - A[:,0].reshape((2, 1)))  # OK

## Changement de forme et de taille, et concaténation des *arrays*



In [None]:
A

In [None]:
n, m = A.shape

In [None]:
B = A.reshape((1, n * m))
B

In [None]:
B[0,0:5] = 5 # modifier l'array

B

In [None]:
A

### Attention !

La variable originale est aussi modifiée ! B n'est qu'une nouvelle *vue* de A.

Pour transformer un *array* multi-dimmensionel en un vecteur. Mais cette fois-ci, une copie des données est créée :

In [None]:
B = A.flatten()
B

In [None]:
B[0:5] = 10
B

In [None]:
A # A ne change pas car B est une copie de A

### Ajouter une nouvelle dimension avec `newaxis`

par exemple pour convertir un vecteur en une matrice ligne ou colonne :

In [None]:
v = np.array([1,2,3])

In [None]:
np.shape(v)

In [None]:
# créer une matrice à une colonne à partir du vectuer v
v[:, np.newaxis]

In [None]:
v[:, np.newaxis].shape

In [None]:
# matrice à une ligne
v[np.newaxis,:].shape

### Concaténer, répéter des *arrays*

En utilisant les fonctions `repeat`, `tile`, `vstack`, `hstack`, et `concatenate`, on peut créer des vecteurs/matrices plus grandes à partir de vecteurs/matrices plus petites :


#### repeat et tile

In [None]:
a = np.array([[1, 2], [3, 4]])
a

In [None]:
# répéter chaque élément 3 fois
np.repeat(a, 3) # résultat 1-d

In [None]:
# on peut spécifier l'argument axis
np.repeat(a, 3, axis=1)

Pour répéter la matrice, il faut utiliser `tile`

In [None]:
# répéter la matrice 3 fois
np.tile(a, 3)

#### concatenate

In [None]:
b = np.array([[5, 6]])

In [None]:
np.concatenate((a, b), axis=0)

In [None]:
np.concatenate((a, b.T), axis=1)

#### hstack et vstack

In [None]:
np.vstack((a,b))

In [None]:
np.hstack((a,b.T))

## Itérer sur les éléments d'un *array*

 * Dans la mesure du possible, il faut éviter l'itération sur les éléments d'un *array* : c'est beaucoup plus lent que les opérations vectorisées
 * Mais il arrive que l'on n'ait pas le choix...

In [None]:
v = np.array([1,2,3,4])

for element in v:
    print(element)

In [None]:
M = np.array([[1,2], [3,4]])

for row in M:
    print("row", row)

    for element in row:
        print(element)

Pour obtenir les indices des éléments sur lesquels on itère (par exemple, pour pouvoir les modifier en même temps) on peut utiliser `enumerate` :

In [None]:
for row_idx, row in enumerate(M):
    print("row_idx", row_idx, "row", row)

    for col_idx, element in enumerate(row):
        print("col_idx", col_idx, "element", element)

        # update the matrix M: square each element
        M[row_idx, col_idx] = element ** 2

In [None]:
# chaque élément de M a maintenant été élevé au carré
M

## Utilisation d'*arrays* dans des conditions

Losqu'on s'intéresse à des conditions sur tout on une partie d'un *array*, on peut utiliser `any` ou `all` :

In [None]:
M

In [None]:
if (M > 5).any():
    print("au moins un élément de M est plus grand que 5")
else:
    print("aucun élément de M n'est plus grand que 5")

In [None]:
if (M > 5).all():
    print("tous les éléments de M sont plus grands que 5")
else:
    print("tous les éléments de M sont plus petits que 5")

In [None]:
K

In [None]:
K = M > 1

## *Type casting*

On peut créer une vue d'un autre type que l'original pour un *array*

In [None]:
M = np.array([[-1,2], [0,4]])
M.dtype

In [None]:
M2 = M.astype(float)
M2

In [None]:
M2.dtype

In [None]:
M3 = M.astype(bool)
M3

## Pour aller plus loin

* http://numpy.scipy.org
* http://scipy.org/Tentative_NumPy_Tutorial
* http://scipy.org/NumPy_for_Matlab_Users - Un guide pour les utilisateurs de MATLAB.