<table width='100%' border='0'>
    <tr>
        <td><img src='images/ucd.png' width='120'></td>
        <td><img src='images/dept_inf.png' width='350'></td>
        <td><img src='images/fs.png' width='120'></td>
    </tr>
</table>

# Langage Python : Le module NumPy

Email : <a href='mailto:madani.a@ucd.ac.ma'>madani.a@ucd.ac.ma</a>
<img src='images/python.png'>

### Introduction

**NumPy**, qui signifie Numerical Python, est une bibliothèque composée de tableaux d'objets multidimensionnels et d'une collection de routines (fonctions) pour le traitement de ces tableaux. En utilisant NumPy, les opérations mathématiques et logiques sur les tableaux peuvent être effectuées facilement.

En utilisant NumPy, un développeur peut effectuer les opérations suivantes :

* Opérations mathématiques et logiques sur les tableaux.

* Transformées de Fourier et routines pour la manipulation de formes.

* Opérations liées à l'algèbre linéaire. NumPy a des fonctions intégrées pour l'algèbre linéaire et la génération de nombres aléatoires.

En ingénierie, machine learning et Data Science, on travaille le plus souvent avec des tableaux à 2 dimensions (dataset, image, matrice). Parfois à 3 dimensions (pour une image en couleur, qui contient les couches Rouge, Vert, Bleu)

<img src="images/numpy1.png">

### Création d'un tableau à partir d'une liste

Pour créer un tableau, on utilise *numpy.array*

### Tableaux unidimensionnels

Pour créer un tableau unidimensionnel, il suffit de passer une liste de nombres en argument de *numpy.array()*. Une liste est constituée de nombres séparés par des virgules et entourés de crochets ([ et ]).

In [1]:
import numpy as np
a = np.array([4,7,9])
print(a)
print(type(a[0]))

[4 7 9]
<class 'numpy.int32'>


On peut fixer le type des éléments d'un tableau en utilisant l'option __dtype__ comme suit :

In [43]:
a = np.array([4,7,9], dtype=np.uint8)
a

array([4, 7, 9], dtype=uint8)

Pour connaître le type du résultat de numpy.array(), on peut utiliser la fonction type().

In [6]:
print(type(a))

<class 'numpy.ndarray'>


On constate que ce type est issu du package numpy. Ce type est différent de celui d’une liste.

In [5]:
type([4, 7, 9])

list

On peut utiliser <b>linspace()</b> pour créer des tableaux de plusieurs valeurs régulièrement espacées entre deux valeurs données. Par exemple, pour créer un tableau constitué de cinq valeurs entre 0 et 1

In [2]:
tab = np.linspace(0, 10, 5)
print(tab)
print(type(tab))

[ 0.   2.5  5.   7.5 10. ]
<class 'numpy.ndarray'>


## Génération de nombres aléatoires

Le module <b>np.random</b> peut être utilisé pour générer des nombres aléatoires. Par exemple, __np.random.random()__ génère un nombre aléatoire entre O et 1, 1 non inclu, <b>np.random.random(5)</b> génère une matrice 1d de 5 valeurs aléatoires compris entre 0 et 1, 1 non inclu.


In [52]:
np.random.random()

0.8715232493941921

In [3]:
np.random.random(5)

array([0.63520849, 0.30784868, 0.98095774, 0.9626841 , 0.3722675 ])

La fonction <b>np.random.random()</b> permet aussi de créer des tableaux de valeurs aléatoires uniformément réparties. L'exemple ci-dessous permet de créer un tableau 3x3 de valeurs aléatoires uniformément réparties entre 0 et 1

In [4]:
np.random.random((3, 5))

array([[0.59655586, 0.83294114, 0.13086221, 0.73387305, 0.59068685],
       [0.52778035, 0.11203679, 0.05923382, 0.70831952, 0.18406329],
       [0.42936063, 0.63161596, 0.48397496, 0.83004089, 0.02165413]])

<b>np.random.randint()</b> permet de créer des tableaux contenant plusieurs valeurs aléatoires entières entre deux nombres donnés :

In [9]:
#Génère un entier aléatoire compris entre 1 et 5
np.random.randint(1,5)

2

In [67]:
#Génère un tableau 1D contenant 10 entiers compris entre 1 et 5
np.random.randint(1, 5,10)

array([3, 1, 2, 1, 3, 3, 2, 1, 1, 4])

In [68]:
#Génère un tableau 1D contenant 1 entier compris entre 1 et 5
np.random.randint(1, 5,1)

array([3])

Pour choisir un élément au hasard à partir d'un tableau Numpy, on utilise <b>np.random.choice()</b> comme suit :

In [6]:
tab = np.arange(0, 21)
np.random.choice(tab)

9

<b>np.random.choice()</b> peut être aussi pour choisir plusieurs valeurs au hasard à partir d'un tableau :

In [18]:
tab = np.arange(0, 21)
np.random.choice(tab,5)

array([ 5,  7, 20, 10, 13])

ou aussi :

In [8]:
tab = np.arange(0, 21)
np.random.choice(tab,(3,5))

array([[ 5,  5, 20, 16, 12],
       [14, 18, 15,  4, 16],
       [15, 17,  5, 20, 19]])

### Remarque
<p>
Rappelez-vous que contrairement aux listes Python, NumPy est un tableau contenant tous les éléments de même type. Si les types ne correspondent pas, NumPy utilisera le upcast si possible (ici, les entiers sont upcast en virgule flottante):
</p>

In [20]:
a = np.array([3.14, 4, 2, 3])
b = np.array([3.14, 4, 2, 3,'Lundi'])
print(a)
print(b)

[3.14 4.   2.   3.  ]
['3.14' '4' '2' '3' 'Lundi']


### Tableaux bidimensionnels

Pour créer un tableau 2D, il faut transmettre à __numpy.array()__ une liste de listes grâce à des crochets imbriqués.

In [6]:
a = np.array([[1, 2, 3], [4, 5, 6]])
a

array([[1, 2, 3],
       [4, 5, 6]])

**Application**

En utilisant Numpy, générer :
<ol>
    <li>Une image noire de résolution 200X300</li>
    <li>Une image blanche de résolution 200X300</li>
    <li>Une image grise de résolution 200X300</li>
    <li>Une image de niveau de gris de résolution 200X300. Les pixels sont des niveaux de gris aléatoires</li>
    <li>Une image couleur de résolution 200X300. Les pixels sont de couleurs aléatoires</li>
</ol>

### La fonction/attribut numpy.size()/numpy.size

La fonction __numpy.size()__ ou l'attribut __numpy.size__ renvoie le nombre d’éléments du tableau.

In [41]:
a = np.array([2,5,6,8])
print(np.size(a))
b = np.array([[1, 2, 3],[4, 5, 6]])
print(b.size)

4
6


### La fonction numpy.shape()

La fonction/attribut **numpy.shape()** (forme, en anglais) renvoie les dimensions du tableau.

In [4]:
a = np.array([2,5,6,8])
print(np.shape(a))
b = np.array([[1, 2, 3],[4, 5, 6]])
print(np.shape(b))
print(b.shape)

(4,)
(2, 3)
(2, 3)


In [2]:
import numpy as np

In [3]:
tab = np.random.random((5,6))
print("Tableau :", tab)
print("Dimension ",tab.shape)
print("#lignes : ", tab.shape[0])
print("#colonnes : ", tab.shape[1])
print("#éléments : ", tab.size)

Tableau : [[0.16338591 0.10044342 0.90613855 0.2411471  0.83537682 0.11851515]
 [0.04760193 0.12168297 0.46387121 0.2656374  0.718042   0.42456497]
 [0.99067606 0.35213644 0.56556981 0.56561794 0.1110644  0.65379443]
 [0.0436476  0.90855017 0.35680716 0.18208346 0.82297152 0.88574291]
 [0.57119292 0.88522887 0.95962797 0.36238611 0.00396644 0.96234343]]
Dimension  (5, 6)
#lignes :  5
#colonnes :  6
#éléments :  30


**Application**

A partir des images de l'application précédente, afficher :
<ol>
    <li>La résolution (hauteur et largeur)</li>
    <li>La hauteur</li>
    <li>La largeur</li>
    <li>Le nombre de pixel</li>
</ol>

Les méthodes __numpy.reshape()__ permet de redimensionner un tableau, alors que les méthodes __numpy.ravel()__ et __numpy.flatten()__ peuvent être utilisées pour applatir une matrice

In [79]:
A = np.random.randint(0, 10,(2, 3)) # création d'un tableau de shape (2, 3)
print("1",A)
A = A.reshape((3, 2)) # redimensionne le tableau A (3 lignes, 2 colonnes)
print("2",A)
A = A.ravel() # Aplatit le tableau A (une seule dimension)
print("3",A)
A = A.flatten() # Aplatit le tableau A (une seule dimension)
print("4",A)

1 [[4 5 8]
 [3 1 6]]
2 [[4 5]
 [8 3]
 [1 6]]
3 [4 5 8 3 1 6]
4 [4 5 8 3 1 6]


Pour concaténer deux matrices, on peut utiliser __numpy.hstack()__ et __numpy.vstack()__. Mais il faut faire attention aux dimensions des tableaux qui doivent être compatibles.

In [87]:
a = np.random.randint(0,10, (2,3))
b = np.random.randint(0,10, (2,5))
c = np.random.randint(0,10, (5,3))
d = np.random.randint(0,10, (2,3))
print("a=",a)
print("b=",a)
print("c=",a)
print("d=",a)
print("concaténation horizontale:",np.hstack((a,b)))
print("concaténation verticale:",np.vstack((a,c)))
print("concaténation verticale:",np.vstack((a,b)))

a= [[4 4 1]
 [6 8 8]]
b= [[4 4 1]
 [6 8 8]]
c= [[4 4 1]
 [6 8 8]]
d= [[4 4 1]
 [6 8 8]]
concaténation horizontale: [[4 4 1 3 3 1 7 6]
 [6 8 8 2 5 9 4 3]]
concaténation verticale: [[4 4 1]
 [6 8 8]
 [8 7 6]
 [6 1 5]
 [1 6 9]
 [2 4 3]
 [4 2 9]]


ValueError: all the input array dimensions for the concatenation axis must match exactly, but along dimension 1, the array at index 0 has size 3 and the array at index 1 has size 5

Au lieu de __numpy.hstack()__ et __numpy.vstack()__, on peut utiliser une seule méthode : __numpy.concatenate()__ :

In [86]:
a = np.random.randint(0,10,(2,3))
b = np.random.randint(0,10,(2,3))
print("a:",a)
print("b:",b)
print("concaténation horizontale:",np.concatenate((a,b), axis=1))
print("concaténation verticale:",np.concatenate((a,b), axis=0))

a: [[7 7 0]
 [0 0 8]]
b: [[3 7 9]
 [1 5 8]]
concaténation horizontale: [[7 7 0 3 7 9]
 [0 0 8 1 5 8]]
concaténation verticale: [[7 7 0]
 [0 0 8]
 [3 7 9]
 [1 5 8]]


### Produit terme à terme

Il est possible de réaliser un produit terme à terme grâce à l’opérateur *. Il faut dans ce cas que les deux tableaux aient la même taille.

In [10]:
a = np.array([[1, 2, 3], [4, 5, 6]])
b = np.array([[2, 1, 3], [3, 2, 1]])
a*b

array([[ 2,  2,  9],
       [12, 10,  6]])

### Produit matriciel - numpy.dot()

Un tableau peut jouer le rôle d’une matrice si on lui applique une opération de calcul matriciel. Par exemple, la fonction **numpy.dot()** permet de réaliser le produit matriciel.

In [11]:
a = np.array([[1, 2, 3], [4, 5, 6]])
b = np.array([[4], [2],[1]])
np.dot(a,b)

array([[11],
       [32]])

### Transposé

In [16]:
a = np.array([[1, 2, 3], [4, 5, 6]])
print("La matrice a")
print(a)
print("transposé de a ")
print(a.T)

La matrice a
[[1 2 3]
 [4 5 6]]
transposé de a 
[[1 4]
 [2 5]
 [3 6]]


### Complexe conjugué - numpy.conj()

In [17]:
u = np.array([[  2j, 4+3j],
                  [2+5j, 5   ],
                  [   3, 6+2j]])
np.conj(u)

array([[ 0.-2.j,  4.-3.j],
       [ 2.-5.j,  5.-0.j],
       [ 3.-0.j,  6.-2.j]])

### Transposé complexe conjugué

In [18]:
u = np.array([[  2j, 4+3j],
                  [2+5j, 5   ],
                  [   3, 6+2j]])
np.conj(u).T

array([[ 0.-2.j,  2.-5.j,  3.-0.j],
       [ 4.-3.j,  5.-0.j,  6.-2.j]])

### Tableaux et slicing

Lors de la manipulation des tableaux, on a souvent besoin de récupérer une partie d’un tableau. Pour cela, Python permet d’extraire des tranches d’un tableau grâce une technique appelée slicing (tranchage, en français). Elle consiste à indiquer entre crochets des indices pour définir le début et la fin de la tranche et à les séparer par deux-points :

In [19]:
a = np.array([12, 25, 34, 56, 87])
a[1:3]

array([25, 34])

Dans la tranche [n:m], <u>l’élément d’indice n est inclus, mais pas celui d’indice m</u>. Un moyen pour mémoriser ce mécanisme consiste à considérer que les limites de la tranche sont définies par les numéros des positions situées entre les éléments, comme dans le schéma ci-dessous :

<img src="images/tableau1.png">

Il est aussi possible de ne pas mettre de début ou de fin.

In [7]:
import numpy as np
a = np.array([12, 25, 34, 56, 87])
print(a) #Tout le tableau
print(a[1:]) #Du 2ème élément à la fin
print(a[:3]) #Du début jusqu'au 3ème élément
print(a[:]) #Tout le tableau

[12 25 34 56 87]
[25 34 56 87]
[12 25 34]
[12 25 34 56 87]


### Slicing des tableaux 2D

In [3]:
import numpy as np
a = np.array([[1, 2, 3],[4, 5, 6]])
print(a)
print(a[0,1])
print(a[:,1:3])
print("-----------")
print(a[:,1])
print("---------")
print(a[0,:])

[[1 2 3]
 [4 5 6]]
2
[[2 3]
 [5 6]]
-----------
[2 5]
---------
[1 2 3]


**Application**

Dans les images de l'application précédente, modifier :
<ol>
    <li>un pixel par un autre</li>
    <li>une zone par une autre couleur</li>
</ol>    

### Tableaux de "0" - numpy.zeros()

**zeros(n)** renvoie un tableau 1D de n zéros.

In [22]:
np.zeros(3)

array([ 0.,  0.,  0.])

**zeros((m,n))** renvoie tableau 2D de taille m x n, c’est-à-dire de shape (m,n).

In [23]:
np.zeros((2,3))

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

### Tableaux de "1" - numpy.ones()

In [24]:
print(np.ones(3))
print(np.ones((2,3)))

[ 1.  1.  1.]
[[ 1.  1.  1.]
 [ 1.  1.  1.]]


### Matrice identité - numpy.eye()

**eye(n)** renvoie tableau 2D carré de taille n x n, avec des uns sur la diagonale et des zéros partout ailleurs.

In [25]:
np.eye(3)

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

### Déterminant - numpy.linalg.det()

In [26]:
from numpy.linalg import det
a = np.array([[1, 2], [3, 4]])
det(a)

-2.0000000000000004

### Inverse - numpy.linalg.inv()

In [27]:
from numpy.linalg import inv
a = np.array([[1, 3, 3],
                  [1, 4, 3],
                  [1, 3, 4]])
inv(a)

array([[ 7., -3., -3.],
       [-1.,  1.,  0.],
       [-1.,  0.,  1.]])

### Résolution d’un système d’équations linéaires - numpy.linalg.solve()

Pour résoudre le système d’équations linéaires 3 * x<sub>0</sub> + x<sub>1</sub> = 9 et x<sub>0</sub> + 2 * x<sub>1</sub> = 8 :

In [4]:
a = np.array([[3,1], [1,2]])
b = np.array([9,8])
x = np.linalg.solve(a, b)
x

array([2., 3.])

Pour vérifier que la solution est correcte :

In [29]:
np.allclose(np.dot(a, x), b)

True

### Valeurs propres et vecteurs propres - numpy.linalg.eig()

In [30]:
from numpy.linalg import eig
A = np.array([[ 1, 1, -2 ], [-1, 2, 1], [0, 1, -1]])
print(A)
D, V = eig(A)
print(D)
print(V)

[[ 1  1 -2]
 [-1  2  1]
 [ 0  1 -1]]
[ 2.  1. -1.]
[[  3.01511345e-01  -8.01783726e-01   7.07106781e-01]
 [  9.04534034e-01  -5.34522484e-01  -1.92296269e-16]
 [  3.01511345e-01  -2.67261242e-01   7.07106781e-01]]


## Fonctions d'aggrégation

Souvent, lorsque on est confrontés à une grande quantité de données, la première étape consiste à calculer des statistiques récapitulatives pour les données en question. Peut-être les statistiques  les plus courantes sont la moyenne et l’écart-type, mais d’autres fonctions d'agrégats sont également utiles (somme, produit, médiane, minimum et maximum, quantiles, etc.).

### Somme des valeurs d'un tableau

In [5]:
L = np.random.random(10)
L

array([0.97501099, 0.62505098, 0.19682566, 0.14881417, 0.35971085,
       0.42994578, 0.93172887, 0.30144396, 0.87710699, 0.99189262])

In [6]:
np.sum(L)

5.837530869247463

In [12]:
L.sum()

5.837530869247463

### Maximum et minimum d'un tableau

In [8]:
M = np.max(L) #L.max()
m = np.min(L) #L.min()
print(M)
print(m)

0.9918926234833502
0.14881417078452608


### D'autres fonctions d'aggregation

<p>
np.sum, np.prod, np.mean, np.std, np.var, np.min, np.max, np.argmin, np.argmax, np.median, np.percentile, np.any, np.all
</p>

In [22]:
A = np.array([[1, 2, 3], [4, 5, 6]])
 
print(A.sum()) # effectue la somme de tous les éléments du tableau
print(A.sum(axis=0)) # effectue la somme des colonnes (somme sur éléments des les lignes)
print(A.sum(axis=1)) # effectue la somme des lignes (somme sur les éléments des colonnes)
print(A.cumsum()) # effectue la somme cumulée
print(A.cumsum(axis=0)) # effectue la somme cumulée
print(A.cumsum(axis=1)) # effectue la somme cumulée 
print(",",A.prod()) # effectue le produit
print(A.cumprod()) # effectue le produit cumulé
 
print(A.min()) # trouve le minimum du tableau
print(A.max()) # trouve le maximum du tableau
 
print(A.mean()) # calcul la moyenne
print(A.std()) # calcul l'ecart type,
print(A.var()) # calcul la variance

21
[5 7 9]
[ 6 15]
[ 1  3  6 10 15 21]
[[1 2 3]
 [5 7 9]]
[[ 1  3  6]
 [ 4  9 15]]
, 720
[  1   2   6  24 120 720]
1
6
3.5
1.707825127659933
2.9166666666666665


On trouve également la méthode sort() qui permet de trier un tableau

In [23]:
#Trier un tableau à une seule dimension
a=np.array([1,7, 2, 4, 0,6])
a.sort()
a

array([0, 1, 2, 4, 6, 7])

In [69]:
#Trier un tableau à deux dimensions
b=np.array([[1,7, 2], [4, 0,6]])
b.sort()
b

array([[1, 2, 7],
       [0, 4, 6]])

In [72]:
#Trier un tableau à deux dimensions
b=np.array([[1,7, 2], [4, 0,6]])
b.sort(axis=1)
b

array([[1, 2, 7],
       [0, 4, 6]])

In [73]:
#Trier un tableau à deux dimensions
b=np.array([[1,7, 2], [4, 0,6]])
b.sort(axis=0)
b

array([[1, 0, 2],
       [4, 7, 6]])

## Notion de Broadcasting

<p>
    Pour effectuer une opération mathématique sur 2 tableaux Numpy, c’est simple: Il faut qu’ils aient des dimensions compatibles, et si ce n’est pas le cas, le Broadcasting peut étendre toute dimension égale à 1 pour couvrir la dimension équivalente de l’autre tableau
</p>
<p>
Le broadcasting est simplement un ensemble de règles permettant d'appliquer des fonctions binaires (addition, soustraction, multiplication, etc.) sur
des tableaux de différentes tailles.
</p>

Rappelons que pour les tableaux de la même taille, les opérations binaires sont effectuées élément par élément:

In [6]:
 a = np.array([0, 1, 2])
 b = np.array([5, 5, 5])
 a + b

array([5, 6, 7])

Le broadcasting permet à ces types d’opérations binaires d’être exécutés sur des tableaux de tailles différentes - par exemple, nous pouvons ajouter un scalaire à un tableau:

In [17]:
a + 5

array([5, 6, 7])

In [22]:
M = np.ones((3, 3))
M

array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

In [23]:
M+a

array([[ 1.,  2.,  3.],
       [ 1.,  2.,  3.],
       [ 1.,  2.,  3.]])

<p>Le même principe peut s'appliquer à d'autres opéarteurs, par exemple : +, -, *, /, >, >=, <, <=, ==, != </p>

In [46]:
print(a)
print(a/2)
print(a*2)
print(a<2)

[0 1 2]
[ 0.   0.5  1. ]
[0 2 4]
[ True  True False]


## Comparaisons, masques et logique booléenne
Cette section traite de l’utilisation des masques booléens pour examiner et manipuler les valeurs dans les tableaux NumPy. Le masquage devient utile lorsqu'on souhaite extraire, modifier, compter ou, tout simplement, manipuler des valeurs dans un tableau en fonction d'un critère: par exemple, on souhaite compter toutes les valeurs supérieures à une certaine valeur, ou supprimer tous les
valeurs qui sont au-dessus d'un certain seuil. Dans NumPy, le masquage booléen est souvent le
moyen le plus efficace pour accomplir ces types de tâches.

<p>
Avec un tableau booléen, on peut effectuer une foule d’opérations utiles. Nous allons travailler avec le tableau x, un tableau à deux dimensions, comme exemple :
</p>

In [28]:
x = np.array([[5, 0, 3, 3],[7, 9, 3, 5],[2, 4, 7, 6]])
x

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

In [36]:
x[x<6]

array([5, 0, 3, 3, 3, 5, 2, 4])

<p><b>np.count_nonzero()</b> est utile pour compter le nombre d'entrées True dans un tableau booléen.</p>

In [37]:
# how many values less than 6?
np.count_nonzero(x < 6)

8

<p> Une autre façon d’en arriver au même résultat est d'utiliser <b>np.sum()</b>; dans ce cas, False est interprété comme 0 et True est interprété comme 1:</p>

In [38]:
np.sum(x<6)

8

<p>Si nous voulons vérifier rapidement si une ou toutes les valeurs sont vraies, nous pouvons utiliser <b>np.any()</b> ou <b>np.all()</b>:</p>

In [55]:
# are there any values greater than 8?
np.any(x > 8)

True

In [56]:
# are there any values less than zero?
np.any(x < 0)

False

In [57]:
# are all values less than 10?
np.all(x < 10)

True

In [58]:
 # are all values equal to 6?
np.all(x == 6)

False

In [59]:
# are all values in each row less than 8?
np.all(x < 8, axis=1)

array([ True, False,  True], dtype=bool)

<p>On peut utiliser aussi les opérateur logique bit à bit (bitwise operators) : &, |, ^, et ~

In [61]:
np.sum((x > 0) & (x < 6))

7