![image alt <](Images/numgrade-bigger.jpg)
![image alt >](Images/numpy.jpg)

![image alt >](Images/numgrade.png)

# NumPy : introduction

NumPy est une librairie qui permet de manipuler des tableaux multi-dimensionnels, des matrices ainsi que de nombreuses fonctions mathématiques opérant sur ces tableaux.

Le développement de NumPy a commencé dès 1995 avec le package Numeric. Un peu plus tard, Numarray, une ré-implémentation de Numeric, a été réalisée afin de gérer des tableaux plus volumineux et d'apporter de nouvelles fonctionnalités. Finalement, ces 2 packages (qui cohabitaient) ont été réunis en 2005 en un seul package : NumPy.

Et maintenant presque toutes les librairies scientifiques et d'analyses de données s'appuient sur NumPy : 

![site NumPy](Images/numpy_scientific_domains.png)

Nombreuses sont ces librairies à mimer l'utilisation des tableaux NumPy.

Site web officiel : [http://www.numpy.org/](http://www.numpy.org/)

Github : [https://github.com/numpy/numpy](https://github.com/numpy/numpy)

Article scientifique : Harris, C.R., Millman, K.J., van der Walt, S.J. et al. *Array programming with NumPy*. Nature 585, 357–362 (2020). https://doi.org/10.1038/s41586-020-2649-2

![image alt >](Images/numgrade.png)

Principales caractéristiques :

 - tableaux n-dimensionnels 
 
 - opérations complexes pour la sélection des données
 
 - outils pour intégrer du code C/C++ et fortran
 
 - algèbre linéaire, transformée de Fourier, nombres aléatoires
 
NumPy peut également être utilisé efficacement pour le stockage multi-dimensionnel de données génériques. 

Des types de données arbitraires peuvent également être définis, permettant à NumPy de s'interfacer facilement avec une large variété de bases de données.

![image alt >](Images/numgrade.png)
## Pourquoi avez-vous besoin de Numpy?   

Python est un langage typé dynamiquement, c'est à dire que le type des variables n'a pas à être explicitement déclaré (comme en C ou Java).

Ainsi en Python, vous pouvez assigner n'importe quel type de données à une variable, ce qui serait impossible avec un langage typé statiquement :

In [1]:
# Python code
x = 1
x = "one"

/\* C code \*/

int x = 4;

x = "four"   // It fails!

Cette flexibilité signifie que les variables en Python ne sont pas uniquement leur valeur. Comparons un entier dans le langage C et dans le langage Python :

![image alt >](Images/numgrade.png)
![](Images/integer.png)

### C integer:

C'est essentiellement un label correspondant à la position en mémoire


### Python integer:
C'est un pointeur sur la position en mémoire qui va contenir :

- PyObject_HEAD : 

    - un compteur qui va permettre à Python d'allouer ou de désallouer l'espace mémoire
    
    - le type de la variable
    
    - la taille des données
    
    
- digit:
    
     la valeur de l'entier


Évidemment, ce complément d'information a un coût, ce sera particulièrement le cas pour les structures (par exemple les listes) qui combinent plusieurs objets.

![image alt >](Images/numgrade.png)
#### Pourquoi utiliser les tableaux NumPy plutôt que des listes pour le calcul scientifique ?

Les listes en Python sont très flexibles : vous pouvez créer des listes d'entiers, de nombres flottants, de chaînes de caractères ou même mixer différents types de données. Exemple : 

In [5]:
items = [True, "hello", 1, 2.0]
[type(item) for item in items]

[bool, str, int, float]

Cette flexibilité a évidemment un coût, chaque élément dans la liste est un objet Python et il contient donc les informations associées (compteur, type, taille...).

Si nous avons besoin de données qui auront toutes le même type, alors la plupart des informations associées sont redondantes et il serait bien plus efficace de stocker les données dans un tableau avec un type de données fixé.

![image alt >](Images/numgrade.png)
Différence entre un tableau NumPy et une liste Python :   

![](Images/lists_vs_array.png)

![image alt >](Images/numgrade.png)
- Tableau Numpy :

    -- il contient essentiellement un pointeur vers bloc continu de données.


- Liste Python :

    -- elle contient un pointeur vers un bloc de pointeur
  
    -- et chaque pointeur pointe vers un objet Python.

Les tableaux NumPy n'ont pas la flexibilité des listes Python (type fixé Vs type variable) mais ils seront beaucoup plus efficaces pour le stockage et la manipulation des données.

In [2]:
# Performance test - Comparing Python and Numpy
import random
import sys

import numpy as np


n = 1000000
list1 = [random.random() for i in range(n)]
list2 = [random.random() for i in range(n)]
arr1 = np.array(list1)
arr2 = np.array(list2)

![image alt >](Images/numgrade.png)
Comparons la performance lorsqu'on ajoute le contenu des 2 listes ou des 2 tableaux NumPy :

In [8]:
%timeit l3 = [x+y for x, y in zip(list1, list2)] 

95.3 ms ± 1.71 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [9]:
%timeit a3 = arr1 + arr2

1.97 ms ± 175 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Usage mémoire :

In [10]:
print(f'Size per element in a list of floats: {sys.getsizeof(list1[1])} bytes.')
print(f'Size per element in a NumPy array of floats: {arr1.itemsize} bytes.')

Size per element in a list of floats: 24 bytes.
Size per element in a NumPy array of floats: 8 bytes.


NOTE :

Depuis Python 3.3, Python possède un module nommé *array*. Bien que ce module propose un stockage efficace des données, l'utilisation de NumPy est toujours bien plus avantageuse car la librairie NumPy contient de nombreuses opérations pour manipuler et travailler sur les tableaux.

In [11]:
# Python built-in array module
import array

numbers = list(range(5))
arr = array.array('i', numbers)   # 'i' is for integer
arr

array('i', [0, 1, 2, 3, 4])

![image alt >](Images/numgrade.png)
## Pourquoi des tableaux ?    

Les tableaux sont les structures de données les plus "naturelles" pour de nombreux types de données scientifiques :

- Matrices

- Séries temporelles

- Images

- Tableaux de données

![image alt <](Images/numpy.jpg)
![image alt >](Images/numgrade.png)

# Créer un tableau avec NumPy

Il existe un import standard pour NumPy :

In [1]:
import numpy as np

#### Créer un tableau à partir d'une liste Python:

Nous pouvons utiliser la fonction *array* :

In [2]:
np.array([1, 2, 3, 4])

array([1, 2, 3, 4])

![image alt >](Images/numgrade.png)
Notez que les tableaux NumPy doivent contenir des données de même type. Ainsi NumPy convertira automatiquement des données avec des types différents.

Voyons un exemple avec des entiers et des nombres à virgule flottante :

In [3]:
np.array([2, 2.71, 3])

array([2.  , 2.71, 3.  ])

Toutes les données sont maintenant des nombres à virgule flottante.

Il est aussi possible de spécifier le type de données souhaité avec le mot clé *dtype* :

In [4]:
np.array([1, 2, 3, 4], dtype='float32')

array([1., 2., 3., 4.], dtype=float32)

Nous reviendrons plus loin sur les différents types de données.

![image alt >](Images/numgrade.png)
Vous pouvez créer des tableaux multi-dimensionnels à partir de listes imbriquées :

In [5]:
data = [[i, i+1, i+2, i+3] for i in [1, 5, 9, 13]]
data

[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]]

In [6]:
np.array(data)

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

Les listes internes sont traitées comme des lignes. Le résultat est un tableau à 2 dimensions.

Note : une autre façon d'obtenir le même résultat serait d'utiliser la fonction *range*.

In [7]:
np.array([range(i, i + 4) for i in [1, 5, 9, 13]])

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

![image alt >](Images/numgrade.png)
Une autre façon d'obtenir le même résultat serait de combiner les listes (ou *range*) avec *reshape* :

In [8]:
np.array(range(1, 17)).reshape(4, 4)

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

![image alt >](Images/numgrade.png)

### Exercice (difficulté : ⭐) 

**Objectifs pédagogiques** :

- Savoir importer NumPy

- Apprendre à créer son premier tableau NumPy

**Enoncé**

Créez un tableau à 3 dimensions (3 x 3 x 3).    

-- Une solution avec des listes imbriquées :

In [9]:
data = [[range(i, i+3), range(i+3, i+6), range(i+6, i+9)] for i in [1, 10, 19]]
data

[[range(1, 4), range(4, 7), range(7, 10)],
 [range(10, 13), range(13, 16), range(16, 19)],
 [range(19, 22), range(22, 25), range(25, 28)]]

In [10]:
np.array(data)

array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9]],

       [[10, 11, 12],
        [13, 14, 15],
        [16, 17, 18]],

       [[19, 20, 21],
        [22, 23, 24],
        [25, 26, 27]]])

Vous avez la possibilité de vérifier la taille du tableau avec *shape* :

In [11]:
np.array(data).shape

(3, 3, 3)

![image alt >](Images/numgrade.png)
-- Une solution avec *reshape* : 

In [12]:
np.array(range(1, 28)).reshape(3, 3, 3)

array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9]],

       [[10, 11, 12],
        [13, 14, 15],
        [16, 17, 18]],

       [[19, 20, 21],
        [22, 23, 24],
        [25, 26, 27]]])

![image alt >](Images/numgrade.png)
#### Créer des tableaux avec les méthodes NumPy   

Pour créer un tableau, il peut parfois être plus simple d'utiliser les méthodes disponibles dans NumPy.

Voyons quelques exemples :

-- Créer un tableau rempli avec des zéros :

In [13]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

-- Il est possible de spécifier les dimensions et le type des données :

In [14]:
np.zeros((5, 5), dtype=int)

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]])

-- On peut tout aussi bien créer un tableau rempli avec des uns ou tout autre nombre :

In [15]:
np.ones(3)

array([1., 1., 1.])

In [16]:
np.full((3, 2), np.pi)  # 3 * 2 array filled with pi

array([[3.14159265, 3.14159265],
       [3.14159265, 3.14159265],
       [3.14159265, 3.14159265]])

![image alt >](Images/numgrade.png)
-- Création d'une séquence avec *arange* (*arange* fonctionne sur le même principe que *range*) :   

In [17]:
np.arange(2, 12, 3)   # start, end, step

array([ 2,  5,  8, 11])

-- Créer un tableau de valeurs séparées linéairement ou logarithmiquement :

In [18]:
np.linspace(0, 2, 5)  # start, end, number of values

array([0. , 0.5, 1. , 1.5, 2. ])

In [19]:
np.logspace(1, -1, 3, base=10)  # start: base**start, end: base**end, number of values

array([10. ,  1. ,  0.1])

![image alt >](Images/numgrade.png)
#### Valeurs aléatoires   

-- Valeurs aléatoires distribuées uniformément entre 0 et 1 :

In [20]:
np.random.random(5)

array([0.46801473, 0.52383918, 0.98827004, 0.83147445, 0.32322535])

-- Valeurs distribuées selon la loi normale :

In [21]:
np.random.normal(0, 2, 10)   # mean value, standard deviation, number of values

array([-0.36980551,  3.06212265, -0.56462477,  0.63503923, -0.59594838,
        4.23284238,  2.11025948,  0.76863007, -0.04155216,  1.79303872])

-- Entiers distribués aléatoirement dans un intervalle :

In [22]:
np.random.randint(0, 5, 10)   # low (inclusive), high (exclusive), number of values

array([3, 2, 4, 3, 0, 0, 0, 0, 4, 3])

![image alt >](Images/numgrade.png)
#### Matrices

Matrice identité :

In [23]:
np.eye(5)   # or np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

Matrice diagonale :

In [24]:
np.diag(np.arange(5))

array([[0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 2, 0, 0],
       [0, 0, 0, 3, 0],
       [0, 0, 0, 0, 4]])

![image alt >](Images/numgrade.png)

<div class="alert alert-block alert-info">
    <b>NOTE</b>

L'objet matrice existe dans NumPy (*np.mat*) mais il n'est [pas recommandé](https://stackoverflow.com/questions/4151128/what-are-the-differences-between-numpy-arrays-and-matrices-which-one-should-i-u) (voir aussi [https://numpy.org/devdocs/user/numpy-for-matlab-users.html#array-or-matrix-which-should-i-use](https://numpy.org/devdocs/user/numpy-for-matlab-users.html#array-or-matrix-which-should-i-use)) de l'utiliser car il peut facilement engendrer des confusions et des bugs. De plus il n'est pas nécessaire de l'utiliser car il existe déjà avec les objets *ndarray* une distinction claire entre les opérations élément par élément et les opérations d'algèbre linéaire. Par exemple, la multiplication matricielle est disponible via *np.dot( )* ou via l'opérateur @.
    
</div> 

In [25]:
a1 = np.diag(np.arange(4))
a1[0, 1] = 3
a1

array([[0, 3, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 2, 0],
       [0, 0, 0, 3]])

Multiplication élément par élément :

In [26]:
a1 * a1

array([[0, 9, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 4, 0],
       [0, 0, 0, 9]])

Multiplication matricielle :

In [27]:
np.dot(a1, a1)

array([[0, 3, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 4, 0],
       [0, 0, 0, 9]])

In [28]:
a1 @ a1

array([[0, 3, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 4, 0],
       [0, 0, 0, 9]])

![image alt <](Images/numpy.jpg)
![image alt >](Images/numgrade.png)

# Types de données

*dtype* pour data type est un attribut important des *ndarrays*, il détermine la taille et la signification de chaque élément du tableau. Une liste des principaux *dtypes* :

| dtype      |  Bytes / octet   | Description                                           |
|------------|----------|-------------------------------------------------------|    
| bool\_     |  1       | Boolean (True or False) data type                     |
| int\_      |  1       | Default integer type (alias to either int32 or int64) |
| int8       |  1       | Integer type (from -128 to 127)                       |
| byte       |  1       | Alias of int8                                         |
| int16      |  2       | 16-bit integer type (from -32768 to 32767)  |
| int32      |  4       | 32-bit integer type (from -2147483648 to 2147483647)  |
| int64      |  8       | 64-bit integer type (from -9223372036854775808 to     |
|            |          | 9223372036854775807)  |
| uint8      |  1       | Unsigned integer type (from 0 to 255)                       |
| ubyte      |  1       | Alias of uint8                                         |
| uint16     |  2       | 16-bit unsigned integer type (from 0 to 65535)  |
| uint32     |  4       | 32-bit unsigned integer type (from 0 to 4294967295)  |
| uint64     |  8       | 64-bit unsigned integer type (from 0 to 18446744073709551615)  |
| float16    |  2       | 16-bit floating-point number. Half precision float: sign bit, | 
|            |          | 5 bits exponent, 10 bits mantissa  |
| float32    |  4       | 32-bit floating-point number. Single precision float: sign bit, 8 bits exponent, |
|            |          | 23 bits mantissa  |
| float64    |  8       | 64-bit floating-point number. Double precision float: sign bit, 11 bits exponent, |
|            |          | 52 bits mantissa |
| float128   |  16      | 128-bit floating-point number - not supported on Windows. Quadruple precision float: sign bit, | 
|            |          | 15 bits exponent, 112 bits mantissa |
| complex64  |   8      | 64-bit complex floating-point number  |
| complex128 |  16      | 128-bit complex floating-point number  |
| complex256 |  32      | 256-bit complex floating-point number  |
| str\_      | flexible | String data type                       |

Vous trouverez plus d'informations au sujet des *dtypes* en suivant ce lien: [https://numpy.org/doc/stable/reference/arrays.dtypes.html](https://numpy.org/doc/stable/reference/arrays.dtypes.html).


Deprécié depuis NumPy 2.0 :
- np.float_ -> np.float64
- np.uint_ (déprécié avant)
- np.NaN -> np.nan
- np.complex_ -> np.complex128
- np.unicode_ -> np.str_

![image alt >](Images/numgrade.png)
Vous devez être très attentif au type de données (*dtype*) que vous pouvez être amenés à choisir. Créons 2 tableaux avec des types de données différents :

In [1]:
import numpy as np


arr32 = np.arange(33_000, dtype='int32')
arr16 = np.arange(33_000, dtype='int16')

Comparons maintenant leur somme :

In [2]:
arr32.sum() == arr16.sum()

np.False_

Leur somme n'est pas identique! Le problème est que sur 16 bits, nous ne pouvons stocker que des nombres entre -32768 et 32767. NumPy ne va pas retourner une erreur si nous lui donnons des nombres plus grands mais retournera une "mauvaise valeur". Regardons par exemple le dernier élément de arr16 :

In [3]:
arr16[-1]

np.int16(-32537)

![image alt >](Images/numgrade.png)
Vous pouvez changer le type d'un tableau avec astype() :

In [4]:
import numpy as np


arr = np.arange(6)
arr.dtype

dtype('int64')

In [5]:
arr.astype('float32')   # or arr.astype(np.float32)

array([0., 1., 2., 3., 4., 5.], dtype=float32)

Notez que le tableau n'est pas directement modifié, les données dans le tableau sont toujours de type int32 :

In [6]:
arr.dtype

dtype('int64')

![image alt >](Images/numgrade.png)
Si vous ne précisez pas le type de données (*dtype*) lorsque vous créez un tableau, NumPy sélectionnera automatiquement le *dtype* pour vous.

Exemple lorsque des nombres à virgule flottante et des entiers sont mélangés :

In [7]:
arr = np.array([1, 3.14])

In [8]:
arr.dtype   # The integer number became a floating-point number

dtype('float64')

Ou lorsque vous mélangez un entier avec une chaîne de caractères :

In [9]:
arr = np.array([1, "b"])

In [10]:
arr.dtype    # unicode type - 21 means 21-character unicode string. 
                 # Numpy chose 21 - you can modify with dtype:
                 # a = np.array([1, "b"], dtype='U1'). The memory used 
                 # is then decreased from a.itemsize = 84 to a.itemsize = 4

dtype('<U21')

In [11]:
arr[0]

np.str_('1')

On constate que l'entier est maintenant une chaîne de caractères.

![image alt >](Images/numgrade.png)
## Les attributs

Les *ndarrays* possèdent toute une liste d'attributs. Il peut être utile d'en connaître quelques-uns :

In [12]:
arr = np.arange(27).reshape(3, 3, 3)

In [13]:
print("array ndim: ", arr.ndim)              # number of dimensions
print("array shape:", arr.shape)             # the size of each dimension
print("array size: ", arr.size)              # number of elements
print("dtype: ", arr.dtype)                  # data type
print("itemsize:", arr.itemsize, "bytes")    # size in bytes of each element
print("nbytes:", arr.nbytes, "bytes")        # total size in bytes

array ndim:  3
array shape: (3, 3, 3)
array size:  27
dtype:  int64
itemsize: 8 bytes
nbytes: 216 bytes


nbytes = itemsize * size

![image alt >](Images/numgrade.png)
### Exercices (difficulté : ⭐) 

**Objectifs pédagogiques** :

- Connaître la versoin de NumPy utilisée

- Créer des tableaux NumPy

- Extraire des informations d'un tableau NumPy

- Changer les dimensions d'un tableau NumPy

**Énoncés** :

1. Affichez la version de NumPy.

2. Créez un vecteur nul de taille 15 (nommé "a").

3. Pour le tableau "a" créé précédemment : affichez la taille mémoire de chaque élément ainsi que la taille du tableau.

4. Modifiez les dimensions du tableau "a" afin d'obtenir un tableau de dimension 3x5.

5. Créez un vecteur avec des valeurs comprises entre 10 et 20.

6. Créez un tableau de dimensions 3x3 avec des valeurs aléatoires (les valeurs seront uniformément distribuées entre 0 et 1).

![image alt <](Images/numpy.jpg)
![image alt >](Images/numgrade.png)

# Manipuler les tableaux NumPy  

## Indexation

L'indexation avec NumPy est assez similaire à l'indexation des listes standards Python. Exemple : accéder à un élément dans un tableau 1-D :

In [3]:
arr = np.random.randint(0, 10, 10)
arr

array([9, 1, 5, 7, 4, 2, 6, 6, 2, 7])

Accéder au 3ème élément du tableau se fait de cette façon (comme pour les listes, la numérotation commence à 0) :

In [4]:
arr[2]

np.int64(5)

![image alt >](Images/numgrade.png)
Comme pour les listes, nous pouvons également utiliser les indices négatifs pour l'accès aux éléments du tableau à partir de la fin :

In [5]:
arr[-1]     # last value

np.int64(7)

In [6]:
arr[-2]     # second to last value

np.int64(2)

![image alt >](Images/numgrade.png)
Pour les tableaux multi-dimensionnels, on utilisera plusieurs indices séparés par des virgules :

In [7]:
arr = np.random.randint(0, 10, (3, 3))
arr

array([[7, 9, 6],
       [4, 9, 9],
       [2, 8, 2]])

Accédons au 1er élément - 1ère ligne, 1ère colonne :

In [8]:
arr[0, 0]

np.int64(7)

1ère ligne, 3ème colonne :

In [9]:
arr[0, 2]     # 1st index for line, index 2 for column

np.int64(6)

![image alt >](Images/numgrade.png)
Il est tout à fait possible d'utiliser l'indexation pour modifier la valeur d'un élément :

In [10]:
arr[1, 1] = 5
arr

array([[7, 9, 6],
       [4, 5, 9],
       [2, 8, 2]])

Il est important de se rappeler que les tableaux NumPy ont un type fixe. Cela implique que si vous essayez de remplacer dans le tableau précédent un "int" par un "float", le "float" sera automatiquement tronqué pour devenir un "int" :

In [11]:
arr[1, 1] = 2.7
arr

array([[7, 9, 6],
       [4, 2, 9],
       [2, 8, 2]])

![image alt >](Images/numgrade.png)
## Slicing

Comme pour l'indexation, le slicing suit la même sémantique que pour les listes Python : array[start: stop: step]. Par défaut, start=0, stop=taille du tableau, step=1.

In [12]:
arr = np.arange(0, 10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Les 5 premiers éléments :

In [13]:
arr[:5]       # equivalent to arr[0:5]

array([0, 1, 2, 3, 4])

Les 5 derniers éléments :

In [14]:
arr[-5:]

array([5, 6, 7, 8, 9])

![image alt >](Images/numgrade.png)
Un sous-tableau du tableau array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) :

In [15]:
arr[1:3]

array([1, 2])

Les nombres aux indices pairs :

In [17]:
arr[::2]    # equivalent to arr[0::2] or arr[0:10:2]. 
               # Note that for the stop value, you can use values 
               # greater than the size of the array

array([0, 2, 4, 6, 8])

Les nombres aux indices impairs :

In [18]:
arr[1::2]    # equivalent to arr[1:arr.size:2]

array([1, 3, 5, 7, 9])

![image alt >](Images/numgrade.png)
Le pas (step) peut être négatif. Le tableau est alors parcouru dans le sens inverse :

In [19]:
arr[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

De l'indice 3 à l'indice 1 (parcours dans le sens inverse) :

In [20]:
arr[3:1:-1]

array([3, 2])

![image alt >](Images/numgrade.png)
Pour les tableaux multi-dimensionnels, cela fonctionne de la même façon. Les tranches successives sont séparées par des virgules :

In [2]:
arr = np.arange(16).reshape(4, 4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

La 1ère ligne :

In [11]:
arr[0]  # equivalent to arr[0, :] (1st row, all columns)

array([0, 1, 2, 3])

La 1ère colonne :

In [12]:
arr[:, 0]  # all lines, 1st column

array([ 0,  4,  8, 12])

![image alt >](Images/numgrade.png)
Lignes paires et colonnes impaires : 

In [57]:
arr[::2, 1::2]

array([[ 1,  3],
       [ 9, 11]])

Inverser le tableau (lignes et colonnes) :

In [58]:
arr[::-1, ::-1]

array([[15, 14, 13, 12],
       [11, 10,  9,  8],
       [ 7,  6,  5,  4],
       [ 3,  2,  1,  0]])

![image alt >](Images/numgrade.png)
NOTE : Le slicing pour les tableaux NumPy diffère de celui pour les listes Python. Pour les listes Python, les tranches sont des *copies* alors pour les tableaux Numpy, les tranches sont des *vues*. Par conséquent, une modification des éléments dans un sous-tableau induira également une modification de ces éléments dans le tableau original. 

Avec les listes, on avait ceci :

In [2]:
list1 = list(range(6))
print(list1)
list2 = list1[1:-1]
print(list2)

[0, 1, 2, 3, 4, 5]
[1, 2, 3, 4]


In [60]:
list2[-1] = 10
list2

[1, 2, 3, 10]

In [61]:
list1

[0, 1, 2, 3, 4, 5]

list2 est une copie de list1, donc list1 n'est pas modifié.

![image alt >](Images/numgrade.png)
Maintenant avec les tableaux NumPy :

In [2]:
arr1 = np.arange(6)
arr2 = arr1[1:-1]      # A view of the array arr1
arr2

array([1, 2, 3, 4])

In [3]:
arr2[-1] = 10        # changing an element in arr2
arr2

array([ 1,  2,  3, 10])

In [4]:
arr1                 # the previous modification also changes the element in arr1

array([ 0,  1,  2,  3, 10,  5])

In [65]:
arr2.base is arr1      # You can check that arr2 is a view of arr1 with the attribute base

True

![image alt >](Images/numgrade.png)
## Indexation avancée

En anglais, on parle d'advanced indexing ou parfois de fancy indexing.

Références : 

- https://numpy.org/doc/1.21/reference/arrays.indexing.html#

- https://numpy.org/doc/stable/user/basics.indexing.html#

#### Extraction de plusieurs valeurs d'un tableau :

##### Tableaux à une dimension

In [21]:
arr = np.arange(16, 32)

Si nous souhaitons extraire plusieurs valeurs du tableau, par exemple les valeurs aux indices 4, 8 et 12, au lieu de faire :

In [22]:
[arr[4], arr[8], arr[12]]

[np.int64(20), np.int64(24), np.int64(28)]

Nous écririons plutôt :

In [23]:
arr[[4, 8, 12]]

array([20, 24, 28])

Et si nous passons un tableau d'indices à plusieurs dimensions, le résultat correspondra aux dimensions du tableau d'indices (et non aux dimensions du tableau indexé) : 

In [24]:
index = np.array([[4, 12],
                           [8,   0]])

In [25]:
arr[index]

array([[20, 28],
       [24, 16]])

![image alt >](Images/numgrade.png)
##### Tableaux à plusieurs dimensions

In [26]:
arr = arr.reshape(4, 4)
arr

array([[16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

Pour aller chercher les indices [0, 2] et [1, 3], on pourra faire : 

In [27]:
row = np.array([0, 1])
col = np.array([2, 3])
arr[row, col]    # 1st index refers to the rows and the 2nd index refers to the columns

array([18, 23])

![image alt >](Images/numgrade.png)
Que se passe-t-il si nous combinons un vecteur colonne avec un vecteur ligne pour les indices?

In [28]:
arr[row.reshape(2, 1), col]

array([[18, 19],
       [22, 23]])

Les règles d'appariement des paires d'indices suivent les règles du broadcasting Numpy ([https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html)) 

![](Images/fancy_indexing_broadcasting.jpg)

Si nous voulions obtenir le même résultat avec tous les indices écrits explicitement, il faudrait écrire :

In [29]:
row = np.array([0, 0, 1, 1]).reshape(2, 2)
col = np.array([2, 3, 2, 3]).reshape(2, 2)

In [30]:
arr[row, col]

array([[18, 19],
       [22, 23]])

![image alt >](Images/numgrade.png)
#### Combiner les modes d'indexation

Nous pouvons par exemple combiner l'indexation simple avec l'indexation avancée :

In [31]:
arr = np.arange(16).reshape(4, 4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [32]:
arr[1, [-1, 0]]   # or arr[1, [3, 0]] : 2nd row + last and first column 

array([7, 4])

Ou encore combiner l'indexation avancée avec le slicing :

In [33]:
arr[-2:, [-1, 0]]  # or e.g. arr[2:, [3, 0]] : last 2 rows + last and first column

array([[11,  8],
       [15, 12]])

![image alt >](Images/numgrade.png)
## Copier un tableau

Comment faire si nous souhaitons avoir une copie d'un sous-tableau (ou du tableau entier)?

Une façon de faire serait de créer un nouveau tableau avec np.array :

In [34]:
arr1 = np.arange(6)
arr2 = np.array(arr1[1:-1])

Et maintenant, la modification d'un élément dans le tableau arr2 n'entraînera pas de modification dans le tableau arr1 :

In [35]:
arr2[0] = 100
arr1

array([0, 1, 2, 3, 4, 5])

![image alt >](Images/numgrade.png)
Une autre méthode serait d'utiliser la méthode *copy* :

In [36]:
arr1 = np.arange(6)
arr2 = arr1[1:-1].copy()

Dans ce cas aussi, un changement dans le tableau arr2 n'entraînera pas de modification dans le tableau arr1 :

In [37]:
arr2[0] = 100
arr1

array([0, 1, 2, 3, 4, 5])

<div class="alert alert-block alert-info">
    <b>NOTE</b>

Contrairement à l'indexation simple ou au slicing, l'indexation avancée retourne une [copie des données](https://numpy.org/devdocs/user/basics.indexing.html#advanced-indexing). 
</div>

![image alt >](Images/numgrade.png)
## Transformer un tableau (reshaping)

Il est courant de devoir convertir un tableau 1-D en une matrice 2-D ligne ou colonne. Pour cette opération, nous pouvons soit utiliser la méthode *reshape* soit le mot clé *newaxis* :

In [10]:
arr = np.arange(3)
arr

array([0, 1, 2])

Transformation en vecteur ligne avec *reshape* :

In [5]:
arr.reshape((1, 3))

array([[0, 1, 2]])

Le même vecteur ligne avec le mot clé *newaxis* :

In [26]:
arr[np.newaxis, :]   # shape was (3,), it is now (1, 3)

array([[0, 1, 2]])

![image alt >](Images/numgrade.png)
Transformation en vecteur colonne avec *reshape* :

In [90]:
arr.reshape((3, 1))

array([[0],
       [1],
       [2]])

La même opération avec *newaxis* :

In [91]:
arr[:, np.newaxis]

array([[0],
       [1],
       [2]])

![image alt >](Images/numgrade.png)
## Concaténation

Concaténer (ou lier) des tableaux est parfois utile. En fonction des besoins, différentes méthodes pourront être utilisées : *concatenate*, *vstack* et *hstack*.

Avec *concatenate* :

In [92]:
arr1 = np.arange(3)
arr2 = np.arange(3, 6)
np.concatenate((arr1, arr2))   #the argument is a tuple or list of arrays

array([0, 1, 2, 3, 4, 5])

![image alt >](Images/numgrade.png)
Avec des tableaux à plusieurs dimensions, nous pouvons concaténer selon un *axe* spécifique, on utilisera le paramètre *axis*. Par exemple un tableau 2-D a 2 axes :

 - *axis = 0* : le premier axe permet de parcourir verticalement le tableau. On parcourt les lignes.
 
 - *axis = 1* : le second axe permet de parcourir horizontalement le tableau. On parcourt donc les colonnes.

In [42]:
arr1 = np.arange(6).reshape((2, 3))
arr2 = np.arange(6, 12).reshape((2, 3))

Concaténation le long de l'axe 0 (axis = 0 - lignes) :

In [94]:
np.concatenate([arr1, arr2])  # np.concatenate([a1, a2], axis=0)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

Concaténation le long de l'axe 1 (axis = 1 - colonnes) :

In [95]:
np.concatenate([arr1, arr2], axis=1)

array([[ 0,  1,  2,  6,  7,  8],
       [ 3,  4,  5,  9, 10, 11]])

![image alt >](Images/numgrade.png)
Pour concaténer horizontalement, nous pouvons également utiliser *hstack* :

In [96]:
np.hstack([arr1, arr2])

array([[ 0,  1,  2,  6,  7,  8],
       [ 3,  4,  5,  9, 10, 11]])

Pour concaténer verticalement, nous aurons *vstack* :

In [97]:
np.vstack([arr1, arr2])

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

Il existe également la méthode *stack*. Cette méthode va permettre d'empiler les tableaux le long d'un nouvel axe, on va donc ajouter une dimension. L'option *axis* correspondra à l'indice du nouvel axe :

In [98]:
np.stack([arr1, arr2], axis=0)

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [99]:
np.stack([arr1, arr2], axis=0).shape

(2, 2, 3)

### Exercice

Testez le résultat pour axis=1 et axis=2.

![image alt >](Images/numgrade.png)
## Transposer un tableau

Avec des tableaux à 2 dimensions, cela correspond à la [transposée classique d'une matrice](https://en.wikipedia.org/wiki/Transpose). Pour retourner la matrice transposée, 2 possibilités :

In [44]:
arr1.T

array([[0, 3],
       [1, 4],
       [2, 5]])

In [45]:
arr1.transpose()

array([[0, 3],
       [1, 4],
       [2, 5]])

Pour des tableaux à plus de 2 dimensions, vous pourrez indiquer les axes, leur ordre indiquera comment les axes seront permutés. Voir par exemple : [https://numpy.org/devdocs/reference/generated/numpy.transpose.html](https://numpy.org/devdocs/reference/generated/numpy.transpose.html)

![image alt >](Images/numgrade.png)
## Découper un tableau (splitting)

Nous pourrons au contraire découper un tableau avec les méthodes *split*, *hsplit* et *vsplit*. Il est possible de préciser une liste de points correspondant aux indices où le tableau sera découpé :

In [1]:
arr1 = np.arange(9)
np.split(arr1, [3, 6])   # It returns a list of array

[array([0, 1, 2]), array([3, 4, 5]), array([6, 7, 8])]

In [101]:
# If you want a Numpy array instead of a list:
np.array(np.split(arr1, [3, 6]))

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

![image alt >](Images/numgrade.png)
Nous pourrons découper le tableau horizontalement avec *hsplit* :

In [103]:
arr1 = np.arange(9).reshape(3, 3)
arr2, arr3 = np.hsplit(arr1, [1])

In [104]:
arr2

array([[0],
       [3],
       [6]])

In [105]:
arr3

array([[1, 2],
       [4, 5],
       [7, 8]])

![image alt >](Images/numgrade.png)
Le découpage vertical se fera avec la méthode *vsplit* :

In [12]:
arr1 = np.arange(9).reshape(3, 3)
arr2, arr3 = np.vsplit(arr1, [1])

In [107]:
arr2

array([[0, 1, 2]])

In [108]:
arr3

array([[3, 4, 5],
       [6, 7, 8]])

![image alt >](Images/numgrade.png) 
### Exercices (difficulté : ⭐⭐) 

**Objectifs pédagogiques** :

- Savoir modifier des données dans un tableau

- Apprendre à utiliser l'indexation, le slicing et l'indexation avancée

**Enoncés**

1. Créez un vecteur nul de taille 10 sauf la 4ème valeur qui sera égale à 1.

2. Créez un tableau array([0, 1, ..., 9, 10]). Afficher le tableau en ordre inverse, les valeurs paires et les valeurs impaires en utilisant l'indexation.

3. Créez une matrice identité 3 x 3.

4. Créez un tableau 5x5 avec des valeurs aléatoires. Afficher la 3ème ligne, et ensuite la dernière colonne.

5. Créez un tableau 4x4. Afficher un tableau interne de dimensions 2x2 (par exemple les 2ème et 3ème lignes et les 2ème et 3ème colonnes).

6. Créez ces 2 tableaux 2-D:

[[0. 0. 0. 0. 0.]
 
 [2. 0. 0. 0. 0.]
 
 [0. 3. 0. 0. 0.]
 
 [0. 0. 4. 0. 0.]
 
 [0. 0. 0. 5. 0.]
 
 [0. 0. 0. 0. 6.]]

Et:

[[1 1 1 1] 

 [1 1 1 1]

 [1 1 1 2]

[1 6 1 1]]

$\qquad \qquad$ **7.** En utilisant l'indexation avancée, extraire du tableau précédent les valeurs aux indices (2, 3), (2, 1), (3, 3) et (3, 1). Le résultat attendu est un tableau de dimension 2 x 2 :
  
[[2 1] 

 [1 6]]

![image alt <](Images/numpy.jpg)
![image alt >](Images/numgrade.png)

# Broadcasting

Le *broadcasting* ([https://docs.scipy.org/doc/numpy-1.13.0/user/basics.broadcasting.html](https://docs.scipy.org/doc/numpy-1.13.0/user/basics.broadcasting.html)) est le terme utilisé pour définir la manière dont Numpy traite des tableaux de dimensions différentes lors d'opérations arithmétiques. En fonction de certains critères, les dimensions du tableau le plus petit seront étendues ("broadcasted") afin que les 2 tableaux aient des dimensions compatibles.

##### Règles pour le broadcasting

Numpy compare le nombre de dimensions de chaque tableau, il commence la comparaison des dimensions "par la droite".

- 2 dimensions sont compatibles si elles sont égales ou si une dimension est égale à 1 ; et dans ce dernier cas la dimension sera étendue ("broadcasted"). 

- Si 2 tableaux n'ont pas le même nombre de dimensions, alors des dimensions seront rajoutées au tableau avec le nombre de dimensions le plus faible. 

##### Exemples

Tableaux avec des dimensions (tailles) différentes :

(3) × (1) → (3) × (3) → (3)

In [4]:
a = np.arange(3)
b = np.array([1])

In [3]:
result = a + b     # equivalent to a + 1 -> np.array([1, 1, 1])
result.shape

(3,)

(2, 3, 1) × (1, 3, 4) → (2, 3, 4) × (2, 3, 4) → (2, 3, 4)

In [43]:
a = np.arange(6).reshape(2, 3, 1)
b = np.arange(12).reshape(1, 3, 4)

In [45]:
result = a + b
result.shape

(2, 3, 4)

Les tableaux ont été étendus.

![image alt >](Images/numgrade.png)
Tableaux avec un nombre de dimensions différent :

(1, 2, 3) × (2, 3) → (1, 2, 3) × (1, 2, 3) → (1, 2, 3)

In [8]:
a = np.arange(6).reshape(1, 2, 3)
b = np.arange(6).reshape(2, 3)

In [9]:
result = a + b
result.shape

(1, 2, 3)

Une dimension a été ajoutée au deuxième tableau. 

Il est aussi possible de combiner ajout de dimension et extension. Par exemple :

(2, 2, 3) × (2, 3) → ajoute une dimension : (2, 2, 3) × (1, 2, 3) → étend le 2ème tableau : (2, 2, 3) × (2, 2, 3) → (2, 2, 3)

In [2]:
a = np.arange(12).reshape(2, 2, 3)
b = np.arange(6).reshape(2, 3)

In [3]:
result = a + b
result.shape

(2, 2, 3)

Tableaux non compatibles :
             
(4, 3) × (2, 1) → Error

In [50]:
a = np.arange(12).reshape(4, 3)
b = np.arange(2).reshape(2, 1)

In [54]:
result = a + b

ValueError: operands could not be broadcast together with shapes (4,3) (2,1) 

Les dimensions avec 4 et 2 ne sont pas compatibles. Pour qu'elles aient été compatibles, il aurait fallu qu'une dimension soit égale à 1 ou que les 2 dimensions soient identiques.

![image alt <](Images/numpy.jpg)
![image alt >](Images/numgrade.png)

# Fonctions universelles (universal functions)

Un des grands avantages de NumPy est la possibilité de calculer facilement et efficacement sur les tableaux. Les opérations sur les tableaux NumPy sont rapides grâce à la vectorisation. Ces opérations vectorisées sont accessibles via les fonctions universelles implémentées dans NumPy (universal functions - *ufuncs*).

### Les boucles for avec NumPy : non, merci !

Les boucles for en Python sont assez lentes, il faudra donc les éviter autant que possible si vous voulez bénéficier des performances de NumPy. Par exemple, élevons au carré les valeurs d'un tableau :

Solution avec un boucle *for* en Python :

In [1]:
def square(values):
    output = np.empty(len(values))
    for i, value in enumerate(values):
        output[i] = value * value
    return output

In [98]:
values = np.arange(1_000_000)  # 1 million elements array
%timeit square(values)

1 loop, best of 3: 270 ms per loop


Avec NumPy, il suffit d'appliquer l'opération désirée au tableau :

In [99]:
%timeit values**2

100 loops, best of 3: 2.84 ms per loop


Nous gagnons environ 2 ordres de grandeur par rapport à la même opération réalisée avec une boucle for !

Les opérations vectorisées en NumPy sont implémentées via les *ufuncs*. Ces *ufuncs* vont permettre de réaliser des opérations élément par élément très rapidement. Nous pouvons bien entendu utiliser les *ufuncs* entre 2 tableaux :

In [100]:
np.arange(3) * np.arange(3)

array([0, 1, 4])

![image alt >](Images/numgrade.png)
## Quelques fonctions universelles (ufuncs)

| Operator   |  *ufunc* correspondante  | Description     |
|------------|--------------------------|-----------------|    
| +          |  np.add                  | addition        |
| -          |  np.subtract             | subtraction    |
| -          |  np.negative             | negation        |
| *          |  np.multiply             | multiplication  |
| /          |  np.divide               | division        |
| //         |  np.floor_divide         | floor division  |
| \*\*       |  np.power                | exponentiation  |
| %          |  np.mod                  | modulus         |
| abs        |  np.absolute or np.abs   | absolute value  |

NumPy comprend les opérateurs Python. Par exemple np.add(a1, a2) est équivalent à a1 + a2.

![image alt >](Images/numgrade.png)
Lorsque les opérateurs Python ne sont pas disponibles, nous utiliserons les *ufuncs* :

Fonctions trigonométriques

|  *ufunc*   | Description     |
|-------------------------|-----------------|    
|  np.sin                 | sine        |
|  np.cos                 | cosine    |
|  np.tan                 | tangent        |
|  np.arcsin              | arcsine  |
|  np.arccos              | arccosine        |
|  np.arctan              | arctangent  |

Exposants et logarithmes

|  *ufunc*   | Description     |
|-------------------------|-----------------|    
|  np.exp                | exponential        |
|  np.power                 | 1st element raised to powers from 2nd element   |
|  np.log                |  Natural logarithm       |
|  np.log2              | Base-2 logarithm  |
|  np.log10              | Base-10 logarithm        |

NumPy possède un grand nombre de fonctions universelles, vous pouvez trouver la liste complète à cette adresse : [https://numpy.org/doc/stable/reference/ufuncs.html](https://numpy.org/doc/stable/reference/ufuncs.html)

![image alt >](Images/numgrade.png)

### Exercices sur les fonctions universelles (*ufuncs*) (difficulté : ⭐⭐)

**Objectifs pédagogiques** :

- Apprendre à travailler "en mode tableau" et éviter l'utilisation des boucles for.

Rappel : n'utilisez pas les boucles for !

1) Écrire une fonction qui prend en paramètre un tableau NumPy 1-D et retourne un autre tableau NumPy 1-D qui contiendrait les différences entre les éléments voisins. Exemple :

- arr = np.array([1, 2, 5, 0])

- La fonction "differences(arr)" devra retourner : array([-1, -3, 5])


2) Supposons que vous ayez 2 tableaux (même taille): un tableau contient les coordonnées y et l'autre les coordonnées x. Calculez les dérivées numériques dy/dx. Utilisez la dérivée au point central : (y1 - y0) / (x1 - x0).

![image alt <](Images/numpy.jpg)
![image alt >](Images/numgrade.png)

# Extraire des informations de vos données

Lorsque vous avez un jeu de données, une première étape sera assez souvent d'extraire des informations statistiques simples de vos données : moyenne, écart type, médiane... NumPy possède tout un jeu de fonctions pour ce type d'opérations.

In [109]:
arr = np.random.random(100)

Somme de toutes les valeurs :

In [110]:
arr.sum()    # np.sum(arr)

50.882373674863096

![image alt >](Images/numgrade.png)
Extraction des valeurs minimum et maximum :

In [111]:
print(arr.max())  # np.max(arr)
print(arr.min())  # np.min(arr)

0.9908472605803893
0.0009649300674712258


NOTE : Python possède également ses propres fonctions *sum(), max(), min()*. Il faudra prendre garde de ne pas les utiliser sur les tableaux ! Cela retournera le résultat escompté mais au prix d'une perte d'efficacité en terme de temps de calcul.

![image alt >](Images/numgrade.png)
Pour les tableaux à plusieurs dimensions, par défaut *np.sum, np.max, np.min* retourneront le résultat pour le tableau complet mais il est tout à fait possible de spécifier l'axe (*axis*) selon lequel on souhaite réaliser l'opération :

In [112]:
arr = np.arange(16).reshape(4, 4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [113]:
arr.sum()

120

In [114]:
arr.sum(axis=0)  # sum for each column

array([24, 28, 32, 36])

In [115]:
arr.max(axis=1)  # maximum for each row

array([ 3,  7, 11, 15])

<div class="alert alert-block alert-info">
    <b>NOTE</b>
    
La façon dont l'option *axis* doit être mentionnée peut paraître déroutante. Ici *axis* spécifie l'axe selon laquelle l'opération sera réalisée. 

Ainsi, *axis = 0* signifie que l'opération se réalisera selon les lignes, donc nous obtiendrons un résultat pour chaque colonne.

Au contraire *axis = 1* signifie que l'opération se réalisera selon les colonnes, donc nous obtiendrons un résultat pour chaque ligne.

![](Images/numpy_axis.png)
source : https://solothought.com/tutorial/python-numpy/
    
Pour aller plus loin sur cette notion d'"axis", vous pourrez trouver de nombreuses explications sur internet, vous trouverez également une très belle illustration sur ce site : [https://solothought.com/tutorial/python-numpy/](https://solothought.com/tutorial/python-numpy/) (section Axis).
</div>

![image alt >](Images/numgrade.png)
Il existe aussi des fonctions pour la médiane et les percentiles :

In [116]:
np.median(arr)

7.5

In [117]:
np.percentile(arr, 25)  # compute the 25th percentile of the data

3.75

![image alt >](Images/numgrade.png)
Voici quelques autres fonctions qui peuvent être utiles :

|  Function   | Description         |
|-------------|---------------------|    
|  np.prod    | product of elements |
|  np.cumsum| cumulative sum of the elements |
|  np.var     | variance            |
|  np.std     | écart-type            |
|  np.ravel   | return a flattened array  |
|  np.argmin  | index of minimum value  |
|  np.argmax  | index of maximum value  |
|  np.any     | Test whether any array element evaluates to True  (0 and False return False)  |
|  np.all     | Test whether all array elements evaluate to True  (0 and False return False)  |

![image alt >](Images/numgrade.png)
### Exercices (difficulté : ⭐)

**Objectifs pédagogiques**

- Utiliser des fonctions simples sur des tableaux.

- Comprendre pourquoi on doit utiliser les fonctions NumPy plutôt que les fonctions natives "Python" sur les tableaux.

- Apprendre à utiliser l'option axis.

**Enoncés**

1. Testez les fonctions présentées dans le tableau précédent.

2. Comparez les performances de np.sum() et sum() sur un tableau NumPy contenant 1 million d'éléments.

3. Créez un tableau 10x5 avec des valeurs aléatoires puis calculez les valeurs moyennes et l'écart type (standard deviation) pour chaque ligne.

![image alt <](Images/numpy.jpg)
![image alt >](Images/numgrade.png)

# Comparaison, masque et booléen

Il est souvent utile d'extraire des données en fonction de certains critères. Les masques booléens (boolean masking) vont nous permettre de le faire.

## Comparaison

D'autres *ufuncs* implémentées dans NumPy sont les opérateurs de comparaison. Ils retournent un tableau contenant des valeurs booléennes. Exemple :

In [118]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [119]:
arr > 5

array([False, False, False, False, False, False,  True,  True,  True,
        True])

![image alt >](Images/numgrade.png)
Les opérateurs classiques de comparaison sont implémentés en tant que *ufuncs* dans NumPy :

| Operator   |  corresponding ufunc   |
|------------|------------------------|
| ==         | np.equal               |
| !=         | np.not_equal           |
| <          | np.less                |
| <=         | np.less_equal          |
| >          | np.greater             |
| >=         | np.greater_equal       |


![image alt >](Images/numgrade.png)
### Utilisation des tableaux booléens

Déterminons le nombre de valeurs plus grandes qu'un certain seuil :

In [2]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [121]:
threshold = 5
np.sum(arr > threshold)

4

Nous trouvons que 4 éléments sont plus grands que 5.

![image alt >](Images/numgrade.png)
## Opérateurs booléens

Il est tout à fait possible de combiner les opérateurs logiques Python : &, |, ^ et ~ (comme pour les opérateurs précédents, ils sont également implémentés dans NumPy) : 

| Operator   |  corresponding ufunc   |
|------------|------------------------|
|  &         | np.bitwise_and         |
|  &#124;    | np.bitwise_or          |
|  ^         | np.bitwise_xor         |
|  ~         | np.bitwise_not         |

Par exemple, vous voulez connaître le nombre d'éléments plus grand qu'un seuil maximum ou plus petit qu'un seuil minimum :

In [122]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [3]:
max_threshold = 8
min_threshold = 2
np.sum((arr > max_threshold) | (arr < min_threshold))

3

<div class="alert alert-block alert-info">
    <b>NOTE</b>
    
Les parenthèses autour des comparaisons sont ici indispensables. Sans les parenthèses, (arr > max_threshold | arr < min_threshold) serait interpréter comme (arr > (max_threshold | arr) < min_threshold).

</div>

![image alt >](Images/numgrade.png)
## Masques

Pour sélectionner un sous-ensemble, il est aussi possible d'utiliser un tableau de booléens comme masque :

In [2]:
arr = np.random.randint(10, 20, (4, 5))
arr

array([[10, 10, 16, 10, 16],
       [16, 13, 10, 10, 17],
       [19, 17, 10, 10, 13],
       [11, 16, 13, 14, 10]])

Le tableau de booléens pour les éléments plus grands que 15 serait donc :

In [3]:
arr > 15

array([[False, False,  True, False,  True],
       [ True, False, False, False,  True],
       [ True,  True, False, False, False],
       [False,  True, False, False, False]])

![image alt >](Images/numgrade.png)
Nous pouvons alors utiliser le tableau de booléens comme masque :

In [4]:
arr[arr > 15]

array([16, 16, 16, 17, 19, 17, 16])

Le résultat est un tableau 1-D contenant tous les éléments plus grands que 15.

Bien entendu, vous pouvez combiner les masques avec les opérateurs logiques :

In [5]:
arr[(arr>10) & (arr<16)]   # Don't forget the parentheses

array([13, 13, 11, 13, 14])

![image alt >](Images/numgrade.png)
### Exercices (difficulté : ⭐⭐)

**Objectifs pédagogiques**

- Utiliser des fonctions NumPy.

- Travailler avec des tableaux de booléens.

- Utiliser les masques booléens.

- Travailler avec l'option axis.

**Enoncés**

1. Créez le tableau [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] : 

    - comptez le nombre d'éléments ayant une valeur plus grande que 6.

    - calculez la somme des nombres qui sont supérieurs à 6.

2. Avec np.random.randint(), créez un tableau 10x5 avec des entiers entre 0 et 10 (10 exclu).

3. Comptez le nombre d'éléments plus grands que 5 pour chaque ligne.

4. Pour chaque colonne, vérifiez s'il y a des valeurs plus grandes que 8 (le résultat est un tableau de taille 5 avec des True / False).

5. Vérifiez que toutes les valeurs sont inférieures à 10 (le résultat est un seul booléen, True normalement !).

6. Comptez le nombre d'éléments plus grands que 4 et plus petits que 6.

7. Comptez le nombre d'éléments plus grands que 8 ou plus petits que 2.

8. Extrayez les éléments plus grands que 3 et plus petits que 7.

9. Conservez dans le tableau 2-D les éléments plus grands que 3 et plus petits que 7 et remplacez les autres valeurs par 0 (une solution peut être d'utiliser la fonction np.where()).

10. Pour chaque ligne, calculez la somme des éléments plus grands que 3 et plus petits que 7.

![image alt <](Images/numpy.jpg)
![image alt >](Images/numgrade.png)

# Charger et sauvegarder les tableaux

NumPy offre la possibilité de sauvegarder les tableaux NumPy sur le disque dur (pour un accès futur, pour transmettre à votre collègue...).

In [None]:
arr = np.array([1, 2, 3])
np.save('test', arr)

La commande précédente a sauvegardé un fichier "test.npy" dans le répertoire local. Vous pouvez ouvrir ce fichier avec la commande *np.load* :

In [121]:
array_from_disk = np.load('test.npy')

In [122]:
array_from_disk

array([1, 2, 3])

![image alt >](Images/numgrade.png)
Avec NumPy, vous pouvez également lire les données d'un fichier texte (il faudra que chaque ligne possède le même nombres d'éléments). Imaginons que nous ayons un fichier texte contenant les coordonnées d'atomes, le contenu du fichier pourrait par exemple ressembler à ceci :

% atom - x - y - z

N      29.357 -35.310 100.674

CA     28.535 -36.521 100.362

...

Pour récupérer les coordonnées (les données numériques) dans un tableau NumPy, nous devrons pour cet exemple exclure la 1ère ligne et la 1ère colonne :

In [123]:
coordinates = np.loadtxt('coordinates.txt', skiprows=1, usecols=(1, 2, 3))
coordinates

array([[  29.357,  -35.31 ,  100.674],
       [  28.535,  -36.521,  100.362],
       [  27.058,  -36.151,  100.225],
       ..., 
       [   4.152,  -37.789,  110.628],
       [   2.624,  -37.837,  110.523],
       [   1.94 ,  -37.965,  111.844]])

Les données sont chargées dans un tableau, vous pouvez maintenant commencer à exploiter les données en utilisant les opérations que l'on a vues jusqu'à maintenant !

<div class="alert alert-block alert-info">
    <b>NOTE</b>
    
Si vous avez besoin de plus de flexibilité pour le chargement de fichiers textes avec NumPy, en particulier la gestion des données manquantes, je vous invite à explorer la fonction [np.genfromtxt()](https://numpy.org/devdocs/user/basics.io.genfromtxt.html).
    
</div>

![image alt >](Images/numgrade.png)

### Exercices (difficulté : ⭐⭐)

**Objectifs pédagogiques**

- Charger des données à partir d'un fichier texte.

- Réaliser des calculs à partir des données chargées.

- Utiliser le broadcasting pour réaliser les calculs.

**Enoncés**

1. Chargez dans un tableau NumPy le fichier *coordinates.txt*.

2. Calculez les distances entre le 1er atome (1ère ligne) et les autres atomes (lignes suivantes).

3. Calculez les distances entre les atomes successifs (distance atome 1 - atome 2, distance atome 2 - atome 3...).

$d_{12} = \sqrt{(x_1-x_2)^2 + (y_1-y_2)^2 + (z_1-z_2)^2}$

![image alt >](Images/numgrade.png)
Si vous avez besoin de collaborer avec votre collègue qui (malheureusement) n'utilise pas NumPy, vous pourrez sauvegarder et transmettre vos données dans un fichier texte :

In [124]:
np.savetxt('new_coordinates.txt', coordinates, header="X Y Z", fmt="%8.3f")

Dans le répertoire courant, il y a maintenant un fichier "new_coordinates.txt" avec l'entête "# X Y Z" et les données dans le format "8.3f" (bloc de 8 caractères de long avec 3 chiffres significatifs après la virgule (decimal point)).

![image alt >](Images/numgrade.png)

![image alt <](Images/numpy.jpg)

# Conclusion 

    
 - NumPy permet de travailler avec des tableaux multidimensionnels,
 
 - NumPy intègre de nombreuses opérations (manipulation et calcul) et s'interface facilement avec d'autres librairies scientifiques de l'univers Python,
 
 - NumPy permet d'atteindre des performances proches de celles proposées par des langages compilés.


Limitation : NumPy effectue les calculs avec des tableaux stockés en mémoire (RAM) en utilisant le CPU.

Pour les données volumineuses ou pour profiter de la puissance de calcul des différentes avancées technologiques (multiprocessing, calcul distribué, GPU, TPU...), de nombreuses librairies émergent (Dask, CuPy, xarray...).

Et pour ces librairies, NumPy propose un cadre (adopté par plusieurs de ces librairies) qui permet de s'interfacer facilement avec ces nouvelles librairies. 

![](Images/numpy_array_librairies.png)

![image alt >](Images/numgrade.png)

Ainsi un code écrit avec NumPy pourra sans trop d'effort être modifié pour utiliser ces autres librairies :

![figure3 Array programming with NumPy. Nature 585, 357–362 (2020)](Images/fig3_numpy_api_and_protocol.png)


Article scientifique : Harris, C.R., Millman, K.J., van der Walt, S.J. et al. Array programming with NumPy. Nature 585, 357–362 (2020). https://doi.org/10.1038/s41586-020-2649-2