## NumPy - An N-dimensional Array manipulations library

[NumPy](https://docs.scipy.org/doc/numpy/user/index.html) est une première boîte à outils pour le développement de programmes scientifiques. Cette
bibliothèque offre en particulier des tableaux multidimensionnels simples à manipuler et **performants** (ce qui n'est pas le cas des listes de Python).

Il est à noter que l'on retrouve la syntaxe de Numpy pour la manipulation des tableaux dans d'autres langages comme R ou Julia et que les bibliothèques d'IA comme PyTorch, TensorFlow ou JAX utilisent aussi cette syntaxe.

## NumPy - An N-dimensional Array manipulations library

[NumPy](https://docs.scipy.org/doc/numpy/user/index.html) is a toolkit for scientific program development. It
provides multidimensional arrays that are simple to manipulate and **efficient** (which Python lists are not).

Numpy's syntax is also used in other languages like R or Julia. In AI, TensorFlow, PyTorch and JAX use also this syntax.

In [1]:
import numpy as np  # np is the convention

À la différence des listes, __les tableaux ont toutes leurs valeurs du même type__.

## Création d'un tableau

Unlike lists, __arrays have all their values of the same type__.

## Creating an array

In [2]:
a = np.array([[1,2,3], [4,5,7]]) # 2D array built from a list
print(a)
print("shape: ",a.shape)
print("type: ",type(a[0,0]))

[[1 2 3]
 [4 5 7]]
shape:  (2, 3)
type:  <class 'numpy.int64'>


### dtype : le choix du type des éléments

Lorsqu'on fait du calcul scientifique il est important de choisir le type des tableaux afin d'optimiser la mémoire, les erreurs, la vitesse.

NumPy propose les types suivants :

<table border="1" class="docutils">
<colgroup>
<col width="15%" />
<col width="85%" />
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">Data type</th>
<th class="head">Description</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td>bool</td>
<td>Boolean (True or False) stored as a byte</td>
</tr>
<tr class="row-odd"><td>int</td>
<td>Platform integer (normally either <tt class="docutils literal"><span class="pre">int32</span></tt> or <tt class="docutils literal"><span class="pre">int64</span></tt>; not a Python int!)</td>
</tr>
<tr class="row-even"><td>int8</td>
<td>Byte (-128 to 127)</td>
</tr>
<tr class="row-odd"><td>int16</td>
<td>Integer (-32768 to 32767)</td>
</tr>
<tr class="row-even"><td>int32</td>
<td>Integer (-2147483648 to 2147483647)</td>
</tr>
<tr class="row-odd"><td>int64</td>
<td>Integer (-9223372036854775808 to 9223372036854775807)</td>
</tr>
<tr class="row-even"><td>uint8</td>
<td>Unsigned integer (0 to 255)</td>
</tr>
<tr class="row-odd"><td>uint16</td>
<td>Unsigned integer (0 to 65535)</td>
</tr>
<tr class="row-even"><td>uint32</td>
<td>Unsigned integer (0 to 4294967295)</td>
</tr>
<tr class="row-odd"><td>uint64</td>
<td>Unsigned integer (0 to 18446744073709551615)</td>
</tr>
<tr class="row-even"><td>float</td>
<td>Shorthand for <tt class="docutils literal"><span class="pre">float64</span></tt>.</td>
</tr>
<tr class="row-odd"><td>float16</td>
<td>Half precision float: sign bit, 5 bits exponent,
10 bits mantissa</td>
</tr>
<tr class="row-even"><td>float32</td>
<td>Single precision float: sign bit, 8 bits exponent,
23 bits mantissa</td>
</tr>
<tr class="row-odd"><td>float64</td>
<td>Double precision float: sign bit, 11 bits exponent,
52 bits mantissa</td>
</tr>
<tr class="row-even"><td>complex</td>
<td>Shorthand for <tt class="docutils literal"><span class="pre">complex128</span></tt>.</td>
</tr>
<tr class="row-odd"><td>complex64</td>
<td>Complex number, represented by two 32-bit floats (real
and imaginary components)</td>
</tr>
<tr class="row-even"><td>complex128</td>
<td>Complex number, represented by two 64-bit floats (real
and imaginary components)</td>
</tr>
</tbody>
</table>

### dtype: the choice of weapons

When doing scientific calculations it is important to choose the type of tables to optimize memory, errors, speed.

NumPy offers the following types:

<table border="1" class="docutils">
<colgroup>
<col width="15%" />
<col width="85%" />
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">Data type</th>
<th class="head">Description</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td>bool</td>
<td>Boolean (True or False) stored as a byte</td>
</tr>
<tr class="row-odd"><td>int</td>
<td>Platform integer (usually either <tt class="docutils literal"><span class="pre">int32</span></tt> or <tt class="docutils literal"><span class="pre">int64</span></tt>; not a Python int!) </td>
</tr>
<tr class="row-even"><td>int8</td>
<td>Byte (-128 to 127) </td>
</tr>
<tr class="row-odd"><td>int16</td>
<td>Integer (-32768 to 32767) </td>
</tr>
<tr class="row-even"><td>int32</td>
<td>Integer (-2147483648 to 2147483647) </td>
</tr>
<tr class="row-odd"><td>int64</td>
<td>Integer (9223372036854775808 to 9223372036854775807) </td>
</tr>
<tr class="row-even"><td>uint8</td>
<td>Unsigned integer (0 to 255) </td>
</tr>
<tr class="row-odd"><td>uint16</td>
<td>Unsigned integer (0 to 65535) </td>
</tr>
<tr class="row-even"><td>uint32</td>
<td>Unsigned integer (0 to 4294967295) </td>
</tr>
<tr class="row-odd"><td>uint64</td>
<td>Unsigned integer (0 to 18446744073709551615) </td>
</tr>
<tr class="row-even"><td>float</td>
<td>Shorthand for <tt class="docutils literal"><span class="pre">float64</span></tt>.</td>
</tr>
<tr class="row-odd"><td>float16</td>
<td>Half precision float: sign bit, 5 bits exponent,
10-bit mantissa</td>
</tr>
<tr class="row-even"><td>float32</td>
<td>Single precision float: sign bit, 8 bits exponent,
23-bit mantissa</td>
</tr>
<tr class="row-odd"><td>float64</td>
<td>Double precision float: sign bit, 11 bits exponent,
52-bit mantissa</td>
</tr>
<tr class="row-even"><td>complex</td>
<td>Shorthand for <tt class="docutils literal"><span class="pre">complex128</span></tt>.</td>
</tr>
<tr class="row-odd"><td>complex64</td>
<td>Complex number, represented by two 32-bit floats (real
and imaginary components) </td>
</tr>
<tr class="row-even"><td>complex128</td>
<td>Complex number, represented by two 64-bit floats (real
and imaginary components) </td>
</tr>
</tbody>
</table>

In [3]:
x = np.arange(4, dtype= np.uint8)  # arange is the numpy version of range to produce an array
print("x =", x, x.dtype)

x[0] = -2                          # 0 - 2 = max -1 for unsigned int
print("x =", x, x.dtype)

y = x.astype('float32')            # conversion
print("y =", y, y.dtype)

x = [0 1 2 3] uint8
x = [254   1   2   3] uint8
y = [254.   1.   2.   3.] float32


On peut connaitre la taille mémoire (en octets) qu'occupe un élément du tableau  et l'occupation de tout le tableau :

We can know the memory size (in bytes) occupied by an element of the array:

In [4]:
print(x[0].itemsize)
print(y[0].itemsize)
y.nbytes

1
4


16

### Méthodes prédéfinies

On a déjà vu la méthode `arange` pour créer un tableau, il en existe aussi pour
créer un tableau vide ou de la dimension de son choix avec que des 0 ou que des 1 ou ce qu'on veut.
En fait il existe tellement de méthodes qu'on en présente qu'une petite partie ici, pour les autres voir la
[liste des méthodes de création prédéfinies](https://docs.scipy.org/doc/numpy/reference/routines.array-creation.html).

### Predefined methods

There is also the possibility to create an empty or predefined array of the dimension of your choice using predefined methods. In fact, there are a large number of predefined methods for array creation of which we only see few here, for the others see the [list of predefined creation methods](https://docs.scipy.org/doc/numpy/reference/routines.array-creation.html).

In [5]:
a = np.empty((2,2), dtype=float)  # empty do not set any value, it is faster
print("Empty float:\n", a)

print("Float zeros:\n", np.zeros((2,2), dtype=float))   # matrix filled with 0

print("Complex ones:\n", np.ones((2,3), dtype=complex))  # matrix filled with 1

print("Full of 3.2:\n", np.full((2,2), 3.2))

print("La matrice suivante est affichée partiellement car trop grande : ")
print(np.identity(1000))              # identity matrix

Empty float:
 [[2.42350504e-316 0.00000000e+000]
 [4.94065646e-324             nan]]
Float zeros:
 [[0. 0.]
 [0. 0.]]
Complex ones:
 [[1.+0.j 1.+0.j 1.+0.j]
 [1.+0.j 1.+0.j 1.+0.j]]
Full of 3.2:
 [[3.2 3.2]
 [3.2 3.2]]
La matrice suivante est affichée partiellement car trop grande : 
[[1. 0. 0. ... 0. 0. 0.]
 [0. 1. 0. ... 0. 0. 0.]
 [0. 0. 1. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 1. 0. 0.]
 [0. 0. 0. ... 0. 1. 0.]
 [0. 0. 0. ... 0. 0. 1.]]


### Avec des valeurs aléatoires

La sous-bibliothèque [`np.random`](https://docs.scipy.org/doc/numpy/reference/routines.random.html) offre des méthodes pour générer des tableaux de valeurs aléatoires.

### With random values

The sub-library [`np.random`](https://docs.scipy.org/doc/numpy/reference/routines.random.html) provides methods for generating arrays of random values.

In [6]:
print("Random integers < 10:\n", np.random.randint(10, size=(3,4))) # can also choose a min

print("Random reals between 0 and 1 :\n", np.random.random(size=(3,4)))

Random integers < 10:
 [[7 5 7 2]
 [6 7 0 8]
 [6 3 8 3]]
Random reals between 0 and 1 :
 [[0.45228105 0.39674551 0.02142443 0.14342572]
 [0.95223097 0.85798264 0.85777533 0.28784271]
 [0.5142878  0.36823048 0.87704756 0.44096786]]


On peut choisir la loi de distribution (loi uniforme par défaut).

We can choose the law of distribution (uniform law by default).

In [7]:
loc = 3
scale = 1.5
np.random.normal(loc, scale, size=(2,3))  # Gauss distribution

array([[1.44216124, 2.5586318 , 4.28770816],
       [2.16814785, 1.82332334, 4.53031302]])

### En redéfinissant sa forme

Un cas classique pour faire des tests est de créer un petit tableau multidimensionnel avec des valeurs différentes.
Pour cela le plus simple est de mettre 0,1,2,...,N dans les cases de notre tableau de forme (3,4) par exemple. 
Cela se fait avec `arange` qu'on a déjà vu pour générer les valeurs et `reshape` pour avoir la forme voulue :

### By redefining its shape

A classic case for testing is to create a small multidimensional array with different values.
For this the simplest is to put 0,1,2,...,N in the boxes of our form table (3,4) for example.
This is done with `arange` which we have already seen to generate the values and `reshape` to have the desired form:

In [8]:
arr = np.arange(3*4).reshape((3,4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [9]:
arr[1, 0]

4

Attention, la numérotation des cases d'un tableau est effectuée avec des boucles imbriquées aussi c'est toujours la dernière dimension qui varie le plus vite. En 3D cela veut dire que passer d'un élément au suivant fait varier le dernier indice (suivant z). Cela ne correspond pas à la manière humaine de remplir un cube (on a tendance à faire des empilements de tableaux 2D). À l'usage cela ne pose pas de problème, c'est
seulement bizarre lorsqu'on affiche des tests pour voir.

```
 humain     Numpy
   ┌─┬─┐      ┌─┬─┐ 
┌─┬─┐│5│   ┌─┬─┐│3│
│0│1│┼─┤   │0│2│┼─┤
├─┼─┤│7│   ├─┼─┤│7│
│2│3│┴─┘   │4│6│┴─┘
└─┴─┘      └─┴─┘  
```          

Attention, the numbering of the boxes of a table is carried out with nested loops.  It is always the last dimension which varies most quickly. In 3D this means that going from one element to the next varies the last index (along z). This does not correspond to the human way of filling a cube (we tend to stack 2D arrays). In 
regular use this is not a problem, it is
only weird when printing tests to check.

```
 human    Numpy
   ┌─┬─┐    ┌─┬─┐
┌─┬─┐│5│ ┌─┬─┐│3│
│0│1│┼─┤ │0│2│┼─┤
├─┼─┤│7│ ├─┼─┤│7│
│2│3│┴─┘ │4│6│┴─┘
└─┴─┘    └─┴─┘
```

In [10]:
A = np.arange(8).reshape(2,2,2) #  a[0,1,0] is 2 and a[0,1,1] is 3
A

array([[[0, 1],
        [2, 3]],

       [[4, 5],
        [6, 7]]])

L'inverse de reshape est `flatten()` qui transforme un tableau à plusieurs dimensions en un tableau à 1 dimension. On peut aussi utiliser `flat` pour avoir une vue 1D sur le tableau sans le transformer.

The reverse of reshape is `flatten()` which reshapes a multi-dimensional array into a 1-dimensional array. We can also use `flat` to have a 1D view on the array without reshaping it.

In [11]:
print(A.flat[5])
print(A.shape)

5
(2, 2, 2)


### Mélanger les valeurs

Si on veut travailler avec les valeurs d'un tableau prises dans un ordre aléatoire alors on peut mélanger
le tableau avec `np.random.permutation()`. Attention la permutation s'effectue sur les éléments du premier niveau du tableau, `A[:]`, à savoir des tableaux
si le tableau est à plusieurs dimensions (un tableau de tableaux).

### Mixing values

If we want to work with the values of an array taken in a random order then we can mix
the table with `np.random.permutation()`. Attention the permutation is carried out on the elements of the first level of the array, `A[:]`, i.e. arrays
if the array is multi-dimensional (an array of arrays).

In [12]:
data = np.arange(12).reshape(3,4)
np.random.permutation(data) # permutes lines only

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [ 0,  1,  2,  3]])

Si on veut mélanger toutes les valeurs il faut applatir le tableau et lui redonner sa forme :

If you want to mix all the values ​​you have to flatten the table and give it back its shape:

In [13]:
data = np.random.permutation(data.flatten()).reshape(data.shape) # it works because flatten returns a copy
data

array([[10,  3, 11,  8],
       [ 4,  1,  2,  7],
       [ 0,  9,  6,  5]])

#### Avec une fonction de son choix

On peut aussi créer un tableau avec une fonction qui donne la valeur du tableau pour chaque indice (i,j) :

#### With a custom-made function

We can also create an array with a function that gives the value of the array for each index (i, j):

In [14]:
def f(i,j):
    return 2*i - j

np.fromfunction(f, shape=(3,4), dtype=int)

array([[ 0, -1, -2, -3],
       [ 2,  1,  0, -1],
       [ 4,  3,  2,  1]])

## Opérations de base

Numpy permet d'appliquer les [opérations mathématiques](https://numpy.org/doc/stable/reference/routines.math.html) usuelles à tous les éléments des tableaux :

## Basic Operations

Numpy makes it possible to apply the usual operations to all the elements of the array:

In [15]:
A = np.array([[1,2], [3,4]])

print("A + 1:\n", A + 1, '\n')
print("2 A + Id:\n", 2 * A + np.identity(2), '\n')
print(u"A * A (element-wise product):\n", A * A, '\n')  # or np.square(A)
print(u"A @ A (matrix or dot product):\n", A @ A)  # or A.dot(A)

A + 1:
 [[2 3]
 [4 5]] 

2 A + Id:
 [[3. 4.]
 [6. 9.]] 

A * A (element-wise product):
 [[ 1  4]
 [ 9 16]] 

A @ A (matrix or dot product):
 [[ 7 10]
 [15 22]]


On peut transposer un tableau avec `.T`. Cela ne fait rien avec un tableau en 1D, pour faire la différence entre vecteur horizontal et un vecteur vertical, il faut l'écrire en 2D :

You can transpose an array with `.T`. It does nothing with a 1D array, to make a horizontal vector or a vertical vector, you have to write it in 2D:

In [16]:
v = np.array([[1,3,5]])
print(v, '\n\n', v.T, '\n')
print("Guess what v + v.T means:\n", v + v.T)

[[1 3 5]] 

 [[1]
 [3]
 [5]] 

Guess what v + v.T means:
 [[ 2  4  6]
 [ 4  6  8]
 [ 6  8 10]]


On dispose aussi des fonctions trigonométriques, hyperboliques, exposant, logarithme...

Trigonometric functions and other usual mathematical functions are also available.

In [17]:
np.set_printoptions(precision=3)  # set printing precision for reals
np.sin(A)

array([[ 0.841,  0.909],
       [ 0.141, -0.757]])

Enfin Numpy offre un ensemble de méthodes pour faire des calculs sur les élements du tableau : 

* `sum()` pour additionner tous les élements 
* `mean()` pour avoir la moyenne des éléments et `average()` pour avoir la moyenne pondérée, 
* `prod()` pour multiplier tous les élements, 
* `min()` et `max()` pour avoir la valeur minimale et la valeur maximale,
* `argmin()` et `argmax()` pour avoir les indices des valeurs minimales et maximales du tableau
* `mininum()` et `maximum()` pour avoir le tableau des minimums/maximums entre 2 tableaux ou entre un tableau et une valeur,
* `cumsum()` et `cumprod()` pour les additions et multiplication cumulatives, 
* `diff()` pour avoir l'écart avec l'élément suivant (utile pour calculer une dérivée).

Chaque méthode `A.sum()` existe aussi en fonction `np.sum(A)`.

Finally Numpy offers a set of methods to perform calculations on array elements:

* `sum()` to sum all elements
* `mean()` to get the average of the elements and `average()` to get the weighted average,
* `prod()` to multiply all elements,
* `min()` and `max()` to get the minimum value and the maximum value,
* `argmin()` and `argmax()` to have the array indices of the minimum and maximum value,
* `mininum()` and `maximum()` to get the minimum/maximum values between 2 tables or between a table and a value,
* `cumsum()` and `cumprod()` for cumulative addition and multiplication,
* `diff()` to get the gap with the next element (useful to calculate a derivative).

Each `A.sum()` method also exists as a `np.sum(A)` function.

In [18]:
A.argmax()

3

In [19]:
np.diff(A.flatten())

array([1, 1, 1])

## Parcourir un tableau

La façon naturelle pour parcourir tous les éléments d'un tableau à plusieurs dimensions est de faire une boucle pour chaque dimension :

## Browse an array

The natural way to browse all the elements of a multi-dimensional array is to make a loop for each dimension:

In [1]:
a = np.arange(6).reshape(3,2)
for ligne in a:
    for element in ligne:
        print(" ", element, end="")  # end="" to avoid the return after each print
    print()

NameError: name 'np' is not defined

On a vu dans la manipulation de la forme d'un tableau qu'on peut l'applatir, mais plutôt que d'utiliser `flatten()` qui fabrique un tableau en 1 dimension, on préfère utiliser  `flat` qui donne un [itérateur](https://fr.wikipedia.org/wiki/It%C3%A9rateur) pour parcourir tous les éléments du tableau.

We saw in the manipulation of the form of an array that we can make it flatter, but rather than using `flatten()` which makes an array in 1 dimension, we prefer to use `flat` which gives an [iterator](https://en.wikipedia.org/wiki/Iterator) to iterate through all the elements of the array.

In [21]:
for v in a.flat:
    print(v)

0
1
2
3
4
5


Il est aussi possible de faire une boucle sur les indices mais c'est nettement moins performant.

It is also possible to make a loop on the indices but it is clearly less powerful.

In [22]:
for i in range(len(a)):
    for j in range(len(a[i])):
        print(a[i,j])

0
1
2
3
4
5


## Travailler en vectoriel

Faire des boucles correspond souvent à la facon de penser de ceux qui programment depuis longtemps mais ce n'est pas efficace en Python. Il est préférable 
de travailler directement sur le tableau. Ainsi plutôt que de faire la boucle

```
for i in range(len(x)):
   z[i] = x[i] + y[i]
```

on fera

```
z = x + y
```
   
Non seulement c'est plus lisible mais c'est aussi plus rapide.

## Think vector

Making loops is often our way of thinking but it is not effective. It is better to
to work directly on the whole array. So rather than making the loop

```
for i in range (len (x)):
   z[i] = x[i] + y[i]
```

we will do

```
z = x + y
```
   
Not only is it more readable but it is also faster.

In [23]:
def double_loop(a):
    for i in range(a.shape[0]):
        for j in range(a.shape[1]):
            a[i,j] = np.sqrt(a[i,j])  # change in-place

def iterate(a):
    for x in a.flat:
        x = np.sqrt(x)                # modification not saved in a, x is a local var

b = np.random.random(size=(200,200))
a = b.copy()                      # we need a copy to be sure to use the same data each time
%timeit double_loop(a)

a = b.copy()       
%timeit iterate(a)

a = b.copy()
%timeit np.sqrt(a)   # vectorial operation, 1000 times faster

45.5 ms ± 494 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
35.3 ms ± 139 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
36.9 µs ± 156 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
