# NumPy - N-dimensional Array manipulations library

[NumPy](https://docs.scipy.org/doc/numpy/user/index.html) est une première boite à outils pour le développement de programme scientifique. Cette
bibliothèque offre en particulier des tableaux multidimentionels simple à manipuler et **performants** (ce qui n'est pas le cas des listes de Python).

# NumPy - N-dimensional Array manipulations library

[NumPy](https://docs.scipy.org/doc/numpy/user/index.html) is a toolkit for scientific program development. It
provides multidimensional arrays that are simple to manipulate and **efficient** (which Python lists are not).

In [1]:
import numpy as np  # np is the convention

A la différence des listes, __les tableaux ont toutes leurs valeurs du même type__.

## Création d'un tableau

Unlike lists, __tables have all their values of the same type__.

## Creating an array

In [2]:
a = np.array([[1,2,3], [4,5,7]]) # 2D array built from a list
print(a)
print("shape: ",a.shape)
print("type: ",type(a[0,0]))

[[1 2 3]
 [4 5 7]]
shape:  (2, 3)
type:  <class 'numpy.int64'>


### dtype : le choix des armes

Lorsqu'on fait du calcul scientifique il est important de choisir le type des tableaux afin d'optimiser la mémoire, les erreurs, la vitesse.

NumPy propose les types suivants :

<table border="1" class="docutils">
<colgroup>
<col width="15%" />
<col width="85%" />
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">Data type</th>
<th class="head">Description</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td>bool</td>
<td>Boolean (True or False) stored as a byte</td>
</tr>
<tr class="row-odd"><td>int</td>
<td>Platform integer (normally either <tt class="docutils literal"><span class="pre">int32</span></tt> or <tt class="docutils literal"><span class="pre">int64</span></tt>)</td>
</tr>
<tr class="row-even"><td>int8</td>
<td>Byte (-128 to 127)</td>
</tr>
<tr class="row-odd"><td>int16</td>
<td>Integer (-32768 to 32767)</td>
</tr>
<tr class="row-even"><td>int32</td>
<td>Integer (-2147483648 to 2147483647)</td>
</tr>
<tr class="row-odd"><td>int64</td>
<td>Integer (9223372036854775808 to 9223372036854775807)</td>
</tr>
<tr class="row-even"><td>uint8</td>
<td>Unsigned integer (0 to 255)</td>
</tr>
<tr class="row-odd"><td>uint16</td>
<td>Unsigned integer (0 to 65535)</td>
</tr>
<tr class="row-even"><td>uint32</td>
<td>Unsigned integer (0 to 4294967295)</td>
</tr>
<tr class="row-odd"><td>uint64</td>
<td>Unsigned integer (0 to 18446744073709551615)</td>
</tr>
<tr class="row-even"><td>float</td>
<td>Shorthand for <tt class="docutils literal"><span class="pre">float64</span></tt>.</td>
</tr>
<tr class="row-odd"><td>float16</td>
<td>Half precision float: sign bit, 5 bits exponent,
10 bits mantissa</td>
</tr>
<tr class="row-even"><td>float32</td>
<td>Single precision float: sign bit, 8 bits exponent,
23 bits mantissa</td>
</tr>
<tr class="row-odd"><td>float64</td>
<td>Double precision float: sign bit, 11 bits exponent,
52 bits mantissa</td>
</tr>
<tr class="row-even"><td>complex</td>
<td>Shorthand for <tt class="docutils literal"><span class="pre">complex128</span></tt>.</td>
</tr>
<tr class="row-odd"><td>complex64</td>
<td>Complex number, represented by two 32-bit floats (real
and imaginary components)</td>
</tr>
<tr class="row-even"><td>complex128</td>
<td>Complex number, represented by two 64-bit floats (real
and imaginary components)</td>
</tr>
</tbody>
</table>

#### dtype: the choice of weapons

When doing scientific calculation it is important to choose the type of tables to optimize memory, errors, speed.

NumPy offers the following types:

<table border="1" class="docutils">
<colgroup>
<col width="15%" />
<col width="85%" />
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">Data type</th>
<th class="head">Description</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td>bool</td>
<td>Boolean (True or False) stored as a byte</td>
</tr>
<tr class="row-odd"><td>int</td>
<td>Platform integer (usually either <tt class="docutils literal"><span class="pre">int32</span></tt> or <tt class="docutils literal"><span class="pre">int64</span></tt>) </td>
</tr>
<tr class="row-even"><td>int8</td>
<td>Byte (-128 to 127) </td>
</tr>
<tr class="row-odd"><td>int16</td>
<td>Integer (-32768 to 32767) </td>
</tr>
<tr class="row-even"><td>int32</td>
<td>Integer (-2147483648 to 2147483647) </td>
</tr>
<tr class="row-odd"><td>int64</td>
<td>Integer (9223372036854775808 to 9223372036854775807) </td>
</tr>
<tr class="row-even"><td>uint8</td>
<td>Unsigned integer (0 to 255) </td>
</tr>
<tr class="row-odd"><td>uint16</td>
<td>Unsigned integer (0 to 65535) </td>
</tr>
<tr class="row-even"><td>uint32</td>
<td>Unsigned integer (0 to 4294967295) </td>
</tr>
<tr class="row-odd"><td>uint64</td>
<td>Unsigned integer (0 to 18446744073709551615) </td>
</tr>
<tr class="row-even"><td>float</td>
<td>Shorthand for <tt class="docutils literal"><span class="pre">float64</span></tt>.</td>
</tr>
<tr class="row-odd"><td>float16</td>
<td>Half precision float: sign bit, 5 bits exponent,
10-bit mantissa</td>
</tr>
<tr class="row-even"><td>float32</td>
<td>Single precision float: sign bit, 8 bits exponent,
23-bit mantissa</td>
</tr>
<tr class="row-odd"><td>float64</td>
<td>Double precision float: sign bit, 11 bits exponent,
52-bit mantissa</td>
</tr>
<tr class="row-even"><td>complex</td>
<td>Shorthand for <tt class="docutils literal"><span class="pre">complex128</span></tt>.</td>
</tr>
<tr class="row-odd"><td>complex64</td>
<td>Complex number, represented by two 32-bit floats (real
and imaginary components) </td>
</tr>
<tr class="row-even"><td>complex128</td>
<td>Complex number, represented by two 64-bit floats (real
and imaginary components) </td>
</tr>
</tbody>
</table>

In [3]:
x = np.arange(4, dtype= np.uint8)  # arange is the numpy version of range to produce an array
print("x =", x, x.dtype)

x[0] = -2                          # 0 - 2 = max -1 for unsigned int
print("x =", x, x.dtype)

y = np.float32(x)
print("y =", y, y.dtype)

x = [0 1 2 3] uint8
x = [254   1   2   3] uint8
y = [254.   1.   2.   3.] float32


On peut connaitre la taille mémoire (en octets) qu'occupe un élément du tableau  et l'occupation de tout le tableau :

We can know the memory size (in bytes) occupied by an element of the array:

In [4]:
print(x[0].itemsize)
print(y[0].itemsize)
y.nbytes

1
4


16

### Méthodes prédéfinies

On a déjà vu la méthode `arange` pour créer un tableau, il en existe aussi pour
créer un tableau vide ou de la dimension de son choix avec que des 0 ou que des 1 ou ce qu'on veut.
En fait il existe tellement de méthodes qu'on en présente qu'une petite partie ici, pour les autres voir la
[liste des méthodes de création prédéfinies](https://docs.scipy.org/doc/numpy/reference/routines.array-creation.html).

#### Predefined methods

There is also the possibility to create an empty or predefined array of the dimension of your choice using
[predefined creation methods](https://docs.scipy.org/doc/numpy/reference/routines.array-creation.html):

In [5]:
a = np.empty((2,2), dtype=float)  # empty do not set any value, it is faster
print("Empty float:\n", a)

print("Float zeros:\n", np.zeros((2,2), dtype=float))   # matrix filled with 0

print("Complex ones:\n", np.ones((2,3), dtype=complex))  # matrix filled with 1

print("Full of 3.2:\n", np.full((2,2), 3.2))

print("La matrice suivant est affichée partiellement car trop grande : ")
print(np.identity(1000))              # identity matrix

Empty float:
 [[9.7715434e-317 0.0000000e+000]
 [0.0000000e+000 0.0000000e+000]]
Float zeros:
 [[0. 0.]
 [0. 0.]]
Complex ones:
 [[1.+0.j 1.+0.j 1.+0.j]
 [1.+0.j 1.+0.j 1.+0.j]]
Full of 3.2:
 [[3.2 3.2]
 [3.2 3.2]]
La matrice suivant est affichée partiellement car trop grande : 
[[1. 0. 0. ... 0. 0. 0.]
 [0. 1. 0. ... 0. 0. 0.]
 [0. 0. 1. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 1. 0. 0.]
 [0. 0. 0. ... 0. 1. 0.]
 [0. 0. 0. ... 0. 0. 1.]]


### Avec des valeurs aléatoires

La sous-bibliothèque [`np.random`](https://docs.scipy.org/doc/numpy/reference/routines.random.html) offre des méthodes pour générer des tableaux de valeurs aléatoires.

#### With random values

The sub-library [`np.random`](https://docs.scipy.org/doc/numpy/reference/routines.random.html) provides methods for generating arrays of random values.

In [6]:
print("Random integers < 10:\n", np.random.randint(10, size=(3,4))) # can also choose a min

print("Random reals between 0 and 1 :\n", np.random.random(size=(3,4)))

Random integers < 10:
 [[4 3 1 7]
 [6 5 6 6]
 [8 8 4 2]]
Random reals between 0 and 1 :
 [[0.42735661 0.74622255 0.97059569 0.01341849]
 [0.74336338 0.37379756 0.00773447 0.34732429]
 [0.39666865 0.75020803 0.10339106 0.94909208]]


On peut choisir la loi de distribution (loi uniforme par défaut).

We can choose the law of distribution (uniform law by default).

In [7]:
loc = 3
scale = 1.5
np.random.normal(loc, scale, size=(2,3))  # Gauss distribution

array([[2.51893035, 7.15679333, 3.29174901],
       [2.31984661, 4.37205006, 1.86995428]])

### En redéfinissant sa forme

Un cas classique pour faire des tests est de créer un petit tableau multidimensionnelle avec des valeurs différentes.
Pour cela le plus simple est de mettre 1,2,3... N dans les cases de notre tableau de forme (3,4) par exemple. 
Cela se fait avec `arange` qu'on a déjà vu pour générer les valeurs et `reshape` pour avoir la forme voulue :

In [8]:
np.arange(3*4).reshape((3,4))

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

Attention, c'est toujours la dernière dimension qui varie le plus vite. En 3D cela ne correspond pas à la manière humaine de remplir un cube (on a tendance à faire des empilements de tableaux 2D). À l'usage cela ne pose pas de problème, c'est
seulement bizarre lorsqu'on fait des tests pour voir.

```
 humain     Numpy
   ┌─┬─┐      ┌─┬─┐ 
┌─┬─┐│5│   ┌─┬─┐│3│
│0│1│┼─┤   │0│2│┼─┤
├─┼─┤│7│   ├─┼─┤│7│
│2│3│┴─┘   │4│6│┴─┘
└─┴─┘      └─┴─┘  
```          

In [9]:
np.arange(8).reshape(2,2,2)  # first 2D array is for first row (i=0), second for second row (i=1)

array([[[0, 1],
        [2, 3]],

       [[4, 5],
        [6, 7]]])

Note : l'inverse de reshape est `flatten()` qui transforme un tableau à plusieurs dimension en un tableau à 1 dimension.

### En mélangeant les valeurs

Si on veut travailler avec les valeurs d'un tableau prises dans un ordre aléatoire alors on peut mélanger
le tableau avec `np.random.permutation`. Attention la permutation est sur les éléments du tableau donc des tableaux
si le tableau est à plusieurs dimensions.

In [10]:
data = np.arange(12).reshape(3,4)
np.random.permutation(data) # permutes lines only

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [ 0,  1,  2,  3]])

Si on veut mélanger toutes les valeurs il faut applatir le tableau et lui redonner sa forme :

In [11]:
np.random.permutation(data.flatten()).reshape(data.shape)

array([[ 7, 11,  5,  4],
       [10,  1,  2,  0],
       [ 6,  9,  3,  8]])

### Avec sa fonction

On peut aussi créer un tableau avec une fonction qui donne la valeur du tableau pour chaque indice (i,j) :

#### With its own function

We can also create an array with a function that gives the value of the array for each index (i, j):

In [12]:
def f(i,j):
    return 2*i - j

np.fromfunction(f, shape=(3,4), dtype=int)

array([[ 0, -1, -2, -3],
       [ 2,  1,  0, -1],
       [ 4,  3,  2,  1]])

## Opérations de base

Numpy permet d'appliquer les opérations uselles à tous les éléments des tableaux :

## Basic Operations

Numpy makes it possible to apply the usual operations to all the elements of the array:

In [13]:
a = np.array([[1,2], [4,5]])
print("a :\n", a)
print("2a + Id :\n", 2*a + np.identity(2))
print(u"x² (not the matrix product) :\n", a*a)

a :
 [[1 2]
 [4 5]]
2a + Id :
 [[ 3.  4.]
 [ 8. 11.]]
x² (not the matrix product) :
 [[ 1  4]
 [16 25]]


On dispose aussi des fonctions trigonométriques et autres fonctions mathématiques usuelles.

Trigonometric functions and other usual mathematical functions are also available.

In [14]:
np.set_printoptions(precision=3)  # set printing precision for reals
np.sin(a)

array([[ 0.841,  0.909],
       [-0.757, -0.959]])

We can also do advanced operations: [stackoverflow numpy-reshape-and-partition-2d-array-to-3d](http://stackoverflow.com/questions/31686989/numpy-reshape-and-partition-2d- array-to-3d)

![2D3D](https://i.stack.imgur.com/OUjlv.png)

But this type of manipulation is more the area of predilection of Pandas that we will see later.

There are other manipulations described [here](https://docs.scipy.org/doc/numpy/reference/routines.array-manipulation.html) including merging or clipping.

## Parcourir un tableau

Le facon naturelle pour parcourir tous les éléments d'un tableau à plusieur dimension est de faire une boucle pour chaque dimension :

## Browse an array

The natural way to browse all the elements of a multi-dimensional array is to make a loop for each dimension:

In [15]:
a = np.arange(6).reshape(3,2)
for ligne in a:
    for element in ligne:
        print(" ", element, end="")  # end="" avoid the return after each print
    print()

  0  1
  2  3
  4  5


On a vu dans la manipulation de la forme d'un tableau qu'on peut l'applatir, mais plutôt que d'utiliser `flatten()` qui fabrique un tableau en 1 dimension, on préfère utiliser un __itérateur__ qui permet de parcourir tous les éléments du tableau. Cet itérateur s'appelle dans notre cas `flat` :

We've seen how to manipulate the shape of a table that can be flattened, but rather than using `flatten()` which makes a 1-dimensional array, we prefer to use an __iterator__ which browses all the elements of the table. This iterator to browse all element of the array is `flat`:

In [16]:
for v in a.flat:
    print(v)

0
1
2
3
4
5


Il est aussi possible de faire une boucle sur les indices mais c'est nettement moins performant.

It is also possible to make a loop on the indices but it is clearly less powerful.

In [17]:
for i in range(len(a)):
    for j in range(len(a[i])):
        print(a[i,j])

0
1
2
3
4
5


## Travailler en vectoriel

Faire des boucles correspond souvent à la facon de penser de ceux qui programment depuis longtemps mais ce n'est pas efficace en Python. Il est préférable 
de travailler directement sur le tableau. Ainsi plutôt que de faire la boucle

```
for i in range(len(x)):
   z[i] = x[i] + y[i]
```

on fera

```
z = x + y
```
   
Non seulement c'est plus lisible mais c'est aussi plus rapide.

## Think vector

Making loops is often our way of thinking but it is not effective. It is better to
to work directly on the whole array. So rather than making the loop

```
for i in range (len (x)):
   z[i] = x[i] + y[i]
```

we will do

```
z = x + y
```
   
Not only is it more readable but it is also faster.

In [18]:
def double_loop(a):
    for i in range(a.shape[0]):
        for j in range(a.shape[1]):
            a[i,j] = np.sqrt(a[i,j])

def iterate(a):
    for x in a.flat:
        x = np.sqrt(x)

b = np.random.random(size=(200,200))
a = b.copy()                      # we need a copy to be sure to use the same data each time
%timeit double_loop(a)

a = b.copy()       
%timeit iterate(a)

a = b.copy()
%timeit np.sqrt(a)   # vectorial operation, 500 times faster

52.3 ms ± 427 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
43.2 ms ± 700 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
99.5 µs ± 273 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


{{ PreviousNext("../lesson3 Object Python/11 Decorators.ipynb", "np02 Filtres.ipynb")}}