# Le module numpy

Le module ```numpy``` permet de manipuler de tableaux multidimensionnel efficacement. 

Un tableau ```numpy``` ne peut stocker que des éléments du même type contrairement au liste python. 

Les données d'un tableau ```numpy``` sont stockées en mémoire de manière contigüe ce qui permet aux fonctions du module d'être efficaces lors de la manipulation des données du tableau. 

## Importation du module

Pour utiliser le module, il suffit de l'importer avec l'instruction ```import```. Il est d'usage de le renommer ```np``` grâce au mot-clé ```as```: 

In [None]:
import numpy as np

## Principaux attributs

### Type de données

Création d'un tableau `numpy` à partir d'une liste :

In [None]:
a = np.array([1, 2, 3.5, 4, 5])
print(a)

Le type de l'objet référencé par la variable `a` est :

In [None]:
type(a)

Ce type ne doit pas être confondu avec le type des données stockées que l'on peut obtenir grâce à l'attribut `dtype` : 

In [None]:
print(a.dtype)

Le type choisi par défaut dépend des données d'entrées qui est, dans le cas précédent, le type flottant sur 64 bits  de sorte d'éviter des pertes de précision. 

On peut préciser le type de données (avec d'éventuelles pertes de précision possible) : 

In [None]:
b = np.array([1, 2, 3.5, 4, 5], dtype=np.int32)
print(b)

La liste complète des types disponibles est consultable [ici](https://numpy.org/doc/stable/user/basics.types.html).

### Dimension, forme et taille d'un tableau numpy 

L'attribut `ndim` permet d'obtenir le nombre de dimensions :

In [None]:
# tableau à 1 dimesnsion
a = np.array([1, 2, 3, 4, 5, 6])
print(a)
print(a.ndim)

In [None]:
# tableau à 2 dimensions
b = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
print(b)
print(b.ndim)

L'attribut `shape` permet d'obtenir les dimensions du tableau :

In [None]:
print(a.shape)
print(b.shape)

L'attribut `size` permet d'obtenir la taille du tableau :

In [None]:
print(a.size)
print(b.size)

## Création de tableaux numpy

Le module `numpy` propose une grand nombre de méthodes pour construire des tableaux `numpy`. Voici quelques exemples d'utilisation de ces méthodes.

La méthode `np.ones` retourne un tableau contenant que des 1 :

In [None]:
# Construction d'un tableau de dimension 1 et de taille 5 contenant que des 1
a = np.ones(5)
print(a)

In [None]:
# Construction d'un tableau de dimension 2 et de taille 2x3 contenant que des 1
b = np.ones((2,3))
print(b)

La méthode `np.zeros` retourne un tableau contenant que des 0 :

In [None]:
# Construction d'un tableau de dimension 1 et de taille 5 contenant que des 0
a = np.zeros(5)
print(a)

In [None]:
# Construction d'un tableau de dimension 2 et de taille 2x3 contenant que des 0
b = np.zeros((2,3))
print(b)

La méthode `np.arange` retourne un tableau contenant des valeurs uniformément espacées dans un intervalle donné :

In [None]:
# Construction d'un tableau de dimension 1 contenant des valeurs uniformément 
# espacées entre 1 et 11 (non inclus) par pas de 2 
a = np.arange(1,9,2)
print(a)

In [None]:
# Par defaut, la valeur du début de l'intervalle est 0 et la valeur du pas est 1
b = np.arange(10)
print(b)

La méthode `np.linspace` retourne un tableau contenant de `n ` valeurs uniformément espacées dans un intervalle donné :

In [None]:
# Construction d'un tableau de dimension 1 contenant 20 valeurs uniformément espacées entre 1 et 10   
a = np.linspace(1,10, 20)
print(a.size)

Une liste complète des méthodes de création de tableany `numpy`est consultable [ici](https://numpy.org/doc/stable/reference/routines.array-creation.html).

## Indexation et slicing

L'opérateur `[] ` permet d'accèder à un élément d'un tableau. L'indexation commence à 0.

In [None]:
## cas d'un tableau à unidimensionel
a = np.ones(5)
a[2] = 4
print(a)

In [None]:
# cas d'un tableau à bidimensionel
b = np.ones((2,3))
b[1,1] = 4
print(b)

In [None]:
# dans ce cas on peut aussi accèder à un élément de la sorte
b[0][2] = 6
print(b)

On peut utiliser des indices négatifs pour une indexation à partir de la fin du tableau :

In [None]:
a = np.ones(5)
a[-1] = 2
print(a)

Le slicing permet de référencer une partie d'un tableau :

In [None]:
# réferencement de partie contigüe
a = np.arange(10)
print("a       = ", a)
print("a[1:4]  = ", a[1:4])
print("a[1:]   = ", a[1:])
print("a[:3]   = ", a[:3])
print("a[2:-2] = ", a[2:-2])
print("a[:]    = ", a[:] )

In [None]:
# référencement de partie non contigüe
a = np.arange(10)
print("a         = ", a)
print("a[1:6:2]  = ", a[1:6:2])
print("a[8:2:-2] = ", a[8:2:-2])

In [None]:
# exemples avec des tableaux multidimensionnel

# création d'un tableau de taille (5x5) d'entier aléatoire entre 1 et 10
a = np.random.randint(1, 10, (5,5))
print("a = ")
print(a)
# extraction d'un ligne
print("\na[1,:] =")
print(a[1,:])

# extraction d'une colonne
print("\na[:,1] =")
print(a[:,1])

# extraction d'un bloc
print("\na[1:2,3:4] =")
print(a[0:3,2:4])

La documentation de `numpy` sur l'indexation et le slicing est disponible [ici](https://numpy.org/doc/stable/reference/arrays.indexing.html).

## Mutabilité des tableaux numpy

Un tableau `numpy` est un objet mutable ce qui permet de modifier un des ses éléments sans créer une nouvel objet. L'opérateur `[]`permet d'accèder à un élément d'un tableau.

In [None]:
a = np.array([1, 2, 3.5, 4, 5])
a[2] = 3
print(a)

Conséquence : l'opération d'affectation ne crée pas de copie.

In [None]:
b = a
print("Identifiant de a = ", id(a))
print("Identifiant de b = ", id(b))

Si on modifie un élément du tableau reférencé par `a `, on modifie un élément du tableau référencé par `b` puisque les deux variables référencent le même objet `ndarray`:

In [None]:
print("b = ", b)
a[0] = 6
print("b = ", b)

Il est possible de créer explicitement une copie :

In [None]:
a = np.array([1, 2, 3.5, 4, 5])
b = np.copy(a)
print("Identifiant de a = ", id(a))
print("Identifiant de b = ", id(b))

En combinant l'opération d'affection et le slicing, on peut créer des vues sur une partie d'un tableau :

In [None]:
a = np.arange(10)
v = a[1:4]
v[:] = 2
print(a)

## Vectorisation

La vectorisation est une capacité puissante de `numpy` qui permet d'exprimer les opérations directement sur des tableaux entiers plutôt que sur leurs éléments. Cette pratique consiste à remplacer les boucles explicites par des expressions sur des tableaux qui sont bien plus performantes. 

C'est la raison pour laquelle les tableaux `numpy` sont plus performantes que les listes `python` car ces dernières nécessitent des boucles pour manipuler ses éléments :

In [None]:
# initialisation d'un tableau contenant les n premiers entiers au carré 
n = 10000

In [None]:
%%timeit
# avec une liste python
l = []
for i in range(n):
    l.append(i**2)

In [None]:
# avec une liste en comprehension 
%timeit l = [i**2 for i in range(n)]

In [None]:
# avec un tableau numpy, on peut utiliser l'opérateur ** directement sur le tableau 
%timeit a = np.arange(n)**2

La version `numpy` est bien plus performante et c'est bien parce que l'on a évité l'utilisation de boucle que la version `numpy` est plus rapide :

In [None]:
%%timeit 
a = np.empty(n)
for i in range(n):
    a[i] = i**2

Dans la mesure du possible, éviter au maximum l'utilisation de boucle pour manipuler des tableaux.