

---


# **NumPy pour la Data Science**
## **Introduction aux arrays Numpy**


---
## **Introduction**

`numpy` (pour *Numerical Python*) est une bibliothèque numérique très avancée pour la manipulation de larges tableaux multidimensionnels et de routines mathématiques de haut niveau (algèbre linéaire, statistiques, fonctions mathématiques complexes etc...).

La classe d'objets que nous allons principalement manipuler est la classe **`array`** de **numpy**.

Ces arrays correspondent à des matrices N-dimensionnelles qui pourront contenir des données très diverses comme des données tabulaires, des séries temporelles ou des images.

L'intérêt du module`numpy` repose sur la possibilité d'appliquer des opérations sur ces arrays de manière très efficace, c'est-à-dire que le nombre de **lignes de code** nécessaires et le **temps de calcul** pour effectuer ces opérations seront très réduits par rapport à une syntaxe Python traditionnelle.

1. **Création d'un array `numpy`**

Contrairement aux classes normales que vous verrez dans votre formation, un array `numpy` peut être instancié avec de nombreux constructeurs différents.

L'argument de ces constructeurs est en général un **`tuple`** contenant les dimensions de la matrice souhaitées.
Ce tuple de dimensions est ce qu'on appelle la **shape** d'un array :

```python
# Import du module numpy sous l'alias 'np'
import numpy as np

# Création d'une matrice de dimensions 5x10 remplie de zéros
X = np.zeros(shape = (5, 10))

# Création d'une matrice à 3 dimensions 3x10x10 remplie de uns
X = np.ones(shape = (3, 10, 10))
```

Il est aussi possible de créer un array à partir d'une **liste** à l'aide du constructeur `np.array` :

```python
# Création d'un array à partir d'une liste définie en compréhension
X = np.array([2*i for i in range(10)])    # 0, 2, 4, 6, ..., 18

# Création d'un array à partir d'une liste de listes
X = np.array([[1, 3, 3],
              [3, 3, 1],
              [1, 2, 0]])
```

Ces trois constructeurs ne sont que des exemples. Nous verrons d'autres constructeurs dans la suite.

2. **Indexation d'un array `numpy`**

Contrairement aux listes, un array `numpy` est multidimensionnel.
L'indexation doit se faire en indiquant l'index auquel nous voulons accéder **sur chaque dimension** :
```python
# Création d'une matrice de dimensions 10x10 remplie de uns
X = np.ones(shape = (10, 10))

# affichage de l'élément à l'index (4, 3)
print(X[4, 3])

> # assignation de la valeur -1 à l'élément d'index (1, 5)
X[1, 5] = -1
```
Comme pour tous les autres objets indexables de Python, l'index de départ d'un axe est 0.
![indexation_array](https://github.com/diaBabPro/colabs/blob/main/indexation_array.png?raw=true)

Comme pour les listes, il est possible d'indexer un array grâce au **slicing** :

![indexation_array_slicing](https://github.com/diaBabPro/colabs/blob/main/indexation_array_slicing.png?raw=true)

Il est possible de slicer sur **chaque dimension** d'un array.
Dans l'exemple suivant, nous allons extraire un **sous-array** de **`X`** à l'aide du slicing :

![indexation_array_slicing2](https://github.com/diaBabPro/colabs/blob/main/indexation_array_slicing2.png?raw=true)

Les exemples précédents illustrent l'indexation d'un array à 2 dimensions, mais ce type d'indexation est généralisable sur les arrays à N dimensions.
Il est aussi possible d'utiliser l'indexation **négative** comme pour les listes.

- **(a)** À l'aide des constructeurs et du slicing des arrays, créer et afficher la matrice diagonale par blocs suivante :

```python
[[ 1.  1.  1.  0.  0.  0.]
 [ 1.  1.  1.  0.  0.  0.]
 [ 1.  1.  1.  0.  0.  0.]
 [ 0.  0.  0. -1. -1. -1.]
 [ 0.  0.  0. -1. -1. -1.]
 [ 0.  0.  0. -1. -1. -1.]]
 ```


In [10]:
import numpy as np

# A
matrix = np.zeros(shape = (6, 6))
matrix[0:3, 0:3] = 1
matrix[3:6, 3:6] = -1

print(matrix, '\n')

# B
matrix = np.zeros(shape = (6, 6))
for j in range(1, 6):
  for i in range(6):
    matrix[i, j] = j

print(matrix, '\n')

# B (avec slicing)
matrix = np.zeros(shape = (6, 6))
for j in range(1, 6):
  matrix[:, j] = j

print(matrix, '\n')

[[ 1.  1.  1.  0.  0.  0.]
 [ 1.  1.  1.  0.  0.  0.]
 [ 1.  1.  1.  0.  0.  0.]
 [ 0.  0.  0. -1. -1. -1.]
 [ 0.  0.  0. -1. -1. -1.]
 [ 0.  0.  0. -1. -1. -1.]] 

[[0. 1. 2. 3. 4. 5.]
 [0. 1. 2. 3. 4. 5.]
 [0. 1. 2. 3. 4. 5.]
 [0. 1. 2. 3. 4. 5.]
 [0. 1. 2. 3. 4. 5.]
 [0. 1. 2. 3. 4. 5.]] 

[[0. 1. 2. 3. 4. 5.]
 [0. 1. 2. 3. 4. 5.]
 [0. 1. 2. 3. 4. 5.]
 [0. 1. 2. 3. 4. 5.]
 [0. 1. 2. 3. 4. 5.]
 [0. 1. 2. 3. 4. 5.]] 



- **(b)** À l'aide des constructeurs et du slicing des arrays, créer et afficher la matrice suivante :
```python
[[0. 1. 2. 3. 4. 5.]
 [0. 1. 2. 3. 4. 5.]
 [0. 1. 2. 3. 4. 5.]
 [0. 1. 2. 3. 4. 5.]
 [0. 1. 2. 3. 4. 5.]
 [0. 1. 2. 3. 4. 5.]]
 ```

## **3. Opérations sur les arrays Numpy : Exemple**

Le module `numpy` ne sert pas qu'à créer des matrices. La plupart du temps, les matrices seront créées à partir de vraies données.

L'interêt du module `numpy` est son code **optimisé** qui permet d'effectuer des calculs sur de grandes matrices en un temps très réduit.

Le module `numpy` contient des fonctions mathématiques de base telles que :

| Fonction             | Fonction Numpy                |
|----------------------|-------------------------------|
| \( e^x \)            | `np.exp(x)`                   |
| \( \log(x) \)        | `np.log(x)`                   |
| \( \sin(x) \)        | `np.sin(x)`                   |
| \( \cos(x) \)        | `np.cos(x)`                   |
| Arrondi à n décimales | `np.round(x, decimals = n)`   |

La liste complète d'opérations mathématiques de `numpy` est donnée [ici](https://numpy.org/doc/stable/reference/routines.math.html).

Ces fonctions peuvent être appliquées sur tous les arrays `numpy`, peu importe leurs dimensions :

```python
X = np.array([i/100 for i in range(100)])  # 0, 0.01, 0.02, 0.03, ..., 0.98, 0.99

# Calcul de l'exponentielle de x pour x = 0, 0.01, 0.02, 0.03, ..., 0.98, 0.99
exp_X = np.exp(X)
```

Dans la cellule suivante, nous avons créé l'array :

$𝑋=(0.010.02...0.980.99)$

- **(a)** Définir une fonction f prenant en argument un array X et permettant de calculer en une **seule ligne de code** la fonction suivante :

$𝑓(𝑥)=exp(sin(𝑥)+cos(𝑥))$

- **(b)** Afficher les **10 premiers** éléments du résultat **arrondi à 2 décimales* de la fonction `f` appliquée à l'array `X`.

In [16]:
X = np.array([i/100 for i in range(100)])

# A
def f(x):
  return np.exp(np.sin(x) + np.cos(x))

# B
print(np.round(f(X), 2)[:10])

[2.72 2.75 2.77 2.8  2.83 2.85 2.88 2.91 2.94 2.96]


- **(c)** Définir une fonction `f_python` qui effectue la même opération  𝑓(𝑥)=exp(sin(𝑥)+cos(𝑥))
  sur chaque élément de X à l'aide d'une boucle `for`.

  >Les dimensions d'un array `X` peuvent être récupérées à l'aide de l'attribut **`shape`** de `X`qui est un **tuple** : `shape = X.shape`.
  
  >Pour un array à **une** dimension, le nombre d'éléments contenus dans cet array correspond au **premier** élément de sa shape : `n = X.shape[0]`.

In [21]:
# C
def f_python(X):
    # Récupérer le nombre d'éléments dans le tableau à une dimension
    n = X.shape[0]

    # Initialiser une liste vide pour stocker les résultats
    result = []

    # Appliquer la fonction f(x) à chaque élément du tableau X
    for i in range(n):
        result.append(f(X[i]))

    # Convertir la liste de résultats en tableau NumPy (si nécessaire)
    return np.array(result)

print(f_python(X))

[2.71828183 2.74546328 2.7726365  2.79979313 2.8269247  2.85402258
 2.88107805 2.90808226 2.93502626 2.96190097 2.98869723 3.01540575
 3.04201719 3.06852207 3.09491088 3.12117399 3.14730172 3.17328432
 3.19911198 3.22477484 3.25026298 3.27556645 3.30067526 3.32557941
 3.35026887 3.37473358 3.39896349 3.42294856 3.44667875 3.47014403
 3.4933344  3.51623989 3.53885058 3.56115657 3.58314805 3.60481525
 3.62614847 3.6471381  3.66777461 3.68804857 3.70795064 3.72747161
 3.74660237 3.76533394 3.78365748 3.80156429 3.81904581 3.83609366
 3.8526996  3.86885558 3.8845537  3.89978629 3.91454584 3.92882505
 3.94261683 3.9559143  3.96871081 3.98099992 3.99277543 4.00403139
 4.01476208 4.02496203 4.03462604 4.04374914 4.05232666 4.06035417
 4.06782754 4.0747429  4.08109667 4.08688554 4.0921065  4.09675684
 4.10083414 4.10433625 4.10726136 4.10960793 4.11137473 4.11256083
 4.11316563 4.11318879 4.1126303  4.11149047 4.10976988 4.10746944
 4.10459035 4.10113412 4.09710256 4.09249777 4.08732214 4.0815

Nous allons maintenant comparer les temps d'exécution de ces deux fonctions appliquées à un très grand array contenant 10 millions de valeurs.

Nous allons mesurer ce temps d'exécution à l'aide du module `time`.
Pour mesurer le temps d'exécution d'une fonction il suffit de faire la **différence** entre **l'heure de début d'exécution** et **l'heure de fin**.
On considère que l'assignation d'une variable se fait instantanément.

- **(d)** Lancer la cellule suivante. Il se peut que son exécution prenne un peu de temps.


In [22]:
from time import time

# Création d'un array à 10 millions de valeurs
X = np.array([i/1e7 for i in range(int(1e7))])

heure_debut = time()
f(X)
heure_fin = time()

temps = heure_fin - heure_debut

print("Le calcul de f avec numpy a pris", temps, "secondes")

heure_debut = time()
f_python(X)
heure_fin = time()

temps = heure_fin - heure_debut

print("Le calcul de f avec une boucle for a pris", temps, "secondes")

Le calcul de f avec numpy a pris 0.3741269111633301 secondes
Le calcul de f avec une boucle for a pris 36.2598762512207 secondes


# **Conclusion**

Comme vous pouvez le voir, le temps de calcul avec une boucle `for` est **extrêmement long**.

C'est pourquoi il est toujours préférable d'effectuer des calculs sur des matrices à l'aide de **`numpy`** plutôt qu'avec des boucles. Ce sera le cas lorsque nous ferons des **statistiques** sur des données.

Dans les exercices suivants, nous verrons en plus de détails la manipulation et les opérations sur les arrays `numpy`.