# Introduction à NumPy

Python a des types natifs pour les nombres entiers (`int`), les nombres flottants (`float`) et les nombres complexes (`complex`).
Pour ces types, de nombreuses opérations mathématiques sont disponibles (voir le tableau de la section [Numeric Types](https://docs.python.org/3/library/stdtypes.html#numeric-types-int-float-complex)) telles que la somme, la différence, le produit, la division, la division euclidienne, la puissance, etc.

Cependant, en science des données, on travaille généralement avec des données volumineuses qui sont souvent représentées, d'un point de vue mathématique, par des vecteurs ou des matrices.
Python n'a pas de type natif pour de tels objets mathématiques.
On pourrait par exemple représenter un vecteur par une liste ou une matrice par une liste de listes.
Néanmoins, les opérations basiques d'algèbres linéaires ne sont pas implémentées pour des listes Python.
On pourrait les implémenter soi-même, mais ces implémentations seraient forcément sous-optimales.

En effet, Python est un langage interprété et non un langage compilé, ce qui a deux conséquences majeures :

1. Python doit interpréter le code écrit pour le transformer en code concrètement exécuté.
2. Python ne connaît pas à l'avance les types de données et doit donc vérifier que les opérations mathématiques demandées sont implémentées.

Par exemple, considérons le code suivant :

```python
>>> 1 + 2
3
```

Pour effectuer cette opération, Python a du (sans compter la création des objets `1` et `2` et la création d'un troisième objet pour sauvegarder le résultat) :

* détecter que `1` est un entier,  puis
* appeler la méthode `int.__add__()` qui doit également vérifier le type de l'autre objet (ici `2`), et
* effectuer le calcul.

Effectuer ces opérations une seule fois est négligeable (selon la perception temporelle d'un être humain), mais répéter ces vérifications de nombreuses fois a un coût non négligeable au bout d'un moment.

Considérons le produit matriciel entre la matrice $A \in \mathbb{R}^{m \times n}$ et la matrice $B \in \mathbb{R}^{n \times p}$.
Le résultat est la matrice $C = AB \in \mathbb{R}^{m \times p}$.
L'implémentation brute du produit matriciel nécessite $mpn$ multiplications et $mp(n-1)$ additions, donc une complexité cubique si $m \approx n \approx p$.
Implémenter le produit matriciel, en représentant les matrices sous forme de listes de listes, implique donc d'effectuer ces opérations supplémentaires de nombreuses fois.

Pour toutes ces raisons, effectuer du calcul scientifique en Python pur n'est pas adapté.
Néanmoins, il est tout de même possible d'effectuer du calcul scientifique en Python.
Ce n'est pas pour rien que Python s'est imposé comme le langage le plus populaire pour la science des données.
Des bibliothèques ont été développées pour offrir une syntaxe pythonique *haut niveau*, tout en implémentant sous le capot les fonctionnalités nécessaires dans des langages plus *bas niveau* comme C, C++, Cython ou Rust par exemple.
C'est le cas notamment de NumPy dont plus d'un tiers du code source est écrit en C (voir https://github.com/numpy/numpy).

La convention est d'importer le module `numpy` sous l'alias `np` :

In [1]:
import numpy as np

## Les tableaux NumPy $n$-dimensionnels

### Introduction

La pierre angulaire de NumPy est le tableau $n$-dimensionnel, implémenté dans la classe [`numpy.ndarray()`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html).
Il s'agit d'une structure de données **multidimensionnelle**, **homogène** (tous les éléments sont du même type) et **de taille fixe** (contrairement aux listes par exemple).

La création d'un tableau NumPy se fait :

* soit [à partir de données existantes](https://numpy.org/doc/stable/reference/routines.array-creation.html#from-existing-data) avec des fonctions telles que [`numpy.array()`](https://numpy.org/doc/stable/reference/generated/numpy.array.html), [`numpy.asarray()`](https://numpy.org/doc/stable/reference/generated/numpy.asarray.html) et [`numpy.loadtxt()`](https://numpy.org/doc/stable/reference/generated/numpy.loadtxt.html),

* soit [à partir d'une forme ou d'une valeur donnée](https://numpy.org/doc/stable/reference/routines.array-creation.html#from-shape-or-value) avec des fonctions telles que [`numpy.zeros()`](https://numpy.org/doc/stable/reference/generated/numpy.zeros.html), [`numpy.ones()`](https://numpy.org/doc/stable/reference/generated/numpy.ones.html) et [`numpy.full()`](https://numpy.org/doc/stable/reference/generated/numpy.full.html),

* soit [à partir d'une plage numérique donnée](https://numpy.org/doc/stable/reference/routines.array-creation.html#numerical-ranges) avec des fonctions telles que [`numpy.arange()`](https://numpy.org/doc/stable/reference/generated/numpy.arange.html) et [`numpy.linspace()`](https://numpy.org/doc/stable/reference/generated/numpy.linspace.html).

In [2]:
np.array([1, 2, 3])

array([1, 2, 3])

In [3]:
np.asarray([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [4]:
np.zeros((2, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [5]:
np.ones(8)

array([1., 1., 1., 1., 1., 1., 1., 1.])

In [6]:
np.full((3, 3), 7.9, dtype=complex)

array([[7.9+0.j, 7.9+0.j, 7.9+0.j],
       [7.9+0.j, 7.9+0.j, 7.9+0.j],
       [7.9+0.j, 7.9+0.j, 7.9+0.j]])

In [7]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [8]:
np.linspace(2, 3, 11)

array([2. , 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9, 3. ])

Les tableaux NumPy ont des attributs indiquant des caractéristiques du tableau :

* `ndim` indique le nombre de dimensions du tableau,
* `shape` indique la *forme* du tableau, c'est-à-dire la taille de chaque dimension,
* `size` indique le nombre total d'éléments dans le tableau, et
* `dtype` indique le *type de données* du tableau.

In [9]:
x = np.array([1, 2, 3])

In [10]:
x.ndim

1

In [11]:
x.shape

(3,)

In [12]:
x.size

3

In [13]:
x.dtype

dtype('int64')

On remarque que le type des données est inféré automatiquement par défaut avec la fonction [`numpy.array()`](https://numpy.org/doc/stable/reference/generated/numpy.array.html) :

In [14]:
np.array([1, 2.0, 3.0 + 3.0j]).dtype

dtype('complex128')

In [15]:
np.array([1, 2.0, 3.0]).dtype

dtype('float64')

In [16]:
np.array([1, 2, 3]).dtype

dtype('int64')

On peut également spécifier le type des données avec l'argument `dtype` :

In [17]:
np.array([1, 2, 3], dtype='uint8').dtype

dtype('uint8')

On peut changer le type de données d'un tableau avec la fonction [`numpy.astype()`](https://numpy.org/doc/stable/reference/generated/numpy.astype.html) ou la méthode [`numpy.ndarray.astype()`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.astype.html) :

In [18]:
np.array([-1, 2, 3]).astype('uint8')

array([255,   2,   3], dtype=uint8)

### Les types de données (`dtype`)

En NumPy, la nomenclature des types de données est assez explicite :

* la première partie du nom indique le type de données,
* la seconde partie du nom indique le nombre de bits pour représenter chaque élément.

La figure ci-dessous résume les différents types de données disponibles dans NumPy pour les types numériques (nombres entiers, nombres flottants et nombres complexes) :

<img width=800 src="https://raw.githubusercontent.com/numpy/numpy/refs/heads/main/doc/source/reference/figures/nep-0050-promotion-no-fonts.svg">

Plus le nombre de bits est élevé, plus la plage de valeurs possibles (et donc la précision) est grande, mais aussi plus de mémoire est utilisée.
À part si vous travaillez sur des quantités massives de données et que la mémoire pose problème, on privilégie généralement la précision et NumPy utilise par défaut, pour les types numériques, les formats les plus précis :

* `int64` : représentations des entiers sur $\left\{ - 2^{63}, \ldots 2^{63} - 1 \right\}$,

* `float64` : représentation des nombres flottants sur $\left[ -1.79769 \times 10^{308}, -1.79769 \times 10^{-308} \right] \cup \left[ 1.79769 \times 10^{-308}, 1.79769 \times 10^{308} \right]$,

* `complex128` : identiques pour les parties réelle et imaginaire que `float64`.

Vous pouvez utiliser les fonctions [`numpy.iinfo()`](https://numpy.org/doc/stable/reference/generated/numpy.iinfo.html) et [`numpy.finfo()`](https://numpy.org/doc/stable/reference/generated/numpy.finfo.html) pour obtenir des informations sur les types de données pour des nombres entiers et des nombres flottants respectivement :

In [19]:
np.iinfo('int64')

iinfo(min=-9223372036854775808, max=9223372036854775807, dtype=int64)

In [20]:
np.finfo('float64')

finfo(resolution=1e-15, min=-1.7976931348623157e+308, max=1.7976931348623157e+308, dtype=float64)

In [21]:
np.finfo('complex128')

finfo(resolution=1e-15, min=-1.7976931348623157e+308, max=1.7976931348623157e+308, dtype=float64)

### Indexation et coupage (*slicing*)

L'indexation et le coupage d'un tableau NumPy fonctionne de la même manière que pour une liste, à la seule différence qu'on peut effectuer ces opérations sur chaque dimension (alors qu'une liste n'a qu'une seule dimension) :

In [22]:
X = np.arange(1, 101).reshape(10, 10)
X

array([[  1,   2,   3,   4,   5,   6,   7,   8,   9,  10],
       [ 11,  12,  13,  14,  15,  16,  17,  18,  19,  20],
       [ 21,  22,  23,  24,  25,  26,  27,  28,  29,  30],
       [ 31,  32,  33,  34,  35,  36,  37,  38,  39,  40],
       [ 41,  42,  43,  44,  45,  46,  47,  48,  49,  50],
       [ 51,  52,  53,  54,  55,  56,  57,  58,  59,  60],
       [ 61,  62,  63,  64,  65,  66,  67,  68,  69,  70],
       [ 71,  72,  73,  74,  75,  76,  77,  78,  79,  80],
       [ 81,  82,  83,  84,  85,  86,  87,  88,  89,  90],
       [ 91,  92,  93,  94,  95,  96,  97,  98,  99, 100]])

In [23]:
X[0, -1]  # Élément de la première ligne et de la dernière colonne de X

np.int64(10)

Si vous aviez envie d'écrire `X[0][1]`, oubliez tout de suite cette mauvaise habitude.
Indexer un tableau NumPy a un coût, on le fait donc en une seule fois.

In [24]:
%timeit X[0, 1]

52.1 ns ± 1.49 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


In [25]:
%timeit X[0][1]

100 ns ± 0.168 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


In [26]:
X[0]  # Première ligne de X

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [27]:
X[:, -1]  # Dernière colonne de X

array([ 10,  20,  30,  40,  50,  60,  70,  80,  90, 100])

In [28]:
X[..., -1]  # Dernier vecteur (-1) sur la dernière dimension (...) de X

array([ 10,  20,  30,  40,  50,  60,  70,  80,  90, 100])

In [29]:
X[::2, 1::2]  # Sous-matrice avec les lignes d'indices pairs et les colonnes d'indices impairs

array([[ 2,  4,  6,  8, 10],
       [22, 24, 26, 28, 30],
       [42, 44, 46, 48, 50],
       [62, 64, 66, 68, 70],
       [82, 84, 86, 88, 90]])

Il est également possible d'indexer un tableau selon une seule dimension avec un tableau de booléens (`True` pour garder, `False` pour enlever) :

In [30]:
X[X.max(axis=1) > 42]  # Garder les lignes de X dont la valeur max est strictement supérieure à 42

array([[ 41,  42,  43,  44,  45,  46,  47,  48,  49,  50],
       [ 51,  52,  53,  54,  55,  56,  57,  58,  59,  60],
       [ 61,  62,  63,  64,  65,  66,  67,  68,  69,  70],
       [ 71,  72,  73,  74,  75,  76,  77,  78,  79,  80],
       [ 81,  82,  83,  84,  85,  86,  87,  88,  89,  90],
       [ 91,  92,  93,  94,  95,  96,  97,  98,  99, 100]])

In [31]:
# Garder les colonnes de X dont la valeur min est strictement supérieure à 4
X[:, X.min(axis=0) > 4]

array([[  5,   6,   7,   8,   9,  10],
       [ 15,  16,  17,  18,  19,  20],
       [ 25,  26,  27,  28,  29,  30],
       [ 35,  36,  37,  38,  39,  40],
       [ 45,  46,  47,  48,  49,  50],
       [ 55,  56,  57,  58,  59,  60],
       [ 65,  66,  67,  68,  69,  70],
       [ 75,  76,  77,  78,  79,  80],
       [ 85,  86,  87,  88,  89,  90],
       [ 95,  96,  97,  98,  99, 100]])

In [32]:
# Garder les colonnes de X dont la valeur max est strictement inférieure à 97
X[:, X.max(axis=0) < 97]

array([[ 1,  2,  3,  4,  5,  6],
       [11, 12, 13, 14, 15, 16],
       [21, 22, 23, 24, 25, 26],
       [31, 32, 33, 34, 35, 36],
       [41, 42, 43, 44, 45, 46],
       [51, 52, 53, 54, 55, 56],
       [61, 62, 63, 64, 65, 66],
       [71, 72, 73, 74, 75, 76],
       [81, 82, 83, 84, 85, 86],
       [91, 92, 93, 94, 95, 96]])

Pour les tableaux NumPy de booléens, les opérateurs `and` et `or` sont remplacés par `&` et `|` respectivement :

In [33]:
# Garder les colonnes de X dont la valeur min est strictement supérieure à 4
# et dont la valeur max est strictement inférieure à 97
X[:, (X.min(axis=0) > 4) & (X.max(axis=0) < 97)]

array([[ 5,  6],
       [15, 16],
       [25, 26],
       [35, 36],
       [45, 46],
       [55, 56],
       [65, 66],
       [75, 76],
       [85, 86],
       [95, 96]])

In [34]:
# Garder les colonnes dont la valeur min est strictement supérieure à 4
# ou dont la valeur max est strictement inférieure à 97
X[:, (X.min(axis=0) > 4) | (X.max(axis=0) < 97)]

array([[  1,   2,   3,   4,   5,   6,   7,   8,   9,  10],
       [ 11,  12,  13,  14,  15,  16,  17,  18,  19,  20],
       [ 21,  22,  23,  24,  25,  26,  27,  28,  29,  30],
       [ 31,  32,  33,  34,  35,  36,  37,  38,  39,  40],
       [ 41,  42,  43,  44,  45,  46,  47,  48,  49,  50],
       [ 51,  52,  53,  54,  55,  56,  57,  58,  59,  60],
       [ 61,  62,  63,  64,  65,  66,  67,  68,  69,  70],
       [ 71,  72,  73,  74,  75,  76,  77,  78,  79,  80],
       [ 81,  82,  83,  84,  85,  86,  87,  88,  89,  90],
       [ 91,  92,  93,  94,  95,  96,  97,  98,  99, 100]])

Enfin, on peut récupérer dans un tableau unidimensionnel les éléments pour lesquels on a fourni les indices sur chaque dimension sous la forme de tableaux unidimensionnels :

In [35]:
# Pour récupérer la diagonale de X (car X est une matrice carrée ici)
X[np.arange(min(X.shape)), np.arange(min(X.shape))]

array([  1,  12,  23,  34,  45,  56,  67,  78,  89, 100])

In [36]:
# Autant utiliser une fonction NumPy dans ce cas particulier
np.diag(X)

array([  1,  12,  23,  34,  45,  56,  67,  78,  89, 100])

In [37]:
# Récupérer 7 éléments aléatoires de X
X[
    np.random.randint(low=0, high=X.shape[0], size=7),
    np.random.randint(low=0, high=X.shape[1], size=7)
]

array([ 3, 71, 48, 78, 68, 83, 61])

L'indexation et le coupage permettent également de modifier les valeurs correspondantes du tableau :

In [38]:
X[np.arange(min(X.shape)), np.arange(min(X.shape))] = 0
X[0, 1:] = -1
X[1:, 0] = np.arange(21, 30)
X

array([[ 0, -1, -1, -1, -1, -1, -1, -1, -1, -1],
       [21,  0, 13, 14, 15, 16, 17, 18, 19, 20],
       [22, 22,  0, 24, 25, 26, 27, 28, 29, 30],
       [23, 32, 33,  0, 35, 36, 37, 38, 39, 40],
       [24, 42, 43, 44,  0, 46, 47, 48, 49, 50],
       [25, 52, 53, 54, 55,  0, 57, 58, 59, 60],
       [26, 62, 63, 64, 65, 66,  0, 68, 69, 70],
       [27, 72, 73, 74, 75, 76, 77,  0, 79, 80],
       [28, 82, 83, 84, 85, 86, 87, 88,  0, 90],
       [29, 92, 93, 94, 95, 96, 97, 98, 99,  0]])

### Modification de la forme d'un tableau

Les principales options pour modifier la forme d'un tableau sont :

* la fonction [`numpy.reshape()`](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html) et la méthode [`numpy.ndarray.reshape()`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.reshape.html) pour modifier la forme en la nouvelle forme donnée, et

* la fonction [`numpy.ravel()`](https://numpy.org/doc/stable/reference/generated/numpy.ravel.html) et la méthode [`numpy.ndarray.ravel()`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.ravel.html) pour aplatir un tableau (c'est-à-dire le rendre unidimensionnel).

In [39]:
X.reshape((20, -1))  # équivalent à X.reshape((20, 5))

array([[ 0, -1, -1, -1, -1],
       [-1, -1, -1, -1, -1],
       [21,  0, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [22, 22,  0, 24, 25],
       [26, 27, 28, 29, 30],
       [23, 32, 33,  0, 35],
       [36, 37, 38, 39, 40],
       [24, 42, 43, 44,  0],
       [46, 47, 48, 49, 50],
       [25, 52, 53, 54, 55],
       [ 0, 57, 58, 59, 60],
       [26, 62, 63, 64, 65],
       [66,  0, 68, 69, 70],
       [27, 72, 73, 74, 75],
       [76, 77,  0, 79, 80],
       [28, 82, 83, 84, 85],
       [86, 87, 88,  0, 90],
       [29, 92, 93, 94, 95],
       [96, 97, 98, 99,  0]])

In [40]:
X.reshape(-1)

array([ 0, -1, -1, -1, -1, -1, -1, -1, -1, -1, 21,  0, 13, 14, 15, 16, 17,
       18, 19, 20, 22, 22,  0, 24, 25, 26, 27, 28, 29, 30, 23, 32, 33,  0,
       35, 36, 37, 38, 39, 40, 24, 42, 43, 44,  0, 46, 47, 48, 49, 50, 25,
       52, 53, 54, 55,  0, 57, 58, 59, 60, 26, 62, 63, 64, 65, 66,  0, 68,
       69, 70, 27, 72, 73, 74, 75, 76, 77,  0, 79, 80, 28, 82, 83, 84, 85,
       86, 87, 88,  0, 90, 29, 92, 93, 94, 95, 96, 97, 98, 99,  0])

In [41]:
X.ravel()

array([ 0, -1, -1, -1, -1, -1, -1, -1, -1, -1, 21,  0, 13, 14, 15, 16, 17,
       18, 19, 20, 22, 22,  0, 24, 25, 26, 27, 28, 29, 30, 23, 32, 33,  0,
       35, 36, 37, 38, 39, 40, 24, 42, 43, 44,  0, 46, 47, 48, 49, 50, 25,
       52, 53, 54, 55,  0, 57, 58, 59, 60, 26, 62, 63, 64, 65, 66,  0, 68,
       69, 70, 27, 72, 73, 74, 75, 76, 77,  0, 79, 80, 28, 82, 83, 84, 85,
       86, 87, 88,  0, 90, 29, 92, 93, 94, 95, 96, 97, 98, 99,  0])

### Concaténation de tableaux

NumPy met à disposition plusieurs fonctions pour concaténer des tableaux, telles que [`numpy.concatenate()`](https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html), [`numpy.vstack()`](https://numpy.org/doc/stable/reference/generated/numpy.vstack.html) et [`numpy.hstack()`](https://numpy.org/doc/stable/reference/generated/numpy.hstack.html).

In [42]:
X

array([[ 0, -1, -1, -1, -1, -1, -1, -1, -1, -1],
       [21,  0, 13, 14, 15, 16, 17, 18, 19, 20],
       [22, 22,  0, 24, 25, 26, 27, 28, 29, 30],
       [23, 32, 33,  0, 35, 36, 37, 38, 39, 40],
       [24, 42, 43, 44,  0, 46, 47, 48, 49, 50],
       [25, 52, 53, 54, 55,  0, 57, 58, 59, 60],
       [26, 62, 63, 64, 65, 66,  0, 68, 69, 70],
       [27, 72, 73, 74, 75, 76, 77,  0, 79, 80],
       [28, 82, 83, 84, 85, 86, 87, 88,  0, 90],
       [29, 92, 93, 94, 95, 96, 97, 98, 99,  0]])

In [43]:
np.concatenate((X, X), axis=0)

array([[ 0, -1, -1, -1, -1, -1, -1, -1, -1, -1],
       [21,  0, 13, 14, 15, 16, 17, 18, 19, 20],
       [22, 22,  0, 24, 25, 26, 27, 28, 29, 30],
       [23, 32, 33,  0, 35, 36, 37, 38, 39, 40],
       [24, 42, 43, 44,  0, 46, 47, 48, 49, 50],
       [25, 52, 53, 54, 55,  0, 57, 58, 59, 60],
       [26, 62, 63, 64, 65, 66,  0, 68, 69, 70],
       [27, 72, 73, 74, 75, 76, 77,  0, 79, 80],
       [28, 82, 83, 84, 85, 86, 87, 88,  0, 90],
       [29, 92, 93, 94, 95, 96, 97, 98, 99,  0],
       [ 0, -1, -1, -1, -1, -1, -1, -1, -1, -1],
       [21,  0, 13, 14, 15, 16, 17, 18, 19, 20],
       [22, 22,  0, 24, 25, 26, 27, 28, 29, 30],
       [23, 32, 33,  0, 35, 36, 37, 38, 39, 40],
       [24, 42, 43, 44,  0, 46, 47, 48, 49, 50],
       [25, 52, 53, 54, 55,  0, 57, 58, 59, 60],
       [26, 62, 63, 64, 65, 66,  0, 68, 69, 70],
       [27, 72, 73, 74, 75, 76, 77,  0, 79, 80],
       [28, 82, 83, 84, 85, 86, 87, 88,  0, 90],
       [29, 92, 93, 94, 95, 96, 97, 98, 99,  0]])

In [44]:
(np.concatenate((X, X), axis=0) == np.vstack((X, X))).all()

np.True_

In [45]:
(np.concatenate((X, X), axis=1) == np.hstack((X, X))).all()

np.True_

### Opérations mathématiques

Les opérations arithmétiques de base sur les tableaux NumPy sont effectuées éléments par éléments.

In [46]:
X = np.arange(1, 26).reshape(5, 5)
X

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]])

In [47]:
X + X

array([[ 2,  4,  6,  8, 10],
       [12, 14, 16, 18, 20],
       [22, 24, 26, 28, 30],
       [32, 34, 36, 38, 40],
       [42, 44, 46, 48, 50]])

In [48]:
X - X

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]])

In [49]:
X * X

array([[  1,   4,   9,  16,  25],
       [ 36,  49,  64,  81, 100],
       [121, 144, 169, 196, 225],
       [256, 289, 324, 361, 400],
       [441, 484, 529, 576, 625]])

In [50]:
X / X

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

La supposition sous-jacente est que les deux tableaux sont de même taille. Pour ce faire :

* soit les tableaux sont de même taille, alors pas de problème,
* soit les tableaux ne sont pas de même taille, alors il faut indiquer implicitement à NumPy le comportement attendu avec une syntaxe adaptée.

Par exemple, pour ajouter une même constante à tous les éléments, la somme entre un tableau NumPy et :
* un objet Python (de type `int`, `float` ou `complex`) ou
* un tableau NumPy de taille 1

est possible :

In [51]:
X - 1

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [52]:
X + np.array([1])

array([[ 2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16],
       [17, 18, 19, 20, 21],
       [22, 23, 24, 25, 26]])

Pour ajouter la même ligne à toutes les lignes de X, il faut rajouter une dimension supplémentaire au tableau unidimensionnel représentant la ligne sur la dimension "constante" (ici les colonnes) :

In [53]:
X + X[0].reshape(1, -1)  # équivalent à X + X[0, np.newaxis]

array([[ 2,  4,  6,  8, 10],
       [ 7,  9, 11, 13, 15],
       [12, 14, 16, 18, 20],
       [17, 19, 21, 23, 25],
       [22, 24, 26, 28, 30]])

Idem pour ajouter une même colonne à toutes les colonnes de X :

In [54]:
X + X[:, -1].reshape(-1, 1)  # équivalent à X + X[:, -1, np.newaxis]

array([[ 6,  7,  8,  9, 10],
       [16, 17, 18, 19, 20],
       [26, 27, 28, 29, 30],
       [36, 37, 38, 39, 40],
       [46, 47, 48, 49, 50]])

Pour le produit matriciel, trois manières sont possibles, mais la première est recommandée pour des raisons de lisibilité (surtout lorsqu'on effectue plusieurs produits matriciels enchaînés) :

In [55]:
X @ X

array([[ 215,  230,  245,  260,  275],
       [ 490,  530,  570,  610,  650],
       [ 765,  830,  895,  960, 1025],
       [1040, 1130, 1220, 1310, 1400],
       [1315, 1430, 1545, 1660, 1775]])

In [56]:
np.dot(X, X)

array([[ 215,  230,  245,  260,  275],
       [ 490,  530,  570,  610,  650],
       [ 765,  830,  895,  960, 1025],
       [1040, 1130, 1220, 1310, 1400],
       [1315, 1430, 1545, 1660, 1775]])

In [57]:
X.dot(X)

array([[ 215,  230,  245,  260,  275],
       [ 490,  530,  570,  610,  650],
       [ 765,  830,  895,  960, 1025],
       [1040, 1130, 1220, 1310, 1400],
       [1315, 1430, 1545, 1660, 1775]])

### Fonctions mathématiques

Une pléthore de fonctions mathématiques sont déjà définies pour travailler sur les tableaux (voir une liste non exhaustive [ici](https://numpy.org/doc/stable/reference/routines.math.html)). On notera notamment :

* les [fonctions trigonométriques](https://numpy.org/doc/stable/reference/routines.math.html#trigonometric-functions) : [`numpy.sin()`](https://numpy.org/doc/stable/reference/generated/numpy.sin.html), [`numpy.cos()`](https://numpy.org/doc/stable/reference/generated/numpy.cos.html), [`numpy.tan()`](https://numpy.org/doc/stable/reference/generated/numpy.tan.html), etc.

* les [fonctions exponentielles et logartihmes](https://numpy.org/doc/stable/reference/routines.math.html#exponents-and-logarithms) : [`numpy.exp()`](https://numpy.org/doc/stable/reference/generated/numpy.exp.html), [`numpy.log()`](https://numpy.org/doc/stable/reference/generated/numpy.log.html), etc.

* les [fonctions d'arrondi](https://numpy.org/doc/stable/reference/routines.math.html#rounding) : [`numpy.round()`](https://numpy.org/doc/stable/reference/generated/numpy.round.html), [`numpy.floor()`](https://numpy.org/doc/stable/reference/generated/numpy.floor.html), [`numpy.ceil()`](https://numpy.org/doc/stable/reference/generated/numpy.ceil.html), etc.

* les [fonctions de sommes, produits et différences](https://numpy.org/doc/stable/reference/routines.math.html#sums-products-differences) : [`numpy.sum()`](https://numpy.org/doc/stable/reference/generated/numpy.sum.html), [`numpy.prod()`](https://numpy.org/doc/stable/reference/generated/numpy.prod.html), [`numpy.diff()`](https://numpy.org/doc/stable/reference/generated/numpy.diff.html), etc.

* les [fonctions de statistiques](https://numpy.org/doc/stable/reference/routines.statistics.html#statistics) : [`numpy.min()`](https://numpy.org/doc/stable/reference/generated/numpy.min.html), [`numpy.max()`](https://numpy.org/doc/stable/reference/generated/numpy.max.html), [`numpy.mean()`](https://numpy.org/doc/stable/reference/generated/numpy.mean.html), [`numpy.std()`](https://numpy.org/doc/stable/reference/generated/numpy.std.html), etc.

* les [fonctions de tri et de recherche](https://numpy.org/doc/stable/reference/routines.sort.html#sorting-searching-and-counting) : [`numpy.sort()`](https://numpy.org/doc/stable/reference/generated/numpy.sort.html), [`numpy.argsort()`](https://numpy.org/doc/stable/reference/generated/numpy.argsort.html), [`numpy.partition()`](https://numpy.org/doc/stable/reference/generated/numpy.partition.html), [`numpy.argpartition()`](https://numpy.org/doc/stable/reference/generated/numpy.argpartition.html), [`numpy.argmax()`](https://numpy.org/doc/stable/reference/generated/numpy.argmax.html), [`numpy.argmin()`](https://numpy.org/doc/stable/reference/generated/numpy.argmin.html), [`numpy.nonzero()`](https://numpy.org/doc/stable/reference/generated/numpy.nonzero.html), [`numpy.where()`](https://numpy.org/doc/stable/reference/generated/numpy.where.html), etc.

In [58]:
np.log(X)

array([[0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791],
       [1.79175947, 1.94591015, 2.07944154, 2.19722458, 2.30258509],
       [2.39789527, 2.48490665, 2.56494936, 2.63905733, 2.7080502 ],
       [2.77258872, 2.83321334, 2.89037176, 2.94443898, 2.99573227],
       [3.04452244, 3.09104245, 3.13549422, 3.17805383, 3.21887582]])

In [59]:
np.sum(X)

np.int64(325)

In [60]:
np.prod(X, axis=0)

array([ 22176,  62832, 129168, 229824, 375000])

In [61]:
np.prod(X, axis=1)

array([    120,   30240,  360360, 1860480, 6375600])

In [62]:
np.diff(X)

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]])

In [63]:
np.min(X)

np.int64(1)

In [64]:
np.max(X, axis=(0, 1))

np.int64(25)

In [65]:
np.mean(X)

np.float64(13.0)

In [66]:
np.std(X)

np.float64(7.211102550927978)

In [67]:
np.argmax(X, axis=1)

array([4, 4, 4, 4, 4])

In [68]:
np.where(X > 12)

(array([2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4]),
 array([2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4]))

In [69]:
X[np.where(X > 12)]

array([13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25])

### Génération de nombres aléatoires

Le sous-module [`numpy.random`](https://numpy.org/doc/stable/reference/random/index.html) met à disposition les différentes fonctionnalités en lien avec la génération de nombres aléatoires.

Avant de pouvoir générer des variables aléatoires selon une distribution donnée, il faut d'abord créer un générateur de nombres aléatoires avec la fonction [`numpy.random.default_rng()`](https://numpy.org/doc/stable/reference/random/generator.html#numpy.random.default_rng) :

In [70]:
rng = np.random.default_rng()

Une fois ce générateur créé, on peut l'utiliser pour :

* [générer des données aléatoires simples](https://numpy.org/doc/stable/reference/random/generator.html#simple-random-data) :
    + [`numpy.random.Generator.integers()`](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.integers.html) pour générer des entiers selon une distribution uniforme,
    + [`numpy.random.Generator.random()`](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.random.html) pour générer des nombres flottants selon la loi uniforme sur l'intervalle $[0, 1[$,
    + [`numpy.random.Generator.choice()`](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.choice.html) pour effectuer des tirages avec ou sans remplacement parmi une liste d'éléments fournis,

* [effectuer des permutations](https://numpy.org/doc/stable/reference/random/generator.html#permutations) : [`numpy.random.Generator.shuffle()`](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.shuffle.html), [`numpy.random.Generator.permutation()`](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.permutation.html), [`numpy.random.Generator.permuted()`](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.permuted.html),

* [générer des variables aléatoires selon l'une des distributions disponibles](https://numpy.org/doc/stable/reference/random/generator.html#distributions) : [`numpy.random.Generator.beta()`](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.beta.html), [`numpy.random.Generator.normal()`](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.normal.html), [`numpy.random.Generator.weibul()`](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.weibul.html), etc.

In [71]:
rng.integers(low=0, high=10, size=8)

array([9, 7, 9, 1, 0, 0, 1, 0])

In [72]:
rng.choice(['a', 'b', 'c'], replace=True, p=[0.5, 0.2, 0.3], size=8)

array(['b', 'a', 'a', 'a', 'c', 'b', 'a', 'c'], dtype='<U1')

In [73]:
rng.permutation(np.arange(10))

array([5, 6, 9, 2, 4, 0, 7, 3, 8, 1])

In [74]:
rng.beta(a=2.0, b=3.0, size=(3, 4))

array([[0.63227235, 0.51206133, 0.1303102 , 0.47325929],
       [0.46014079, 0.36522028, 0.69086331, 0.17886799],
       [0.69787649, 0.5259892 , 0.72632398, 0.5148801 ]])

Pour avoir du code reproductible, il est nécessaire de fixer la [graine aléatoire](https://fr.wikipedia.org/wiki/Graine_aléatoire) avec l'argument `seed` de la la fonction [`numpy.random.default_rng()`](https://numpy.org/doc/stable/reference/random/generator.html#numpy.random.default_rng) :

In [75]:
rng1 = np.random.default_rng(seed=42)
rng1.integers(low=0, high=10, size=8)

array([0, 7, 6, 4, 4, 8, 0, 6])

In [76]:
rng2 = np.random.default_rng(seed=42)
rng2.integers(low=0, high=10, size=8)

array([0, 7, 6, 4, 4, 8, 0, 6])

Il n'est pas nécessaire de redéfinir le générateur aléatoire à chaque fois pour avoir du code reproductible, on peut continuer à utiliser la même instance du générateur, même pour générer avec d'autres méthodes :

In [77]:
rng1.poisson(lam=3, size=10)

array([4, 5, 2, 7, 1, 4, 2, 2, 5, 4])

In [78]:
rng2.poisson(lam=3, size=10)

array([4, 5, 2, 7, 1, 4, 2, 2, 5, 4])

In [79]:
for _ in range(100):
    assert (rng1.normal(size=42) == rng2.normal(size=42)).all()

### Charger et sauvegarder des données

Il existe deux principaux types de formats possibles pour sauvegarder et charger des tableaux NumPy :

* le format `NPY` avec les extensions `.npy` pour sauvegarder un seul tableau NumPy et `.npz` pour sauvegarder plusieurs tableaux NumPy (il s'agit d'un fichier zip contenant plusieurs fichiers `.npy`, un pour chaque tableau)

* le format `TXT` avec l'extension `.txt` pour sauvegarder les données sous la forme d'un fichier texte.

Chacun des formats a ses fonctions correspondantes pour charger et sauvegarder des fichiers :

* Formats `NPY` et `NPZ` : [`numpy.load()`](https://numpy.org/doc/stable/reference/generated/numpy.load.html), [`numpy.save()`](https://numpy.org/doc/stable/reference/generated/numpy.save.html) et [`numpy.savez()`](https://numpy.org/doc/stable/reference/generated/numpy.savez.html)
* Format `TXT` : [`numpy.loadtxt()`](https://numpy.org/doc/stable/reference/generated/numpy.loadtxt.html) et [`numpy.savetxt()`](https://numpy.org/doc/stable/reference/generated/numpy.savetxt.html)

In [80]:
np.save('X.npy', X)

In [81]:
np.load('X.npy')

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]])

In [82]:
np.savetxt('X.txt', X, fmt='%d')

In [83]:
np.loadtxt('X.txt', dtype='int64')

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]])

## Autres fonctionnalités

NumPy fournit également des fonctionnalités en lien avec l'algèbre linéaire dans le sous-module [`numpy.linalg`](https://numpy.org/doc/stable/reference/routines.linalg.html) et la transformée de Fourier discrète dans le sous-module [`numpy.fft`](https://numpy.org/doc/stable/reference/routines.fft.html).

De nombreuses autres fonctionnalités sont également implémentées dans le module [SciPy](https://docs.scipy.org/doc/scipy-1.15.0/index.html), dont l'API est disponible [ici](https://docs.scipy.org/doc/scipy-1.15.0/reference/index.html) pour avoir une vision globale des catégories de fonctionnalités mises à disposition.