# Introduction à NumPy

In [1]:
import numpy as np
from matplotlib import pyplot as plt

## Arrays 1d

### `np.array()` – Créer un array à partir d'une liste

Un array NumPy est une collection d'éléments de même type. La taille de l'array et le nombre de dimensions sont fixés à sa création et ne peuvent pas être modifiés.

In [None]:
x = np.array([1, 2, 3, 4, 5])

print(x)

### `len()` et `.shape` – Obtenir la taille

In [None]:
print(len(x))
print(x.shape[0])

### `.dtype` – Obtenir le type des éléments

In [None]:
# int64 -> 8 octets par élément
print(np.array([1, 2, 3]).dtype)

# float64 -> 8 octets par élément
print(np.array([1.5, 2.5]).dtype)

# float32 -> 4 octets par élément
print(np.array([1.5, 2.5], dtype='float32').dtype)

# bool -> 1 octet par élément
print(np.array([False, False, True]).dtype)

En connaissant le type des éléments et le nombre d'éléments, on peut déterminer la taille mémoire nécessaire pour stocker l'array.

### `[]` – Accéder à et modifier un élément donné

In [None]:
x = np.array([1, 2, 3, 4, 5])

# Donne le premier élément
print(f'{x[0]=}')

# Donne le troisième élément
print(f'{x[2]=}')

# Donne le dernier élément
print(f'{x[-1]=}')

# Donne l'avant-avant-dernier élément
print(f'{x[-3]=}')

# Donne les éléments aux indices de 1 à 4 (4 exclus)
print(f'{x[1:4]=}')

# Donne les éléments aux indices de 0 à 4 (4 exclus)
print(f'{x[:4]=}')

In [None]:
x = np.array([1, 2, 3, 4, 5])

# Modifie le deuxième élément
x[1] = 20
print(x)

# Modifie les deux derniers éléments en leur donnant différentes valeurs
x[-2:] = [30, 40]
print(x)

# Modifie les deux derniers éléments en leur donnant la même valeur
x[-2:] = 0
print(x)

### `np.zeros()` et `np.ones()` – Créer des arrays de zéros et de uns

In [None]:
print(np.zeros(5))
print(np.ones(5))

# Équivalent avec des listes
print([0.] * 5)
print([1.] * 5)

### `np.empty()` – Créer un array non-initialisé

La méthode `np.empty()` essaie de récupérer un espace mémoire précédemment utilisé sans l'effacer, ou en alloue un nouveau qui sera alors rempli de zéros. Ici l'array `[1. 1. 1. 1. 1.]` créé juste au-dessus sera probablement réutilisé.

In [None]:
print(np.empty(5))

### `np.arange()` – Générer des entiers entre deux valeurs avec un intervalle donné

In [None]:
print(np.arange(4, 12))

# Équivalent avec des listes
print(list(range(4, 12)))

### `np.linspace()` – Générer un nombre donné de points entre deux valeurs

In [None]:
print(np.linspace(0, 10, 6))

### Faire des opérations de base

In [None]:
x = np.arange(5)
print(f'{x=}')

y = x * 2 + 5
print(f'{y=}')

In [None]:
# Équivalent à :

# Crée un array non-initialisé avec les mêmes propriétés que x (taille et type)
y = np.empty_like(x)

for i in range(len(x)):
  y[i] = x[i] * 2 + 5

print(f'{y=}')

In [None]:
# Ou encore :

y = np.array([v * 2 + 5 for v in x])
print(f'{y=}')

In [None]:
# Plus d'opérations

y = x ** 2

print(y)
print(np.sqrt(y))
print(np.exp(x))
print(np.cos(x))

In [None]:
# Opérations en place (qui modifient l'array au lieu d'en créer un nouveau)

x = np.array([1, 2, 3, 4, 5])
print(x)

x *= 2
print(x)

# Le symbole "//" est l'opérateur de division entière
x //= 2
print(x)

### `np.random.randint()`, `np.random.rand()`, etc. – Générer des nombres aléatoires

In [None]:
# Génére des nombres entiers selon une loi uniforme
print(np.random.randint(0, 10, 5))

# Génére des nombres réels selon une loi uniforme
print(np.random.rand(5))

# Génére des nombres réels selon une loi normale
print(np.random.randn(5))

### `np.random.permutation()` – Permuter un array aléatoirement

In [None]:
x = np.arange(10)
print(np.random.permutation(x))

### `.sum()` – Sommer

In [None]:
x = np.arange(1, 4)

print(x)
print(x.sum())

### `.mean()` – Moyenner

In [None]:
x = np.arange(5)

print(x.mean())

# Même chose que
print(x.sum() / len(x))

### `.max()`, `.min()` – Trouver le maximum et le minimum

In [None]:
x = np.array([1, 5, 3, 2, 4])

print(x.max())
print(x.min())

### `.argmax()`, `.argmin()` – Trouver l'indice du maximum et du minimum

In [None]:
print(np.argmax(x), x[np.argmax(x)])
print(np.argmin(x), x[np.argmin(x)])

### Exercice 1

Calculez le produit scalaire $a\cdot b = \sum_i a_i b_i$ de deux vecteurs $a$ et $b$ de taille $N$.

In [None]:
a = np.array([1.2, 6.8, 0.3])
b = np.array([0.5, 2.2, 1.8])

print(a)
print(b)

# Réponse attendue : 16.1

In [None]:
print((a * b).sum())

### Exercice 2

Calculez la distance euclidienne entre deux points $a$ et $b$ à trois dimensions, sans utiliser `np.linalg.norm()`.

In [None]:
a = np.array([1.2, 6.8, 0.3])
b = np.array([0.5, 2.2, 1.8])

print(a)
print(b)

# Réponse attendue : 4.888762624632126

In [None]:
np.sqrt(((a - b) ** 2).sum())

### Exercice 3

Écrivez une fonction `normal()` qui prend les paramètres $\mu$, $\sigma$ et un vecteur $x$ et calcule la densité de la loi normale $f(x, \mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x - \mu}{\sigma})^2}$. Si vous êtes courageux (ou grec), vous pouvez utiliser les caractères grecs μ et σ comme noms de paramètres en les copiant-collant.

In [7]:
def normal(x: np.ndarray, μ: float, σ: float):
  return 1.0 / σ / np.sqrt(2.0 * np.pi) * np.exp(-0.5 * ((x - μ) / σ) ** 2)

In [None]:
# Pour tester la fonction

fig, ax = plt.subplots()

x = np.linspace(-10, 10, 500)
ax.plot(x, normal(x, 0.0, 1.0), label=r'$\mu=0, \sigma=1$')
ax.plot(x, normal(x, 5.0, 2.0), label=r'$\mu=5, \sigma=1$')
ax.plot(x, normal(x, 0.0, 2.0), label=r'$\mu=0, \sigma=2$')

ax.grid()
ax.legend();

### Comparer

In [None]:
x = np.array([-3, 6, 2, -8, 3, 0])

# Retourne un array de même taille que x avec True si l'élément est négatif
print(x < 0)

print(x <= 0)
print(x < (x * 0.5) ** 2)

Si un array de booléens est multiplié par un array de nombres, il sera alors implicitement transformé en un array d'entiers avec 1 pour `True` et 0 pour `False` avant d'être multiplié.

In [None]:
# Met à zéro les éléments positifs
print(x * (x < 0))

De même, en utilisant `.sum()` sur un array de booléens, celui-ci est transformé en array d'entiers et on obtient donc le nombre de `True`.

In [None]:
# Retourne le nombre d'éléments négatifs
print((x < 0).sum())

On peut combiner des arrays de booléens avec les opérateurs `&` (et), `|` (ou) et `~` (inversion).

In [None]:
# Tous les éléments de x qui sont à la fois positifs et pairs
print((x > 0) & (x % 2 == 0))

# Tous les éléments de x qui sont positifs ou pairs
print((x > 0) | (x % 2 == 0))

# Tous les éléments de x qui sont soit positifs, soit pairs
print((x > 0) != (x % 2 == 0))

# Tous les éléments de x qui ne sont ni positifs, ni pairs
print(~((x > 0) != (x % 2 == 0)))

### `[<array de booléens>]` – Filtrer

In [None]:
x = np.array([1, 2, 3, 4])

print(x[[False, True, False, True]])
print(x[x > 2])
print(x[x <= 2])

### `np.where()`, `.nonzero()` – Trouver les indices des éléments qui vérifient une condition

In [None]:
x = np.array([-3, 6, 2, -8, 3, 0])

# Retournent les indices des éléments négatifs
print((x < 0).nonzero()[0])
print(np.where(x < 0)[0])

### Exercice 4

Écrivez une fonction qui renvoie le nombre d'éléments pairs et strictement positifs d'un vecteur $x$.

In [433]:
x = np.array([-3, 6, 2, -8, 3, 0])

# Réponse attendue : 2

In [None]:
print(((x > 0) & (x % 2 == 0)).sum())

### Exercice 5

Écrivez une fonction qui renvoie le nombre d'éléments pairs avant le deuxième élément strictement positif d'un vecteur $x$.

In [19]:
x = np.array([-6, 5, -4, -3, -10, 8, 9, -2, -8, 3, 0, 1])

# Réponse attendue : 3

In [None]:
p = (x >= 0).nonzero()[0][1]
print((x[:p] % 2 == 0).sum())

### `[<array d'entiers>]` – Chercher

In [None]:
x = np.array([1, 2, 3, 4])

# Garde les éléments aux indices 0 et 2
print(x[[0, 2]])

In [None]:
x = np.random.randn(10)

print(x[x > 0])

# Même chose que
print(x[*(x > 0).nonzero()])

### `np.argsort()` – Trier

La fonction `np.argsort()` ne trie pas directement l'array, mais renvoie les indices qui le feraient.

In [None]:
x = np.array([2.5, 4.8, 3.0, 1.1, 5.7])

# Renvoie les indices de l'array non-trié comme si l'était trié
print(np.argsort(x))

# Renvoie l'array trié
print(x[np.argsort(x)])

### Exercice 6

Tirez 5 éléments aléatoirement dans un vecteur $x$, avec remise, en utilisant `np.random.randint()`.

In [22]:
x = np.arange(10)

In [None]:
print(x[np.random.randint(len(x), size=5)])

### Exercice 7

Tirez 5 éléments aléatoirement dans un vecteur $x$, sans remise, en utilisant `np.random.permutation()`.

In [25]:
x = np.arange(10)

In [None]:
print(x[np.random.permutation(len(x))[:5]])
print(np.random.permutation(len(x))[:5])

### `np.maximum()`, `np.minimum()` – Prendre le maximum et le minimum de chaque élément de deux arrays

Différence entre `np.maximum()` et `.max()`:

- `x = a.max()` signifie $x = \max_i a_i$
- `x = np.maximum(a, b)` signifie $x_i = \max \{a_i, b_i\}$

In [None]:
print(np.maximum(
  np.array([1, 2, 3]),
  np.array([5, 2, 2])
))

### `np.all()` et `np.any()` – Vérifier si tous ou au moins un élément vérifie une condition

In [None]:
x = np.array([1, 2, 3, 4, 5])

print(x > 2)
print()

# Renvoie True si au moins un élément est True
print((x > 2).any())

# Renvoie True si tous les éléments sont True
print((x > 2).all())

NumPy produira une erreur si vous essayez de tester une condition sur un array de booléens avec `if`, car il ne sait pas si vous voulez vérifier si tous les éléments sont `True` ou si au moins un l'est.

In [None]:
# Erreur
if x > 2:
  ...

In [33]:
# Ok
if (x > 2).any():
  ...

# Aussi ok, mais pas la même signification
if (x > 2).all():
  ...

### `np.allclose()` et `np.isclose()` – Comparer deux arrays avec une tolérance

In [None]:
x = np.array([0.1 + 0.2])

# Renvoie False car pour l'ordinateur 0.1 + 0.2 != 0.3
# En réalité 0.1 + 0.2 donne une valeur très proche (0.30000000000000004) en raison de la représentation binaire des nombres décimaux
print(x == np.array([0.3]))

# Vérifie avec une tolérance très faible
print(np.isclose(x, np.array([0.3])))

In [None]:
# Vérifie tous les éléments avec une tolérance
print(np.allclose(
  np.array([0.1 + 0.2, 0.1 + 0.7]),
  np.array([0.3, 0.8])
))

# Même chose que
print(np.isclose(
  np.array([0.1 + 0.2, 0.1 + 0.7]),
  np.array([0.3, 0.8])
).all())


## Arrays à plusieurs dimensions

### `np.array()` – Créer un array à partir de listes imbriquées

In [None]:
x = np.array([
  [1, 2, 3],
  [4, 5, 6]
])

print(x)

### `.shape` – Obtenir la taille

In [None]:
# 2 lignes (axe 0)
# 3 colonnes (axe 1)

print(x.shape)

### `.T` – Transposer un array

In [None]:
print(x.T)

### `[]` – Découper

Le nombre d'éléments dans les crochets doit correspondre au nombre d'axes de l'array.

In [None]:
x = np.random.randn(4, 2)

print(f'{x=}')
print()

# Récupère le tout premier élément
print(f'{x[0, 0]=}')
print()

# Récupère le deuxième élément de la dernière ligne
print(f'{x[-1, 1]=}')
print()

# Récupère le premier élément sur l'axe 0 qui est l'axe des lignes, donc la première ligne
y = x[0, :]

print(f'{y=}')
print(f'{y.shape=}')
print()

# Récupère le premier élément sur l'axe 1 qui est l'axe des colonnes, donc la première colonne
z = x[:, 0]

print(f'{z=}')
print(f'{z.shape=}')

In [None]:
x = np.random.randn(8, 3, 12)

# Récupère le troisième élément sur le premier axe
y = x[2, :, :]

print(f'{y.shape=}')

# Même chose que
# Le symbole "..." (équivalent à "Ellipsis") signifie tous les axes restants et peut remplacer 0 ou plus ":"
y = x[2, ...]
y = x[2, Ellipsis]

# Même chose que
# Le symbole "..." est ajouté implicitement à droite si on ne le met pas
y = x[2]


### `.max()`, `.sum()`, etc.

Toutes les opérations vues plus haut peuvent être géneralisées sur des arrays n-d. En particulier, lorsque c'est pertinent, on peut spécifier l'axe sur lequel on veut les appliquer.

In [None]:
x = np.array([
  [1, 2],
  [3, 4]
])

# Somme complète
print(x.sum())

# Somme sur l'axe 0 (lignes)
print(x.sum(axis=0))

# Somme sur l'axe 1 (colonnes)
print(x.sum(axis=1))

### `np.eye()` – Créer une matrice identité

In [None]:
np.eye(3)

### `@` – Multiplier des matrices

In [None]:
x = np.random.randn(4, 3)

print(x)
print()
print(x @ np.eye(3))
print()
print(x.T @ x)

### `.reshape()` – Changer la forme

La méthode `.reshape()` permet de changer la forme d'un array sans changer les données. Le nombre d'éléments, qui correspond au produit des tailles des axes, doit rester le même.

In [None]:
x = np.arange(12) + 1

print('Forme (12)')
print(x)

print('\nForme (3, 4)')
print(x.reshape(3, 4))

print('\nForme (4, 3)')
print(x.reshape(4, 3))

print(f'\nForme (1, 2, 1, 3, 2)')
print(x.reshape(1, 2, 1, 3, 2))

On peut utiliser `-1` pour éviter de spécifier l'une des dimensions.

In [None]:
print(x.reshape(3, -1))
print()
print(x.reshape(-1, 4))

### `.ravel()` – Aplatir

La méthode `.ravel()` permet d'obtenir un array 1d contenant les mêmes éléments que l'array d'origine. C'est équivalent à utiliser `.reshape(-1)`.

In [None]:
x = np.array([
  [1, 2],
  [3, 4]
])

print(x)
print()

print('Avec .ravel()')
print(x.ravel())

print('\nAvec .reshape(-1)')
print(x.reshape(-1))

### `[<None>]` – Ajouter un axe

En utilisant `None` (ou `np.newaxis`, les deux sont équivalents) à la place d'un indice lors d'un slicing, on peut ajouter un axe de taille 1 à l'endroit où est placé `None`.

In [None]:
x = np.random.randn(8, 3, 12)

print(x.shape)
print(x[None, ...].shape)
print(x[..., None].shape)
print(x[:, :, None, :, None].shape)

Ceci est utile pour s'assurer que deux arrays aient le même nombre d'axes lorsqu'on fait une opération entre eux. Par exemple, faire une opération entre un array de forme (4, 3) et un de taille (4, 1) va causer une copie automatique sur le second axe (l'axe 1) du second array pour qu'il aie aussi la forme (4, 3). Voir [les règles de broadcasting](https://numpy.org/doc/stable/user/basics.broadcasting.html) pour plus de détails.

In [None]:
a = np.random.randn(4, 3)
b = np.random.randn(4)

print(f'{a.shape=}')
print(f'{b.shape=}')
print(f'{b[:, None].shape=}')
print()

# Erreur
# print(a * b)

# Ok parce que b a maintenant la forme (4, 1) qui est broadcasté automatiquement en (4, 3)
print(a * b[:, None])

L'ajout d'un ou plusieurs axes est automatique lorsque les axes manquants sont à gauche de la forme. Par exemple, une opération entre un array de forme (4, 3) et un de forme (3) va automatiquement ajouter un axe à gauche de la forme du second array et copier celui-ci 4 fois pour qu'il aie la forme (4, 3).

In [None]:
a = np.random.randn(4, 3)
b = np.random.randn(3)

# Ok
print(a * b)

L'ajout d'axes peut aussi être utilisé pour faire des combinaisons intéressantes. Par exemple, ici `a * a` donne un vecteur $x$ tel que $x_i = a_i^2$ alors que `a[None, :] * a[:, None]` donne une matrice symétrique $X$ telle que $X_{i, j} = X_{j, i} = a_i a_j$.

In [None]:
a = np.array([1, 2, 3])

# Calcule le carré de chaque élément
print(a * a)
print()

# Calcule le produit de toutes combinaisons possibles de paires d'éléments
# La diagonale est le carré de chaque élément.
print(a[None, :] * a[:, None])

### `np.concatenate()`, `np.c_[]` et `np.r_[]` – Concaténer des arrays

Les objets spéciaux `np.c_[]` et `np.r_[]` (attention ce ne sont pas des méthodes) sont des raccourcis pour `np.conctenate()` qui permettent de concaténer des arrays sur les colonnes ou sur lignes, respectivement. Pour concaténer sur un autre axe, il faut utiliser la syntaxe avancée de `np.r_[]` ou `np.concatenate()` directement.

In [None]:
x = np.array([
  [1, 2, 3],
  [4, 5, 6]
])

y = np.array([
  [7, 8, 9]
])

print(f'{x.shape=}')
print(f'{y.shape=}')
print()

# Concatène sur l'axe 0, les lignes (donc il y aura plus de lignes et autant de colonnes qu'avant)
print(np.concatenate((x, y), axis=0))

# Même chose que
print(np.r_[x, y])

In [None]:
print(x.T)
print(y.T)
print()

# Concatène sur l'axe 1, les colonnes (donc il y aura plus de colonnes et autant de lignes qu'avant)
print(np.concatenate((x.T, y.T), axis=1))

# Même chose que
print(np.c_[x.T, y.T])

### Exercice 8

Calculez la matrice $A$ de taille $m\times n$ telle que $A_{i, j} = b_i + c_j$ où $b$ et $c$ sont des vecteurs de taille $m$ et $n$ respectivement.

In [398]:
a = np.arange(10)
b = np.arange(5) * 10

In [None]:
a[:, None] + b

### Exercice 9

Calculez la matrice symétrique $A$ de taille $N\times N$ qui contient les distance euclidiennes $A_{i, j} = ||P_i - P_j||$ entre toutes les paires des $N$ points en 2d contenus dans la matrice de points $P$ de taille $N\times2$.

In [None]:
points = np.random.randn(100, 2)

print(points[0:5, :])

In [None]:
np.sqrt(((points[None, :, :] - points[:, None, :]) ** 2).sum(axis=2))

### Exercice 10

Donnez la valeur de la deuxième colonne pour la ligne ayant la deuxième plus grande valeur dans une matrice $A$ de taille $N\times2$, autrement dit $A_{\argmax_i{x_{1, \cdot}}, 2}$.

In [None]:
x = np.random.randn(10, 2)

print(x)

In [None]:
x[np.argsort(x[:, 0])[-2], 1]

### Exercice 11

Calculez $\frac{1}{|B|}\sum_i \frac{A_{i, j, k}B_j^2}{C_{i, k}}$ en utilisant `np.einsum()`.

In [404]:
a = np.random.randn(12, 3, 100)
b = np.random.randn(3)
c = np.random.randn(12, 100)

In [None]:
np.einsum('ijk, j, ik -> jk', a, b ** 2, 1.0 / c) / len(b)

### Exercice 12

Générez une matrice $A_{i, j} = 5 v_i + X_j$ où $X_j\sim\mathcal{N}(0, \mu_j)$ et $v$ est un vecteur de taille $N$.

In [406]:
v = np.random.randn(4)
mu = np.random.randn(12)

In [407]:
a = (5.0 * v)[:, None] + np.random.randn(len(v), len(mu)) * mu

### Exercice 13

Faites une interpolation linéaire aux moindres carrés en trouvant $x$ dans $A^TAx = A^Tb$ où $A$ est une matrice de taille $N\times2$, en utilisant `np.lingalg.inv()` pour inverser un array. Vous n'avez pas nécessairement besoin de comprendre la théorie, juste de résoudre l'équation et d'appliquer la solution.

In [50]:
x = np.random.randn(10)
y = 5.0 * x + np.random.randn(10)

a = np.c_[np.ones(len(x)), x]
b = y

In [None]:
# Complétez ici
result = ...


fig, ax = plt.subplots()

u, v = result

ax.scatter(x, y)
ax.plot(p := np.array([-2, 2]), p * v + u, color='red');

### Exercice 14

Calculez la trace $\sum_i A_{i, i}$ d'une matrice $A$ de taille $N\times N$, sans utiliser `np.trace()` ni `np.diag()`.

In [411]:
a = np.random.randn(5, 5)

In [None]:
a[*((np.arange(len(a)),) * 2)].sum()