# Conférences Python Master TIDE #4

## NumPy

1. Introduction
2. ndarrays
3. Accès et modification de valeurs
4. Tri
5. Sélection logique de valeurs
6. Concaténation
7. Fonctions universelles
8. Broadcasting
9. Sauvegarder et charger des arrays
10. Exemples avec des images

&copy; 2025 Francis Wolinski

## 1. Introduction

- **NumPy** est le premier package de traitement de données en Python
- Il est basé sur un ensemble de fonctions codées en langage C
- Il combine une classe, les ndarray, et des fonctions universelles
- Il est le socle de la plupart des packages de data science

Numpy sert également de base pour :
- La librairie **pandas** qui l'utilise pour les Series et les DataFrames.
- Une autre implémentation dans la librairie **PyTorch** pour représenter des tenseurs utilisés dans les réseaux de neurones et le deep learning.

In [None]:
# import
import numpy as np
import matplotlib.pyplot as plt

## 2. ndarrays

**NumPy** utilise des ndarray
- un array à une dimension est un vecteur
- un array à deux dimensions est une matrice
- un array à trois dimensions et plus est un tenseur

On utilise aussi les arrays pour travailler sur des données non structurées :
- une image est représentée par un array à 3 dimensions
- une vidéo est représentée par un array à 4 dimensions
- etc.

### Un peu de vocabulaire

- Le nombre de dimensions est accédé avec `.ndim`
- Le nombre d'éléments dans chaque dimension est accédé avec `.shape`
- Le nombre total d’éléments d’un array est accédé avec `.size`
- Le type des données est accédé avec `.dtype`
- Les dimensions sont appelées `axis` (`axis=0` : lignes, `axis=1` : colonnes, ...)

On peut générer des arrays de différentes manières :

fonction (extrait)|usage
-|-
np.array(object)|à partir d'un objet de type tableau
np.arange(start, stop, step)|vecteur d'entiers également répartis dans un intervalle avec un pas
np.linspace(start, stop, num)|vecteur de nombres également répartis dans un intervalle
np.logspace(start, stop, num)|vecteur de nombres également répartis sur une échelle log dans un intervalle
np.zeros(shape)|retourne un *ndarray* nul
np.zeros_like(array)|retourne un *ndarray* nul aux dimensions identiques d'un autre *ndarray*
np.ones(shape)|retourne un *ndarray* unité
np.ones_like(array)|retourne un *ndarray* unité aux dimensions identiques d'un autre *ndarray*
np.identity(shape)|retourne une matrice identité
np.eye(N, M, k)|retourne une matrice nulle avec des 1 sur une diagonale
np.full(shape)|retourne une matrice avec une valeur uniforme
np.random.rand(d0, d1, ..., dn)|matrice aléatoire uniforme dans [0, 1)
np.random.random(size)|matrice aléatoire uniforme dans [0, 1)
np.random.randn(size)|matrice aléatoire nomale
np.random.randint(low, high, size)|matrice aléatoire d'entiers

#### Création explicite

In [None]:
# un array
arr1 = np.array([[1, 2, 3], [4, 5, 6]])
print(arr1)

In [None]:
# attributs
print(arr1.ndim, arr1.shape, arr1.size, arr1.dtype)

#### Fonction arange

In [None]:
# arange
arr2 = np.arange(48, dtype="int8")
arr2

In [None]:
# attributs
print(arr2.ndim, arr2.shape, arr2.size, arr2.dtype)

La méthode `.reshape(shape)` permet de modifier la structure d'un array sans changer le nombre d'éléments.

Les méthodes, dîtes de *reshaping*, sont très importantes en Data Science, on en verra avec la librairie **pandas**.

In [None]:
# reshape
arr2 = arr2.reshape(8, 6)
arr2

In [None]:
# attributs
print(arr2.ndim, arr2.shape, arr2.size, arr2.dtype)

- Quelle autre dimension aurait-on pu choisir pour cet array ?

In [None]:
# arr2.reshape(())
arr2

La méthode `.flatten()` permet de mettre à plat la structure d'un array sans changer le nombre d'éléments.

In [None]:
# arr2
arr2

In [None]:
# mise à plat ligne par ligne (langage C)
arr2.flatten()

In [None]:
# mise à plat colonne par colonne (langage Fortran)
arr2.flatten('F')

#### Fonction linspace

La fonction `np.linspace()` est utile par exemple pour tracer des fonctions. Elle génère un nombre donné de valeurs équidistantes entre deux bornes.

In [None]:
# linspace : 11 valeurs entre 0 et 5
np.linspace(0, 5, 11)

- Si l'on veut un certain nombre d'intervalles, il faut rajouter 1 pour le nombre de valeurs totales.

In [None]:
# linspace : affichage de la fonction sinus sur 50 valeurs entre 0 et 2xpi
x = np.linspace(0, 2 * np.pi, 50)
y = np.sin(x)
plt.plot(x, y);

#### nombres aléatoires

Il existe dans **NumPy** un générateur de nombres pseudo-aléatoires. Les nombres aléatoires sont utilisés dans plusieurs branches de l'informatique : certains algorithmes (tri, optimisation, ...), la cryptographie, les simulations, les jeux vidéos, ainsi que le Machine Learning et le Deep Learning.

Rappel : `np.random.seed()` : permet d'initialiser le générateur afin de pouvoir reproduire des expériences avec des nombres aléatoires. A noter, certaines méthodes de Machine Learning utilisent le mot-clé `random_state` pour définir un seed et être en mesure de pouvoir reproduire des expériences.

In [None]:
# 1 entier aléatoire entre 0 et 9
np.random.randint(10)

In [None]:
# 20 entiers aléatoires entre 1 et 10 dans une matrice 2 x 10
np.random.randint(1, 11, (2, 10))

In [None]:
# 12 flottants aléatoires entre 0.0 et 1.0 dans une matrice 3 x 4
np.random.rand(3, 4)

In [None]:
# avec seed
np.random.seed(0)
np.random.rand(3, 4)

#### ajouter une dimension à un array

- La méthode `.reshape()` peut prendre la valeur `-1` qui signifie que **NumPy** doit définir lui-même la bonne dimension.
- L'objet `np.newaxis` permet de matérialiser une dimension supplémentaire.

In [None]:
# ajout d'une dimension
arr = np.arange(10)
arr

In [None]:
# ajout d'une dimension
arr2 = arr.reshape(arr.shape[0], -1).T
arr2

In [None]:
# shape
print(arr2.shape)

In [None]:
# équivalent
np.array([arr])

In [None]:
# équivalent
arr[np.newaxis, :]

In [None]:
# ajout d'une dimension
arr = np.arange(10)
arr3 = arr.reshape(arr.shape[0], -1)
arr3

In [None]:
# shape
print(arr3.shape)

In [None]:
# équivalent
np.array([arr]).T

In [None]:
# équivalent
arr[:, np.newaxis]

## 3. Accès et modification de valeurs

L'opérateur `[]` en suffixe permet d'accéder aux valeurs et aussi de modifier les valeurs d'un array.

Les sélecteurs utilisables sont les mêmes que ceux en Python :
- un indice `array[i]` commençant à 0.
- une plage d'indices `array[i:j]` dans laquelle le second est exclu.
- une plage d'indices avec un pas `array[i:j:k]`.

Si un array a plusieurs dimensions, on peut mettre autant de sélecteurs séparés par des virgules que de dimensions.

In [None]:
arr2 = np.arange(48)
arr2 = arr2.reshape(8, 6)
arr2

In [None]:
# accès à la première ligne
arr2[0]

In [None]:
# accès à la deuxième colonne
arr2[:, 1]

In [None]:
# lignes de 2 à 4
arr2[2:5]

In [None]:
# colonnes de 2 à 3
arr2[:, 2:4]

In [None]:
# accès à une sous-matrice
arr2[2:5, 2:4]

In [None]:
# modification d'une sous-matrice
arr2[2:5, 2:4] = -1
arr2

## 4. Tri

La fonction `np.sort()` permet de trier un ndarray.

In [None]:
# arr3
arr3 = np.random.random((5, 5))
arr3

In [None]:
# tri numpy
np.sort(arr3)

In [None]:
# arr4
np.random.seed(2025)
arr4 = np.random.randint(0, 10, (9, 9))
arr4

In [None]:
# tri numpy
np.sort(arr4, axis=0)

In [None]:
# tri numpy
np.sort(arr4, axis=1)

## 5. Sélection logique de valeurs

### 5.1 Masques booléens

Un array permet également la sélection booléenne en plaçant entre `[]` des opérations booléennes sur ses éléments.

Lorsque l'array a plusieurs dimensions, les données sélectionnées sont mises à plat.

Le ET logique est représenté par un `&`, le OU logique par un `|` et le NON logique par un `~` .

In [None]:
# array d'entiers
array = np.arange(48)
array

In [None]:
# création d'un masque booléen pour les entiers pairs
mask = array % 2 == 0
mask

In [None]:
# opération booléenne sur un array de dimension 1
# sélection des entiers pairs à partir du masque booléen
array[mask]

In [None]:
# en une seule ligne de code
array[array % 2 == 0]

In [None]:
# arr4
arr4

In [None]:
# opération booléenne sur un array de dimension 2
# les entiers pairs
arr4[arr4 % 2 == 0]

In [None]:
# opération booléenne complexe sur un array de dimension 2
# les entiers pairs dont le carré est inférieur à 50
arr4[(arr4 % 2 == 0) & (arr4 ** 2 < 50)]

In [None]:
# les entiers impairs dont le carré est inférieur à 50
arr4[(arr4 % 2 == 1) & (arr4 ** 2 < 50)]

### 5.2 La fonction np.where()

La fonction `np.where()` utilisée avec une condition seule retourne un tuple avec dans chaque dimension un array avec les indices des éléments qui vérifient la condition.

In [None]:
# array
np.random.seed(0)
array = np.random.randint(0, 10, (20,))
array

In [None]:
# indices des entiers < 3
np.where(array < 3)

In [None]:
# sélection des entiers < 3
array[np.where(array < 3)[0]]

In [None]:
# reshape to 4 x 5
array = array.reshape((4, 5))
array

In [None]:
# indices des entiers < 5
np.where(array < 3)

La fonction `np.where()` utilisée avec une condition et deux valeurs *x* et *y* retourne un array de même dimension avec des *x* et *y* selon si les éléments vérifient ou non la condition.

*x* et *y* peuvent être des valeurs scalaires ou un array. Dans ce cas, la fonction fait office de recherche et remplacement.

In [None]:
# exemple
np.where(array < 3, -1, array)

## 6. Concaténation

La fonction `np.concatenate()` permet de combiner des arrays dont les dimensions sont compatibles, en précisant l'`axis` si besoin.

In [None]:
# ajout de lignes

np.random.seed(0)
arr1 = np.random.randint(0, 10, (4, 5))
print(arr1)
print()
arr2 = np.random.randint(0, 10, (2, 5))
print(arr2)

np.concatenate([arr1, arr2])

In [None]:
# ajout de colonnes

np.random.seed(0)
arr1 = np.random.randint(0, 10, (4, 5))
print(arr1)
print()
arr2 = np.random.randint(0, 10, (4, 2))
print(arr2)

np.concatenate([arr1, arr2], axis=1)

In [None]:
# ajout d'une seule colonne

np.random.seed(0)
arr1 = np.random.randint(0, 10, (4, 5))
print(arr1)
print()
arr2 = np.random.randint(0, 10, (4, 1))
print(arr2)

np.concatenate([arr1, arr2], axis=1)

Il existe également les fonctions `np.vstack()`, `np.hstack()` et `np.dstack()`.

## 7. Fonctions universelles ou *ufunc*

**NumPy** possède de nombreuses méthodes sur les arrays permettant d'effectuer des calculs :
- méthodes logiques : `.all()`, `.any()`
- méthodes mathématiques : `.abs()`, `.sqrt()`, `.sin()`, `.cos()`, `.tan()`, `.log()`, `.exp()`, `.floor()`, etc.
- méthodes arithmétiques : `.sum()`, `.cumsum()`, `.min()`, `.max()`, `.sort()`, `.argsort()`, etc.
- méthodes statistiques : `.sum()`, `.cumsum()`, `.mean()`, `.std()`, `.var()`, `.median()`, `.quantile()`, `.percentile()`, `.average()`
- calculs matriciels : `.dot()` ou `@`, `.transpose()` ou `.T`

Certaines de ces fonctions peuvent s'utiliser avec le mot-clé `axis` pour préciser dans quelle dimension effectuer la réduction.

In [None]:
# array à 2 dimensions
array = np.arange(48).reshape(8, 6)
array[2:5, 2:4] = -1
array

In [None]:
# somme totale
array.sum()

In [None]:
# somme des lignes
array.sum(axis=0)

In [None]:
# somme des colonnes
array.sum(axis=1)

In [None]:
array @ np.arange(6)

### La fonction np.apply_along_axis()

La fonction `np.apply_along_axis()` permet d'appliquer une fonction sur un `axis` d'un array.

Elle est plus lente qu'une *ufunc*.

In [None]:
# exemple
np.apply_along_axis(lambda x: x**3 + x**2 + x + 1, 0, np.arange(10))

### La fonction np.vectorize()

La fonction `np.vectorize()` permet de définir une fonction qui s'applique de manière vectorisée. On peut aussi l'utiliser comme décorateur de fonction.

Elle est plus lente que `np.apply_along_axis()`.

In [None]:
# exemple
@np.vectorize
def my_poly(x):
    return x**3 + x**2 + x + 1

my_poly(range(10))

In [None]:
# timeit
%timeit np.apply_along_axis(lambda x: x**3 + x**2 + x + 1, 0, range(1_000_000))

In [None]:
# timeit
%timeit my_poly(range(1_000_000))

### Comparaison entre les temps d'exécution Python et numpy

In [None]:
# Python
%timeit sum([i**2 for i in range(10_000_000)])

In [None]:
# numpy
%timeit (np.arange(10_000_000) ** 2).sum()

## 8. Le broadcasting

Un array supporte des opérations arithmétiques avec un scalaire et des opérations avec un autre array.

Les opérations arithmétiques de bases se font terme à terme : `*`, `+`, `-`, `/`, `**` (puissance), `%` (modulo).

Pour les opérations avec un autre array, **NumPy** utilise celui dans une dimension compatible avec l'opération.

In [None]:
# vecteur 1
array1 = np.arange(4)
array1

In [None]:
# addition avec un scalaire
array2 = array1 + 10
array2

In [None]:
# multiplication avec un vecteur
array1 * array2

In [None]:
# matrice 2 x 4
array3 = np.arange(8).reshape(2, 4)
array3

In [None]:
# addition matrice + vecteur (broadcast)
array3 + array2

In [None]:
array4 = np.arange(2).reshape(2, 1)
print(array4)

In [None]:
# addition matrice + vecteur (broadcast)
array3 + array4

## 9. Sauvegarder et charger des arrays

On utilise :
- `np.save('mon_array',mon_array)` pour sauver un array
- `np.savez('ziparray.npz', x=mon_array, y=mpn_array2)` sauvegarder en zip plusieurs arrays
- `np.load('mon_array.npy')` ou `np.load('mon_array.npz')` pour charger un array
- `np.savetxt('textfile.txt', mon_array, delimiter=';')` pour sauvegarder un array dans un fichier texte
- `np.loadtxt('textfile.txt', delimiter=';')` pour charger un array depuis un fichier texte

## 10. Exemples avec des images

Si l'on charge une image avec le module pyplot de la librairie **matplotlib**, on obtient un array sur lequel on peut effectuer des manipulations.

In [None]:
# Tour Eiffel
image_paris = plt.imread("./data/tour-eiffel.png")
plt.imshow(image_paris);

In [None]:
# type
type(image_paris)

In [None]:
# shape
image_paris.shape

Les 3 dimensions représentent :
- la hauteur de l'image en pixels, ici 694
- la largeur de l'image en pixels, ici 1024
- les 3 couleurs primaires : rouge, vert, bleu (RVB) :
    - `image_paris[:,:,0]` représente les valeurs de la couleur primaire <span style="color:red">rouge</span>,
    - `image_paris[:,:,1]` représente les valeurs de la couleur primaire <span style="color:green">verte</span>,
    - `image_paris[:,:,2]` représente les valeurs de la couleur primaire <span style="color:blue">bleue</span>.
    
Pour les images, les valeurs sont soit des nombres flottants entre `0.0` et `1.0`, soit des entiers entre `0` et `255` (correspondant à `00` et `FF` en hexadécimal). La valeur `0.0` (ou `0`) correspond à l'absence de couleur. La valeur `1.0` (ou `255`) correspond à l'intensité maximum de couleur). 

Pour afficher une image avec les valeurs de chaque couleur primaire d'une image, il suffit de passer à 0 les valeurs des 2 autres couleurs complémentaires.

In [None]:
# pixel en haut à gauche
image_paris[0, 0]

In [None]:
# couleur d'un seul pixel
arr = np.full((10, 10, 3), image_paris[0, 0])
plt.imshow(arr);

**Exercice**
- Comment obtenir le pixel en bas à droite ?
- Déterminez i, j, k, l ci-dessous pour sélectionner uniquement la Tour Eiffel dans l'image
- Passez à 0 successivement l'un des canaux rouge, vert ou bleu et affichez l'image obtenue.
- Cette transformation doit être effectuée sur une copie de l'image, obtenue par la méthode `copy()`.

In [None]:
# extraction d'une partie de l'image
i, j = 0, -1
k, l = 0, -1
tour_eiffel = image_paris[i:j, k:l]
plt.imshow(tour_eiffel);

**Exercice**
- Chargez l'image mystère "./data/devinez.jpg" et l'afficher. Il s'agit d'une photo dans laquelle on a modifié aléatoirement les 2 couleurs vert et bleu.
- Appliquez une transformation simple pour améliorer le rendu de cette photo et devinez ce qu'elle représente.

**Exercice**
- Chargez l'image "./data/mondrian-1504681_1280.png" et l'afficher.
- La couleur grise peut-être obtenue en égalisant dans chaque pixel les niveaux de rouge, de vert et de bleu. Passez la photo en niveau de gris, ici, en calculant la moyenne des canaux rouge, vert et bleu et en l'affectant aux 3 canaux, toujours sur une copie de l'image.
- En fait, le niveau de gris est calculé en utilisant une moyenne pondérée : $Y=0.2989 \times R + 0.5870 \times G + 0.1140 \times B$. Passez l'image en gris avec cette formule.

<div class="alert alert-warning">
    <h3><i class="fa fa-book"></i> Documentation</h3>
    <ul>
        <li><strong>NumPy</strong> : <a href="https://numpy.org/doc/stable/index.html">https://numpy.org/doc/stable/index.html</a></li>
        <li><strong>Deep learning on MNIST</strong> : <a href="https://numpy.org/numpy-tutorials/tutorial-deep-learning-on-mnist/">https://numpy.org/numpy-tutorials/tutorial-deep-learning-on-mnist/</a></li>
    </ul>
</div>