# NumPy I

## Introduction

Selon [Wikipédia](https://fr.wikipedia.org/wiki/NumPy), `NumPy` est une bibliothèque pour le langage de programmation `Python`, destinée à **manipuler** des matrices ou **tableaux multidimensionnels** ainsi que des **fonctions mathématiques** opérant sur ces tableaux. 

`NumPy` est la bibliothèque le plus utilisée en `Python` pour réaliser des opérations mathématiques. En fait, plusieurs bibliothèques populaires sont basées ou utilisent `NumPy`. Son usage est considéré comme faisant partie des connaissances de base à posséder pour plusieurs branches informatiques utilisant `Python`. Entre autre, elle permet :
 - une performance de calcul sans comparable avec l'usage simple de Python
 - une abstraction de haut niveau sur les opérations matricielles et mathématiques sous-jacentes
 - l'écriture de code plus compact, facile à lire, facile à maintenir et facile à déboguer.

`NumPy` est _de facto_ la bibliothèque la plus utilisée dans plusieurs branches scientifiques, technologiques et informatiques. D'ailleurs, certains projets ont été créé en Python pour utiliser `NumPy` et les bibliothèques dérivées, c'est tout dire! 

`NumPy` est largement inspirée de la technique de programmation réalisée par `Matlab`. L'approche de développement utilisé est basé sur un paradigme de programation différent de ceux utilisés en général; c'est-à-dire, le _array programming_.

Il vaut la peine de mentionner que la documentation de `NumPy` est excellente!

## En bref

`NumPy` offre : 
 - création de matrice et génération aléatoire
 - information sur l'état de la matrice
 - manipulation de la matrice
 - un mécanisme d'indexation puissant
 - plusieurs fonctions et opérateurs mathématiques
 - vectorisation et _broadcasting_


## Installation

`pip install numpy`


## Références

 - [NumPy](https://numpy.org/) et [documentation officielle](https://numpy.org/doc/)
 - [Real Python](https://realpython.com/numpy-tutorial/)

---

## Mise en place

### Importation de la librairie

In [3]:
import numpy as np # l'alias np est généralement utilisé par convention

### Création de fonctions utilitaires pour ce document

In [4]:
def print_title(title, *, length = 80, sep_char = '-', right_align = True, nb_lines_before = 0, nb_lines_after = 0):
    separator = sep_char * max(0, length - len(title) - 1)
    if right_align:
        title = title + ' ' + separator
    else:
        title = separator + ' ' + title
    
    print('\n' * nb_lines_before + title + '\n' * nb_lines_after)
    
def print_result(statement_string):
    print_title(statement_string, right_align = False)
    print(eval(statement_string))
    
def print_demo(title, statement_string):
    print_title(title, nb_lines_before=1)
    print_result(statement_string)    

---

## `ndarray`
<div style="text-align: right"><a href="https://numpy.org/doc/stable/reference/arrays.ndarray.html">Documentation ndarray</a></div>

La classe `ndarray` est au coeur de la bibliothèque `NumPy`. C'est elle qui supporte les matrices multi-dimensionnelles. La nommenclature `ndarray` vient de _N-dimensional array_ pour **matrice à _N_ dimensions**.

Un objet `ndarray` est une structure de données décrite ainsi :
 - tableau à _N_ dimensions
 - les données sont contiguës en mémoire (linéairement organisé avec agencement flexible)
 - les données sont de types homogènes

On instancie rarement une classe `ndarray` directement. En fait, on utilise plutôt l'une des nombreuses fonctions utilitaires destinées à cet usage. Ce document présente plusieurs de ces fonctions de création.

### Création avec valeurs prédéterminées

La fonction `array` crée un object `ndarray` à partir d'une représentation `Python` trafitionnelle de vecteurs ou de matrices à `n` dimensions (liste/tuple de listes/tuples à `n` dimensions).

Voilà 3 exemples de création d'objets `ndarray` avec des valeurs prédéterminées :
 - 1D, entiers 
 - 2D, entiers
 - 3D, réels

In [5]:
# Création d'une matrice 1D d'entiers de taille 6
data_1 = np.array([1, 2, 3, 4, 5, 6])

# Création d'une matrice 2D d'entiers de taille 2 x 3
data_2 = np.array([[1, 2, 3], 
                   [4, 5, 6]], np.uint16) # np.uint16 formalise le format à des entiers non signés de 16 bits

# Création d'une matrice 3D de réels de taille 2 x 2 x 3
data_3 = np.array([
                   [  [1., 1.5, 2.],
                      [3., 3.5, 4.] ],
                   
                   [  [9., 8.5, 8.],
                      [7., 6.5, 6.] ]  
                  ])

### Attributs

Plusieurs attributs décrivent la matrice :
 - &#x1F4C4; `ndarray.dtype` : le type de données
 - &#x1F4C4; `ndarray.ndim` : le nombre de dimensions
 - &#x1F4DD; `ndarray.shape` : la forme de la matrice, un tuple décrivant la taille pour chacune des dimensions
 - &#x1F4C4; `ndarray.size` : le nombre d'éléments dans la matrice
 - &#x1F4C4; `ndarray.itemsize` : la taille en octets de chaque élément du tableau
 - &#x1F4C4; `ndarray.nbytes` : le nombre total d'octets pour les éléments du tableau
 - &#x1F4C4; `ndarray.data` : donne accès au pointeur indiquant le début des données du tableau

Légende des icônes utilisées :
 - &#x1F4C4; propriété en lecture seule
 - &#x1F4DD; propriété en lecture et écriture

In [6]:
def array_attributes(array_name):
    print_title(f'Attributs ndarray : { array_name }', right_align=False)
    print(f''' - dtype : {eval(array_name).dtype}
 - ndim : {eval(array_name).ndim}
 - shape : {eval(array_name).shape}
 - size : {eval(array_name).size}
 - itemsize : {eval(array_name).itemsize}
 - nbytes : {eval(array_name).nbytes}
 - data : {eval(array_name).data}''')

array_attributes('data_1')
array_attributes('data_2')
array_attributes('data_3')

----------------------------------------------------- Attributs ndarray : data_1
 - dtype : int64
 - ndim : 1
 - shape : (6,)
 - size : 6
 - itemsize : 8
 - nbytes : 48
 - data : <memory at 0x000001A0CEF0BA00>
----------------------------------------------------- Attributs ndarray : data_2
 - dtype : uint16
 - ndim : 2
 - shape : (2, 3)
 - size : 6
 - itemsize : 2
 - nbytes : 12
 - data : <memory at 0x000001A0CF071E50>
----------------------------------------------------- Attributs ndarray : data_3
 - dtype : float64
 - ndim : 3
 - shape : (2, 2, 3)
 - size : 12
 - itemsize : 8
 - nbytes : 96
 - data : <memory at 0x000001A0A0902D40>


### Création avec valeurs uniformes

 - `empty` : une matrice sans initialisation de valeurs (!)
 - `identity` : une matrice 2D identité (matrice carrée remplie de 0 sauf pour la diagonale qui est à 1)
 - `zeros` : une matrice remplie de valeur 0
 - `ones` : une matrice remplie de valeur 1
 - `full` : une matrice remplie de la même valeur 

In [7]:
print_demo('empty 2D : 2 x 3', "np.empty((2, 3))")
print_demo('identity 2D : 3 x 3', "np.identity(3)")
print_demo('zeros 1D : 15', "np.zeros(15)")
print_demo('ones 2D : 2 x 10', "np.ones((2, 10))")
print_demo('full 4D avec -10 : 2 x 2 x 3 x 4', "np.full((2, 2, 3, 4), -10)")


empty 2D : 2 x 3 ---------------------------------------------------------------
--------------------------------------------------------------- np.empty((2, 3))
[[-8.84060943e-312 -3.53354968e-184  8.84074624e-312]
 [ 8.84074624e-312  9.88131292e-323  4.94065646e-324]]

identity 2D : 3 x 3 ------------------------------------------------------------
----------------------------------------------------------------- np.identity(3)
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]

zeros 1D : 15 ------------------------------------------------------------------
------------------------------------------------------------------- np.zeros(15)
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]

ones 2D : 2 x 10 ---------------------------------------------------------------
--------------------------------------------------------------- np.ones((2, 10))
[[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]]

full 4D avec -10 : 2 x 2 x 3 x 4 -----------------------------------------------
------

  ### Création avec valeurs générées
 
 - `arange` : une série linéaire (décrite par itération)
 - `linspace` : une série linéaire (décrite par ses bornes et le nombre d'éléments)
 - `meshgrid` : retourne un tuple de tableaux contenant les coordonnées (X, Y, ...) pour tous les points d'une grille à n dimensions (à partir de listes de coordonnées)
 - `fromfunction` : toutes les valeurs sont calculées à partir d'une fonction
 - `fromiter` : à partir d'un itérateur

In [8]:
print_title('arange et linspace', sep_char='=', nb_lines_before=2)
print_demo('série de 0 à 9', "np.arange(10)")
print_demo('série de 0, 10, 20...100', "np.arange(0, 110, 10)")
print_demo('série de 11 données de 0 à 10', "np.linspace(0., 10., 11)")
print_demo('série de 5 données de 0 à 10', "np.linspace(0., 10., 5)")


print_title('meshgrid', sep_char='=', nb_lines_before=2)
print_demo('série de 5 données de 0 à 10', "np.meshgrid(np.arange(5))")
print_demo('série de 5 données de 0 à 10', "np.meshgrid(np.array([0, 1, 2, 3]), np.array([0, 1]))")
print_demo('série de 5 données de 0 à 10', "np.meshgrid(np.array([0, 1, 2, 3]), np.array([10, 11]), np.array([100, 101]))")


print_title('fromfunction', sep_char='=', nb_lines_before=2)
def my_func_1(x, y): return x ** 2 + y ** 2
def my_func_2(x, y): return (x + 1) * 100 + (y + 1)
print_demo('x^2 + y^2', "np.fromfunction(my_func_1, (2, 5))")
print_demo('100 par ligne + 1 par colonne', "np.fromfunction(my_func_2, (2, 5))")


print_title('fromiter', sep_char='=', nb_lines_before=2)
iter1 = [(i ** 2)/2 for i in range(10)]
iter2 = (4 * ((-1) ** k)/(2 * k + 1) for k in range(100000))
print_demo('itérateur : i^2/2', "np.fromiter(iter1, np.int32)")
print_demo('itérateur : série de pi', "np.fromiter(iter2, np.float32)")




série de 0 à 9 -----------------------------------------------------------------
------------------------------------------------------------------ np.arange(10)
[0 1 2 3 4 5 6 7 8 9]

série de 0, 10, 20...100 -------------------------------------------------------
---------------------------------------------------------- np.arange(0, 110, 10)
[  0  10  20  30  40  50  60  70  80  90 100]

série de 11 données de 0 à 10 --------------------------------------------------
------------------------------------------------------- np.linspace(0., 10., 11)
[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]

série de 5 données de 0 à 10 ---------------------------------------------------
-------------------------------------------------------- np.linspace(0., 10., 5)
[ 0.   2.5  5.   7.5 10. ]



série de 5 données de 0 à 10 ---------------------------------------------------
------------------------------------------------------ np.meshgrid(np.arange(5))
(array([0, 1, 2, 3, 4]),)

série de 5 do

  ### Création et manipulations aléatoires
  
Il existe deux approches pour la génération de nombres aléatoires avec `NumPy`. On présente ici l'approche moderne. L'idée est d'utiliser un objet `rng` (_Random Number Generator_) du module `numpy.random`. Cet objet offre plusieurs fonctions permettant de générer des nombres aélatoires selon plusieurs distributions statistiques.
 - `default_rng` : génère un objet `rng`
    - à même son constructeur, on peut définir le `seed`
    - si aucun `seed` n'est donné, ce dernier est initialisé en utilisant des sources d'entropie fournies par le système d'exploitation
    - si vous désirez utiliser le temps de la journée, vous pouvez utiliser : `time.time_ns()` (la méthode précédente est privilégiée)
 - de cet objet, plusieurs outils sont disponibles :
    - génération selon certaines distributions :
        - `rng.integers` : distribution uniforme d'entiers dans l'intervalle [minimum, maximum)
        - `rng.random` : distribution uniforme d'un réel dans l'intervalle [0.0, 1.0)
        - `rng.uniform` : distribution uniforme de réels dans l'intervalle [minimum, maximum)
        - `rng.normal` : distribution normale de réels (moyenne et écart type) 
         
    - il existe aussi plusieurs fonctions utilitaires intéressantes :
        - `rng.choice` : sélectionne aléatoirement certaines valeurs
        - `rng.shuffle` : mélange aléatoirement une matrice        

In [None]:
rng = np.random.default_rng(123)

print_demo('[0.0..1.0] : 2 x 3', 'rng.random((2,3))')
print_demo('[10..20] : 2 x 4', 'rng.integers(10, 20, (2,4))')
print_demo('[-5.0..5.0] : 2 x 4', 'rng.uniform(-5, 5, (2,4))')
print_demo('dist. normale : 2 x 3', 'rng.normal(10.0, 1.5, (2,3))')

test = np.arange(0, 110, 10)
print_result('test')
print_result('rng.choice(test, 3)')
rng.shuffle(test) # la fonction shuffle modifie le tableau original sans rien retourner
print_title('rng.shuffle(test)')
print(test)


[0.0..1.0] : 2 x 3 -------------------------------------------------------------
-------------------------------------------------------------- rng.random((2,3))
[[0.68235186 0.05382102 0.22035987]
 [0.18437181 0.1759059  0.81209451]]

[10..20] : 2 x 4 ---------------------------------------------------------------
---------------------------------------------------- rng.integers(10, 20, (2,4))
[[14 19 14 12]
 [17 18 18 18]]

[-5.0..5.0] : 2 x 4 ------------------------------------------------------------
------------------------------------------------------ rng.uniform(-5, 5, (2,4))
[[ 0.12970455 -2.55035399  3.24241596 -2.86237037]
 [ 2.41467052  1.29940205  4.27407259 -2.68091811]]

dist. normale : 2 x 3 ----------------------------------------------------------
--------------------------------------------------- rng.normal(10.0, 1.5, (2,3))
[[ 9.53230772 10.50665369  6.68879335]
 [11.24188216 12.31244559 11.69021019]]
--------------------------------------------------------------

## Transformation et construction

Quelques fonctions sont disponibles pour modifier la forme de la matrice :
 - &#x21A9; `ndarray.resize` : redimensionne la matrice en tronquant ou copiant les valeurs existantes (attention, un nouveau _buffer_ sera alloué)
 - &#x2194; `ndarray.T` ou `np.transpose` : transposition de la matrice où les colonnes deviennent des lignes et vice versa
 - &#x2194; `np.squeeze` : retourne une matrice où toutes les dimensions existantes mais superflues (de taille 1) sont retirées
 - &#x2194; `reshape` : défini une autre forme pour la matrice (&#x2194; ou &#x27A1; à cause de l'agencement des `strides`)
 - &#x27A1; `ndarray.flatten` : retourne une matrice équivalente à 1 dimension
 - &#x27A1; `ndarray.astype` : retourne une nouvelle matrice ayant un nouveau type (toutes les valeurs sont converties)
 - &#x27A1; `np.resize` : retourne une nouvelle matrice redimensionnée de la courante en tronquant ou copiant les valeurs existantes
 
 Quelques fonctions pour construire une nouvelle matrice à partir d'autres existantes :
 - &#x27A1; `np.stack((a1, a2, ...), axis=0)` : Empile une séquence de tableaux (`a1`, `a2`, etc.) le long d'un nouvel axe (`axis`), créant ainsi un tableau avec une dimension supplémentaire. Les tableaux d'entrée doivent avoir la même forme.
 - &#x27A1; `np.concatenate((a1, a2, ...), axis=0)` : Assemble une séquence de tableaux (`a1`, `a2`, etc.) le long d'un axe existant (`axis`) pour former un seul tableau plus grand. Les dimensions des tableaux doivent correspondre, sauf pour l'axe de concaténation.
   - malgré le nom confondant, ces fonctions sont des spécialisations de `np.concatenate` (pour ` axis=0` , ` axis=1`  et ` axis=2`) :
     - &#x27A1; `np.vstack((a1, a2, ...))` : Empile des tableaux verticalement (l'un en dessous de l'autre). Raccourci pour concatenate sur le premier axe (`axis=0`) pour les tableaux >= 2D.
     - &#x27A1; `np.hstack((a1, a2, ...))` : Assemble des tableaux horizontalement (l'un à côté de l'autre). Raccourci pour concatenate sur le deuxième axe (`axis=1`) pour les tableaux >= 2D (ou sur `axis=0` pour les 1D).
     - &#x27A1; `np.dstack((a1, a2, ...))` : Empile des tableaux selon la profondeur (le long du troisième axe). Utile pour les images couleur, par exemple.
 - &#x27A1; `np.repeat(A, repeats, axis=None)` : Répète chaque élément individuel du tableau `A` un nombre de fois spécifié par `repeats`, potentiellement le long d'un axe (`axis`) donné.
 - &#x27A1; `np.tile(A, reps)` : Répète l'intégralité du tableau `A` (comme une tuile) plusieurs fois, selon les dimensions spécifiées par `reps`, pour construire un nouveau tableau plus grand.
 
 Fonction de construction conditionnelle :
 - &#x27A1; `np.where(condition)` : Retourne un tuple de `ndarray` contenant les **indices** (pour chaque dimension) où `condition` (généralement un tableau booléen) est `True`. Attention, l'appel de la fonction `np.where(condition)` avec un seul argument donne le même résultat que `np.nonzero(condition)` qui est plus explicite et dont l'usage est recommandé.
 - &#x27A1; `np.where(condition, x, y)` : Retourne un nouveau tableau de même forme que `condition`. Pour chaque position, si `condition` est `True`, la valeur correspondante de `x` sinon `y`. `x` et `y` doivent être compatibles avec `condition` (_broadcastable_).
 - autres fonctions intéressantes de construction conditionnelle : `np.select`, `np.piecewise` et `np.clip`.


Légende des icônes :
 - &#x21A9; modifie la matrice
 - &#x2194; retourne une vue
 - &#x27A1; retourne une nouvelle matrice


In [10]:
data = np.arange(24)
print_result('data')
print_result('np.resize(data, (6,2))')
print_result('np.resize(data, (2,14))')
print_result('data.reshape((2,12))')
print_result('data.reshape((12,2))')
print_result('data.reshape((4,6))')
print_result('data.reshape((6,4))')
print_result('data.reshape((2,3,4))')
print_result('data.reshape((2,2,2,3))')
print_result('data.reshape((2,12)).flatten()')

print_result('data.reshape((6,4)).T')
print_result('data.reshape((2,3,4)).T')

data.resize(18)
print_result('data # after data.resize(18)')
data.resize((4, 1, 2))
print_result('data # after data.resize((4, 1, 2))')
print_result('data.shape')

print_result('data.squeeze()')
print_result('data.squeeze().shape')

print_result('data.astype(np.float32)')

A = np.array([[1, 2],
              [3, 4]])
B = np.array([[1, -1],
              [-4, 4]])

print_result('A')
print_result('B')

print_result('np.stack((A, B), axis=0)')
print_result('np.stack((A, B), axis=1)')
print_result('np.concatenate((A, B), axis=0)')
print_result('np.concatenate((A, B), axis=1)')
print_result('np.repeat(A, 2, axis=0)')
print_result('np.repeat(A, 2, axis=1)')
print_result('np.tile(A, (2, 1))')
print_result('np.tile(A, (1, 2))')

print_result('np.where(B % 2 == 0)')
print_result('np.where(A == B, A + B, A - B)')


--------------------------------------------------------------------------- data
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]
--------------------------------------------------------- np.resize(data, (6,2))
[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]]
-------------------------------------------------------- np.resize(data, (2,14))
[[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13]
 [14 15 16 17 18 19 20 21 22 23  0  1  2  3]]
----------------------------------------------------------- data.reshape((2,12))
[[ 0  1  2  3  4  5  6  7  8  9 10 11]
 [12 13 14 15 16 17 18 19 20 21 22 23]]
----------------------------------------------------------- data.reshape((12,2))
[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]
------------------------------------------------------------ data.reshape((4,6))
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
---------------------

### Indexation

`NumPy` permet différentes techniques d'indexation pour accéder aux matrices `ndarray`. Voici un résumé des techniques disponibles :

- **Indexation fondamentale** :
  - Un index peut être un entier, positif ou négatif :
    - les index positifs accèdent aux éléments de gauche à droite (0 à n-1)
    - les index négatifs accèdent en sens inverse (de -1 à -n).
  - Un index hors limites génère une exception `IndexError`.
  - retourne un scalaire.

- **Indexation multidimensionnelle** :
  - Contrairement aux autres structures du langage `Python` (par exemple, `list`, `tuple`, `dict`), `NumPy` permet d'accéder aux dimensions multiples de la matrice en utilisant la virgule `,` pour séparer chaque dimension.
  - Par exemple, pour une matrice 3D `data`, on peut accéder à la coordonnée `(x, y, z)` avec `data[x, y, z]`.
  - Cette notation permet de spécifier directement les indices de chaque dimension.

- **Slicing** :
  - La notation `[start:stop:step]` permet, via un parcour, d'extraire une sous-partie de la matrice :
    - `start` : position de départ, par défaut 0.
    - `stop` : position de fin (non incluse)
      - par défaut, après le dernier élément, indiquant que le parcours inclut le dernier élément
      - le fait d'omettre le paramètre `stop` est la seule façon de réaliser le parcour en incluant la dernière valeur.
    - `step` : valeur d'incrément pour chaque itération du parcours, par défaut 1.
  - Il est possible d'effectuer le slicing pour chaque dimension (en séparant les slicings par une virgule).
  - Ce type d'indexation retourne toujours une vue (même lorsqu'une seule valeur est retournée).

- **Indexation par sélection** :
  - L'indexation par sélection permet d'accéder à des éléments spécifiques d'une matrice.
  - Retourne toujours les valeurs sélectionnées dans une matrice 1d.
  - Deux approches principales existent :
    - **Tableaux d'index** :
      - En utilisant une liste ou un tableau d'entiers, on peut extraire des éléments précis. 
        - Par exemple `data[[1, 3, 5]]` retourne les trois valeurs se trouvant aux index 1, 3 et 5.
        - On remarque que :
          - les crochets extérieurs `[...]` correspondent à l'opérateur d'indexation 
          - les crochets intérieurs `[...]` correspondent une liste `Python`
      - Si la matrice est multidimensionnelle, `d` listes seront nécessaires et séparées par une virgule (où `d` est le nombre de dimensions). Par exemple, `data[[1, 5], [2, 3]]` donne les valeurs aux coordonnées `data[1, 2]` et `data[5, 3]`.
    - **Indexation booléenne** :
      - En utilisant un tableau de booléens **de même forme** que la matrice de base, chaque `True` ou `False` indique si l'élément correspondant est sélectionné ou non.
      - L'indexation par masque est une forme d'indexation booléenne où l'on utilise une condition pour créer le masque. Par exemple, `data[data > 5]` retourne tous les éléments de `data` supérieurs à 5. Voir la vectorisation pour mieux comprendre la création du masque.
  - Ce type d'indexation retourne une copie des données.

- **Combinaison de techniques d'indexation** :
  - Il est possible d'utiliser différentes techniques d'indexation pour chaque dimension d'une matrice, ce qui permet une grande flexibilité.
  - Par exemple :
    - `data[1:4, [2, 5, 7]]` utilise un slicing pour la première dimension et une liste d'index pour la deuxième dimension.
    - `data[:, [0, 2, 4]]` sélectionne toutes les lignes (avec `:`) et les colonnes spécifiées par `[0, 2, 4]`.

Ces différentes techniques offrent une grande flexibilité pour manipuler et analyser les matrices en `NumPy`. Nous verrons plus loin que plusieurs approches présentées ici sont de la vectorisation.




In [11]:
data = np.arange(10, 22)
print_title('-')
print_result('data')
print_result('data[0]')
print_result('data[4:8]')
print_result('data[0:12:4]')
print_result('data[10:5:-1]')
print_result('data[[0,5,7]]')
print_result('data[[True, True, True, False, False, False, False, False, False, True, True, True]]')

data = np.arange(3 * 3 * 3).reshape(3,3,3)
print_title('-')
print_result('data')
print_result('data[0,1,2]') # cette approche est recommandée
print_result('data[0][1][2]') # cette approche n'est pas recommandée
print_result('data[0, 1]')
print_result('data[0][1]')
print_result('data[0]')
print_result('data[0,:,:]')
print_result('data[:,0,:]')
print_result('data[:,:,0]')
print_result('data[[0,1],[1,0],[2,2]]')
print_result('data[[0,1,2],[0,1,2],[0,1,2]]')
print_result('data[0,0:2,0:2]')
print_result('data[0,...]')
print_result('data[...,0]')

data = np.arange(24).reshape(4,6)
print_title('-')
print_result('data')
print_result('data[3:0:-1,1:6:2]')
print_result('data[-1::-2,[3, 1, 2]]')

- ------------------------------------------------------------------------------
--------------------------------------------------------------------------- data
[10 11 12 13 14 15 16 17 18 19 20 21]
------------------------------------------------------------------------ data[0]
10
---------------------------------------------------------------------- data[4:8]
[14 15 16 17]
------------------------------------------------------------------- data[0:12:4]
[10 14 18]
------------------------------------------------------------------ data[10:5:-1]
[20 19 18 17 16]
------------------------------------------------------------------ data[[0,5,7]]
[10 15 17]
 data[[True, True, True, False, False, False, False, False, False, True, True, True]]
[10 11 12 19 20 21]
- ------------------------------------------------------------------------------
--------------------------------------------------------------------------- data
[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]]

 [[ 9 10 11]
  [12 13 14]
  [1

## Vectorisation

La vectorisation (ou _vectorisation_ en anglais) est une technique qui consiste à réaliser certaines opérations sur l'ensemble des données, sans boucles explicites. Autrement dit, les boucles de parcours sont déjà programmées et compilées. Les outils qui en découlent ont des impacts profonds :
- Changement de paradigme :
  - Cette approche permet le paradigme de programmation vectorielle (_array programming_ en anglais).
  - Son usagee permet de manipuler des tableaux entiers comme de simples variables. L'usage en cascade de simples manipulations permet un traitement efficace qui pourrait être plus complexe avec d'autres approches.
- Programmation simplifiée :
  - L'utilisation de ce paradigme simplifie la rédaction de programme en évitant explicitement les boucles.
- Fonctionnalités avancées :
  - Accès à des opérations matricielles et autres outils sans effort supplémentaire.
- Performance optimisée :
  - Optimisation interne et parallélisation des calculs (voir [Taxonomie de Flynn](https://fr.wikipedia.org/wiki/Taxonomie_de_Flynn), plus spécifiquement la notion de `SIMD`).
- Courbe d'apprentissage exigeante :
  - La programmation vectorielle peut être difficile à appréhender au début, car elle nécessite de penser les opérations en termes de matrices et de vecteurs plutôt qu'en boucles explicites. La courbe d'apprentissage est donc exigeante, mais les gains en performance et en efficacité justifient l'effort.

La vectorisation est omniprésente avec `NumPy` et est réalisée par :

- Opérateurs et fonctions du noyau Python :
  - Arithmétiques : `+`, `-`, `*`, `/`, `//`, `%`, `divmod`, `**`, `pow`, `<<`, `>>`, `&`, `^`, `|`, `~` (versions unaire et binaire).
  - Arithmétiques avec assignation : `+=`, `-=`, `*=`, `/=`, `//=`, `%=`, `**=`, `<<=`, `>>=`, `&=`, `^=`, `|=`.
  - De comparaison : `==`, `<`, `>`, `<=`, `>=`, `!=`.
  - Certaines fonctions : `abs(...)`, min(...), max(...), floor(...), ceil(...), round(...), ... 
- Techniques d'indexation :
  - Les techniques d'indexation déjà vues, par _slicing_ et par sélection, sont des opérations vectorisées.
- Fonctions appliquées par la matrice (_méthodes de la matrice_) :
  - La plupart des méthodes de la classe `numpy.ndarray` sont vectorisées (par exemple, `my_array.sum()`). Voir la [documentation officielle](https://numpy.org/doc/stable/reference/arrays.ndarray.html#array-methods).
- Fonctions universelles (_fonctions appliquées sur une matrice_) :
  - La plupart des fonctions universelles de `NumPy`, telles que `np.sum(my_array)`, permettent des opérations vectorisées. Voir la [documentation des fonctions universelles](https://numpy.org/doc/stable/reference/ufuncs.html).

Avec cette approche, le code est particulièrement compact, lisible et performant. La maîtrise de la vectorisation demande un effort initial non négligeable, mais elle devient un atout puissant une fois assimilée, facilitant l'écriture d'opérations complexes de manière élégante et optimisée.

Il est essentiel d'aborder cet apprentissage étape par étape, en appliquant la méthode `CALTAL` (_**C**ode **A** **L**ittle, **T**est **A** **L**ittle_). Cela implique de coder de petites portions, puis de les tester immédiatement, afin de mieux comprendre et maîtriser les concepts progressivement. Cette approche structurée permet de réduire les erreurs, d'améliorer la compréhension globale de la programmation vectorielle et d'accélérer votre apprentissage.

### Conditions pour la vectorisation

- Les matrices doivent être de tailles compatibles.
- Les opérations peuvent être effectuées entre une matrice et un scalaire (une seule valeur).

> *Attention, le mot "vectorization" a plusieurs sens en informatique.*


In [12]:
# exemples d'opérations mathématiques 

data1 = np.arange(12).reshape((3,4))
data2 = np.arange(10,22).reshape((3,4))

print_result('data1')
print_result('data2')
print_result('data1 + data2')
print_result('data1 * data2')
print_result('data1 + 100')
print_result('data1 / 100')
print_result('data1 ** 2')
print_result('data1 > 5')
print_result('data1[data1 > 5]')

-------------------------------------------------------------------------- data1
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
-------------------------------------------------------------------------- data2
[[10 11 12 13]
 [14 15 16 17]
 [18 19 20 21]]
------------------------------------------------------------------ data1 + data2
[[10 12 14 16]
 [18 20 22 24]
 [26 28 30 32]]
------------------------------------------------------------------ data1 * data2
[[  0  11  24  39]
 [ 56  75  96 119]
 [144 171 200 231]]
-------------------------------------------------------------------- data1 + 100
[[100 101 102 103]
 [104 105 106 107]
 [108 109 110 111]]
-------------------------------------------------------------------- data1 / 100
[[0.   0.01 0.02 0.03]
 [0.04 0.05 0.06 0.07]
 [0.08 0.09 0.1  0.11]]
--------------------------------------------------------------------- data1 ** 2
[[  0   1   4   9]
 [ 16  25  36  49]
 [ 64  81 100 121]]
---------------------------------------------------

In [13]:
# exemples de fonctions mathématiques 

data1 = np.arange(12).reshape((3,4))
data2 = np.arange(10,22).reshape((3,4))

print_result('data1')
print_result('data2')

print_result('np.sum(data1)') # on remarque que la somme est globale
print_result('np.sum(data1, axis=0)') # on remarque que la somme n'est que pour la 1re dimension
print_result('np.sum(data1, axis=1)') # on remarque que la somme n'est que pour la 2e dimension
print_result('np.min(data1)')
print_result('np.max(data1)')
print_result('np.mean(data1)')
print_result('np.median(data1)')
print_result('np.std(data1)')
print_result('np.sum((data1 - data2)**2, axis=0)**0.5')

print_result('np.degrees(np.cos(data1 / (2. * np.pi)))')
print_result('np.round(data1 ** 2.37)')



-------------------------------------------------------------------------- data1
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
-------------------------------------------------------------------------- data2
[[10 11 12 13]
 [14 15 16 17]
 [18 19 20 21]]
------------------------------------------------------------------ np.sum(data1)
66
---------------------------------------------------------- np.sum(data1, axis=0)
[12 15 18 21]
---------------------------------------------------------- np.sum(data1, axis=1)
[ 6 22 38]
------------------------------------------------------------------ np.min(data1)
0
------------------------------------------------------------------ np.max(data1)
11
----------------------------------------------------------------- np.mean(data1)
5.5
--------------------------------------------------------------- np.median(data1)
5.5
------------------------------------------------------------------ np.std(data1)
3.452052529534663
---------------------------------------

## Broadcasting

Le broadcasting est une technique issue de la vectorisation permettant d'appliquer des opérations sur des matrices de tailles différentes sans avoir à spécifier explicitement des boucles de parcours. Cette technique repose sur l'extension automatique des matrices pour les rendre compatibles entre elles.

Le broadcasting s'appuie sur :

- Les matrices doivent être compatibles en termes de dimensions.
- Si les dimensions sont identiques, c'est un cas standard de vectorisation.
- Si une ou plusieurs des dimensions sont de taille 1, l'axe correspondant de l'autre matrice est projeté pour produire des matrices de taille équivalente.

Le broadcasting permet ainsi la vectorisation dans un contexte plus large.

In [14]:
data1 = np.arange(12).reshape((3,4))
data2 = np.arange(0,40,10)
data3 = np.arange(0,30,10).reshape(3,1)

print_result('data1')
print_result('data2')
print_result('data3')

print_result('data1 + data2') 
print_result('data1 + data3')
print_result('data2 + data3')

-------------------------------------------------------------------------- data1
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
-------------------------------------------------------------------------- data2
[ 0 10 20 30]
-------------------------------------------------------------------------- data3
[[ 0]
 [10]
 [20]]
------------------------------------------------------------------ data1 + data2
[[ 0 11 22 33]
 [ 4 15 26 37]
 [ 8 19 30 41]]
------------------------------------------------------------------ data1 + data3
[[ 0  1  2  3]
 [14 15 16 17]
 [28 29 30 31]]
------------------------------------------------------------------ data2 + data3
[[ 0 10 20 30]
 [10 20 30 40]
 [20 30 40 50]]


## Opérations matricielles standards

Voici quelques fonctions fondamentales liées à la manipulation de matrices :

- **Multiplication et produits de matrices :** Calculs entre vecteurs et matrices.
  - `matmul` (opérateur `@`) : Produit matriciel entre deux tableaux.
  - `cross` : Produit vectoriel entre deux vecteurs.
  - `dot` : Produit scalaire ou matriciel selon les entrées.
  - **Note importante** : l'opérateur `*` réalise une multiplication élément par élément ([produit matriciel de Hadamard](https://fr.wikipedia.org/wiki/Produit_matriciel_de_Hadamard)) et non un produit matriciel. Mathématiquement, on utilise ces notations :
    - `C = A @ B` correspond à $C = A \times B$, produit matriciel standard
    - `C = A * B` correspond à $C = A \circ B$, produit matriciel de Hadamard

- **Algèbre linéaire :** Opérations mathématiques courantes sur les matrices (utilisent le sous-module `linalg`).
  - `linalg.inv` : Inverse d'une matrice carrée.
  - `linalg.det` : Déterminant d'une matrice.
  - `linalg.eig` : Valeurs propres et vecteurs propres.
  - `linalg.norm` : Norme d'une matrice ou d'un vecteur.
  - `linalg.svd` : Décomposition en valeurs singulières.

- **Extraction et modification des valeurs de la matrice :** Manipulations basiques des éléments.
  - `diag` : Extraction des éléments de la diagonale ou création de matrices diagonales.
  - `trace` : Calcul de la trace d'une matrice (somme des éléments sur la diagonale principale).
  - `transpose` : Transposition d'une matrice, échange des lignes et des colonnes.
  - `triu` : Extraction de la partie triangulaire supérieure d'une matrice.
  - `tril` : Extraction de la partie triangulaire inférieure d'une matrice.

- **Restructuration de matrices :** Réorganisation de la forme des tableaux.
  - `concatenate` : Concaténation de tableaux le long d'un axe spécifié.
  - `hstack` : Empilement horizontal de matrices.
  - `repeat` : Répète chaque élément d'une matrice un certain nombre de fois selon un motif spécifié.
  - `tile` : Répétition d'un tableau selon un motif spécifique.
  - `vstack` : Empilement vertical de matrices.<br>_concatenate, hstack et vstack sont similaires_

- **Triage et tri :** Organisation des valeurs d'une matrice.
  - `sort` : Trie les éléments le long d'un axe spécifié.
  - `argsort` : Retourne les indices correspondant au tri des éléments.

- **Statistiques de base :** Calcul des statistiques élémentaires sur les matrices.
  - `max` : Retourne la valeur maximale des éléments d'une matrice.
  - `maximum` : Évalue élément par élément le maximum entre deux matrices.
  - `argmax` : Retourne les indices des valeurs maximales le long d'un axe spécifié.
  - `min` : Retourne la valeur minimale des éléments d'une matrice.
  - `minimum` : Évalue élément par élément le minimum entre deux matrices.
  - `argmin` : Retourne les indices des valeurs minimales le long d'un axe spécifié.
  - `mean` : Calcule la moyenne des éléments d'une matrice.
  - `median` : Calcule la médiane des éléments d'une matrice.
  - `std` : Calcule l'écart-type des éléments d'une matrice.
  - `sum` : Calcule la somme des éléments d'une matrice.

- **Opérations logiques :** Comparaisons et opérations logiques sur les matrices.
  - `all` : Vérifie si tous les éléments d'une matrice sont vrais (vérifie la condition spécifiée).
  - `any` : Vérifie si au moins un élément d'une matrice est vrai (vérifie la condition spécifiée).
  - `logical_and` : Effectue une opération logique ET élément par élément entre deux matrices.
  - `logical_or` : Effectue une opération logique OU élément par élément entre deux matrices.
  - `logical_not` : Effectue une opération logique NON élément par élément sur une matrice.
  - `logical_xor` : Effectue une opération logique XOR élément par élément entre deux matrices.
  - `where` : Selon la forme de son usage, se comporte de deux façons différentes :
    - Lorsque seule une condition est donnée (`np.where(condition)`), la fonction retourne les indices des éléments qui satisfont cette condition.
    - Lorsque trois arguments sont fournis (`np.where(condition, x, y)`), la fonction agit comme un `if` vectorisé en retournant `x` là où la condition est vraie et `y` sinon.

Ces catégories couvrent un ensemble varié de fonctions pratiques pour la manipulation de matrices, allant de l'algèbre linéaire fondamentale aux techniques de restructuration, de tri, de calcul statistique et d'opérations logiques, offrant ainsi une boîte à outils complète pour le calcul scientifique et la manipulation des données.

En définitive, il est **essentiel** de lire la documentation de `NumPy` pour voir tous les détails de ces fonctions, ces opérateurs et des différents outils. Il existe plusieurs nuances très importantes et les détails sont cruciaux. Aussi, ce document présente une très faible proportion de ce qui existe, la lecture de la documentation permet d'améliorer ses compétences au fur et à mesure.


