# TP optionnel : Python, NumPy et la vectorisation

Une rapide introduction à certains des calculs scientifiques utilisés dans ce cours. En particulier le package de calcul scientifique NumPy et son utilisation avec python.

# Table des matières
- [&nbsp;&nbsp;1.1 Goals](#toc_40015_1.1)
- [&nbsp;&nbsp;1.2 Useful References](#toc_40015_1.2)
- [2 Python and NumPy <a name='Python and NumPy'></a>](#toc_40015_2)
- [3 Vectors](#toc_40015_3)
- [&nbsp;&nbsp;3.1 Abstract](#toc_40015_3.1)
- [&nbsp;&nbsp;3.2 NumPy Arrays](#toc_40015_3.2)
- [&nbsp;&nbsp;3.3 Vector Creation](#toc_40015_3.3)
- [&nbsp;&nbsp;3.4 Operations on Vectors](#toc_40015_3.4)
- [4 Matrices](#toc_40015_4)
- [&nbsp;&nbsp;4.1 Abstract](#toc_40015_4.1)
- [&nbsp;&nbsp;4.2 NumPy Arrays](#toc_40015_4.2)
- [&nbsp;&nbsp;4.3 Matrix Creation](#toc_40015_4.3)
- [&nbsp;&nbsp;4.4 Operations on Matrices](#toc_40015_4.4)


In [None]:
import numpy as np    # généralement, on utilise le raccourcis "np" pour désigner numpy, même si c'est pas officiel
import time

## 1.1 Objectifs
Dans ce TP, vous allez :
- Revoir les fonctionnalités de NumPy et Python qui sont utilisées dans ce cours

<a name="toc_40015_1.2"></a>
## 1.2 Références utiles
- Documentation de NumPy incluant une introduction: [NumPy.org](https://NumPy.org/doc/stable/)
- Une thématique plus difficile : ["Broadcasting" dans NumPy](https://NumPy.org/doc/stable/user/basics.broadcasting.html)

<a name="toc_40015_2"></a>
# 2 Python et NumPy <a name='Python et NumPy'></a>
Python est le langage de programmation que nous utiliserons dans ce cours. Il dispose d'un ensemble de types de données numériques et d'opérations arithmétiques. NumPy est une bibliothèque qui étend les capacités de base de Python pour ajouter un ensemble de données plus riche, incluant plus de types numériques, des vecteurs, des matrices, et de nombreuses fonctions. NumPy et Python travaillent ensemble de manière assez transparente. Les opérateurs arithmétiques de Python fonctionnent sur les types de données NumPy et de nombreuses fonctions NumPy accepteront les types de données Python.

<a name="toc_40015_3"></a>
# 3 Vecteurs
<a name="toc_40015_3.1"></a>
## 3.1 Résumé
<img align="right" src="./images/C1_W2_Lab04_Vectors.PNG" style="width:340px;" >Les vecteurs, tels que vous les utiliserez dans ce cours, sont des tableaux ordonnés de nombres. En notation, les vecteurs sont désignés par des lettres en gras et en minuscules, comme $\mathbf{x}$. Les éléments d'un vecteur sont tous du même type. Un vecteur ne contient pas, par exemple, à la fois des caractères et des nombres. Le nombre d'éléments dans le tableau est souvent appelé la *dimension*, bien que les mathématiciens puissent préférer le terme *rang*. Le vecteur illustré dans l'image a une dimension de $n$. Les éléments d'un vecteur peuvent être référencés par un indice. En mathématiques, les indices vont généralement de 1 à n. En informatique et dans ces TP, l'indexation ira généralement de 0 à n-1. En notation, les éléments d'un vecteur, lorsqu'ils sont référencés individuellement, indiqueront l'indice en indice, par exemple, le $0^{ème}$ élément, du vecteur $\mathbf{x}$ est $x_0$. Notez que le x n'est pas en gras dans ce cas.

<a name="toc_40015_3.2"></a>
## 3.2 Tableaux NumPy

La structure de données de base de NumPy est un *tableau* indexable, à $n$ dimensions, contenant des éléments du même type (`dtype`). Vous remarquerez peut-être que nous avons surchargé le terme 'dimension'. Plus haut, il s'agissait du nombre d'éléments dans le vecteur, ici, la dimension se réfère au nombre d'indices d'un tableau. Un tableau unidimensionnel ou 1-D a un seul indice. Dans le cours 1, nous représentons les vecteurs comme des tableaux 1-D NumPy.

 - Tableau 1-D, forme (n,) : n éléments indexés de [0] à [n-1] 

<a name="toc_40015_3.3"></a>
## 3.3 Création de vecteurs


Les fonctions de création de tableaux / vecteurs (ici les termes sont interchangeables). Numpy auront généralement un premier paramètre qui est la forme de l'objet. Cela peut être soit une seule valeur pour un résultat 1-D, soit un tuple (n,m,...) spécifiant la forme du résultat. Ci-dessous, des exemples de création de vecteurs en utilisant ces routines.

In [None]:
# Fonctions NumPy qui allouent de la mémoire et remplissent les tableaux avec une valeur
a = np.zeros(4);                print(f"np.zeros(4) :   a = {a}, forme de a = {a.shape}, type de données de a = {a.dtype}")
a = np.zeros((4,));             print(f"np.zeros(4,) :  a = {a}, forme de a = {a.shape}, type de données de a = {a.dtype}")
a = np.random.random_sample(4); print(f"np.random.random_sample(4): a = {a}, forme de a = {a.shape}, type de données de a = {a.dtype}")

Certaines fonctions de création de données n'acceptent pas un tuple spécifiant sa forme :

In [None]:
# Fonctions NumPy qui allouent de la mémoire et remplissent les tableaux avec une valeur mais n'acceptent pas la forme en argument d'entrée
a = np.arange(4.);              print(f"np.arange(4.):     a = {a}, forme de a = {a.shape}, type de données de a = {a.dtype}")
a = np.random.rand(4);          print(f"np.random.rand(4): a = {a}, forme de a = {a.shape}, type de données de a = {a.dtype}")

Les valeurs peuvent être aussi spécifiées manuellement

In [None]:
# Fonctions NumPy qui allouent de la mémoire et remplissent avec des valeurs spécifiées par l'utilisateur
a = np.array([5,4,3,2]);  print(f"np.array([5,4,3,2]):  a = {a},     forme de a = {a.shape}, type de données de a = {a.dtype}")
a = np.array([5.,4,3,2]); print(f"np.array([5.,4,3,2]): a = {a}, forme de a = {a.shape}, type de données de a = {a.dtype}")

Ces fonctions ont toutes créé un vecteur unidimensionnel `a` avec quatre éléments. `a.shape` renvoie les dimensions. Ici, nous voyons que a.shape = `(4,)`, ce qui indique un tableau 1-d avec 4 éléments.

<a name="toc_40015_3.4"></a>
## 3.4 Opérations sur les vecteurs
Explorons quelques opérations en utilisant des vecteurs.
<a name="toc_40015_3.4.1"></a>
### 3.4.1 Indexation
Les éléments des vecteurs peuvent être accessibles via l'indexation et le découpage. NumPy fournit un ensemble très complet de capacités d'indexation et de découpage. Nous n'explorerons ici que les bases nécessaires pour le cours. Consultez [Slicing and Indexing](https://NumPy.org/doc/stable/reference/arrays.indexing.html) pour plus de détails.  
**L'indexation** signifie se référer à *un élément* d'un tableau par sa position dans le tableau.  
**Le découpage** (slicing) signifie obtenir un *sous-ensemble* d'éléments d'un tableau en fonction de leurs indices.  
NumPy commence l'indexation à zéro, donc le 3ème élément d'un vecteur $\mathbf{a}$ est `a[2]`.

In [None]:
# opérations d'indexation de vecteurs sur des vecteurs 1-D
a = np.arange(10)
print(a)

# accéder à un élément
print(f"a[2].shape: {a[2].shape} a[2]  = {a[2]}, Accéder à un élément renvoie un scalaire")

# accéder au dernier élément, les index négatifs comptent à partir de la fin
print(f"a[-1] = {a[-1]}")

# les index doivent être dans la plage du vecteur sinon ils produiront une erreur
try:
    c = a[10]
except Exception as e:
    print("Le message d'erreur que vous verrez est :")
    print(e)

<a name="toc_40015_3.4.2"></a>
### 3.4.2 Découpage
Le découpage (slicing) crée un tableau d'indices en utilisant un ensemble de trois valeurs (`start:stop:step`). Un sous-ensemble de valeurs est également valide. Son utilisation est mieux expliquée par exemple :

In [None]:
# opérations de découpage de vecteurs
a = np.arange(10)
print(f"a         = {a}")

# accéder à 5 éléments consécutifs (start:stop:step)
c = a[2:7:1];     print("a[2:7:1] = ", c)

# accéder à 3 éléments séparés par deux 
c = a[2:7:2];     print("a[2:7:2] = ", c)

# accéder à tous les éléments d'index 3 et plus
c = a[3:];        print("a[3:]    = ", c)

# accéder à tous les éléments en dessous de l'index 3
c = a[:3];        print("a[:3]    = ", c)

# accéder à tous les éléments
c = a[:];         print("a[:]     = ", c)

<a name="toc_40015_3.4.3"></a>
### 3.4.3 Opérations sur un seul vecteur
Il existe un certain nombre d'opérations utiles qui impliquent des opérations sur un seul vecteur.

In [None]:
a = np.array([1,2,3,4])
print(f"a             : {a}")
# négation des éléments de a
b = -a 
print(f"b = -a        : {b}")

# somme de tous les éléments de a, renvoie un scalaire
b = np.sum(a) 
print(f"b = np.sum(a) : {b}")

b = np.mean(a)
print(f"b = np.mean(a): {b}")

b = a**2
print(f"b = a**2      : {b}")

<a name="toc_40015_3.4.4"></a>
### 3.4.4 Opérations élément par élément sur les vecteurs
La plupart des opérations arithmétiques, logiques et de comparaison de NumPy s'appliquent également aux vecteurs. Ces opérateurs fonctionnent sur une base élément par élément. Par exemple 
$$ c_i = a_i + b_i $$

In [None]:
a = np.array([ 1, 2, 3, 4])
b = np.array([-1,-2, 3, 4])
print(f"Les opérateurs binaires fonctionnent élément par élément : {a + b}")

Bien sûr, pour que cela fonctionne correctement, les vecteurs doivent être de la même taille :

In [None]:
# essayez une opération de vecteur non correspondante
c = np.array([1, 2])
try:
    d = a + c
except Exception as e:
    print("Le message d'erreur que vous verrez est :")
    print(e)

<a name="toc_40015_3.4.5"></a>
### 3.4.5 Opérations scalaire-vecteur
Les vecteurs peuvent être 'mis à l'échelle' (scaled) par des valeurs scalaires. Une valeur scalaire est juste un nombre. Le scalaire multiplie tous les éléments du vecteur.

In [None]:
a = np.array([1, 2, 3, 4])

# multiplier a par un scalaire
b = 5 * a 
print(f"b = 5 * a : {b}")

<a name="toc_40015_3.4.6"></a>
### 3.4.6 Produit scalaire de vecteurs
Le produit scalaire est un pilier de l'algèbre linéaire et de NumPy. C'est une opération largement utilisée dans ce cours et qui doit être bien comprise.

Le produit scalaire multiplie les valeurs de deux vecteurs élément par élément puis somme le résultat.
Le produit scalaire de vecteurs nécessite que les dimensions des deux vecteurs soient les mêmes.

Implémentons notre propre version du produit scalaire ci-dessous :

**En utilisant une boucle for**, implémentez une fonction qui renvoie le produit scalaire de deux vecteurs. La fonction doit renvoyer pour les entrées données $a$ et $b$ :
$$ x = \sum_{i=0}^{n-1} a_i b_i $$
Supposez que `a` et `b` ont la même forme.

In [None]:
def my_dot(a, b): 
    """
   Calcule le produit scalaire de deux vecteurs
 
    Args:
      a (ndarray (n,)):  vecteur d'entrée 
      b (ndarray (n,)):  vecteur d'entrée de même dimension que a
    
    Returns:
      x (scalaire): 
    """
    

In [None]:
# test 1-D
a = np.array([1, 2, 3, 4])
b = np.array([-1, 4, 3, 2])
print(f"my_dot(a, b) = {my_dot(a, b)}")

Notez que le produit scalaire est censé renvoyer une valeur scalaire. 

Essayons les mêmes opérations en utilisant `np.dot`.  

In [None]:
# test 1-D
a = np.array([1, 2, 3, 4])
b = np.array([-1, 4, 3, 2])
c = np.dot(a, b)
print(f"NumPy 1-D np.dot(a, b) = {c}, np.dot(a, b).shape = {c.shape} ") 
c = np.dot(b, a)
print(f"NumPy 1-D np.dot(b, a) = {c}, np.dot(a, b).shape = {c.shape} ")


Ci-dessus, vous remarquerez que les résultats pour 1-D correspondent à notre implémentation.

<a name="toc_40015_3.4.7"></a>
### 3.4.7 Le besoin de vitesse : vecteur vs boucle for
Nous avons utilisé la bibliothèque NumPy car elle peut accélérer le code de manière drastique (jusqu'à 100x dans certains cas !). Démontrons-le :

In [None]:
np.random.seed(1)
a = np.random.rand(10000000)  # très grands tableaux
b = np.random.rand(10000000)

tic = time.time()  # capture du temps de début
c = np.dot(a, b)
toc = time.time()  # capture du temps de fin

print(f"np.dot(a, b) =  {c:.4f}")
print(f"Durée de la version vectorisée : {1000*(toc-tic):.4f} ms ")

tic = time.time()  # capture du temps de début
c = my_dot(a,b)
toc = time.time()  # capture du temps de fin

print(f"my_dot(a,b) = {c:.4f}")
print(f"Durée de la version avec boucle : {1000*(toc-tic):.4f} ms ")

del(a);del(b)  # supprimer ces grands tableaux de la mémoire

Ainsi, la vectorisation offre une grande accélération dans cet exemple. C'est parce que NumPy fait un meilleur usage du parallélisme de données disponible dans le matériel sous-jacent. Les GPU et les CPU modernes mettent en œuvre des pipelines SIMD (Single Instruction, Multiple Data) permettant d'émettre plusieurs opérations en parallèle. C'est essentiel en apprentissage automatique où les ensembles de données sont souvent très grands.

<a name="toc_12345_3.4.8"></a>
### 3.4.8 Opérations vecteur-vecteur dans le cours 1
Les opérations vecteur-vecteur apparaîtront fréquemment dans le cours 1. Voici pourquoi :
- À l'avenir, nos exemples seront stockés dans un tableau, `X_train` de dimension (m,n). Cela sera expliqué plus en détail dans le contexte, mais il est important de noter ici qu'il s'agit d'un tableau ou d'une matrice à 2 dimensions (voir la prochaine section sur les matrices).
- `w` sera un vecteur à 1 dimension de forme (n,).
- nous effectuerons des opérations en bouclant à travers les exemples, en extrayant chaque exemple pour travailler individuellement en indexant X. Par exemple : `X[i]`
- `X[i]` renvoie une valeur de forme (n,), un vecteur à 1 dimension. Par conséquent, les opérations impliquant `X[i]` sont souvent des opérations vecteur-vecteur.  

C'est une explication un peu longue, mais aligner et comprendre les formes de vos opérandes est important lors de l'exécution d'opérations vectorielles.

In [None]:
# montrer un exemple commun du cours 1
X = np.array([[1],[2],[3],[4]])
w = np.array([2])
c = np.dot(X[1], w)

print(f"X[1] a la forme {X[1].shape}")
print(f"w a la forme {w.shape}")
print(f"c a la forme {c.shape}")

<a name="toc_40015_4"></a>
# 4 Matrices


<a name="toc_40015_4.1"></a>
## 4.1 Résumé
Les matrices sont des tableaux à deux dimensions. Les éléments d'une matrice sont tous du même type. En notation, les matrices sont désignées par une lettre majuscule en gras, comme $\mathbf{X}$. Dans ce TP et d'autres, `m` est souvent le nombre de lignes et `n` le nombre de colonnes. Les éléments d'une matrice peuvent être référencés avec un index à deux dimensions. Dans les contextes mathématiques, les nombres dans l'index vont généralement de 1 à n. En informatique et dans ces TP, l'indexation ira de 0 à n-1.
Notation générique de matrice, le 1er index est la ligne, le 2ème est la colonne.

<a name="toc_40015_4.2"></a>
## 4.2 Tableaux NumPy

La structure de données de base de NumPy est un *tableau* indexable, à n dimensions, contenant des éléments du même type (`dtype`). Ceux-ci ont été décrits précédemment. Les matrices ont un index bidimensionnel (2-D) [m,n].

Dans le cours 1, les matrices 2-D sont utilisées pour contenir les données d'entraînement. Les données d'entraînement sont $m$ exemples par $n$ caractéristiques, créant un tableau (m,n). Le cours 1 n'effectue pas d'opérations directement sur les matrices mais extrait généralement un exemple sous forme de vecteur et opère sur celui-ci. Vous allez revoir ci-dessous : 
- la création de données
- le découpage et l'indexation

<a name="toc_40015_4.3"></a>
## 4.3 Création de matrices
Les mêmes fonctions qui ont créé des vecteurs 1-D créeront des tableaux 2-D ou n-D. Voici quelques exemples

Below, the shape tuple is provided to achieve a 2-D result. Notice how NumPy uses brackets to denote each dimension. Notice further than NumPy, when printing, will print one row per line.


In [None]:
a = np.zeros((1, 5))                                       
print(f"la forme de a = {a.shape}, a = {a}")                     

a = np.zeros((2, 1))                                                                   
print(f"la forme de a = {a.shape}, a = {a}") 

a = np.random.random_sample((1, 1))  
print(f"la forme de a = {a.shape}, a = {a}") 

On peut également spécifier manuellement les données. Les dimensions sont spécifiées avec des crochets supplémentaires.

In [None]:
# Fonctions NumPy qui allouent de la mémoire et la remplissent avec des valeurs spécifiées par l'utilisateur
a = np.array([[5], [4], [3]]);   print(f" la forme de a = {a.shape}, np.array: a = {a}")
a = np.array([[5],   # On peut aussi
              [4],   # séparer les valeurs
              [3]]); # en différentes lignes
print(f" la forme de a = {a.shape}, np.array: a = {a}")

<a name="toc_40015_4.4"></a>
## 4.4 Opérations sur les matrices
Explorons quelques opérations en utilisant des matrices.

<a name="toc_40015_4.4.1"></a>
### 4.4.1 Indexation

Les matrices incluent un second index. Les deux index décrivent [ligne, colonne]. L'accès peut soit renvoyer un élément, soit une ligne/colonne. Voir ci-dessous :

In [None]:
# opérations d'indexation de vecteurs sur les matrices
a = np.arange(6).reshape(-1, 2)   # reshape est une manière pratique de créer des matrices
print(f"forme de a: {a.shape}, \na= {a}")

# accéder à un élément
print(f"\nforme de a[2,0]:   {a[2, 0].shape}, a[2,0] = {a[2, 0]},     type(a[2,0]) = {type(a[2, 0])} L'accès à un élément renvoie un scalaire\n")

# accéder à une ligne
print(f"forme de a[2]:   {a[2].shape}, a[2]   = {a[2]}, type(a[2])   = {type(a[2])}")

Il vaut la peine de prêter attention au dernier exemple. L'accès à une matrice en spécifiant simplement la ligne renverra un vecteur 1-D.

**Reshape**  
L'exemple précédent a utilisé [reshape](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html) pour façonner le tableau.  
`a = np.arange(6).reshape(-1, 2) `   
Cette ligne de code a d'abord créé un *vecteur 1-D* de six éléments. Elle a ensuite remodelé ce vecteur en un tableau *2-D* en utilisant la fonction reshape. Cela aurait pu être écrit :  
`a = np.arange(6).reshape(3, 2) `  
Pour arriver au même tableau de 3 lignes et 2 colonnes.
L'argument -1 indique à la fonction de calculer le nombre de lignes étant donné la taille du tableau et le nombre de colonnes.

<a name="toc_40015_4.4.2"></a>
### 4.4.2 Découpage
Le découpage crée un tableau d'indices en utilisant un ensemble de trois valeurs (`start:stop:step`). Un sous-ensemble de valeurs est également valide. Son utilisation est mieux expliquée par exemple :

In [None]:
# opérations de découpage de vecteurs 2-D
a = np.arange(20).reshape(-1, 10)
print(f"a = \n{a}")

# accéder à 5 éléments consécutifs (start:stop:step)
print("a[0, 2:7:1] = ", a[0, 2:7:1], ",  forme de a[0, 2:7:1] =", a[0, 2:7:1].shape, "un tableau 1-D")

# accéder à 5 éléments consécutifs (start:stop:step) sur deux lignes
print("a[:, 2:7:1] = \n", a[:, 2:7:1], ",  forme de a[:, 2:7:1] =", a[:, 2:7:1].shape, "un tableau 2-D")

# accéder à tous les éléments
print("a[:,:] = \n", a[:,:], ",  forme de a[:,:] =", a[:,:].shape)

# accéder à tous les éléments d'une ligne (usage très courant)
print("a[1,:] = ", a[1,:], ",  forme de a[1,:] =", a[1,:].shape, "un tableau 1-D")
# même chose que
print("a[1]   = ", a[1],   ",  forme de a[1]   =", a[1].shape, "un tableau 1-D")
