# Manipuler les vecteurs avec [NumPy](https://numpy.org/) 


In [1]:
# changer le répertoire par défaut pour visualiser les images
import os
try:
    os.chdir(os.path.join(os.getcwd(),'.'))
    print(os.getcwd())
except:
    pass

/home/mathieu/Sync/informatique/programmation/python/python_par_jupyter/02_std_ext


![numpy logo](./img/logo.png)

L'extension [NumPy](https://numpy.org/doc/stable/) est une extension aidant le calcul numérique. 

Elle contient en particulier
- la définition des vecteurs à n dimension (les matrices), qui sont appelés [ndarray](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html) qui veut dire tableau à `n` dimensions.
- les fonctions trigonométriques [sin](https://numpy.org/doc/stable/reference/generated/numpy.sin.html), [cos](https://numpy.org/doc/stable/reference/generated/numpy.cos.html) ... et la constant [$\pi$](https://numpy.org/doc/stable/reference/constants.html#numpy.pi)
- les fonctions liées à [l'exponentielle](https://numpy.org/doc/stable/reference/generated/numpy.exp.html)
- les [polynômes](https://numpy.org/doc/stable/reference/routines.polynomials.package.html#module-numpy.polynomial)
- plus généralement, [toutes le fonctions mathématiques utiles](https://numpy.org/doc/stable/reference/routines.math.html)
- les fonctions pour [l'algèbre linéaire](https://numpy.org/doc/stable/reference/routines.linalg.html)

Ce texte se concentre sur la présentation de cette partie qui concerne l'algèbre linéaire et qui est une sous extension complète appelée [numpy.linalg](https://numpy.org/doc/stable/reference/routines.linalg.html).

On pourra aussi consulter la très bonne vidéo de la chaîne YouTube [Machine Learnia](https://www.youtube.com/watch?v=NzDQTrqsxas&list=PLO_fdPEVlfKqMDNmCFzQISI2H_nJcEDJq&index=10).

# NumPy or SciPy ?

[SciPy](https://scipy.org/) est une autre extension pour le calcul scientifique. J'ai trouvé [ici](https://datascientest.com/scipy) un article présentant SciPy et ses différences avec NumPy. En résumé, SciPy est une extension de NumPy. C'est NumPy qui définit les [ndarray](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html) et NumPy a été écrit en C pour s'exécuter plus rapidement. SciPy va être plus détaillé pour les options diponibles des fonctions mathématique et a été écrit en Python.

# Déclaration de vecteurs

Python permet de construire rapidement des listes. L'extension [NumPy](https://numpy.org/doc/stable/user/basics.creation.html) se concentre sur les vecteurs, c'est-à dire des listes constituées uniquement de valeurs numériques et qui peuvent avoir une ou plus de dimensions. On les appelle des `ndarray` pour vecteur à dimension `n`. Ce format est traité plus rapidement que les listes dans Python et est donc à privilégier.

On peut ensuite déclarer des vecteurs à une ou plusieurs dimensions avec le constructeur [array](https://numpy.org/doc/stable/reference/generated/numpy.array.html).

In [2]:
import numpy as np
a1D = np.array([1,2,3,4])
a1D

array([1, 2, 3, 4])

On remarque que l'impression directe de `a1D` donne un objet vecteur. Si on utilise la fonction print, on notera un légère différence avec une liste.

In [3]:
print(a1D)

[1 2 3 4]


À différentier donc de la liste, qu'on obtient ici en utilisant la fonction `list()` qui retraduit ici un `ndarray` de NumPy vers une `list` venant de coeur du langage Python.

In [5]:
print(list(a1D))

[1, 2, 3, 4]


In [3]:
a2D = np.array([[1,2],[3,4]])
a2D

array([[1, 2],
       [3, 4]])

In [4]:
a3D = np.array([[[1,2], [3,4]],[[5,6], [7,7]]])
a3D

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 7]]])

On peut aussi spécifier le type numérique, ce qui peut être utile pour accélérer les calculs en acceptant une précision moins grande.

In [5]:
a = np.array([127, 128,129], dtype=np.int16)
a

array([127, 128, 129], dtype=int16)

On peut créer un vecteur avec une suite incrémentée de chiffres.

In [6]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
np.arange(2,10,dtype=float)

array([2., 3., 4., 5., 6., 7., 8., 9.])

In [8]:
np.arange(2,3,0.1)

array([2. , 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9])

Si préfère, on peut linéariser un intervalle, c'est-à dire, créer un nombre de points donnés entre deux intervalles.

In [9]:
np.linspace(1., 4., 6)

array([1. , 1.6, 2.2, 2.8, 3.4, 4. ])

In [10]:
vec = np.ones(10)*-6
vec

array([-6., -6., -6., -6., -6., -6., -6., -6., -6., -6.])

# Création de matrices à deux dimensions

La fonction `numpy.eye` permet de créer une matrice identité pour une dimension donnée.

In [11]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

On peut aussi créer ce genre de matrice en la rendant rectangulaire.

In [12]:
np.eye(3,5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.]])

On peut aussi définir une matrice diagonale en donnant la liste de ses éléments diagonaux.

In [13]:
np.diag([1,2,3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

On peut aussi créer une matrice faite de zéro (pour une initialisation par exemple).

In [14]:
np.zeros((2,3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [15]:
np.zeros((2,3,2))

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

On peut aussi créer une matrice remplie de 1 sur le même principe.

In [16]:
np.ones((2,3))

array([[1., 1., 1.],
       [1., 1., 1.]])

On peut aussi remplir avec nombre aléatoires. On utilise la fonction [default_rng](https://numpy.org/doc/stable/reference/random/generator.html) avec un éventuel paramètre pour l'initialisation des nombres pseudo-aléatoires.

In [17]:
from numpy.random import default_rng
default_rng(42).random((2,3))

array([[0.77395605, 0.43887844, 0.85859792],
       [0.69736803, 0.09417735, 0.97562235]])

# Réplication, jointure de vecteurs existant

Les règles de découpage propres aux listes restent applicables pour les vecteurs. Pour copier un vecteur, la même problématique se pose que pour les listes, mais il existe une fonction `copy` dans NumPy.

In [18]:
a = np.array([1,2,3,4])
b = a[:2].copy()
b += 10
print('a = ', a, 'b = ', b)

a =  [1 2 3 4] b =  [11 12]


# Reconnaître un vecteur ou le reformater

Parfois on aura besoin de reconnaître si un paramètre est un vecteur. La phrase suivante s'assure que le paramètre `arr` est un vecteur, quitte à la transformer en singleton.

In [19]:
# décommenter/commenter en fonction de définition de arr que vous voulez tester
arr = 5           # cas où arr n'est pas un vecteur
# arr = [2, 3, 4]   # cas où arr est un vecteur
arr = np.array(arr) if type(arr) is not np.ndarray else arr
arr

array(5)

Sinon on peut concaténer des matrices en utilisant la méthode [concatenate](https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html) et en indiquant l'axe selon lequel on concaténer.

In [20]:
a = np.array([[1,2,3], [5,4,6]])
b = np.array([[7,8,9]])
c = np.concatenate((a, b), axis=0)
c

array([[1, 2, 3],
       [5, 4, 6],
       [7, 8, 9]])

On notera que le vecteur `b` a bien deux séries de crochet pour être homogène avec `a` avant la concaténation.

In [21]:
d = np.array([[10], [11]])
e = np.concatenate((a,d), axis=1)
e

array([[ 1,  2,  3, 10],
       [ 5,  4,  6, 11]])

On remarquera ici que le vecteur `d` doit avoir chacune de ces lignes entre crochet, même si elle n'est constituée que d'un seul élément.

Les commandes [vstack](https://numpy.org/doc/stable/reference/generated/numpy.vstack.html) et [hstack](https://numpy.org/doc/stable/reference/generated/numpy.hstack.html) permettent aussi d'empiler des matrices verticalement et horizontalement. Mais ici, on sera limité à deux dimensions alors que [concatenate](https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html) peut s'appliquer à des matrices de dimension quelconque.

On peut aussi reformater un vecteur. On part ici d'un vecteur à une dimension à dix coordonnées.

In [22]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

On peut reformater ce vecteur en une matrice ayant deux lignes de cinq colonnes avec la méthode [shape des narray](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.shape.html) mise ici à gauche du signe d'affectation.

In [23]:
x.shape = (2,5)
x

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

Si cette `shape` est utilisé en membre de droite, il donne la forme de la matrice.

In [24]:
res = x.shape
res

(2, 5)

Et on peut aussi lire chacune des dimensions avec les règles d'accès connues pour les tuples et les listes.

In [25]:
print(f'dimension axe 0: {x.shape[0]}, dimension axe 1: {x.shape[1]}, dimension : {x.shape}')

dimension axe 0: 2, dimension axe 1: 5, dimension : (2, 5)


On peut revenir à une liste à 10 éléments.

In [26]:
x.shape = (10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Sûrement pour cette raison, la documentation encorage maintenant d'utiliser la fonction [reshape des ndarray](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.reshape.html#numpy.ndarray.reshape) pour reformater les matrices. Cette fonction ne modifie pas l'argument, mais renvoie la matrice modifiée.

In [56]:
y = x.reshape(2,5)
y

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

Pour lire le format, on peut aussi utiliser la commande [shape de numpy].

In [57]:
np.shape(x)

(10,)

Et on peut aussi reformater avec la commande [reshape de numpy](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html). Mais elle fonctionne comme une fonction (elle ne modifie pas l'argument, mais renvoie le nouveau résultat).

In [28]:
x = np.reshape(x, (2,5))
x

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

Et on peut aussi avoir le format d'une matrice ainsi.

In [29]:
np.shape(x)

(2, 5)

Et le nombre de lignes sera obtenu par la commande.

In [30]:
np.shape(x)[0]

2

Qui est donc équivalente à la commande `len` des listes.

In [31]:
len(x)

2

On en profite pour donner la façon d'extraire des lignes.

In [32]:
x[0]

array([0, 1, 2, 3, 4])

La fonction reshape accepte aussi -1 comme argument particulier : cela supprime une dimension sans changer la structure de matrice.

In [37]:
x = np.reshape(x, (-1,10))
x

array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [35]:
x.shape

(10, 1)

Ce qui est différent de ceci.

In [36]:
y = np.reshape(x, (2,5))  # restauration de la structure de matrice
y = np.reshape(y, (10))
y

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Pour les colonnes il faudra passer par une remise à plat.

In [72]:
x = np.reshape(x,(10))
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Et puis on peut faire des [slicing](https://numpy.org/doc/stable/user/basics.indexing.html#) ici pour la première colonne.

In [73]:
x[0:10:5]

array([0, 5])

On peut aussi avoir à retrouver le numéro d'index d'un élément d'une liste avec la méthode [index](https://docs.python.org/3/tutorial/datastructures.html)

In [9]:
lst = [45, 67, 78, 33, 21]
lst.index(78)

2

Mais cette méthode de fonctionne par directement avec un ndarray de numpy. On peut donc tout d'abord essayer de convertir en liste avec la méthode [tolist](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.tolist.html)

In [12]:
arr = np.array([45, 67, 78, 33, 21])
arr.tolist().index(78)

2

Si numpy a aussi la méthode [where](https://numpy.org/doc/1.21/reference/generated/numpy.where.html) qui est plus sophistiquée et surtout, renvoie un résultat moin simple.

In [34]:
arr = np.array([45, 23, 56, 78, 33, 49])
np.where(arr==78)

(array([3]),)

L'utilisation normale de cette commande est d'utiliser deux autres arguments et on obtient alors un autre vecteur.

In [39]:
np.where(arr==78, arr, 0)

array([ 0,  0,  0, 78,  0,  0])

Plus d'information sur les slicing/indexing sur la chaîne YouTube de [Machine Learnia](https://www.youtube.com/watch?v=vw4u9uBFFqU&list=PLO_fdPEVlfKqMDNmCFzQISI2H_nJcEDJq&index=11).

On peut passer par des [transpositions](https://numpy.org/doc/stable/reference/generated/numpy.transpose.html#numpy.transpose) 

In [74]:
m = np.reshape(np.arange(15), (5,3))
m

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [52]:
n = np.transpose(m)
n

array([[ 0,  3,  6,  9, 12],
       [ 1,  4,  7, 10, 13],
       [ 2,  5,  8, 11, 14]])

On plus simplement avec cette notation.

In [53]:
m.T

array([[ 0,  3,  6,  9, 12],
       [ 1,  4,  7, 10, 13],
       [ 2,  5,  8, 11, 14]])

donc on peut ainsi avoir une colonne sans changer la matrice d'origine.

In [75]:
m.T[1]

array([ 1,  4,  7, 10, 13])

Mais ceci serait plus simple en faisant des tranches (*slicing* en anglais).

In [78]:
m[:,1]

array([ 1,  4,  7, 10, 13])

In [55]:
m

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

Enfin on peut aussi aplatir cette matrice avec le commande [ravel](https://numpy.org/doc/stable/reference/generated/numpy.ravel.html#numpy.ravel) qu'on applique comme commande NumPy ou comme méthode du ndarray.

In [63]:
m = m.ravel()
m

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

Dans certains cas, on peut être gêné par l'absence de chiffre en deuxième place du tuple résultant de la commande [shape](https://numpy.org/doc/stable/reference/generated/numpy.shape.html) pour un vecteur à une dimension. 

In [57]:
a = np.array([1,2,3,4,5], dtype='int8')
a.shape

(5,)

Voici une solution pour y mettre un 1.

In [58]:
a = a.reshape(a.shape[0], 1)
a.shape

(5, 1)

Si par contre, on veut refaire disparaitre se 1, on utilise la fonction [squeeze](https://numpy.org/doc/stable/reference/generated/numpy.squeeze.html#numpy-squeeze)

In [59]:
a = a.squeeze()
a.shape

(5,)

Parfois on a des tableaux avec des valeurs absentes, qui sont alors nommées [nan](https://pythonguides.com/python-numpy-nan/). Voici une méthode pour les remplacer par des 0.

In [7]:
A = np.random.randn(5,5)
A[2,3] = np.nan
A[3,4] = np.nan
A

array([[-1.82905632,  0.091676  , -1.29660707, -0.97740679, -0.08568854],
       [-0.70776703, -0.46443256, -0.82791665,  0.32010003,  0.62810987],
       [-0.53054149,  0.56516346,  0.05665517,         nan,  0.50069114],
       [-0.20098871,  0.55145745,  1.15020341, -0.35926369,         nan],
       [ 0.08170502,  0.60969161, -1.39755353,  1.01553559,  0.16403626]])

faire une moyenne en excluant les `nan`.

In [9]:
np.nanmean(A)

-0.1279216249325203

Compter les `nan`

In [13]:
np.isnan(A).sum() / A.size

0.08

Avec du boolean indexing, on peut remplacer les `nan` par des 0.

In [14]:
A[np.isnan(A)] = 0
A

array([[-1.82905632,  0.091676  , -1.29660707, -0.97740679, -0.08568854],
       [-0.70776703, -0.46443256, -0.82791665,  0.32010003,  0.62810987],
       [-0.53054149,  0.56516346,  0.05665517,  0.        ,  0.50069114],
       [-0.20098871,  0.55145745,  1.15020341, -0.35926369,  0.        ],
       [ 0.08170502,  0.60969161, -1.39755353,  1.01553559,  0.16403626]])

## Réduire de dimension sur une matrice

On doit parfois réduire une matrice à deux dimensions en un vecteur par des opérations sur les lignes ou les colonnes.

La fonction [amax](https://numpy.org/doc/stable/reference/generated/numpy.amax.html) permet de trouver le maximum des colonnes (selon la direction `axis=0`) ou des lignes (selon la direction `axis=1`). À chacune de ces opérations, la dimension du ndarray diminue de 1: une matrice à deux dimensions de vient un vecteur, un vecteur devient un scalaire. Mais on peut aussi appliquer cette méthode à des dimensions supérieures.

In [3]:
import numpy as np

M = np.array([[1,2,3],[4,5,6],[7,7,9],[10,11,12]])
M

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  7,  9],
       [10, 11, 12]])

In [4]:
max = np.amax(M, axis=0)
max

array([10, 11, 12])

De manière identique, il existe la commande [amin](https://numpy.org/doc/stable/reference/generated/numpy.amin.html#numpy.amin) mais aussi les commandes [nanmax](https://numpy.org/doc/stable/reference/generated/numpy.nanmax.html#numpy.nanmax) et [nanmin](https://numpy.org/doc/stable/reference/generated/numpy.nanmin.html#numpy.nanmin) qui tiennent compte des valeurs `nan` ou `INF`.

Les fonctions [sum](https://numpy.org/doc/stable/reference/generated/numpy.sum.html) ou [prod](https://numpy.org/doc/stable/reference/generated/numpy.prod.html) vont faire le même type de réduction avec des sommes et des produits. Elles ont aussi leur variantes `nan`.



# Technique de broadcasting

Quand on utilise des équations utilisant les matrices, il faut faire attention au fonctionnement de broadcasting de Python.

Voir la [vidéo de Machine learnia](https://www.youtube.com/watch?v=lIESSFHGalA&list=PLO_fdPEVlfKqMDNmCFzQISI2H_nJcEDJq&index=13&t=510s)

# Algèbre linéaire

L'extension NumPy possède une sous extension [numpy.linalg](https://numpy.org/doc/stable/reference/routines.linalg.html#) dédiée à l'algèbre linéaire. À note que l'extension [SciPy contient aussi la même extension](https://docs.scipy.org/doc/scipy/reference/linalg.html#module-scipy.linalg).



## Le produit scalaire de deux vecteurs

La fonction [numpy.dot](https://numpy.org/doc/stable/reference/generated/numpy.dot.html#numpy.dot) permet d'effectuer le produit scalaire de deux vecteurs.

In [60]:
a = np.array([1,2,3])
b = np.array([2,2,2])
np.dot(a,b)

12

On peut obtenir le même résultat avec `@` qui replace la commande [numpy.matmul](https://numpy.org/doc/stable/reference/generated/numpy.matmul.html#numpy.matmul) et qui donne le même résultat pour deux vecteurs.

In [61]:
a @ b

12

Ces fonctions vont beaucoup plus loin. Voir la documentation.

## La norme d'un vecteur

La norme d'un vecteur peut se calculer avec [numpy.linalg.norm](https://numpy.org/doc/stable/reference/generated/numpy.linalg.norm.html). 

In [62]:
np.linalg.norm(a)

3.7416573867739413

# Exercices

Faire une matrice avec m lignes et n colonnes remplies de nombre aléatoires et lui adjoindre une dernière colonne remplie de 1

In [15]:
m = 5
n = 3
M = np.random.randn(m,n)
col = np.full((m,1), 1)
M = np.concatenate((M,col), axis=1)
M

array([[ 0.1653609 , -0.31689761, -0.59029035,  1.        ],
       [ 1.06488792,  0.4230375 , -2.26124679,  1.        ],
       [ 0.08138531,  1.81257137, -0.26241978,  1.        ],
       [ 0.46889283,  1.4255058 ,  0.69516876,  1.        ],
       [-0.71418269,  1.67225926, -0.0643901 ,  1.        ]])

Obtenir les valeurs propres et les vecteurs propres d'une matrice.

In [25]:
np.random.seed(3)
M = np.random.randn(n,n)
M

array([[ 1.78862847,  0.43650985,  0.09649747],
       [-1.8634927 , -0.2773882 , -0.35475898],
       [-0.08274148, -0.62700068, -0.04381817]])

In [20]:
valeurs_propres, vecteurs_propres = np.linalg.eig(M)
valeurs_propres

array([ 1.63582308+1.83968905j,  1.63582308-1.83968905j,
       -1.648667  +0.j        ,  0.46140409+0.5718098j ,
        0.46140409-0.5718098j ])

In [21]:
vecteurs_propres

array([[ 0.46902018+0.01215314j,  0.46902018-0.01215314j,
         0.22086452+0.j        , -0.61696586+0.j        ,
        -0.61696586-0.j        ],
       [ 0.0704167 -0.12313901j,  0.0704167 +0.12313901j,
         0.24005659+0.j        , -0.0263931 -0.39400736j,
        -0.0263931 +0.39400736j],
       [-0.54748852+0.j        , -0.54748852-0.j        ,
        -0.20553002+0.j        , -0.18226997+0.22550264j,
        -0.18226997-0.22550264j],
       [ 0.09310818-0.52227205j,  0.09310818+0.52227205j,
         0.32440653+0.j        , -0.49999619+0.08234447j,
        -0.49999619-0.08234447j],
       [-0.36617731+0.21091211j, -0.36617731-0.21091211j,
         0.86377631+0.j        ,  0.30202318+0.17704842j,
         0.30202318-0.17704842j]])

Nous voulons maintenant standardiser cet échantillon par colonnes.

$$M \rightarrow \frac{M - \overline{M}}{\sigma(M)}$$

In [29]:
M[:,0] = (M[:,0] - M[:,0].mean())/M[:,0].std()
M


array([[ 1.23474789,  0.43650985,  0.09649747],
       [-1.21449054, -0.2773882 , -0.35475898],
       [-0.02025735, -0.62700068, -0.04381817]])