<a href="https://colab.research.google.com/github/campusplage/multidimensional-data/blob/master/colabs/3_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MIASHS cours de master sur l'analyse de données multidimensionnelle
## Cours 3: Les rudiments de la manipulation de tableaux en `numpy`
---
**Dans ce cours, vous allez apprendre:**
* Les rudiments de `numpy`
* Manipuler des données sous forme tensorielles (tableaux de chiffres)
* Savoir où trouver l'information nécessaire pour aller plus loin

 <img src="https://lca-icsi.com/wp-content/uploads/2016/04/warning.png" alt="attention" height="42" width="42" align="middle"> __Ce cours est indispensable pour bien faire le TP que vous aurez en temps limité !!__

---


# 1. Introduction

## a. Objectifs de ce cours

Dans ce cours, on va voir comment on peut manipuler des tableaux de chiffres en Python, et effectuer des calculs sur des données multidimensionnelles numériques. 


> Ce cours est inspiré du  [Numpy quickstart](https://docs.scipy.org/doc/numpy/user/quickstart.html).

## b. Quelques ressources
Je vous invite à consulter les nombreux sites présentant une introduction à Python et à `numpy`. Ce langage est extrêmement populaire actuellement et il sera toujours bon pour votre avenir professionnel de le maîtriser au mieux !

Je vous invite à consulter les sites suivants:
* [Une introduction en français](http://math.mad.free.fr/depot/numpy/essai.html)
* [Un tutoriel assez général à Python et `numpy`](http://cs231n.github.io/python-numpy-tutorial/) assez complet.
* [Encore un autre tutoriel en anglais](https://www.machinelearningplus.com/python/numpy-tutorial-part1-array-python-examples/)


# 2. Introduction à `numpy`


## a. Premiers pas

La première étape de ce TP est de charger le module `numpy`, puis de créer un nouveau tableau, par exemple rempli de zéro.

In [1]:
# on commence par importer le package numpy, surnommé "np"
import numpy as np

# Une fois numpy chargé, créons un tableau 2D (une matrice)
# Le paramètre de `zeros` est la taille dans toutes les dimensions
data = np.zeros((3, 4))

# affichons la table
data
data2 = 

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [3]:
type(data)

numpy.ndarray

Cette table est un objet `ndarray`, qui est [la structure fondamentale en `numpy`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.html). Elle dispose de plusieurs propriétés importantes. Par exemple:

In [4]:
# affichage de la taille de la matrice
print('Taille de la matrice', data.shape, '\n')

# affichage du tableau transposé, pratique pour les matrices:
print('Tableau transposé:\n', data.T, '\n\nSa taille est ', data.T.shape)

Taille de la matrice (3, 4) 

Tableau transposé:
 [[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]] 

Sa taille est  (4, 3)


Un `ndarray` présente aussi une __pléthore__ de méthodes, qui sont autant de traitements applicables aux données qu'il contient. Elles sont listées [ici](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.html).

Par exemple, on peut aplatir un `ndarray`, ou le redimensionner.

In [5]:
print(list(range(data)))

TypeError: only integer scalar arrays can be converted to a scalar index

In [6]:
# création d'un vecteur de dimension 12 contenant les chiffres de 0 à 11:
data = np.arange(12)
print('Vecteur initial de dimension 12\n', data)

# redimensionnements divers:
print('\nVersion 4x3\n', data.reshape((4,3)),
      '\n\nVersion 3x4\n', data.reshape((3,4)),
      '\n\nVersion 6x2\n', data.reshape((6,2)))

# gardons la version 4x3 pour la suite.
data = data.reshape((4,3))

Vecteur initial de dimension 12
 [ 0  1  2  3  4  5  6  7  8  9 10 11]

Version 4x3
 [[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]] 

Version 3x4
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]] 

Version 6x2
 [[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]]


L'utilisation fondamentale d'une `ndarray` est la manipulation des données qu'il contient. Cela se fait très simplement et de manière très puissante.

In [8]:
print('Pour rappel, tableau utilisé: \n\n', data)

# accès à un élément donné
print('\nLigne 0, colonne 2:', data[0, 2])

# accès à toute une ligne:
print('\nLigne 1', data[1, :])
# qui peut aussi se faire par:
print('  Sans le sélecteur colonne (implicite):', data[1])

# accès à une colonne:
print('\nColonne 2', data[:, 2])

# accès à une sous matrice par _slicing_, dont la syntaxe est "start:stop". 
# et où stop n'est pas inclu par convention:
#  lim inf : lim supp  correspond  prendre à  partir de lim_inf à  < lim supp
# pour numpy , l'indexation commence à  0

print('\nLignes 1 et 2\n', data[1:3])
print('\nColonnes 0 et 1\n', data[:, 0:2]) 

# si start ou stop est 0 ou la fin, on n'est pas obligé de l'indiquer:
print('\nColonnes 0 et 1\n', data[:, :2]) 

# on peut combiner une sélection de lignes et de colonnes:
print('\nLignes 2 et 3, colonnes 1 et 2\n', data[2:4, 1:3])

Pour rappel, tableau utilisé: 

 [[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]

Ligne 0, colonne 2: 2

Ligne 1 [3 4 5]
  Sans le sélecteur colonne (implicite): [3 4 5]

Colonne 2 [ 2  5  8 11]

Lignes 1 et 2
 [[3 4 5]
 [6 7 8]]

Colonnes 0 et 1
 [[ 0  1]
 [ 3  4]
 [ 6  7]
 [ 9 10]]

Colonnes 0 et 1
 [[ 0  1]
 [ 3  4]
 [ 6  7]
 [ 9 10]]

Lignes 2 et 3, colonnes 1 et 2
 [[ 7  8]
 [10 11]]


On peut noter que toute extraction de données d'un `ndarray` produit un `ndarray`:

In [9]:
print('Taille des données initiales: ', data.shape,
      '\nTaille d\'un sous tableau: ', data[:2,:2].shape)

Taille des données initiales:  (4, 3) 
Taille d'un sous tableau:  (2, 2)


In [14]:
data =  np.arange(250).reshape((10,5,5))
data.shape
data[:,[1,3,2]]

array([[[  5,   6,   7,   8,   9],
        [ 15,  16,  17,  18,  19],
        [ 10,  11,  12,  13,  14]],

       [[ 30,  31,  32,  33,  34],
        [ 40,  41,  42,  43,  44],
        [ 35,  36,  37,  38,  39]],

       [[ 55,  56,  57,  58,  59],
        [ 65,  66,  67,  68,  69],
        [ 60,  61,  62,  63,  64]],

       [[ 80,  81,  82,  83,  84],
        [ 90,  91,  92,  93,  94],
        [ 85,  86,  87,  88,  89]],

       [[105, 106, 107, 108, 109],
        [115, 116, 117, 118, 119],
        [110, 111, 112, 113, 114]],

       [[130, 131, 132, 133, 134],
        [140, 141, 142, 143, 144],
        [135, 136, 137, 138, 139]],

       [[155, 156, 157, 158, 159],
        [165, 166, 167, 168, 169],
        [160, 161, 162, 163, 164]],

       [[180, 181, 182, 183, 184],
        [190, 191, 192, 193, 194],
        [185, 186, 187, 188, 189]],

       [[205, 206, 207, 208, 209],
        [215, 216, 217, 218, 219],
        [210, 211, 212, 213, 214]],

       [[230, 231, 232, 233, 234],
  

In [16]:
# comparaison permet de metre en place un masque de données
print(np.arange(10))
indices = np.arange(10)<5
print(indices)
print(data[indices].shape)


[0 1 2 3 4 5 6 7 8 9]
[ True  True  True  True  True False False False False False]
(5, 5, 5)


## b. Données multidimensionnelles

Pour l'instant, on n'a considéré que des matrices, ou des vecteurs. Mais en fait, un `ndarray` supporte n'importe quel nombre de dimensions, d'où le nom ND-array: tableau N-dimensionnel.

In [17]:
data =  np.arange(12).reshape((4,3))

In [18]:
# création d'une version applatie du tableau (c'est un vecteur)
data = data.flatten()
print('Version aplatie: \n', data, '\n  taille:', data.shape)

# création d'une matrice
data = data.reshape((4,3))
print('\nMatrice:\n', data, '\n  taille:', data.shape)

# création d'un tableau multidimensionnel (tenseur)
data = data.reshape((2,3,2))
print('\nTenseur:\n', data, '\n  taille:', data.shape)

Version aplatie: 
 [ 0  1  2  3  4  5  6  7  8  9 10 11] 
  taille: (12,)

Matrice:
 [[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]] 
  taille: (4, 3)

Tenseur:
 [[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]] 
  taille: (2, 3, 2)


Et de la même manière qu'on accédait aux données d'une matrice, on peut accéder aux données d'un tableau d'une dimension quelconque :

In [19]:
# sélection du deuxième élément de la dimension 0
print('data[1]=\n', data[1, : , :]) # ou data[1]

# sélection des deux premier éléments de la dimension 1
print('\ndata[:,2,:]=\n', data[:, :2, :]) # ou data[:, :2]

data[1]=
 [[ 6  7]
 [ 8  9]
 [10 11]]

data[:,2,:]=
 [[[0 1]
  [2 3]]

 [[6 7]
  [8 9]]]


On peut aussi utiliser `...` au lieu de plusieurs fois `:`. `numpy` se charge tout seul de deviner ce qu'on veut

> `data[..., 0]` est équivaleunt à `data[:,:, 0]`


In [21]:
data =  np.zeros((3,4,5,9,8))
print(data[:,:,:,4:6,:].shape)
# similaire
print(data[...,4:6,:].shape)




(3, 4, 5, 2, 8)
(3, 4, 5, 2, 8)


# 3. Calcul matriciel en `numpy`

## a. Opérations simples termes à termes

Une première famille d'opérations simples qu'on peut facilement réaliser avec des `ndarray` est celle des opérations terme à terme, c'est à dire multiplier, ajouter, soustraire des éléments d'un tableau d'un autre tableau.

> Imaginons qu'on ait un tableau $x$ de dimension $M\times N$, dont on souhaite soustraire les données présentes dans un deuxième tableau $y$, de dimension $M\times N$, pour calculer $x_{mn}-y_{mn}$


In [22]:
# créons les données, de dimension MxN
M = 5
N = 10

x = np.arange(M*N).reshape((M, N))
y = np.ones((M,N))
y = y * 2

# additions, soustractions et multiplications termes à termes 
print('x\n', x)
print('y\n', y)

print('x + y\n', x + y)
print('x - y\n', x - y)
# attention ce n'est pas la multiplication matricielle mais terme à  terme
print('x * y\n', x * y)

x
 [[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]]
y
 [[2. 2. 2. 2. 2. 2. 2. 2. 2. 2.]
 [2. 2. 2. 2. 2. 2. 2. 2. 2. 2.]
 [2. 2. 2. 2. 2. 2. 2. 2. 2. 2.]
 [2. 2. 2. 2. 2. 2. 2. 2. 2. 2.]
 [2. 2. 2. 2. 2. 2. 2. 2. 2. 2.]]
x + y
 [[ 2.  3.  4.  5.  6.  7.  8.  9. 10. 11.]
 [12. 13. 14. 15. 16. 17. 18. 19. 20. 21.]
 [22. 23. 24. 25. 26. 27. 28. 29. 30. 31.]
 [32. 33. 34. 35. 36. 37. 38. 39. 40. 41.]
 [42. 43. 44. 45. 46. 47. 48. 49. 50. 51.]]
x - y
 [[-2. -1.  0.  1.  2.  3.  4.  5.  6.  7.]
 [ 8.  9. 10. 11. 12. 13. 14. 15. 16. 17.]
 [18. 19. 20. 21. 22. 23. 24. 25. 26. 27.]
 [28. 29. 30. 31. 32. 33. 34. 35. 36. 37.]
 [38. 39. 40. 41. 42. 43. 44. 45. 46. 47.]]
x * y
 [[ 0.  2.  4.  6.  8. 10. 12. 14. 16. 18.]
 [20. 22. 24. 26. 28. 30. 32. 34. 36. 38.]
 [40. 42. 44. 46. 48. 50. 52. 54. 56. 58.]
 [60. 62. 64. 66. 68. 70. 72. 74. 76. 78.]
 [80. 82. 84. 86. 88. 90. 92. 94. 96.

Dans l'exemple précédent, vous remarquerez qu'on a utilisé la syntaxe `y * 2`. On peut très bien multiplier des tableaux par des nombres.

En fait, le concept se généralise par la notion de [_broadcasting_](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html). Le principe est simple: les tableaux n'ont pas besoin d'être de la même dimension pour que les opérations terme à terme fonctionnent.

> __Exemple__  
> Imaginons qu'on souhaite calculer: $x_{mn}-y_{n}$, où maintenant $y$ est de dimension $N$.

In [23]:
x = np.arange(M*N).reshape((M, N))
y = np.ones((N)) * 2

print('x - y\n',x-y)

x - y
 [[-2. -1.  0.  1.  2.  3.  4.  5.  6.  7.]
 [ 8.  9. 10. 11. 12. 13. 14. 15. 16. 17.]
 [18. 19. 20. 21. 22. 23. 24. 25. 26. 27.]
 [28. 29. 30. 31. 32. 33. 34. 35. 36. 37.]
 [38. 39. 40. 41. 42. 43. 44. 45. 46. 47.]]


Par contre, le broadcasting ne marche que quand les dimensions _en partant de la fin_ sont alignées. 

> Si on veut utiliser le même code pour plutôt calculer $x_{mn}-y_{m}$, cela ne marchera donc pas ! 

In [25]:
x[None].shape

x[None,:,None].shape

(1, 5, 1, 10)

In [26]:
x = np.arange(M*N).reshape((M, N))
y = np.ones((M)) * 2

print('x - y\n',x-y)

ValueError: operands could not be broadcast together with shapes (5,10) (5,) 

Dans ce cas, il est nécessaire de rajouter une dimension à `y`, pour le transformer en $M\times 1$. Cela se fait très simplement avec la syntaxe suivante:

In [27]:
print('Dimensions de y: ', y.shape)
print('Dimensions de y[..., None]:', y[...,None].shape)

Dimensions de y:  (5,)
Dimensions de y[..., None]: (5, 1)


En fait, `None` permet de rajouter autant de dimensions qu'on veut

In [28]:
print('Dimensions de y[None, :, None, None]', y[None, :, None, None].shape)
print('x- y[:, None]', x - y[:, None])

Dimensions de y[None, :, None, None] (1, 5, 1, 1)
x- y[:, None] [[-2. -1.  0.  1.  2.  3.  4.  5.  6.  7.]
 [ 8.  9. 10. 11. 12. 13. 14. 15. 16. 17.]
 [18. 19. 20. 21. 22. 23. 24. 25. 26. 27.]
 [28. 29. 30. 31. 32. 33. 34. 35. 36. 37.]
 [38. 39. 40. 41. 42. 43. 44. 45. 46. 47.]]


## b. Calcul vectoriel


Maintenant qu'on a vu les bases de la manipulation des `ndarray`, voyons comment effectuer des opérations un peu plus sophistiquées.

### Produit matriciel

Une opération fondamentale quand on manipule des données matricielles est le produit de matrices.

> Soient $x$ de dimension $M\times N$ et $y$ de dimension $N\times P$, le produit matriciel $z=xy$ est une matrice de dimension $M\times P$ définie par:
> $z_{mp}=\sum_{n=1}^N x_{mn}y_{np}$  
> <img src="https://docs.google.com/drawings/d/e/2PACX-1vSSM4Vc-yMXKF0W12_V7b6ytDMUjmdFjKRaCpVNJ7ou00EV8sNefgPj8pn2rVShPiOtnxts8vkAEJk1/pub?w=261&h=313" alt="attention" height="420" align="middle">


In [29]:
# on peut facilement multiplier des matrices en `numpy` avec `numpy.dot`
x = np.array([[1, 3, 4],
              [4, 5, 6]])
y = np.array([[10, 5, 1, 2],
              [8, 3, 0, 2],
              [7, 2, 2, 4]])

print('x\n', x, '\ny\n', y, '\nxy\n', np.dot(x, y))

x
 [[1 3 4]
 [4 5 6]] 
y
 [[10  5  1  2]
 [ 8  3  0  2]
 [ 7  2  2  4]] 
xy
 [[ 62  22   9  24]
 [122  47  16  42]]


### Inversion de matrices

Imaginons à présent qu'on ait une matrice `x` de taille $N\times N$, et qu'on souhaite l'inverser.

C'est facile à faire, il nous suffit d'utiliser `numpy.linalg.inv` pour une inversion exacte ou `numpy.linalg.pinv` pour une pseudo-inversion de Moore Penrose:


In [30]:
# Création d'une matrice aléatoire
N = 3
x = np.random.randn(N, N)

# inversion de x
x_inv = np.linalg.inv(x)
print('x\n', x, '\nInverse de x\n', x_inv, '\ntest: x multiplié par son inverse\n', np.dot(x,x_inv))

x
 [[-0.48040581  2.25088226 -1.28039796]
 [ 0.26612763 -0.17740868  2.12243778]
 [-0.65947114 -0.48213971  0.33785917]] 
Inverse de x
 [[-0.2751208   0.04088106 -1.29945153]
 [ 0.42540142  0.28749292 -0.19387582]
 [ 0.07005489  0.49006108  0.14672972]] 
test: x multiplié par son inverse
 [[ 1.00000000e+00 -8.17369443e-17  4.39229636e-18]
 [-4.82711688e-19  1.00000000e+00 -2.96893953e-17]
 [-4.27846780e-17  2.06821874e-18  1.00000000e+00]]


Comme on peut le constater, on récupère bien une matrice identité. 
> Notez que la précision machine fait qu'on n'a pas exactement $0$ pour les termes non diagonaux, mais bien quelque chose de _très_ petit, de l'ordre de $10^{-16}$, qui correspond à la précision machine pour un nombre à virgule flottante de 64 bits.

### Autres opérations

On peut avoir tout un tas d'opérations _d'algèbre linéaire_ à effectuer sur des matrices ou des tableaux. La plupart sont déjà implémentées en `numpy` et il suffit de les appliquer. Vous trouverez une liste complète [ici](https://docs.scipy.org/doc/numpy/reference/routines.linalg.html).

> Parfois, une fonction retourne _plusieurs valeurs_. Dans ce cas, il suffit de l'appeler de la manière suivante:
> 
> `(a, b, c) = fonction(parametres)`
