# Tutoriel numpy pour la création et la manipulation de base des matrices

Comme nous l'avons indiqué en préambule, l'UE L1 Datasciences va reposer essentiellement sur la bibliothèque ```numpy```. Ce choix a été fait pour deux raisons:

1. La syntaxe est assez simple & spécifique: on se différentie ainsi très vite de l'UE L1 python et on évite de se *marcher sur les pieds*
1. Beaucoup d'opérateurs de haut niveau existent (additions/soustraction de matrice, min, max, moyenne, etc...): cela permet de coder rapidement et lisiblement des algorithmes compliqués.

Ce choix implique néanmoins plusieurs difficultés dont vous devez avoir conscience afin mieux les appréhender.

1. Les opérateurs de haut niveau ont parfois un comportement *magique*: toute ligne de code doit impérativement être comprise en profondeur par tous, il n'est pas acceptable de *tatonner jusqu'à ce que la syntaxe soit correcte*
1. Pour accéder à ```numpy```, il faut passer par python... Ce qui implique de maitriser les deux syntaxes (au moins a minima). 
1. En plus de la maitrise minimum, il faut éviter les confusions: les listes python sont très proches des vecteurs ```numpy```... Mais les fonctions disponibles dessus sont différentes.



In [5]:
# gestion des bibliothèques externes
import numpy as np
print("Import OK") # affichage en fin de boite pour visualiser que l'exécution a bien eu lieue

# avec cette forme particulière d'import (`
numpy`
 est renommée en `np`
), il faudra taper 
# `np.fonction` pour invoquer une fonction de la bibliothèque numpy

Import OK


## Créations de matrice par différentes méthodes

**Approche 1:** utiliser les méthodes de ```numpy``` pour créer des matrices spéciales:

  * [1, 2, 3, ...] (=arange)
  * [0, 0, 0, ...] (=zeros)
  * [1, 1, 1, ...] (=ones)

Le but n'est pas d'apprendre *par coeur* toutes les méthodes mais de comprendre la philosophie de l'outil et de savoir revenir chercher les informations quand c'est nécessaire.
Vous allez petit à petit apprendre ces fonctions à force de les utiliser.

**Approche 2:** travailler en python avec des listes puis passer dans ```numpy``` à l'aide d'un *constructeur* de matrice

**Approche 3:** charger les valeurs numériques d'un fichier dans une matrice ```numpy```


Dans toutes les boites suivantes:

1. Exécuter les boites
1. Jouer avec les arguments de construction pour comprendre l'impact en ré-exécutant les boites.



In [3]:
# Approche 1
# Création de vecteurs [0, 1, 2, ...]
v1 = np.arange(0, 10, 1) # create a range
                         # arguments: start, stop, step

v1 = np.arange(0, 10)    # with default step=1
v1 = np.arange(10)       # default start=0
print(v1)

[0 1 2 3 4 5 6 7 8 9]


In [4]:
# Approche 1
# Vecteur de 15 dimensions dont les valeurs sont entre 0 et 10 inclus
v2 = np.linspace(0, 10, 15) # avec linspace, le début et la fin SONT inclus
print(v2)


[ 0.          0.71428571  1.42857143  2.14285714  2.85714286  3.57142857
  4.28571429  5.          5.71428571  6.42857143  7.14285714  7.85714286
  8.57142857  9.28571429 10.        ]


In [None]:
# approche 1 (toujours)
v3 = np.ones(5)
print(v3)

m1 = np.ones((10,2))  # matrice de 1, argument = nuplet avec les dimensions
                      # ATTENTION np.ones(10,2) ne marche pas. 
                      # Philosophie = toujours 1 argument, qui peut être un tuple pour créer plusieurs dimensions
print(m1)

m2 = np.zeros((5,4))  # matrice de 0
m3 = np.eye(4)        # matrice identité carrée, arg = dimension
print(m3)

m4 = np.random.rand(5,6)  # matrice de nombres aléatoires indépendants entre 0 et 1, args = dimensions
                          # ATTENTION philosophie+syntaxe différentes de ones/zeros
print(m4)

In [12]:
# approche 2: passage de python classique à numpy

# Création de matrices
mpy = [[1, 2], [3, 4]]     # matrice python = liste de liste
print("matrice python: ", mpy)                         
# test naïf:
print(mpy + 1) # => ERREUR, on ne peut pas additionner 1 sur une liste python
# il faut commenter la ligne précédente pour pouvoir exécuter la suite

# passage à numpy:
mnp = np.array(mpy)
print("matrice numpy: \n", mnp) # l'affichage est plus joli!

# apercu des outils de haut niveau qui seront disponibles:
print("matrice numpy + 1: \n",mnp + 1) # ca marche !


matrice python:  [[1, 2], [3, 4]]
matrice numpy: 
 [[1 2]
 [3 4]]
matrice numpy + 1: 
 [[2 3]
 [4 5]]


In [13]:
# approche 2: vers des matrices plus compliquées

# syntaxe plus compliquée + matrice plus compliquée!
# création de listes python en utilisant des boucles imbriquées:
mpy2 = [[n+m*10 for n in range(5)] for m in range(5)]

# création d'une structure numpy à partir d'une liste ou d'une liste de liste:
mnp2 = np.array([[n+m*10 for n in range(5)] for m in range(5)]) # ou np.array(mp)
print(mnp2)


[[ 0  1  2  3  4]
 [10 11 12 13 14]
 [20 21 22 23 24]
 [30 31 32 33 34]
 [40 41 42 43 44]]


### Approche 3

Afin de démontrer l'importation de valeurs depuis un fichier... Nous allons créer un fichier.

1. Ouvrir un éditeur de texte (notepad, gedit, sublime, ...)
1. Copier-coller le texte ci-dessous (les chiffres sont séparés par des tabulations):
```
1   2
3   3
4   2
5   1
```
1. Sauver le fichier sous le nom: ```test.txt``` **dans le même répertoire que le notebook**
1. Exécuter la boite ci-dessous qui doit lire le fichier

La boite encore en dessous illustre la possibilité symétrique: le fait de sauver une matrice dans un fichier. Du point de vue de la programmation de bas niveau, ces opérations sont non triviales (ouverture/fermeture de fichier; lecture/écriture; ...) L'intérêt de numpy est justement de nous affranchir de ces difficultés opérationnelles pour nous concentrer sur les données elles-mêmes.


In [14]:
# approche 3
m5 = np.loadtxt("test.txt")
print(m5)
# Vous pouvez modifier m5 à volonté, le fichier n'est pas impacté (ce qui est intuitif)

[[1. 2.]
 [3. 3.]
 [4. 2.]
 [5. 1.]]


In [16]:
mat = np.ones((5,3))
mat[1, 2] = 2 # modification d'une case (cf boite ci-dessous)
np.savetxt("test2.txt", mat)

# aller vérifier que le fichier a bien été créé et l'ouvrir pour vérifier le contenu.

## Récupération/affectation de valeurs

La boite ci-dessous liste les opérations de lecture possible. Ajouter des ```print``` pour vérifier que vous avez compris les valeurs extraites.

Sur les vecteurs, l'indicage est sans ambiguité:
$$ A = [a_0, a_1, \ldots, a_d] $$


Sur les matrices, par contre, il faut comprendre la logique: le premier indice désigne les lignes, le second les colonnes.
Lorsque que vous aurez initialisé une matrice de taille $(n,d)$, il faudra imaginer la structure de données suivante en faisant attention à l'ordre des arguments:

$ M = \begin{pmatrix}
m_{11} & m_{12} & \ldots & m_{1d} \\
m_{21} & m_{22} & \ldots & m_{2d} \\
\vdots &  \vdots & \ddots & \vdots \\
m_{n1} & m_{n2} & \ldots & m_{nd} \\
\end{pmatrix} $

Par exemple, pour accéder à la deuxième ligne-première colonne, il faut faire : ```M[1,0]```

Dans tous les cas, il faut ensuite distinguer l'accès à une valeur et l'accès à un bloc (série de valeurs ou sous-matrice).


In [None]:
# accès aux différentes valeurs dans un VECTEUR numpy

A = np.array([1,2,3,4,5])
A[1:3]  # array([2, 3])

# On peut omettre n'importe lequel des argument dans A[start:stop:step]:
A[::] # indices de début, fin, et pas avec leurs valeurs par défaut
      # array([ 1, 2, 3,  4,  5])
A[::2] # pas = 2, indices de début et de fin par défaut
       # array([ 1, 3,  5])
A[:3] # les trois premiers éléments (indices 0,1,2)
      # array([ 1, 2, 3])
A[3:] # à partir de l'indice 3
      # array([4, 5])

# On peut utiliser des indices négatifs :
A[-1] # le dernier élément
      # 5
A[-3:] # les 3 derniers éléments
       # array([3, 4, 5])



In [None]:
# accès aux différentes valeurs dans une MATRICE numpy
# => Passage de 1 à 2 dimensions

mat   = np.ones((5,6)) 
mat[0,0] # récupération de la première valeur
mat[0,:] # récupération de la première ligne
mat[0,0:2] # récupération des valeurs d'indice 0 et 1
# petites astuces supplémentaires
mat[0,1:] # toute la ligne sauf la première case
mat[0,:-1] # toute la ligne sauf la dernière case
mat[0,:-2] # toute la ligne sauf les deux dernières cases    


### Passage à l'affectation de valeurs sur certaines cases

La syntaxe est la même, l'approche est assez intuitive.

In [20]:
# Affectation de valeurs:
# une matrice d'entier
mat   = np.ones((5,6)) 
mat[0,0:2] = 2 # affectation en bloc
mat[0,2:4] = np.zeros((1,2)) # affectation en bloc d'une autre matrice
mat[1, :]  = np.arange(6)
print(mat)

# Matrice VS vecteur !!
A = np.random.rand(5,3) # matrice 5x3
print(A)
B = A[2,:]              # extraction de la troisième ligne...
                        # il s'agit d'un vecteur !!!
print(B)
B = A[2:3,:]            # extraction de la troisième ligne...
                        # mais il s'agit d'une matrice (transposable) !!!
print(B)

[[2. 2. 0. 0. 1. 1.]
 [0. 1. 2. 3. 4. 5.]
 [1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1.]]
[[0.18840697 0.9909872  0.71001415]
 [0.64010783 0.87695546 0.86243315]
 [0.48108295 0.80380921 0.24652377]
 [0.22838323 0.46319595 0.80887773]
 [0.81030938 0.11450806 0.83283311]]
[0.48108295 0.80380921 0.24652377]
[[0.48108295 0.80380921 0.24652377]]


## Opérateurs de haut niveau sur les matrices

Le fait de passer dans l'univers numpy ouvre des possibilités: il est possible de faire les opérations suivantes sur les matrices: agrégation, addition, soustraction, recherche de min, max, moyenne -globale, par ligne ou par colonne-, etc...

In [22]:
# concaténation de matrices:
# ATTENTION: la logique est la même que pour ones/zeros
# => un seul argument sous la forme d'un tuple contenant les matrices à fusionner

# fusion verticale
m6 = np.vstack((np.array([[1, 2], [3, 4]]), np.ones((3,2))))
print(m6)

# fusion verticale + fusion horizontale
m7 = np.vstack((np.array([1, 2, 3]), np.hstack((np.ones((3,2)), np.zeros((3,1))))))
print(m7)


[[1. 2.]
 [3. 4.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]
[[1. 2. 3.]
 [1. 1. 0.]
 [1. 1. 0.]
 [1. 1. 0.]]


### Tailles des matrices

Il est important de savoir accéder aux dimensions des matrices que l'on manipule. C'est une opération utile en générale... Mais surtout indispensable pour débugguer les programmes.

Lorsque vous êtes face à une erreur, il faut comprendre d'où elle vient (évidemment !). On commence souvent par faire des ```print``` sur les matrices, ce qui est une bonne idée mais qui a des limites: dès que les matrices sont grandes, on ne voit plus rien...
Il est alors bien plus pertinent de faire des vérifications sur les dimensions des matrices.

In [23]:
# pour une variable:
mat.shape # (5,6)
mat.shape[0] # 5
mat.shape[1] # 6 
n, m = mat.shape # retours multiples

In [24]:
# mini exercice de debuggage:
# 1. Exécuter le code pour voir l'erreur
# 2. Comprendre d'où vient le problème... En lisant le message puis en étudiant les dimensions des matrices de la ligne problématique

mat = np.vstack((np.arange(5), np.hstack((np.ones((3,2)), np.zeros((3,2)))))) 
mat[1, 1] = 12
print(mat)

ValueError: all the input array dimensions for the concatenation axis must match exactly, but along dimension 1, the array at index 0 has size 5 and the array at index 1 has size 4

## Fonctions de base sur les matrices
Additions, transposées etc...

In [9]:
ma = np.random.rand(5,6)     
# Transposition
mat = ma.T          # pour la transposée 
mat = ma.transpose();    # ou bien
mat = np.transpose(ma);  # ou bien
# la plupart des fonctions numpy acceptent la syntaxe objet et la syntaxe non-objet.

In [25]:
# Addition / soustraction
v1 = v1 + 3    # ou v1 += 3     % matrice + scalaire
               # changement sur les toutes les valeurs de v1
               # NB: le - fonctionne pareil

# multiplication :
# ATTENTION à *
m1 = np.ones((10,1)) * np.array([1,2,3]) # Attention, produit matriciel [hors programme pour la semaine 1 de datascience]
m2 = np.ones((10,3)) * 2                 # multiplication par un scalaire
m3 = m1 * m2;                            # multiplication terme à terme   
# usage de .dot => toujours matriciel
m1 = np.ones((10,1)).dot(np.array([[1,2,3]])) # Bien mieux: moins d'ambiguité!

Reflexion sur les recherches de valeurs et d'indices:

Soit la matrice:

$m =\begin{pmatrix}
5 & 2 & 1\\
1 & 0.5 & 3
\end{pmatrix} $

Il y a différente manière de s'intéresser au minimum, correspondant à différents usages dans différents algorithmes:

1. Recherche de la plus petite valeur de la matrice: ```m.min()```
 $\Rightarrow 0.5$
1. Recherche des minima sur chaque colonne: ```m.min(0)``` ou ```m.min(axis=0)```

 $\Rightarrow [1, 0.5, 1]$
1. Recherche des indices sur lesquels sur trouvent les minima pour chaque colonne: ```m.argmin(0)``` ou ```m.argmin(axis=0)```

$\Rightarrow [1, 1, 0]$

Nous utiliserons beaucoup ces fonctions, dans toutes leurs formes.


In [29]:
# recherche du min dans une matrice
# ajouter des print pour comprendre les méthodes

print("Soit la matrice m1:\n",m1,"\n")

print(m1.min())   # syntaxe objet
np.min(m1)        # autre syntaxe
# recherche du minimum de chaque colonne:
print(m1.min(axis=0)) # equivalent à m1.min(0)

# recherche du minimum sur chaque ligne
print(m1.min(1)) # equivalent à m1.min(axis=1)

Soit la matrice m1:
 [[0.28728081 0.81529085 0.74651814 0.38491433]
 [0.18594303 0.26518733 0.42682403 0.35095094]
 [0.53767535 0.49095301 0.43529743 0.45359538]] 

[0.18594303 0.26518733 0.42682403 0.35095094]


In [30]:
# distinction min/argmin

# travail en ligne/colonne
m1 = np.array([[ 0.77846102,  0.22597046,  0.217657  ,  0.28958186], \
               [ 0.02133707,  0.03258567,  0.81939161,  0.2834734 ], \
               [ 0.92120271,  0.68409416,  0.24285983,  0.61582659]])
m1.argmin()  # 4
m1.argmin(0) # array([1, 1, 0, 1])
m1.argmin(1) # array([2, 0, 2])

# arrondis
np.round(m1) # au plus proche
np.ceil(m1)  # au dessus
np.floor(m1) # au dessous

# tris
np.sort(m1)   # ligne par ligne
np.sort(m1,0) # colonne par colonne
np.sort(m1,1) # ligne par ligne

# statistique de base
m1.mean() # 0.427  -> sur toute la matrice
m1.mean(0) # array([ 0.57366693,  0.31421676,  0.42663615,  0.39629395]) 
            # colonne par colonne
m1.mean(1) # ligne par ligne

# m1.std...
# m1.sum...
# m1.prod...
# m1.cumsum...

array([0.37791759, 0.28919694, 0.61599582])

### Jouons avec les minima

Gestion particulière du minimum: on a souvent besoin de retourner la valeur minimum parmi 2. En C/JAVA/Matlab, cela est réalisé avec min... Pas en python! => minimum

In [None]:
# entre 2 valeurs
np.minimum(2,3) # 2
# entre 2 matrices
m1 = random.rand(3,4)
m2 = random.rand(3,4)    
np.minimum(m1,m2) # matrice 3x4 contenant les valeurs min d'une comparaison terme à terme
# entre une matrice et un scalaire: pour seuiller
np.minimum(m1,0.5)
# array([[ 0.5       ,  0.22597046,  0.217657  ,  0.28958186],
#        [ 0.02133707,  0.03258567,  0.5       ,  0.2834734 ],
#        [ 0.5       ,  0.5       ,  0.24285983,  0.5       ]])

## boucles avancées (bien pratiques)

In [None]:
v0 =np.arange(10)
v1 = np.random.rand(10)

for val0, val1 in zip(v0, v1):
    print('indice ',val0, ' et valeur associée ', val1)
    
# note: il était possible d'obtenir le même résultat avec enumerate:
for i, val in enumerate(v1):
    print('indice ',i, ' et valeur associée ', val)

## Tests en bloc
Exercice intéressant pour deux raisons

1. connaitre cette syntaxe particulière
1. comprendre les messages d'erreur lorsqu'on essaie de faire des tests sur une matrice sans ces instructions

In [32]:
m = np.array([[1, 2], [3, 4]])

if (m>1).all():
    print("(1) sup to 1")
else:
    print("(1) NOT sup to 1")

if (m>1).any():
    print("(2) sup to 1")
else:
    print("(2) NOT sup to 1")

(1) NOT sup to 1
(2) sup to 1


In [33]:
# Une erreur très classique qu'il faut savoir comprendre (ie comprendre le message associé) puis corriger
# (1) executer le bloc (2) lire le message d'erreur et le comprendre
# (3) proposer une correction en accord avec le message du print

if m > 0:
    print("les valeurs sont supérieures à 0")


ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

## Fonctions et vectorisation des fonctions de base
Il est évidemment possible de définir des fonctions prenant des structures numpy en argument. Mais il est aussi possible de *vectoriser* une fonction qui n'était pas prévue pour fonctionner sur des matrices. Il s'agit d'une nouvelle manière d'éviter les boucles.

1. On définit une fonction qui transforme UNE valeur
1. On passe cette fonction dans ```np.vectorize```
1. On peut appliquer cette fonction sur une matrice et chacune des cases sera traitée



In [6]:
def theta(x):           # signature classique 
    """                  
    Scalar implemenation of the Heaviside step function.
    """
    if x >= 0:
        return 1
    else:
        return 0
    
theta_vec = np.vectorize(theta)         # notation fonctionnelle (fonction sur des fonctions)
res = theta_vec(np.array([-3,-2,-1,0,1,2,3]))
print(res) # [0 0 0 1 1 1 1]

[0 0 0 1 1 1 1]


## Vérification de l'état de la mémoire

In [None]:
# dir() => donne aussi les variables d'environnement, il faut filter:
print([s for s in dir() if '_' not in s])
# pour connaitre le type:
print([(s,eval('type({})'.format(s)))  for s in dir() if '_' not in s])
# les commandes who et whos sont élégantes mais ne marchent qu'en ipython

## Sauvegarde / chargement depuis numpy

Ces fonctions ont déjà été présentées ci-dessus... Mais elles sont très utiles: on leur dédit une section ici.

C'est la passerelle entre excel et numpy
* Excel: save as csv
* numpy : loadtxt
* Ou l'inverse...

In [None]:
np.savetxt("random-matrix.txt", m5)
# donne le fichier:
# 1.000000000000000000e+00 2.000000000000000000e+00
# 3.000000000000000000e+00 4.000000000000000000e+00
np.savetxt("random-matrix.csv", m5, fmt='%.5f', delimiter=',')
# donne le fichier:
# 1.00000,2.00000
# 3.00000,4.00000

In [None]:
# fonction symétrique de chargement
m6 = np.loadtxt("ma-matrice.txt", delimiter=',')

## De numpy à python, usage de pickle

[Intéressant mais hors du programme de la séance 1 datasciences]

loadtxt/savetxt: idéal pour numpy...
    * Chargement/sauvegarde des matrices, format lisible de l'extérieur si besoin
    * Echanges possibles avec d'autres langages: matlab, JAVA...
... Mais pour le python en général, on préfère pickle
    * Serialization généralisé: pour les valeurs, les objets (dont les matrices), les listes, les dictionnaires...
    * Très facile à utiliser
    * Utilisé par tout le monde en python... Donc à connaitre


In [None]:
import pickle as pkl     # obligatoire pour pouvoir l'utiliser
# sauvegarde d'un dictionnaire
pkl.dump({"m1":m1, "m2":m2}, open("deuxmatrices.pkl","wb"))
# chargement de données
data = pkl.load(open('deuxmatrices.pkl','rb')) # attention à donner un file + option lecture (pas juste un nom de fichier)
print(data['m1']) # accès standard dans les dictionnaires

## Matrice et type des données

Toutes nos matrices étaient jusqu'ici des matrices de réels. Il est possible de définir (ou de transformer) des matrices qui contiennent des entiers voire des booléens en utilisant la syntaxe ci-dessous:

In [None]:
# jouer avec les types des éléments internes aux matrices
# une matrice d'entier
matInt   = np.zeros((5,6), int) # matrice 5x6 de 0 (entiers)
matBool  = np.zeros((5,6), bool) # matrice 5x6 de False (booléens)
matBool2 = np.ones((5,6), bool) # matrice 5x6 de True (booléens)