# Tutoriel numpy pour la création et la manipulation de base des matrices

Une fois la base de python acquise, nous nous intéressons à la bibliothèque de calcul matriciel sur laquelle va reposer une bonne part des TP à venir. Cette bibliothèque s'appelle numpy.

Ce choix implique néanmoins plusieurs difficultés dont vous devez avoir conscience afin mieux les appréhender.

1. Les opérateurs de haut niveau ont parfois un comportement *magique*: toute ligne de code doit impérativement être comprise en profondeur par tous, il n'est pas acceptable de *tatonner jusqu'à ce que la syntaxe soit correcte*
1. Pour accéder à ```numpy```, il faut passer par python... Ce qui implique de maitriser les deux syntaxes (au moins a minima). 
1. En plus de la maitrise minimum, il faut éviter les confusions: les listes python sont très proches des vecteurs ```numpy```... Mais les fonctions disponibles dessus sont différentes.


**Rappel:**

Pour executer une cellule : Shift + Entrée

In [1]:
# gestion des bibliothèques externes
import numpy as np
print("Import OK") # affichage en fin de boite pour visualiser que l'exécution a bien eu lieue

Import OK


## Créations de matrice par différentes méthodes

**Approche 1:** utiliser les méthodes de ```numpy``` pour créer des matrices spéciales:

  * [1, 2, 3, ...] (=arange)
  * [0, 0, 0, ...] (=zeros)
  * [1, 1, 1, ...] (=ones)

Le but n'est pas d'apprendre *par coeur* toutes les méthodes mais de comprendre la philosophie de l'outil et de savoir revenir chercher les informations quand c'est nécessaire.
Vous allez petit à petit apprendre ces fonctions à force de les utiliser.

**Approche 2:** travailler en python avec des listes puis passer dans ```numpy``` à l'aide d'un *constructeur* de matrice

**Approche 3:** charger les valeurs numériques d'un fichier dans une matrice ```numpy```


Dans toutes les boites suivantes:

1. Exécuter les boites
1. Jouer avec les arguments de construction pour comprendre l'impact en ré-exécutant les boites.



In [4]:
# Approche 1
# Création de vecteurs
v3 = np.arange(0, 10, 2) # create a range
                         # arguments: start, stop, step

v2 = np.arange(0, 10)    # with default step=1
v1 = np.arange(10)       # default start=0
print(v1)
print(v2)
print(v3)


[0 1 2 3 4 5 6 7 8 9]
[0 1 2 3 4 5 6 7 8 9]
[0 2 4 6 8]


In [5]:
# Vecteur de 15 dimensions dont les valeurs sont entre 0 et 10 inclus
v2 = np.linspace(0, 10, 15) # avec linspace, le début et la fin SONT inclus
print(v2)

[ 0.          0.71428571  1.42857143  2.14285714  2.85714286  3.57142857
  4.28571429  5.          5.71428571  6.42857143  7.14285714  7.85714286
  8.57142857  9.28571429 10.        ]


In [6]:
v3 = np.ones(5)
print(v3)

m1 = np.ones((10,2))  # matrice de 1, argument = nuplet avec les dimensions
                      # ATTENTION np.ones(10,2) ne marche pas. 
                      # Philosophie = toujours 1 argument, qui peut être un tuple pour créer plusieurs dimensions
print(m1)

m2 = np.zeros((5,4))  # matrice de 0
m3 = np.eye(4)        # matrice identité carrée, arg = dimension
print(m3)

m4 = np.random.rand(5,6)  # matrice de nombres aléatoires indépendants entre 0 et 1, args = dimensions
                          # ATTENTION philosophie+syntaxe différentes de ones/zeros
print(m4)

[1. 1. 1. 1. 1.]
[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
[[0.92214798 0.20324419 0.87085074 0.93620757 0.12632679 0.39845689]
 [0.5597506  0.39608199 0.28981616 0.61417268 0.42552889 0.75781735]
 [0.89854627 0.5194646  0.72418933 0.83324346 0.8429036  0.62740209]
 [0.451232   0.29096409 0.83787813 0.03179706 0.1735101  0.40220008]
 [0.21436104 0.65314595 0.89701197 0.39301527 0.73263064 0.85011688]]


In [8]:
# approche 2: passage de python classique à numpy

# Création de matrices
mpy = [[1, 2], [3, 4]]     # matrice python = liste de liste
print("matrice python: ", mpy)                         
# test naïf:
#print(mpy + 1) # => ERREUR, on ne peut pas additionner 1 sur une liste python
# il faut commenter la ligne précédente pour pouvoir exécuter la suite

# passage à numpy:
mnp = np.array(mpy)
print("matrice numpy: \n", mnp) # l'affichage est plus joli!

# apercu des outils de haut niveau qui seront disponibles:
print("matrice numpy + 1: \n",mnp + 1) # ca marche !


matrice python:  [[1, 2], [3, 4]]
matrice numpy: 
 [[1 2]
 [3 4]]
matrice numpy + 1: 
 [[2 3]
 [4 5]]


In [9]:
# approche 2: vers des matrices plus compliquées

# syntaxe plus compliquée + matrice plus compliquée!
# création de listes python en utilisant des boucles imbriquées:
mpy2 = [[n+m*10 for n in range(5)] for m in range(5)]

# création d'une structure numpy à partir d'une liste ou d'une liste de liste:
mnp2 = np.array([[n+m*10 for n in range(5)] for m in range(5)]) # ou np.array(mp)
print(mnp2)


[[ 0  1  2  3  4]
 [10 11 12 13 14]
 [20 21 22 23 24]
 [30 31 32 33 34]
 [40 41 42 43 44]]


### Approche 3

Afin de démontrer l'importation de valeurs depuis un fichier... Nous allons créer un fichier.

1. Ouvrir un éditeur de texte (notepad, gedit, sublime, ...)
1. Copier-coller le texte ci-dessous (les chiffres sont séparés par des tabulations):
```
1   2
3   3
4   2
5   1
```
1. Sauver le fichier sous le nom: ```test.txt``` **dans le même répertoire que le notebook**
1. Exécuter la boite ci-dessous qui doit lire le fichier

La boite encore en dessous illustre la possibilité symétrique: le fait de sauver une matrice dans un fichier. Du point de vue de la programmation de bas niveau, ces opérations sont non triviales (ouverture/fermeture de fichier; lecture/écriture; ...) L'intérêt de numpy est justement de nous affranchir de ces difficultés opérationnelles pour nous concentrer sur les données elles-mêmes.


In [10]:
# approche 3
m5 = np.loadtxt("test.txt")
print(m5)
# Vous pouvez modifier m5 à volonté, le fichier n'est pas impacté (ce qui est intuitif)

[[1. 2.]
 [3. 3.]
 [4. 2.]
 [5. 1.]]


In [11]:
mat = np.ones((5,3))
mat[1, 2] = 2 # modification d'une case (cf boite ci-dessous)
np.savetxt("test2.txt", mat)

# aller vérifier que le fichier a bien été créé et l'ouvrir pour vérifier le contenu.

## Récupération/affectation de valeurs

La boite ci-dessous liste les opérations de lecture possible. Ajouter des ```print``` pour vérifier que vous avez compris les valeurs extraites.

Sur les vecteurs, l'indicage est sans ambiguité:
$$ A = [a_0, a_1, \ldots, a_d] $$


Sur les matrices, par contre, il faut comprendre la logique: le premier indice désigne les lignes, le second les colonnes.
Lorsque que vous aurez initialisé une matrice de taille $(n,d)$, il faudra imaginer la structure de données suivante en faisant attention à l'ordre des arguments:

$ M = \begin{pmatrix}
m_{11} & m_{12} & \ldots & m_{1d} \\
m_{21} & m_{22} & \ldots & m_{2d} \\
\vdots &  \vdots & \ddots & \vdots \\
m_{n1} & m_{n2} & \ldots & m_{nd} \\
\end{pmatrix} $

Par exemple, pour accéder à la deuxième ligne-première colonne, il faut faire : ```M[1,0]```

Dans tous les cas, il faut ensuite distinguer l'accès à une valeur et l'accès à un bloc (série de valeurs ou sous-matrice).


In [12]:
# accès aux différentes valeurs dans un VECTEUR numpy

A = np.array([1,2,3,4,5])
A[1:3]  # array([2, 3])

# On peut omettre n'importe lequel des argument dans A[start:stop:step]:
A[::] # indices de début, fin, et pas avec leurs valeurs par défaut
      # array([ 1, 2, 3,  4,  5])
A[::2] # pas = 2, indices de début et de fin par défaut
       # array([ 1, 3,  5])
A[:3] # les trois premiers éléments (indices 0,1,2)
      # array([ 1, 2, 3])
A[3:] # à partir de l'indice 3
      # array([4, 5])

# On peut utiliser des indices négatifs :
A[-1] # le dernier élément
      # 5
A[-3:] # les 3 derniers éléments
       # array([3, 4, 5])



array([3, 4, 5])

In [13]:
# accès aux différentes valeurs dans une MATRICE numpy
# => Passage de 1 à 2 dimensions

mat   = np.ones((5,6)) 
mat[0,0] # récupération de la première valeur
mat[0,:] # récupération de la première ligne
mat[0,0:2] # récupération des valeurs d'indice 0 et 1
# petites astuces supplémentaires
mat[0,1:] # toute la ligne sauf la première case
mat[0,:-1] # toute la ligne sauf la dernière case
mat[0,:-2] # toute la ligne sauf les deux dernières cases    


array([1., 1., 1., 1.])

### Passage à l'affectation de valeurs sur certaines cases

La syntaxe est la même, l'approche est assez intuitive.

In [14]:
# Affectation de valeurs:
# une matrice d'entier
mat   = np.ones((5,6)) 
mat[0,0:2] = 2 # affectation en bloc
mat[0,2:4] = np.zeros((1,2)) # affectation en bloc d'une autre matrice
mat[1, :]  = np.arange(6)
print(mat)

# Matrice VS vecteur !!
A = np.random.rand(5,3) # matrice 5x3
print(A)
B = A[2,:]              # extraction de la troisième ligne...
                        # il s'agit d'un vecteur !!!
print(B)
B = A[2:3,:]            # extraction de la troisième ligne...
                        # mais il s'agit d'une matrice (transposable) !!!
print(B)

[[2. 2. 0. 0. 1. 1.]
 [0. 1. 2. 3. 4. 5.]
 [1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1.]]
[[0.34684327 0.5559287  0.2252516 ]
 [0.40725795 0.40436906 0.80754152]
 [0.10435873 0.06362858 0.71346968]
 [0.9047697  0.42590231 0.52196625]
 [0.68494679 0.13327835 0.87577839]]
[0.10435873 0.06362858 0.71346968]
[[0.10435873 0.06362858 0.71346968]]


## Opérateurs de haut niveau sur les matrices

Le fait de passer dans l'univers numpy ouvre des possibilités: il est possible de faire les opérations suivantes sur les matrices: agrégation, addition, soustraction, recherche de min, max, moyenne -globale, par ligne ou par colonne-, etc...

In [17]:
# concaténation de matrices:
# ATTENTION: la logique est la même que pour ones/zeros
# => un seul argument sous la forme d'un tuple contenant les matrices à fusionner

# fusion verticale
m6 = np.vstack((np.array([[1, 2], [3, 4]]), np.ones((3,2))))
print(m6)

# fusion verticale + fusion horizontale
m7 = np.vstack((np.array([1, 2, 3]), np.hstack((np.ones((3,2)), np.zeros((3,1))))))
print(m7)


[[1. 2.]
 [3. 4.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]
[[1. 2. 3.]
 [1. 1. 0.]
 [1. 1. 0.]
 [1. 1. 0.]]


### Tailles des matrices

Il est important de savoir accéder aux dimensions des matrices que l'on manipule. C'est une opération utile en générale... Mais surtout indispensable pour débugguer les programmes.

Lorsque vous êtes face à une erreur, il faut comprendre d'où elle vient (évidemment !). On commence souvent par faire des ```print``` sur les matrices, ce qui est une bonne idée mais qui a des limites: dès que les matrices sont grandes, on ne voit plus rien...
Il est alors bien plus pertinent de faire des vérifications sur les dimensions des matrices.

In [18]:
# pour une variable:
mat.shape # (5,6)
mat.shape[0] # 5
mat.shape[1] # 6 
n, m = mat.shape # retours multiples

In [35]:
# mini exercice de debuggage:
# 1. Exécuter le code pour voir l'erreur
# 2. Comprendre d'où vient le problème... En lisant le message puis en étudiant les dimensions des matrices de la ligne problématique
print(np.hstack((np.ones((3,2)).shape)))
mat = np.vstack((np.arange(3), np.hstack((np.ones((3,2)), np.zeros((3,1)))))) 
mat[1, 1] = 12
print(mat)

[3 2]
[[ 0.  1.  2.]
 [ 1. 12.  0.]
 [ 1.  1.  0.]
 [ 1.  1.  0.]]


## Fonctions de base sur les matrices
Additions, transposées etc...

In [36]:
ma = np.random.rand(5,6)     
# Transposition
mat = ma.T          # pour la transposée 
mat = ma.transpose();    # ou bien
mat = np.transpose(ma);  # ou bien
# la plupart des fonctions numpy acceptent la syntaxe objet et la syntaxe non-objet.

In [41]:
# Addition / soustraction
v1 = v1+ 3    # ou v1 += 3     % matrice + scalaire
              # changement sur les toutes les valeurs de v1
              # NB: le - fonctionne pareil

# multiplication :
# ATTENTION à *
m1 = np.ones((10,1)) @ np.array([1,2,3]) # Attention, produit matriciel
m2 = np.ones((10,3)) * 2                 # multiplication par un scalaire
m3 = m1 * m2;            # multiplication terme à terme   
# usage de .dot => toujours matriciel
m1 = np.ones((10,1)).dot(np.array([[1,2,3]])) # Bien mieux: moins d'ambiguité!
print(m1)

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 3 is different from 1)

Reflexion sur les recherches de valeurs et d'indices:

Soit la matrice:

$m =\begin{pmatrix}
5 & 2 & 1\\
1 & 0.5 & 3
\end{pmatrix} $

Il y a différente manière de s'intéresser au minimum, correspondant à différents usages dans différents algorithmes:

1. Recherche de la plus petite valeur de la matrice: ```m.min()``` $\Rightarrow 0.5$
1. Recherche des minima sur chaque colonne: ```m.min(0)``` ou ```m.min(axis=0)``` $\Rightarrow [1, 0.5, 1]$
1. Recherche des indices sur lesquels sur trouvent les minima pour chaque colonne: ```m.argmin(0)``` ou ```m.argmin(axis=0)```$\Rightarrow [1, 1, 0]$

Nous utiliserons beaucoup ces fonctions, dans toutes leurs formes.


In [42]:
# recherche du min dans une matrice
# ajouter des print pour comprendre les méthodes

print("Soit la matrice m1:\n",m1,"\n")

print(m1.min())   # syntaxe objet
np.min(m1)        # autre syntaxe
# recherche du minimum de chaque colonne:
print(m1.min(axis=0)) # equivalent à m1.min(0)

# recherche du minimum sur chaque ligne
print(m1.min(1)) # equivalent à m1.min(axis=1)

Soit la matrice m1:
 [[1. 2. 3.]
 [1. 2. 3.]
 [1. 2. 3.]
 [1. 2. 3.]
 [1. 2. 3.]
 [1. 2. 3.]
 [1. 2. 3.]
 [1. 2. 3.]
 [1. 2. 3.]
 [1. 2. 3.]] 

1.0
[1. 2. 3.]
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


In [45]:
# distinction min/argmin

# travail en ligne/colonne
m1 = np.array([[ 0.77846102,  0.22597046,  0.217657  ,  0.28958186], \
               [ 0.02133707,  0.03258567,  0.81939161,  0.2834734 ], \
               [ 0.92120271,  0.68409416,  0.24285983,  0.61582659]])
m1.argmin()  # 4 = flattened array
m1.min()
print(m1.argmin())
print(m1.min())
m1.argmin(0) # array([1, 1, 0, 1])
m1.argmin(1) # array([2, 0, 2])

# arrondis
np.round(m1) # au plus proche
np.ceil(m1)  # au dessus
np.floor(m1) # au dessous

# tris
np.sort(m1)   # ligne par ligne
np.sort(m1,0) # colonne par colonne
np.sort(m1,1) # ligne par ligne

# statistique de base
m1.mean() # 0.427  -> sur toute la matrice
m1.mean(0) # array([ 0.57366693,  0.31421676,  0.42663615,  0.39629395]) 
            # colonne par colonne
m1.mean(1) # ligne par ligne

# m1.std...
# m1.sum...
# m1.prod...
# m1.cumsum...

4
0.02133707


array([0.37791759, 0.28919694, 0.61599582])

### Jouons avec les minima

Gestion particulière du minimum: on a souvent besoin de retourner la valeur minimum parmi 2. En C/JAVA/Matlab, cela est réalisé avec min... Pas en python! => minimum

In [47]:
# entre 2 valeurs
np.minimum(2,3) # 2
# entre 2 matrices
m1 = np.random.rand(3,4)
m2 = np.random.rand(3,4)    
print(m1)
print(m2)
print(np.minimum(m1,m2))# matrice 3x4 contenant les valeurs min d'une comparaison terme à terme
# entre une matrice et un scalaire: pour seuiller
np.minimum(m1,0.5)
# array([[ 0.5       ,  0.22597046,  0.217657  ,  0.28958186],
#        [ 0.02133707,  0.03258567,  0.5       ,  0.2834734 ],
#        [ 0.5       ,  0.5       ,  0.24285983,  0.5       ]])

[[0.71058082 0.62391231 0.70188207 0.06858872]
 [0.95617445 0.70112021 0.28523709 0.48389792]
 [0.49061947 0.26006725 0.72546234 0.41641948]]
[[0.02920655 0.80668783 0.73900844 0.25505043]
 [0.82371563 0.91076112 0.92547677 0.11903346]
 [0.34165564 0.47749105 0.31637234 0.82086305]]
[[0.02920655 0.62391231 0.70188207 0.06858872]
 [0.82371563 0.70112021 0.28523709 0.11903346]
 [0.34165564 0.26006725 0.31637234 0.41641948]]


array([[0.5       , 0.5       , 0.5       , 0.06858872],
       [0.5       , 0.5       , 0.28523709, 0.48389792],
       [0.49061947, 0.26006725, 0.5       , 0.41641948]])

## boucles avancées (bien pratiques)

In [48]:
v0 =np.arange(10)
v1 = np.random.rand(10)

print(v0,v1)

for val0, val1 in zip(v0, v1):
    print('indice ',val0, ' et valeur associée ', val1)
    
# note: il était possible d'obtenir le même résultat avec enumerate:
for i, val in enumerate(v1):
    print('indice ',i, ' et valeur associée ', val)

[0 1 2 3 4 5 6 7 8 9] [0.23482648 0.16438391 0.09292374 0.03355842 0.53771988 0.86692549
 0.92041394 0.84856977 0.35421255 0.23245651]
indice  0  et valeur associée  0.23482648116436466
indice  1  et valeur associée  0.16438391175886602
indice  2  et valeur associée  0.09292373984057345
indice  3  et valeur associée  0.03355841982235763
indice  4  et valeur associée  0.5377198799932366
indice  5  et valeur associée  0.8669254891419439
indice  6  et valeur associée  0.9204139435438665
indice  7  et valeur associée  0.8485697681777417
indice  8  et valeur associée  0.354212547293132
indice  9  et valeur associée  0.23245651281813484
indice  0  et valeur associée  0.23482648116436466
indice  1  et valeur associée  0.16438391175886602
indice  2  et valeur associée  0.09292373984057345
indice  3  et valeur associée  0.03355841982235763
indice  4  et valeur associée  0.5377198799932366
indice  5  et valeur associée  0.8669254891419439
indice  6  et valeur associée  0.9204139435438665
indice 

## Tests en bloc
Exercice intéressant pour deux raisons
1. connaitre cette syntaxe particulière
1. comprendre les messages d'erreur lorsqu'on essaie de faire des tests sur une matrice sans ces instructions

In [42]:
m = np.array([[1, 2], [3, 4]])

if (m>1).all():
    print("(1) sup to 1")
else:
    print("(1) NOT sup to 1")

if (m>1).any():
    print("(2) sup to 1")
else:
    print("(2) NOT sup to 1")

(1) NOT sup to 1
(2) sup to 1


In [51]:
# Une erreur très classique qu'il faut savoir comprendre (ie comprendre le message associé) puis corriger
# (1) executer le bloc (2) lire le message d'erreur et le comprendre
# (3) proposer une correction en accord avec le message du print

if (m > 0).all():
    print("les valeurs sont supérieures à 0")


les valeurs sont supérieures à 0


## Fonctions et vectorisation des fonctions de base
Il est évidemment possible de définir des fonctions prenant des structures numpy en argument. Mais il est aussi possible de *vectoriser* une fonction qui n'était pas prévue pour fonctionner sur des matrices. Il s'agit d'une nouvelle manière d'éviter les boucles.

1. On définit une fonction qui transforme UNE valeur
1. On passe cette fonction dans ```np.vectorize```
1. On peut appliquer cette fonction sur une matrice et chacune des cases sera traitée



In [54]:
def theta(x):           # signature classique 
    """                  
    Scalar implemenation of the Heaviside step function.
    """
    if x >= 0:
        return 1
    else:
        return 0
    
theta_vec = np.vectorize(theta)         # notation fonctionnelle (fonction sur des fonctions)
res = theta_vec(np.array([-3,-2,-1,0,1,2,3]))
print(res) # [0 0 0 1 1 1 1]

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

## Vérification de l'état de la mémoire

In [53]:
# dir() => donne aussi les variables d'environnement, il faut filter:
print([s for s in dir() if '_' not in s])
# pour connaitre le type:
print([(s,eval('type({})'.format(s)))  for s in dir() if '_' not in s])
# les commandes who et whos sont élégantes mais ne marchent qu'en ipython

['A', 'B', 'In', 'Out', 'exit', 'i', 'm', 'm1', 'm2', 'm3', 'm4', 'm5', 'm6', 'm7', 'ma', 'mat', 'mnp', 'mnp2', 'mpy', 'mpy2', 'n', 'np', 'os', 'quit', 'res', 'sys', 'theta', 'v0', 'v1', 'v2', 'v3', 'val', 'val0', 'val1']
[('A', <class 'numpy.ndarray'>), ('B', <class 'numpy.ndarray'>), ('In', <class 'list'>), ('Out', <class 'dict'>), ('exit', <class 'IPython.core.autocall.ZMQExitAutocall'>), ('i', <class 'int'>), ('m', <class 'numpy.ndarray'>), ('m1', <class 'numpy.ndarray'>), ('m2', <class 'numpy.ndarray'>), ('m3', <class 'numpy.ndarray'>), ('m4', <class 'numpy.ndarray'>), ('m5', <class 'numpy.ndarray'>), ('m6', <class 'numpy.ndarray'>), ('m7', <class 'numpy.ndarray'>), ('ma', <class 'numpy.ndarray'>), ('mat', <class 'numpy.ndarray'>), ('mnp', <class 'numpy.ndarray'>), ('mnp2', <class 'numpy.ndarray'>), ('mpy', <class 'list'>), ('mpy2', <class 'list'>), ('n', <class 'int'>), ('np', <class 'module'>), ('os', <class 'module'>), ('quit', <class 'IPython.core.autocall.ZMQExitAutocall'>), 

In [55]:
%who

A	 B	 i	 m	 m1	 m2	 m3	 m4	 m5	 
m6	 m7	 ma	 mat	 mnp	 mnp2	 mpy	 mpy2	 n	 
np	 os	 res	 sys	 theta	 theta_vec	 v0	 v1	 v2	 
v3	 val	 val0	 val1	 


## Sauvegarde / chargement depuis numpy

C'est la passerelle entre excel et numpy
* Excel: save as csv
* numpy : loadtxt
* Ou l'inverse...

In [56]:
m5 = np.array([[1, 2], [3, 4]])
np.savetxt("ma-matrice.txt", m5)
# donne le fichier:
# 1.000000000000000000e+00 2.000000000000000000e+00
# 3.000000000000000000e+00 4.000000000000000000e+00
np.savetxt("ma-matrice.txt", m5, fmt='%.5f', delimiter=',')
# donne le fichier:
# 1.00000,2.00000
# 3.00000,4.00000

In [57]:
# fonction symétrique de chargement
m6 = np.loadtxt("ma-matrice.txt", delimiter=',')

## De numpy à python, usage de pickle

loadtxt/savetxt: idéal pour numpy...
    * Chargement/sauvegarde des matrices, format lisible de l'extérieur si besoin
    * Echanges possibles avec d'autres langages: matlab, JAVA...
... Mais pour le python en général, on préfère pickle
    * Serialization généralisé: pour les valeurs, les objets (dont les matrices), les listes, les dictionnaires...
    * Très facile à utiliser
    * Utilisé par tout le monde en python... Donc à connaitre


In [58]:
import pickle as pkl     # obligatoire pour pouvoir l'utiliser
# sauvegarde d'un dictionnaire
pkl.dump({"m1":m1, "m2":m2}, open("deuxmatrices.pkl","wb"))
# chargement de données
data = pkl.load(open('deuxmatrices.pkl','rb')) # attention à donner un file + option lecture (pas juste un nom de fichier)
print(data['m1']) # accès standard dans les dictionnaires

[[0.71058082 0.62391231 0.70188207 0.06858872]
 [0.95617445 0.70112021 0.28523709 0.48389792]
 [0.49061947 0.26006725 0.72546234 0.41641948]]


## Matrice et type des données

Toutes nos matrices étaient jusqu'ici des matrices de réels. Il est possible de définir (ou de transformer) des matrices qui contiennent des entiers voire des booléens en utilisant la syntaxe ci-dessous:

In [59]:
# jouer avec les types des éléments internes aux matrices
# une matrice d'entier
matInt   = np.zeros((5,6), int) # matrice 5x6 de 0 (entiers)
matBool  = np.zeros((5,6), bool) # matrice 5x6 de False (booléens)
matBool2 = np.ones((5,6), bool) # matrice 5x6 de True (booléens)

# Exercices de synthèse
## Génération de données et agrégation de matrices

Nous souhaitons créer une matrice 10x3 dont la première colonne contient les indices 1 à 10 dans l'ordre. La seconde colonne contiendra des nombres aléatoires entre 0 et 1. La troisième colonne ne contiendra que des 0.
Vous ajouterez ensuite une ligne en haut de la matrice contenant les indices de colonne 1 à 3.

**NB:** vous pouvez créer des matrices dans des matrices, c'est-à-dire faire appel à des fonctions dans les []. 

**NB2:** à la fin du processus, on veut un ```np.array```, il faut soit travailler en numpy tout le temps, soit penser à convertir les listes python.

Exemple de résultat possible:

    1.00000    2.00000    3.00000
    1.00000    0.03479    0.00000
    2.00000    0.66074    0.00000
    3.00000    0.15187    0.00000
    4.00000    0.03640    0.00000
    5.00000    0.62497    0.00000
    6.00000    0.54774    0.00000
    7.00000    0.68919    0.00000
    8.00000    0.86146    0.00000
    9.00000    0.72030    0.00000
    10.0000    0.84590    0.00000


In [68]:
import numpy as np
ligne=np.arange(1,4)
col1=np.vstack(np.arange(1,11,1))
col2=np.random.rand(10,1)
col3=np.zeros((10,1))
matr1=np.hstack((col1,col2,col3))
matrfin=np.vstack((ligne,matr1))
print(matrfin)

[[ 1.          2.          3.        ]
 [ 1.          0.28197082  0.        ]
 [ 2.          0.95402725  0.        ]
 [ 3.          0.80892768  0.        ]
 [ 4.          0.09512275  0.        ]
 [ 5.          0.73613012  0.        ]
 [ 6.          0.80858079  0.        ]
 [ 7.          0.68884092  0.        ]
 [ 8.          0.34609323  0.        ]
 [ 9.          0.17310526  0.        ]
 [10.          0.18221923  0.        ]]


## Calcul de moyennes, écarts-types (à la main *vs* fonction numpy)

Soit la matrice de donnée suivante:
```
M = np.array([[8, 3, 7, 3, 2, 7, 9, 1, 2, 9],
              [2, 1, 3, 7, 4, 2, 5, 4, 6, 0],
              [5, 1, 4, 1, 1, 1, 0, 6, 5, 0]])
```

Construire la fonction ```stats``` qui prend en argument une matrice et retourne le vecteur contenant les moyennes des colonnes et un second vecteur contenant les écarts-types des colonnes.

**Note:** vous ferez les calculs à la main, avec des boucles et vous comparerez les résultats avec les fonctions ```np.mean``` et ```np.std```.

**Note 2:** une fonction définie par ```def mafonction(arg):``` peut retourner un tuple, c'est à dire plusieurs résultats agrégés dans une structure simple ```return vec1, vec2```. L'appel (le plus simple) à ma fonction sera de la forme: ```res1, res2 = mafonction(arg)```

In [71]:
M = np.array([[8, 3, 7, 3, 2, 7, 9, 1, 2, 9],
              [2, 1, 3, 7, 4, 2, 5, 4, 6, 0],
              [5, 1, 4, 1, 1, 1, 0, 6, 5, 0]])

def stats(matrice):
    moyennes=np.mean(matrice,1)
    ecart_types=np.std(matrice,1)
    
    return moyennes,ecart_types  
print(stats(M))      

(array([5.1, 3.4, 2.4]), array([3.01496269, 2.10713075, 2.2       ]))


## Table de contingence en numpy

Construction d'une liste de notes d'étudiants (50 notes entre 0 et 20): l'exercice est le même que celui proposé dans la partie python, mais **à réaliser entièrement dans l'environnement numpy**.

* Génération d'un vecteur de notes tirées aléatoirement à l'aide de la fonction: ```np.random.randint``` 
* Création d'une nouvelle liste comptant combien de note de chaque niveau apparaissent dans la liste (table de contingence)
* Création d'une troisième liste contenant toutes les notes supérieures à 10
    
Affichage des deux listes et vérification

Exercice sur la gestion des listes et des boucles.

In [10]:
import numpy as np
liste_notes=np.random.randint(0,21,50)

print(liste_notes)
unique,count=np.unique(liste_notes,return_counts=True)
unique=np.vstack(unique)
count=np.vstack(count)
contingence=np.hstack((unique,count))
liste_notes_plus_dix=liste_notes[liste_notes>10]
print(contingence)
print(liste_notes_plus_dix)

[ 2 12  8 16  5  6  6 19 16 20  0 11 17 17  4  7 12  7 19 13  1 16 18  5
  9 18  2 18  6 14  0  7 13  9  7  4 13  3  0 19  0  6 14  5  8  7  9  0
  7  1]
[[ 0  5]
 [ 1  2]
 [ 2  2]
 [ 3  1]
 [ 4  2]
 [ 5  3]
 [ 6  4]
 [ 7  6]
 [ 8  2]
 [ 9  3]
 [11  1]
 [12  2]
 [13  3]
 [14  2]
 [16  3]
 [17  2]
 [18  3]
 [19  3]
 [20  1]]
[12 16 19 16 20 11 17 17 12 19 13 16 18 18 18 14 13 13 19 14]


## Premier contact avec la documentation

Vous allez générer la matrice suivante:
```
[[0 1 2 0 1 2]
 [0 1 2 0 1 2]
 [0 1 2 0 1 2]
 [0 1 2 0 1 2]
 [0 1 2 0 1 2]
 [0 1 2 0 1 2]
 [0 1 2 0 1 2]
 [0 1 2 0 1 2]
 [0 1 2 0 1 2]
 [0 1 2 0 1 2]]
```
Cette génération peut se faire en une ligne à condition d'utiliser la fonction ```np.tile``` dont la documentation se trouve : 
https://numpy.org/doc/stable/reference/generated/numpy.tile.html

Au-delà de la question formelle, l'enjeu est d'apprendre à se servir de la documentation de numpy.

In [12]:
motif=np.array([0,1,2])
mosaique=np.tile(motif,(10,2))
print(mosaique)

[[0 1 2 0 1 2]
 [0 1 2 0 1 2]
 [0 1 2 0 1 2]
 [0 1 2 0 1 2]
 [0 1 2 0 1 2]
 [0 1 2 0 1 2]
 [0 1 2 0 1 2]
 [0 1 2 0 1 2]
 [0 1 2 0 1 2]
 [0 1 2 0 1 2]]


# Manipulation standard de matrices

1. Générer une matrice ```10x3``` de valeurs distribuées selon une loi normale centrée réduite (```np.random.randn```)
1. Faites en sorte que l'écart-type des données passe à 4 et vérifier que c'est le approximativement cas avec la fonction ```np.std```
1. Centrer la première colonne sur 10, la seconde sur 12 et la troisième sur 14. Vérifier que les moyennes sont bonnes avec ```np.mean(axis=0)``` <BR> **NB:** il est impératif de travailler sur la dispersion avant le centrage (vérifiez cette affirmation en inversant les deux réponses si vous avez un doute)
1. Seuiller toutes les valeurs inférieures à 5 avec ```np.maximum```
1. Seuiller toutes les valeurs supérieures à 18
1. Compter combien de valeurs se situent entre 8 et 12 (exclus)

In [51]:
matrice_random=4*np.random.randn(10,3)
print(np.std(matrice_random))
matrice_random[:,0]+=10
matrice_random[:,1]+=12
matrice_random[:,2]+=14
print(np.mean(matrice_random[:,0]))
print(np.mean(matrice_random[:,1]))
print(np.mean(matrice_random[:,2]))
np.maximum(5,matrice_random)
np.minimum(18,matrice_random)
print(matrice_random)
np.count_nonzero(np.logical_and(matrice_random>8,matrice_random<12))
print(np.where(matrice_random>12))

4.7933826488771265
9.679888386105825
13.298919225573542
14.132498096815292
[[ 6.17493391  9.39827184  5.73285818]
 [15.81837504 22.60146373 22.69409391]
 [ 7.71311472 21.92262919 13.59683159]
 [ 5.1690481   6.63984156 13.19975356]
 [13.7410667  14.58101891 11.99088411]
 [13.20562129 11.8449396  16.84919635]
 [16.4248739  12.02395044 16.87925225]
 [ 1.10831912 14.63330581 15.1791006 ]
 [ 9.03323066 13.34542599 12.56613309]
 [ 8.41030043  5.99834519 12.63687733]]
(array([1, 1, 1, 2, 2, 3, 4, 4, 5, 5, 6, 6, 6, 7, 7, 8, 8, 9], dtype=int64), array([0, 1, 2, 1, 2, 2, 0, 1, 0, 2, 0, 1, 2, 1, 2, 1, 2, 2], dtype=int64))


# Travail en plus grande dimension

numpy ne vous limite pas à 2 dimensions...
1. Créer un cube ```C``` de dimension ```4x3x2``` (avec la fonction ```np.zeros``` par exemple). Dans la suite on choisira de voire cette structure de données comme 4 matrices ```3x2```. Vérifier que vous pouvez acceder à la matrice ```i``` par la commande ```C[i]```.
1. Remplir ce cube avec 15 valeurs aléatoires tirées entre 0 et 10 et positionnées dans des cases aléatoires
1. Diviser le cube par des facteurs de normalisation de sorte à ce que chaque matrice ```3x2``` ait une somme de ```1```. Afficher les matrices pour vérifier *à l'oeil* que les sommes sont bonnes.
1. Remplacer la sous-matrice ```2``` par une matrice remplie de 1.



In [60]:
CUBE=np.zeros((4,3,2))
cube_plat=CUBE.flatten()
remplacement=np.random.randint(0,11,15)
print(remplacement)
cube_plat[:15]=remplacement
print(cube_plat)
cube_shuffle=np.random.shuffle(cube_plat)
CUBE=np.reshape(cube_plat,(4,3,2))
print(CUBE)


[ 2  8  4  6  9  4  2  9 10  3  2  0  9  7  1]
[ 2.  8.  4.  6.  9.  4.  2.  9. 10.  3.  2.  0.  9.  7.  1.  0.  0.  0.
  0.  0.  0.  0.  0.  0.]
[[[ 0.  2.]
  [ 9.  0.]
  [ 0.  2.]]

 [[ 0.  0.]
  [ 0.  0.]
  [10.  8.]]

 [[ 6.  7.]
  [ 2.  0.]
  [ 1.  9.]]

 [[ 0.  9.]
  [ 0.  4.]
  [ 3.  4.]]]


### Traduction de matrice
* Générer une matrice aléatoire `m` de taille (15,2) contenant des indices aléatoires entre 0 et 3.
* Construire le dictionnaire `dico` {1:'titi', 2:'toto', ...}
* La méthode `get` du dictionnaire permet de traduire une valeur de `m`
* Utiliser la commande `np.vectorize` pour traduire en une ligne et sans boucle toute la matrice `m` en une matrice `mtxt`