# Tutoriel numpy pour la création et la manipulation de base des matrices

Commandes de base python notebook

Pour executer une cellule : Shift + Entrée

In [2]:
# gestion des bibliothèques externes
import numpy as np
print("Import OK") # affichage en fin de boite pour visualiser que l'exécution a bien eu lieue

Import OK


## Créations de matrice par différentes méthodes

In [None]:
# Création de vecteurs
v1 = np.arange(0, 10, 1) # create a range
                         # arguments: start, stop, step

v1 = np.arange(0, 10)    # with default step=1
v1 = np.arange(10)       # default start=0
print(v1)

v2 = np.linspace(0, 10, 15) # avec linspace, le début et la fin SONT inclus
print(v2)

In [7]:
# Création de matrices
m0 = np.array([[1, 2], [3, 4]])     # matrice
                                    # matrice = vecteur de vecteurs
    
# création de listes en utilisant des boucles imbriquées:
mp = [[n+m*10 for n in range(5)] for m in range(5)]

# création d'une structure numpy à partir d'une liste ou d'une liste de liste:
mn = np.array([[n+m*10 for n in range(5)] for m in range(5)]) # ou np.array(mp)
print(mn)

m1 = np.ones((10,2))  # matrice de 1, argument = nuplet avec les dimensions
                      # ATTENTION np.ones(10,2) ne marche pas

m2 = np.zeros((5,4))   # matrice de 0
m3 = np.eye(4)        # matrice identité carrée, arg = dimension
print(m3)
m4 = np.random.rand(5,6)  # matrice de nombres aléatoires indépendants, args = dimensions
m5 = np.random.randn(5,6) # tirages selon une gaussienne(mu=0,var=1), args = dimensions
print(m5)

[0 1 2 3 4 5 6 7 8 9]
[0 1 2 3 4 5 6 7 8 9]


In [None]:
# concaténation de matrices
m6 = np.vstack((np.array([[1, 2], [3, 4]]), np.ones((3,2))))
m7 = np.vstack((np.array([1, 2, 3]), np.hstack((np.ones((3,2)), np.zeros((3,1))))))
print(m6)

In [None]:
# jouer avec les types des éléments internes aux matrices
# une matrice d'entier
matInt   = np.zeros((5,6), int) # matrice 5x6 de 0 (entiers)
matBool  = np.zeros((5,6), bool) # matrice 5x6 de False (booléens)
matBool2 = np.ones((5,6), bool) # matrice 5x6 de True (booléens)

## Récupération/affectation de valeurs

In [None]:
# une matrice 
mat   = np.ones((5,6)) 
mat[0,0] # récupération de la première valeur
mat[0,:] # récupération de la première ligne
mat[0,0:2] # récupération des valeurs d'indice 0 et 1
# petites astuces supplémentaires
mat[0,1:] # toute la ligne sauf la première case
mat[0,:-1] # toute la ligne sauf la dernière case
mat[0,:-2] # toute la ligne sauf les deux dernières cases

A = np.array([1,2,3,4,5])
A[1:3]  # array([2, 3])

# On peut omettre n'importe lequel des argument dans M[start:stop:step]:
A[::] # indices de début, fin, et pas avec leurs valeurs par défaut
      # array([ 1, -2, -3,  4,  5])
A[::2] # pas = 2, indices de début et de fin par défaut
       # array([ 1, -3,  5])
A[:3] # les trois premiers éléments (indices 0,1,2)
      # array([ 1, -2, -3])
A[3:] # à partir de l'indice 3
      # array([4, 5])

# On peut utiliser des indices négatifs :
A[-1] # le dernier élément
      # 5
A[-3:] # les 3 derniers éléments
       # array([3, 4, 5])
    
# Affectation:
# une matrice d'entier
mat   = np.ones((5,6)) 
mat[0,0:2] = 1 # affectation en bloc
mat[0,0:2] = np.zeros((1,2)) # affectation en bloc d'une autre matrice

# Matrice VS vecteur !!
A = np.random.rand(5,3) # matrice 5x3
B = A[2,:]              # extraction de la troisième ligne...
                        # il s'agit d'un vecteur !!!
B = A[2:3,:]            # extraction de la troisième ligne...
                        # mais il s'agit d'une matrice (transposable) !!!

## Tailles des matrices

In [None]:
# pour une variable:
mat.shape # (5,6)
mat.shape[0] # 5
mat.shape[1] # 6 
n, m = mat.shape # retours multiples

## Fonctions de base sur les matrices
Additions, transposées etc...

In [9]:
ma = np.random.rand(5,6)     
# Transposition
mat = ma.T          # pour la transposée 
mat = ma.transpose();    # ou bien
mat = np.transpose(ma);  # ou bien
# la plupart des fonctions numpy acceptent la syntaxe objet et la syntaxe non-objet.

In [10]:
# Addition / soustraction
v1 = v1+ 3    # ou v1 += 3     % matrice + scalaire
              # changement sur les toutes les valeurs de v1
              # NB: le - fonctionne pareil

# multiplication :
# ATTENTION à *
m1 = np.ones((10,1)) * np.array([1,2,3]) # Attention, produit matriciel
m2 = np.ones((10,3)) * 2                 # multiplication par un scalaire
m3 = m1 * m2;            # multiplication terme à terme   
# usage de .dot => toujours matriciel
m1 = np.ones((10,1)).dot(np.array([[1,2,3]])) # Bien mieux: moins d'ambiguité!

In [12]:
# recherche du min dans une matrice
m1.min()   # syntaxe objet
np.min(m1) # autre syntaxe
# distinction min/argmin
m1.argmin()

# travail en ligne/colonne
m1 = np.random.rand(3,4)
# array([[ 0.77846102,  0.22597046,  0.217657  ,  0.28958186],
#        [ 0.02133707,  0.03258567,  0.81939161,  0.2834734 ],
#        [ 0.92120271,  0.68409416,  0.24285983,  0.61582659]])
m1.argmin()  # 4
m1.argmin(0) # array([1, 1, 0, 1])
m1.argmin(1) # array([2, 0, 2])

# arrondis
np.round(m1) 
np.ceil(m1) 
np.floor(m1)

# tris
np.sort(m1)   # ligne par ligne
np.sort(m1,0) # colonne par colonne
np.sort(m1,1) # ligne par ligne

# statistique de base
m1.mean() # 0.427  -> sur toute la matrice
m1.mean(0) # array([ 0.57366693,  0.31421676,  0.42663615,  0.39629395]) 
            # colonne par colonne
m1.mean(1) # ligne par ligne

# m1.std...
# m1.sum...
# m1.prod...
# m1.cumsum...

array([0.21683966, 0.33965359, 0.32771824])

### Jouons avec les minima

Gestion particulière du minimum: on a souvent besoin de retourner la valeur minimum parmi 2. En C/JAVA/Matlab, cela est réalisé avec min... Pas en python! => minimum

In [None]:
# entre 2 valeurs
np.minimum(2,3) # 2
# entre 2 matrices
m1 = random.rand(3,4)
m2 = random.rand(3,4)    
np.minimum(m1,m2) # matrice 3x4 contenant les valeurs min d'une comparaison terme à terme
# entre une matrice et un scalaire: pour seuiller
np.minimum(m1,0.5)
# array([[ 0.5       ,  0.22597046,  0.217657  ,  0.28958186],
#        [ 0.02133707,  0.03258567,  0.5       ,  0.2834734 ],
#        [ 0.5       ,  0.5       ,  0.24285983,  0.5       ]])

## boucles avancées (bien pratiques)

In [None]:
v0 =np.arange(10)
v1 = np.random.rand(10)

for val0, val1 in zip(v0, v1):
    print('indice ',val0, ' et valeur associée ', val1)
    
# note: il était possible d'obtenir le même résultat avec enumerate:
for i, val in enumerate(v1):
    print('indice ',i, ' et valeur associée ', val)

## Tests en bloc
Exercice intéressant pour deux raisons
1. connaitre cette syntaxe particulière
1. comprendre les messages d'erreur lorsqu'on essaie de faire des tests sur une matrice sans ces instructions

In [None]:
m = np.array([[1, 2], [3, 4]])

if (m>1).all():
    print("(1) sup to 1")
else:
    print("(1) NOT sup to 1")

if (m>1).any():
    print("(2) sup to 1")
else:
    print("(2) NOT sup to 1")

## Fonctions et vectorisation des fonctions de base
Il est évidemment possible de définir des fonctions prenant des structures numpy en argument. Mais il est aussi possible de *vectoriser* une fonction qui n'était pas prévue pour fonctionner sur des matrices. Il s'agit d'une nouvelle manière d'éviter les boucles.

In [6]:
def theta(x):           # signature classique 
    """                  
    Scalar implemenation of the Heaviside step function.
    """
    if x >= 0:
        return 1
    else:
        return 0
    
theta_vec = np.vectorize(theta)         # notation fonctionnelle (fonction sur des fonctions)
res = theta_vec(np.array([-3,-2,-1,0,1,2,3]))
print(res) # [0 0 0 1 1 1 1]

[0 0 0 1 1 1 1]


## Vérification de l'état de la mémoire

In [None]:
# dir() => donne aussi les variables d'environnement, il faut filter:
print([s for s in dir() if '_' not in s])
# pour connaitre le type:
print([(s,eval('type({})'.format(s)))  for s in dir() if '_' not in s])
# les commandes who et whos sont élégantes mais ne marchent qu'en ipython

## Sauvegarde / chargement depuis numpy

In [None]:
np.savetxt("random-matrix.txt", m5)
# donne le fichier:
# 1.000000000000000000e+00 2.000000000000000000e+00
# 3.000000000000000000e+00 4.000000000000000000e+00
np.savetxt("random-matrix.csv", m5, fmt='%.5f', delimiter=',')
# donne le fichier:
# 1.00000,2.00000
# 3.00000,4.00000

## De numpy à python, usage de pickle

loadtxt/savetxt: idéal pour numpy...
    * Chargement/sauvegarde des matrices, format lisible de l'extérieur si besoin
    * Echanges possibles avec d'autres langages: matlab, JAVA...
... Mais pour le python en général, on préfère pickle
    * Serialization généralisé: pour les valeurs, les objets (dont les matrices), les listes, les dictionnaires...
    * Très facile à utiliser
    * Utilisé par tout le monde en python... Donc à connaitre


In [None]:
import pickle as pkl     # obligatoire pour pouvoir l'utiliser
# sauvegarde d'un dictionnaire
pkl.dump({"m1":m1, "m2":m2}, open("deuxmatrices.pkl","wb"))
# chargement de données
data = pkl.load(open('deuxmatrices.pkl','rb')) # attention à donner un file + option lecture (pas juste un nom de fichier)
print(data['m1']) # accès standard dans les dictionnaires

# Exercices de synthèse
### Génération de données

Nous souhaitons créer une matrice 10x3 dont la première colonne contient les indices 1 à 10 dans l'ordre. La seconde colonne contiendra des nombres aléatoires entre 0 et 1. La troisième colonne ne contiendra que des 0.
Vous ajouterez ensuite une ligne en haut de la matrice contenant les indices de colonne 1 à 3.
NB: vous pouvez créer des matrices dans des matrices, c'est-à-dire faire appel à des fonctions dans les [].

Exemple de résultat possible:

    1.00000    2.00000    3.00000
    1.00000    0.03479    0.00000
    2.00000    0.66074    0.00000
    3.00000    0.15187    0.00000
    4.00000    0.03640    0.00000
    5.00000    0.62497    0.00000
    6.00000    0.54774    0.00000
    7.00000    0.68919    0.00000
    8.00000    0.86146    0.00000
    9.00000    0.72030    0.00000
    10.0000    0.84590    0.00000


In [None]:
# a vous de jouer !


### Récupération de données 'réelles'

Soit le jeu de données suivant:

     14.5  8.5 
     15.5  8.5
     9     14.5
     9.5   15.5
     11    9.5 
     3.5   6
     11.5  11
     8.5   5.5
     3     2
     17    12
     6     13
     10    12.5
     10    4
     11.5  5.5
     13.5  8

1. Copier ces valeurs (notes d'une classe sur deux épreuves) dans un fichier 'college.dat'
2. Importer ces valeurs dans une matrice numpy

### Génération de notes

Nous souhaitons générer aléatoirement les notes de la question précédente sachant que:
* Le nombre d'élèves est n=15
* Les notes sont tirées selon une loi gaussienne d'écart-type 4. 
    * Utiliser la commande np.random.randn pour générer les tirages puis multiplier par l'écart-type.
* La première épreuve à une moyenne approximative de 10, la seconde, une moyenne de 8 (on veut donc décaler la première colonne de 10 et la seconde de 8)
* On veut être sûr que les notes sont supérieures ou égales à 0 (utiliser maximum)
* On veut être sûr que les notes sont inférieures ou égales à 20 (utiliser minimum)
* On veut des notes entières (utiliser round)

### Traduction de matrice
* Générer une matrice aléatoire `m` de taille (15,2) contenant des indices aléatoires entre 0 et 3.
* Construire le dictionnaire `dico` {1:'titi', 2:'toto', ...}
* La méthode `get` du dictionnaire permet de traduire une valeur de `m`
* Utiliser la commande `np.vectorize` pour traduire en une ligne et sans boucle toute la matrice `m` en une matrice `mtxt`