# Mémo sur le type ndarray de numpy

#### Marie Candito - Master Linguistique Informatique - Paris Diderot

Le type numpy.ndarray est utilisable pour représenter des tableaux multidimensionnels 
(ou encore "n-dimensional" d'où le nd de ndarray).

Un tableau unidimensionnel correspond mathématiquement à un **vecteur** (= tenseur à 1 dimension).

Un tableau bidimensionnel correspond à une **matrice** (= tenseur à 2 dimensions).

Et plus généralement un tableau n-dimensionnel correspond à un **tenseur** à n dimensions, appelées **axis** dans numpy.

On peut construire un ndarray avec les méthodes numpy array, zeros, ones, random.rand, arange ... 


### Exemple matrice initialisée via np.zeros

In [23]:
import numpy as np

m1 = np.zeros( (4,5) ) # une matrice à 4 lignes et 5 colonnes
                       # ndarray bidimensionnel
print(m1)
print(m1.shape)  # la "shape" est un tuple donnant la taille de chaque dimension

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]
(4, 5)


### Test Zone

In [51]:
l = [5,1,2,3]
l.pop(0)

5

### Vecteur vs matrice à une ligne ou une colonne

In [25]:
v1 = np.array ([5,6,7], float)  # un vecteur à 3 dimensions, de réels
                                # équivalent à une liste, mais tous les éléments doivent avoir le même type
print(v1)
print (type(v1))
print (v1.shape) # shape spéciale pour les ndarray unidimensionnels

[5. 6. 7.]
<class 'numpy.ndarray'>
(3,)


In [26]:
v2 = np.zeros( (4,) )
print(v2)
print(v2.shape)

[0. 0. 0. 0.]
(4,)


In [27]:
# attention vecteur de shape (n,) versus matrice de shape (n,1)
vect = np.ones((3,))
mat1 = np.ones((3,1))
mat2 = np.ones((1,3))

print(vect)
print(mat1)
print(mat2)

[1. 1. 1.]
[[1.]
 [1.]
 [1.]]
[[1. 1. 1.]]


### Autres méthodes d'initialisation

In [28]:
m2 = np.random.rand(2,2)  # matrice 2x2 réels aléatoires entre 0 et 1
print(m2)

[[0.93009397 0.20617684]
 [0.62136029 0.79739278]]


In [29]:
a=np.array([[[1,2],[1,2]],[[1,2],[1,2]]])  # tenseur à 3 indices, 2x2x2 
                                           # (cube, chaque face est une matrice 2x2)
print(a)

[[[1 2]
  [1 2]]

 [[1 2]
  [1 2]]]


In [30]:
# initialisation de type range et reshape
a = np.array (range(16))
print(a)
b = a.reshape(4,4)
print(a.shape) 
print(b.shape)
print(b)

# NB le reshape n'effectue pas de copie
b[1,0] = 0
print(a)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
(16,)
(4, 4)
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[ 0  1  2  3  0  5  6  7  8  9 10 11 12 13 14 15]


In [31]:
# initialisation de type linspace
a = np.linspace(2,5,6)  # borne inf, borne sup, nb d'éléments
                        # = 6 éléments, également répartis entre 2 et 5 inclus
print(a)
type(a)
print(a.shape)

[2.  2.6 3.2 3.8 4.4 5. ]
(6,)


## Transposition

In [32]:
# parfois nécessaire de changer lignes en colonnes
a = np.array (range(8)).reshape(2,4)
b = a.transpose()
print(a)
print(b)


[[0 1 2 3]
 [4 5 6 7]]
[[0 4]
 [1 5]
 [2 6]
 [3 7]]


## Copie

In [33]:
# Attention, l'assignation ne copie pas
a = np.ones(shape=(3,4))
b = a
a[1,2] =17
print(a)
print(b)

c=np.copy(a)
a[1,3]=2
print(a)
print(c)

[[ 1.  1.  1.  1.]
 [ 1.  1. 17.  1.]
 [ 1.  1.  1.  1.]]
[[ 1.  1.  1.  1.]
 [ 1.  1. 17.  1.]
 [ 1.  1.  1.  1.]]
[[ 1.  1.  1.  1.]
 [ 1.  1. 17.  2.]
 [ 1.  1.  1.  1.]]
[[ 1.  1.  1.  1.]
 [ 1.  1. 17.  1.]
 [ 1.  1.  1.  1.]]


## Accéder / affecter une cellule / une ligne ou plus généralement une sous-partie

In [34]:
a = np.array (range(12))
a = a.reshape(4,3)
print(a)

# accéder à une des valeurs
print(a[1,0])   # premier indice (axis=0) =numéro de ligne en commençant par 0
                # 2eme indice (axis=1)  = numéro de colonne en commençant par 0

# les slices fonctionnent
# utiliser le ":" pour sélectionner toutes les lignes / colonnes / ou axe si tenseur

# sélection 3eme ligne 
print(a[2, :])

# ATTENTION: on récupère un vecteur de shape (n,) et pas (n,1)
print(a[2, :].shape)

# sélection des colonnes numéros 1 à 2 (i.e. 2eme et 3eme colonnes)
print(a[:, 1:3])
print(a[:, 1:3].shape)



[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
3
[6 7 8]
(3,)
[[ 1  2]
 [ 4  5]
 [ 7  8]
 [10 11]]
(4, 2)


In [35]:
# modification 1ere colonne
a[:, 0] = np.zeros( shape=(4,)) 
print(a)

# modification 2eme ligne
a[1, :] = np.ones( shape=(3,)) 
print(a)

# affectation directe d'un axe
a[2, :] = [-1, -7, -1]
print(a)


[[ 0  1  2]
 [ 0  4  5]
 [ 0  7  8]
 [ 0 10 11]]
[[ 0  1  2]
 [ 1  1  1]
 [ 0  7  8]
 [ 0 10 11]]
[[ 0  1  2]
 [ 1  1  1]
 [-1 -7 -1]
 [ 0 10 11]]


In [36]:
# même principe pour des tableaux à n>2 dimensions

t3 = np.array(range(24)).reshape(3,4,2)  ## 3 matrices de taille 4 x 2
print(t3)

print( t3[0,:,:] )

[[[ 0  1]
  [ 2  3]
  [ 4  5]
  [ 6  7]]

 [[ 8  9]
  [10 11]
  [12 13]
  [14 15]]

 [[16 17]
  [18 19]
  [20 21]
  [22 23]]]
[[0 1]
 [2 3]
 [4 5]
 [6 7]]


## Tri : np.sort et np.argsort 

In [37]:
a = np.array( [ 3 , 24, 17, 8, 2 ,16]).reshape(2,3)
# tri en faisant varier les colonnes (axis=1) => tri de chaque ligne
b = np.sort(a, axis=1)
# tri en faisant varier les lignes (axis=0) => tri de chaque colonne
c = np.sort(a, axis=0)
print(a)
print(b)
print(c)

[[ 3 24 17]
 [ 8  2 16]]
[[ 3 17 24]
 [ 2  8 16]]
[[ 3  2 16]
 [ 8 24 17]]


In [38]:
# en général, plutôt que les seules valeurs triées, 
# on veut les indices triés (qui donnent accès aussi aux valeurs)
b = np.argsort(a, axis=1)
print(b)
[ a[0,i] for i in b[0]]

c = np.argsort(a, axis=0)
# QUESTION: que va valoir c ?

[[0 2 1]
 [1 0 2]]


## Application d'une fonction à chq élément d'un tenseur

### Opérations entre tenseur et scalaire

In [39]:
# multiplication par un scalaire, ajout d'un scalaire etc...
a = np.array(range(6)).reshape(2,3)

print(a)

print(a + 10)
print(a * 10)
print(a / 10.0)
print(a**2)

[[0 1 2]
 [3 4 5]]
[[10 11 12]
 [13 14 15]]
[[ 0 10 20]
 [30 40 50]]
[[0.  0.1 0.2]
 [0.3 0.4 0.5]]
[[ 0  1  4]
 [ 9 16 25]]


### Application d'une fonction prédéfinie sur chaque élément

In [40]:
# Voir la liste des fonctions numpy 
# https://docs.scipy.org/doc/numpy-1.14.2/reference/routines.math.html

a = np.array(range(8)).reshape(2,4) + 1
print(a)
print(np.log2(a)) # on applique le log à base 2 à chaque cellule

[[1 2 3 4]
 [5 6 7 8]]
[[0.         1.         1.5849625  2.        ]
 [2.32192809 2.5849625  2.80735492 3.        ]]


### Application d'une fonction user sur chaque élément

In [41]:
# np.vectorize permet de définir la version "vectorisée" d'une fonction f, 
# i.e. s'appliquant élément par élément

def my_f(x):
    if (x<2):
        return 2 * x
    else:
        return 3 * x+1
my_f_vec = np.vectorize(my_f)

a = np.array(range(6)).reshape(2,3)
print(a)
print(my_f_vec(a))

# QUESTION: que vaut a * f_vec(a) ?

[[0 1 2]
 [3 4 5]]
[[ 0  2  7]
 [10 13 16]]


### Application d'une fonction sur un axe (ligne ou col...)

In [42]:
a = np.array(range(6)).reshape(2,3)
print(a)

np.sum(a)          # somme sur tous les éléments de a (axis=None)
np.sum(a, axis=0)  # somme "en faisant varier les lignes" => somme de toute une colonne
np.sum(a, axis=1)  # somme sur les colonnes => somme de toute une ligne
np.sum(a, axis=-1) # axis=-1 ===> dernier axe, ici = 1


[[0 1 2]
 [3 4 5]]


array([ 3, 12])

## Opérations entre matrice et vecteur

In [43]:
# matrice et vecteur (=> le vecteur est pris comme une LIGNE)
a = np.array(range(12)).reshape((3,4))
print(a)

c = np.array(range(4)).reshape((4,)) + 2
print( "vecteur c:", c )
print( "a + c: \n", a + c )
# QUESTION: décrire comment est calculé a * d

# même fonctionnement pour - / * 
print( "a * c: \n", - a * c )  


[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
vecteur c: [2 3 4 5]
a + c: 
 [[ 2  4  6  8]
 [ 6  8 10 12]
 [10 12 14 16]]
a * c: 
 [[  0  -3  -8 -15]
 [ -8 -15 -24 -35]
 [-16 -27 -40 -55]]


In [44]:
# pour faire une opération entre une matrice et un vecteur "en colonnes"
# il faut convertir celui-ci en vraie matrice à une seule colonne
a = np.array(range(12)).reshape((3,4))
print(a)
c = np.array(range(3)).reshape((3,))

print("c: ", c)
#print(a * c)  # erreur , pourquoi?
d = c[:, np.newaxis]
print(d)
print(a * d)

# QUESTION: décrire comment est calculé a * d

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
c:  [0 1 2]
[[0]
 [1]
 [2]]
[[ 0  0  0  0]
 [ 4  5  6  7]
 [16 18 20 22]]


## Opérations entre matrices

In [45]:
### Opérations terme à terme, ou "composante par composante" (=element-wise)

In [46]:
a = np.array(range(12)).reshape((3,4))
print(a)

b = np.array(range(12)).reshape((3,4)) + 2
print(b)

print (a / b)

print(a * b) # = produit de Hadamard


[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 2  3  4  5]
 [ 6  7  8  9]
 [10 11 12 13]]
[[0.         0.33333333 0.5        0.6       ]
 [0.66666667 0.71428571 0.75       0.77777778]
 [0.8        0.81818182 0.83333333 0.84615385]]
[[  0   3   8  15]
 [ 24  35  48  63]
 [ 80  99 120 143]]


### Produit matriciel "ordinaire" = produit scalaire matriciel = "dot product" = "inner product"

**Fondamental**: 

C = AB  (noté aussi C= A.B) 

**C\[i,j\] vaut le produit scalaire de iième LIGNE de A et jième colonne de B**

A.B n'est défini que si le nombre de colonnes de A vaut le nb de lignes de B

(un dessin permet de ne pas se tromper!)


In [47]:
a = np.array(range(6)).reshape(2,3)
b = np.array(range(12)).reshape(3,4)
c = np.dot(a,b)
print(a)
print(b)
print(c)


[[0 1 2]
 [3 4 5]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[20 23 26 29]
 [56 68 80 92]]


In [48]:
# TODO: étudiez les opérations ci-dessous

a = np.array(range(6)).reshape(2,3)
b = np.array(range(12)).reshape(4,3)
c = np.dot(a, b.transpose())
print(a)
print(b)
print(c)

[[0 1 2]
 [3 4 5]]
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
[[  5  14  23  32]
 [ 14  50  86 122]]


## Produit (ordinaire) d'un vecteur et d'une matrice

In [50]:
# la fonction np.dot effectue des reshape implicites 
# si un argument est un tableau unidimensionnel

# si x est un vecteur de taille n, i.e. un ndarray de shape (n,)

# alors si x est premier argument de np.dot 
# => reshape en vecteur ligne: (1,n)
M = np.arange(6).reshape(3,2)
v = np.eExemplarange(3) + 10
print(M)
print(v)
d = np.dot(v,M)
print(d)
print(d.shape)

print(np.dot(M,v)) # erreur, POURQUOI?

[[0 1]
 [2 3]
 [4 5]]
[10 11 12]
[ 70 103]
(2,)


ValueError: shapes (3,2) and (3,) not aligned: 2 (dim 1) != 3 (dim 0)

In [None]:
print(M.transpose())
print(v)
print (np.dot(M.transpose(),v))

In [None]:
# si x est 2eme argument de np.dot => reshape en vecteur colonne: (n,1)
M = np.arange(6).reshape(2,3)
v = np.arange(3) + 10
print(M)
print(v)
print(np.dot(M,v))