# Manipulation de ndarray dans numpy

## concatenation de tableau

Tres importante manipulation des donnees, on passe son temps a mettre des colonnes de data provenant de sources differentes ensemble

la syntaxe de la fonction concatenate est la suivante:

concatenate([a,b,c],axis)

[a,b,c] est une liste (ou autres iterables) pouvant contenir autant d'element a concatener que l'on veut

*axis est la dimension selon laquelle on veut concatener:*

par exemple:


In [2]:
import numpy as np

a = np.arange(3)
b = np.arange(5)

c = np.concatenate((a,b)) ### on concatene selon la premiere dimension

print(c)

[0 1 2 0 1 2 3 4]


In [2]:
### en multi dimension, on precise axis

a = np.ones((3,4,5))
b = np.ones((3,4,5))

c = np.concatenate((a,b),axis = 0) ### on concatene selon la premiere dimension

print(c.shape)

(6, 4, 5)


In [3]:

c = np.concatenate((a,b),axis = 1) ### on concatene selon la deuxieme dimension

print(c.shape)

(3, 8, 5)


In [4]:
a_1 = np.array(np.arange(3*4*5)).reshape(3,4,5) ### liste des 60 premiers indexes

print(a_1)


[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]
  [10 11 12 13 14]
  [15 16 17 18 19]]

 [[20 21 22 23 24]
  [25 26 27 28 29]
  [30 31 32 33 34]
  [35 36 37 38 39]]

 [[40 41 42 43 44]
  [45 46 47 48 49]
  [50 51 52 53 54]
  [55 56 57 58 59]]]


In [5]:


b_1 = np.array(np.arange(3*4*3)).reshape(3,4,3) + 60 

print(b_1)

[[[60 61 62]
  [63 64 65]
  [66 67 68]
  [69 70 71]]

 [[72 73 74]
  [75 76 77]
  [78 79 80]
  [81 82 83]]

 [[84 85 86]
  [87 88 89]
  [90 91 92]
  [93 94 95]]]


In [6]:

c_0 = np.concatenate((a_1,b_1),axis = 0) ### on concatene selon la premiere dimension (~ profondeur)

### ca ne marche pas 

ValueError: all the input array dimensions except for the concatenation axis must match exactly

In [7]:
c_1 = np.concatenate((a_1,b_1),axis = 1) ### on concatene selon la deuxieme dimension (~ hauteur)

### ca ne marche 

ValueError: all the input array dimensions except for the concatenation axis must match exactly

In [8]:
c_2 = np.concatenate((a_1,b_1),axis = 2) ### on concatene selon la deuxieme dimension (~ longueur)
print(c_2)

[[[ 0  1  2  3  4 60 61 62]
  [ 5  6  7  8  9 63 64 65]
  [10 11 12 13 14 66 67 68]
  [15 16 17 18 19 69 70 71]]

 [[20 21 22 23 24 72 73 74]
  [25 26 27 28 29 75 76 77]
  [30 31 32 33 34 78 79 80]
  [35 36 37 38 39 81 82 83]]

 [[40 41 42 43 44 84 85 86]
  [45 46 47 48 49 87 88 89]
  [50 51 52 53 54 90 91 92]
  [55 56 57 58 59 93 94 95]]]


!!! Toutes les dimensions a part celle de l'axis doivent correspondre

## mot-clé newaxis

newaxis permet d'ajouter une dimension a un tableau existant. 

Par exemple, un vecteur n'a qu'une seule dimension:

In [3]:
a = np.array(np.arange(10),dtype = 'int64')

print(a)
print(a.shape)

[0 1 2 3 4 5 6 7 8 9]
(10,)


Pourtant, si on veut concatener 2 vecteurs pour un faire une matrice a deux colonnes, il faut que passer d'un vecteur  (à une seule dimension), a une matrice a une seule colonne:

In [4]:
b = np.array(np.arange(10,20),dtype = 'int64')
print(b)
print(b.shape)

c_1 = np.concatenate((a,b),axis = 1)
print(c_1)


### ca marche pour concatener les deux vecteurs dans le sens de la longueur  
#c_0 = np.concatenate((a,b),axis = 0)
#print(c_0)

[10 11 12 13 14 15 16 17 18 19]
(10,)


IndexError: axis 1 out of bounds [0, 1)

Pour cela on va utiliser le mot-clé 'newaxis', qui nous permet d'ajouter une nouvelle dimension au tableau

In [9]:
a_bis = a[:,np.newaxis] 
a_bis = a[:,None] 

print(a_bis.shape)

(10, 1)



equivalent a 
* a_bis = a.reshape(a.shape[0],1) 
* a_bis = a.reshape(-1,1)
* a_bis = a[:,None]


In [12]:
b_bis = b[:,np.newaxis]
print(b_bis.shape)


(10, 1)


In [13]:

m= np.concatenate((a_bis,b_bis),axis = 1)
# l'axis = 1 existe maintenant
print(m)
print(m.shape)


[[ 0 10]
 [ 1 11]
 [ 2 12]
 [ 3 13]
 [ 4 14]
 [ 5 15]
 [ 6 16]
 [ 7 17]
 [ 8 18]
 [ 9 19]]
(10, 2)


## Operations de reduction: mean/std, max,  sum etc.

Avec le meme principe de 'axis', il est tres facile de reduire un tableau:



 <img src="img/axis.png">

### moyenne 

fonction numpy.mean

#### moyenne des colonnes

In [14]:
m = np.random.randint(20,size = 20).reshape(2,10)

print(m)

##Petit truc pour connaitre l'axis: c'est la dimension qui disparait

mean_m = np.mean(m,axis = 0) 
print(mean_m) ### ici la dimension colonne (2) disparait (on ne garde que les lignes)


[[ 9 18 18 16  0  8 13  5  3  0]
 [ 4 19  4 17  3 18 13  7 10  6]]
[  6.5  18.5  11.   16.5   1.5  13.   13.    6.    6.5   3. ]


#### moyenne des lignes

In [15]:
mean_m = np.mean(m,axis = 1)
print(m)
print(mean_m) ## ici la dimension des lignes (10) disparait

[[ 9 18 18 16  0  8 13  5  3  0]
 [ 4 19  4 17  3 18 13  7 10  6]]
[  9.   10.1]


#### moyenne du tableau

axis = None

In [16]:
mean_c = np.mean(m,axis = None)
print(m)
print(mean_c)

[[ 9 18 18 16  0  8 13  5  3  0]
 [ 4 19  4 17  3 18 13  7 10  6]]
9.55


#### ecart-type

fonction numpy.std

In [17]:
### ecart type des lignes
std_c_1 = np.std(m,axis = 1)

print(std_c_1)


[ 6.64830806  5.90677577]


In [18]:
### max des lignes
max_c_0 = np.max(m,axis = 1)

print(max_c_0)

[18 19]


# Exercice 6.1: potentiel evoqué moyen
    
- Genérer un signal de 10000 points (Gaussien) // 20 signaux
    
- on slice autour de 10 trigs aleatoires trigs = np.array([100, 500, 800 ...]) 
    
 trigs = np.array([100,500,2000,2500,3500,4000,6000,7500,8600,9000])
 
- chaque segment entre -5 et +10 autour tu trig) 
    
- concatener les données
    
- calcul de la moyenne + sd des 10 trials
    

# Solution 6.1 avec slice

In [1]:
import numpy as np

sigs = np.random.randn(20,10000)

trigs = np.array([100,500,2000,2500,3500,4000,6000,7500,8600,9000])

trig_sigs = np.zeros((10,20,15))

for i,trig in enumerate(trigs):
    
    trig_sigs[i,:,:] =  sigs[:,trig-5:trig+10]

mean_sigs = np.mean(trig_sigs, axis = 0)

print(mean_sigs.shape)

(20, 15)


In [None]:
# Solution 6.1 avec concatenate

In [3]:
import numpy as np

sigs = np.random.randn(20,10000)
trigs = np.array([100,500,2000,2500,3500,4000,6000,7500,8600,9000])

l =[]
for trig in trigs:
    chunk_bad = sigs[:,trig-5:trig+10]
    print(chunk_bad.shape)
    chunk_ok = sigs[:,trig-5:trig+10, np.newaxis]
    print(chunk_ok.shape)
    l.append(chunk_ok)
trig_sigs = np.concatenate(l, axis=2)
    
mean_sigs = np.mean(trig_sigs, axis = 0)

print(mean_sigs.shape)

(20, 15)
(20, 15, 1)
(20, 15)
(20, 15, 1)
(20, 15)
(20, 15, 1)
(20, 15)
(20, 15, 1)
(20, 15)
(20, 15, 1)
(20, 15)
(20, 15, 1)
(20, 15)
(20, 15, 1)
(20, 15)
(20, 15, 1)
(20, 15)
(20, 15, 1)
(20, 15)
(20, 15, 1)
(15, 10)


## Operations de tri

### tri des elements

!!! Par defaut le tri s'effectue selon la DERNIERE dimension (axis = -1)


In [20]:
#tri sur le vecteur

c = np.random.randint(low = 100, high = 200, size = 10)
print(c)

sorted_c = np.sort(c)

print(sorted_c)

[101 169 189 179 154 108 146 191 174 121]
[101 108 121 146 154 169 174 179 189 191]


In [21]:
### tri sur tout le tableau

c = np.random.randint(low = 100, high = 200, size = 15).reshape(3,5)
print(c)
print()
sorted_c_0 = np.sort(c,axis = 0)
print(sorted_c_0)
print()
sorted_c_1 = np.sort(c,axis = 1)
print(sorted_c_1)

[[134 174 142 134 190]
 [184 182 118 135 116]
 [137 184 103 188 108]]

[[134 174 103 134 108]
 [137 182 118 135 116]
 [184 184 142 188 190]]

[[134 134 142 174 190]
 [116 118 135 182 184]
 [103 108 137 184 188]]


### ordre des elements

In [22]:
# autre ex argsort sur une dim
#un vecteur trie un autre vecteur


a = np.array([12,22,9,4])
b = np.array(['a','b','c','d'])
print(a)
print(b)
print()
order = np.argsort(a)

print(order)
print(b[order])


[12 22  9  4]
['a' 'b' 'c' 'd']

[3 2 0 1]
['d' 'c' 'a' 'b']


# Exercice 6.2: max et sort signaux

 * TODO idem exo 6.1 mais sur le max
 
 Exercice: potentiel evoqué
    
    genere un signal de 10000 points (Gaussien) // 20 signaux
    
    on slice autour de 10 trigs aleatoires trigs = np.array([100, 500, 800 ...]) 
    
    (donnés; -5 +10 points) 
    
    concat
    
    valeur du max pour chaque signal
    max a quel point
    
    sort des signaux en fonction du max de chaque signal
    


# Solution 6.2

In [23]:
import numpy as np

sig = np.random.rand(10000)

trigs = np.array([100,500,2000,2500,3500,4000,6000,7500,8600,9000])

seq_sigs = []

for trig in trigs:
    
    seq_sig = sig[trig-5:trig+10+1]
    
    seq_sigs.append(seq_sig[:,np.newaxis])
    
concat_seq_sigs = np.concatenate(seq_sigs,axis = 1)

#print(concat_seq_sigs)
print(concat_seq_sigs.shape)

#### nouveau par rapport à 6.1
### valuers maximales de chacun des signaux
sig_maxs = np.max(concat_seq_sigs,axis = 0)
print(sig_maxs)

### order des signaux en fonction de leur max
order_max_seq = np.argsort(sig_maxs)
print(order_max_seq)

### reorder les signaux en fonction de l'ordre de leur max
reorder_sigs = concat_seq_sigs[:,order_max_seq]

print(np.max(reorder_sigs,axis = 0))
print(np.transpose(reorder_sigs))

(16, 10)
[ 0.96663661  0.99033566  0.90652996  0.77750651  0.98184902  0.96135536
  0.87628395  0.94324391  0.87239027  0.87834144]
[3 8 6 9 2 7 5 0 4 1]
[ 0.77750651  0.87239027  0.87628395  0.87834144  0.90652996  0.94324391
  0.96135536  0.96663661  0.98184902  0.99033566]
[[ 0.52184063  0.47727383  0.75679904  0.13225198  0.29686752  0.12609604
   0.41036775  0.38251225  0.01124667  0.16132373  0.55079     0.77750651
   0.02202975  0.29341197  0.6833273   0.52516992]
 [ 0.73655989  0.19256788  0.42401006  0.85303853  0.52871389  0.30926768
   0.20663582  0.12598483  0.2145043   0.15092641  0.06680364  0.24727239
   0.05233154  0.31052316  0.87239027  0.77029394]
 [ 0.64067476  0.81037123  0.16104653  0.83254234  0.87628395  0.44726469
   0.30939305  0.63545292  0.40860568  0.8395242   0.55058497  0.43736233
   0.49551225  0.19456949  0.29115332  0.50945142]
 [ 0.4752389   0.82138466  0.80457086  0.42462939  0.81292481  0.31031535
   0.41377764  0.57272992  0.07311042  0.00988049  0

## Matrix vs. ndarray

Dans numpy, et contrairement à Matlab, les operations par defaut se font sur les arrays, et pas sur les matrices.

Il existe un type specialisé pour les matrices, qui sont des tableaux a deux dimensions, et qui disposent d'operations propres aux matrices (inversion, produit, etc.)

### Produit vs. produit matriciel

Par default pour les ndarray, le produit est le produit element par element:

In [4]:
import numpy as np

a = np.ones(shape = (4,4))*3
b = np.ones(shape = (4,4))*2

print(a)
print(b)

[[ 3.  3.  3.  3.]
 [ 3.  3.  3.  3.]
 [ 3.  3.  3.  3.]
 [ 3.  3.  3.  3.]]
[[ 2.  2.  2.  2.]
 [ 2.  2.  2.  2.]
 [ 2.  2.  2.  2.]
 [ 2.  2.  2.  2.]]


In [25]:
### produit de chaque element

c = a*b 
print(c)



[[ 6.  6.  6.  6.]
 [ 6.  6.  6.  6.]
 [ 6.  6.  6.  6.]
 [ 6.  6.  6.  6.]]


In [26]:
### produit matriciel (produit scalaire de chaque ligne de a avec chaque colonne de b)
mat_a = np.matrix(a)
mat_b = np.matrix(b)

print(type(mat_a))


<class 'numpy.matrixlib.defmatrix.matrix'>


In [27]:

mat_c = mat_a*mat_b
print(mat_c)
print(type(mat_c))

[[ 24.  24.  24.  24.]
 [ 24.  24.  24.  24.]
 [ 24.  24.  24.  24.]
 [ 24.  24.  24.  24.]]
<class 'numpy.matrixlib.defmatrix.matrix'>


Il est cependant possible de travailler directement en operation matricielle SANS passer par l'objet np.matrix

In [5]:
c_dot = np.dot(a,b)
print(c_dot)
print(type(c_dot))



[[ 24.  24.  24.  24.]
 [ 24.  24.  24.  24.]
 [ 24.  24.  24.  24.]
 [ 24.  24.  24.  24.]]
<class 'numpy.ndarray'>


In [9]:
### on peut aussi utiliser la method de l'objet ndarry dot()

print(a.dot(b))

[[ 24.  24.  24.  24.]
 [ 24.  24.  24.  24.]
 [ 24.  24.  24.  24.]
 [ 24.  24.  24.  24.]]


In [8]:


#### Depuis python 3 (.5? ou ou.6), operator @ correspond au produit matriciel 
print (a@b)

[[ 24.  24.  24.  24.]
 [ 24.  24.  24.  24.]
 [ 24.  24.  24.  24.]
 [ 24.  24.  24.  24.]]


### inverse vs. inversion


In [10]:
mat = np.random.randint(1,5+1, size=(4,4)).astype("float64")

print(mat)


[[ 5.  5.  1.  2.]
 [ 2.  1.  1.  3.]
 [ 1.  2.  3.  5.]
 [ 3.  1.  1.  2.]]


In [11]:
## on obtient l'inverse de chaque element
un_sur_mat = 1/mat

print(un_sur_mat)

### !!! en matlab c'est l'inverse (/.) a la place de (/)

[[ 0.2         0.2         1.          0.5       ]
 [ 0.5         1.          1.          0.33333333]
 [ 1.          0.5         0.33333333  0.2       ]
 [ 0.33333333  1.          1.          0.5       ]]


In [31]:
## on obtient la matrice inverse
inv_mat = np.linalg.inv(mat)

print(inv_mat)

[[-0.17857143 -0.46428571  0.64285714  0.03571429]
 [ 0.35714286 -0.07142857 -0.28571429 -0.07142857]
 [-0.05357143  0.66071429 -0.10714286 -0.08928571]
 [-0.01785714 -0.44642857 -0.03571429  0.30357143]]
