---
# Manipulation de ndarray dans numpy
---

# Concatenation de tableau

Tres utile : pour mettre ensemble des datas de sources différentes

syntaxe :

**concatenate([a,b,c],axis)**

**[a,b,c]** est une liste (ou autres iterables) pouvant contenir autant d'élement à concatener que l'on veut

**axis** est la dimension selon laquelle on veut concatener:

par exemple:


In [1]:
import numpy as np

a = np.arange(3)
b = np.arange(5)

c = np.concatenate((a,b)) ### concatene par défault selon la premiere dimension

print(c)

[0 1 2 0 1 2 3 4]


In [2]:
### en multi dimension, on precise axis

a = np.ones((3,4,5))
b = np.ones((3,4,5))

c = np.concatenate((a,b),axis = 0) ### concatene selon la premiere dimension

print(c.shape)

(6, 4, 5)


![Image](./img/np_concat_0.png)

In [3]:
c = np.concatenate((a,b),axis = 1) ### concatene selon la deuxieme dimension

print(c.shape)

(3, 8, 5)


![Image](./img/np_concat_1.png)

In [4]:
### Si les dimensions (autre que celle ou l'on concatène) ne correspondent pas : ça ne marche pas !

a = np.ones((3,4,5))
b = np.ones((3,5,3))

c = np.concatenate((a,b),axis = 1) 

print(c.shape)


ValueError: all the input array dimensions for the concatenation axis must match exactly, but along dimension 2, the array at index 0 has size 5 and the array at index 1 has size 3

![Image](./img/np_concat_2.png)

###  -> Toutes les dimensions a part celle de l'axis doivent correspondre

# np.stack et np.newaxis

np.stack permet d'empiler des tabelaux avec ajjout de dimmension.

newaxis permet d'ajouter une dimension à un tableau existant. 

Par exemple, un vecteur n'a qu'une seule dimension:

In [13]:
a = np.array(np.arange(10),dtype = 'int64')

print(a)
print(a.shape)

b = np.array(np.arange(10,20),dtype = 'int64')
print(b)
print(b.shape)

[0 1 2 3 4 5 6 7 8 9]
(10,)
[10 11 12 13 14 15 16 17 18 19]
(10,)


si on veux empiler sur deux lignes np.concatenate simplement

In [18]:
np.concatenate((a,b),axis = 0)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [19]:
np.concatenate((a,b),axis = 1)

AxisError: axis 1 is out of bounds for array of dimension 1

Il faut ajouter des dimennsion avec np.newaxis

In [20]:
np.concatenate((a[:, np.newaxis],b[:, np.newaxis]),axis = 1)

array([[ 0, 10],
       [ 1, 11],
       [ 2, 12],
       [ 3, 13],
       [ 4, 14],
       [ 5, 15],
       [ 6, 16],
       [ 7, 17],
       [ 8, 18],
       [ 9, 19]])

In [24]:
a_bis = a[:,np.newaxis] 
print(a_bis.shape)

(10, 1)



equivalent a 
* a_bis = a.reshape(a.shape[0],1) 
* a_bis = a.reshape(-1,1)
* a_bis = a[:,None]


np.stack fait déjà ça tout seul!!

In [29]:
np.stack((a,b),axis=1)

array([[ 0, 10],
       [ 1, 11],
       [ 2, 12],
       [ 3, 13],
       [ 4, 14],
       [ 5, 15],
       [ 6, 16],
       [ 7, 17],
       [ 8, 18],
       [ 9, 19]])

# Operations de réduction: mean/std, max,  sum etc.

Avec le meme principe de 'axis', il est tres facile de reduire un tableau:


 <img src="img/axis.png">

## moyenne 

fonction numpy.mean

#### moyenne des colonnes

In [30]:
m = np.random.randint(20, size = 20).reshape(2,10)


print(m)

##Petit truc pour connaitre l'axis: c'est la dimension qui disparait

mean_m = np.mean(m,axis = 0) 
print(mean_m) ### ici la dimension colonne (2) disparait (on ne garde que les lignes)


[[ 1  0  7  7 16  9  9  1  2 14]
 [ 0  1  8  6  9  5 10  2 19  3]]
[ 0.5  0.5  7.5  6.5 12.5  7.   9.5  1.5 10.5  8.5]


#### moyenne des lignes

In [31]:
mean_m = np.mean(m,axis = 1)
print(m)
print(mean_m) ## ici la dimension des lignes (10) disparait

[[ 1  0  7  7 16  9  9  1  2 14]
 [ 0  1  8  6  9  5 10  2 19  3]]
[6.6 6.3]


#### moyenne du tableau

axis = None

In [32]:
mean_c = np.mean(m,axis = None)
print(m)
print(mean_c)

[[ 1  0  7  7 16  9  9  1  2 14]
 [ 0  1  8  6  9  5 10  2 19  3]]
6.45


#### écart-type

fonction numpy.std

In [33]:
### ecart type des lignes
std_c_1 = np.std(m,axis = 1)

print(std_c_1)


[5.3141321  5.33010319]


In [34]:
### max des lignes:
max_c_0 = np.max(m,axis = 0)

print(max_c_0)

[ 1  1  8  7 16  9 10  2 19 14]


# Exercice 1: potentiel evoqué moyen
    
- Genérer un signal de 20 signaux (= électrodes) de 10000 points temporels (Gaussien) chacun
    
- Couper ce signal (slice) autour de 10 trigers aleatoires :
    
 trigs = np.array([100,500,2000,2500,3500,4000,6000,7500,8600,9000])
 
en segments de -5 points à +10 points autour de chaque valeur de trig.
(ces 'trigs' correspondent par exemple aux essais dans une condition)
    
- Concatener les données
    
- Calculer la moyenne et la std des 10 trials
    

# Solution 1

# Operations de tri

## tri des elements

!!! Par defaut le tri s'effectue selon la DERNIERE dimension (axis = -1)


In [38]:
#tri sur le vecteur
c = np.random.randint(low = 100, high = 200, size = 10)
print('c : ', c)

sorted_c = np.sort(c)
print('sorted_c : ', sorted_c)

c :  [143 109 165 158 110 107 166 157 149 117]
sorted_c :  [107 109 110 117 143 149 157 158 165 166]


In [40]:
### tri sur tout le tableau

c = np.random.randint(low = 100, high = 200, size = 15).reshape(3,5)
print(c)

[[132 160 157 168 157]
 [125 174 176 119 198]
 [126 152 198 109 141]]


In [41]:
sorted_c_0 = np.sort(c, axis = 0)
print(sorted_c_0)

[[125 152 157 109 141]
 [126 160 176 119 157]
 [132 174 198 168 198]]


In [42]:
sorted_c_1 = np.sort(c, axis = 1)
print(sorted_c_1)

[[132 157 157 160 168]
 [119 125 174 176 198]
 [109 126 141 152 198]]


### ordre des elements np.argsort

In [44]:
#autre ex: argsort sur une dimension
#un vecteur trie un autre vecteur


a = np.array([12,22,9,4])
b = np.array(['a','b','c','d'])
print(a)
print(b)
print()

order = np.argsort(a)
print(order)
print(a[order])
print(b[order])


[12 22  9  4]
['a' 'b' 'c' 'd']

[3 2 0 1]
[ 4  9 12 22]
['d' 'c' 'a' 'b']


# Exercice 2: max et sort signaux

 * A partir des données de l'exo 1 :
 
signal de 20 cannaux de 10000 points temporels Gaussiens    
segmentés autour de 10 trigs aleatoires entre -5 et +10 points               
concaténés en un tableau (shape = 20*15*10)
moyennés à travers les essais (shape = 20*15)

-> calculer le max des moyennes par cannal
        
-> ordonner les données en fonction de ce max
    


# Solution 2

# Matrix vs. ndarray

Dans numpy, contrairement à Matlab, les operations par defaut se font sur les arrays, et pas sur les matrices.

Il existe un type specialisé pour les matrices, qui sont des tableaux à deux dimensions, et qui disposent d'operations propres aux matrices (inversion, produit, etc.)

## Produit vs. produit matriciel

Par default pour les ndarray, le produit est le produit élement par élement:

In [49]:
import numpy as np

a = np.ones(shape = (4,4))*3
b = np.ones(shape = (4,4))*2

print(a)
print(b)

[[3. 3. 3. 3.]
 [3. 3. 3. 3.]
 [3. 3. 3. 3.]
 [3. 3. 3. 3.]]
[[2. 2. 2. 2.]
 [2. 2. 2. 2.]
 [2. 2. 2. 2.]
 [2. 2. 2. 2.]]


In [50]:
### produit de chaque element

c = a*b 
print(c)



[[6. 6. 6. 6.]
 [6. 6. 6. 6.]
 [6. 6. 6. 6.]
 [6. 6. 6. 6.]]


In [51]:
### produit matriciel (produit scalaire de chaque ligne de a avec chaque colonne de b)
mat_a = np.matrix(a)
mat_b = np.matrix(b)

print(type(mat_a))


<class 'numpy.matrix'>


In [52]:

mat_c = mat_a*mat_b
print(mat_c)
print(type(mat_c))


[[24. 24. 24. 24.]
 [24. 24. 24. 24.]
 [24. 24. 24. 24.]
 [24. 24. 24. 24.]]
<class 'numpy.matrix'>


Il est cependant possible de travailler directement en operation matricielle SANS passer par l'objet np.matrix

In [53]:
c_dot = np.dot(a,b)
print(c_dot)
print(type(c_dot))


[[24. 24. 24. 24.]
 [24. 24. 24. 24.]
 [24. 24. 24. 24.]
 [24. 24. 24. 24.]]
<class 'numpy.ndarray'>


In [54]:
### on peut aussi utiliser la methode de l'objet ndarry dot()

print(a.dot(b))

[[24. 24. 24. 24.]
 [24. 24. 24. 24.]
 [24. 24. 24. 24.]
 [24. 24. 24. 24.]]


In [57]:

#### Depuis python 3.6, operator @ correspond au produit matriciel 
print(a @ b)

[[24. 24. 24. 24.]
 [24. 24. 24. 24.]
 [24. 24. 24. 24.]
 [24. 24. 24. 24.]]


### inverse vs. inversion


In [62]:
mat = np.random.randint(1, 5+1, size=(4,4)).astype("float64")

print(mat)


[[5. 3. 2. 3.]
 [5. 5. 5. 2.]
 [4. 2. 5. 5.]
 [2. 3. 4. 5.]]


In [63]:
## on obtient l'inverse de chaque element
un_sur_mat = 1/mat

print(un_sur_mat)

### !!! en matlab c'est l'inverse (/.) a la place de (/)

[[0.2        0.33333333 0.5        0.33333333]
 [0.2        0.2        0.2        0.5       ]
 [0.25       0.5        0.2        0.2       ]
 [0.5        0.33333333 0.25       0.2       ]]


In [64]:
## on obtient la matrice inverse
inv_mat = np.linalg.inv(mat)

print(inv_mat)

[[ 0.20454545 -0.02272727  0.15909091 -0.27272727]
 [ 0.07386364  0.13068182 -0.41477273  0.31818182]
 [-0.33522727  0.17613636  0.26704545 -0.13636364]
 [ 0.14204545 -0.21022727 -0.02840909  0.22727273]]
