---
# Manipulation de ndarray dans numpy
---

# Concatenation de tableau

Tres utile : pour mettre ensemble des datas de sources différentes

syntaxe :

**concatenate([a,b,c],axis)**

**[a,b,c]** est une liste (ou autres iterables) pouvant contenir autant d'élement à concatener que l'on veut

**axis** est la dimension selon laquelle on veut concatener:

par exemple:


In [1]:
import numpy as np

a = np.arange(3)
b = np.arange(5)

c = np.concatenate((a,b)) ### concatene par défault selon la premiere dimension

print(c)

[0 1 2 0 1 2 3 4]


In [2]:
### en multi dimension, on precise axis

a = np.ones((3,4,5))
b = np.ones((3,4,5))

c = np.concatenate((a,b),axis = 0) ### concatene selon la premiere dimension

print(c.shape)

(6, 4, 5)


![Image](./img/np_concat_0.png)

In [3]:
c = np.concatenate((a,b),axis = 1) ### concatene selon la deuxieme dimension

print(c.shape)

(3, 8, 5)


![Image](./img/np_concat_1.png)

In [6]:
### Si les dimensions (autre que celle ou l'on concatène) ne correspondent pas : ça ne marche pas !

a = np.ones((3,4,5))
b = np.ones((3,5,3))

c = np.concatenate((a,b),axis = 1) 

print(c.shape)


ValueError: all the input array dimensions for the concatenation axis must match exactly, but along dimension 2, the array at index 0 has size 5 and the array at index 1 has size 3

![Image](./img/np_concat_2.png)

###  -> Toutes les dimensions a part celle de l'axis doivent correspondre

# Newaxis

newaxis permet d'ajouter une dimension à un tableau existant. 

Par exemple, un vecteur n'a qu'une seule dimension:

In [5]:
a = np.array(np.arange(10),dtype = 'int64')

print(a)
print(a.shape)

[0 1 2 3 4 5 6 7 8 9]
(10,)


Pourtant, si on veut concatener 2 vecteurs pour un faire une matrice a deux colonnes, il faut passer d'un vecteur  (à une seule dimension), à une matrice à une seule colonne:

In [13]:
b = np.array(np.arange(10,20),dtype = 'int64')
print(b)
print(b.shape)

c_1 = np.stack((a,b),axis = 1)
print(c_1)
print(c_1.shape)

c_1 = np.concatenate((a,b),axis = 1)
print(c_1)


### ca marche pour concatener les deux vecteurs dans le sens de la longueur  
#c_0 = np.concatenate((a,b),axis = 0)
#print(c_0)

[10 11 12 13 14 15 16 17 18 19]
(10,)


ValueError: all input arrays must have the same shape

Pour cela on va utiliser le mot-clé 'newaxis', qui nous permet d'ajouter une nouvelle dimension au tableau

In [10]:
a_bis = a[:,np.newaxis] 

print(a_bis.shape)

(3, 1, 4, 5)



equivalent a 
* a_bis = a.reshape(a.shape[0],1) 
* a_bis = a.reshape(-1,1)
* a_bis = a[:,None]


In [11]:
b_bis = b[:,np.newaxis]
print(b_bis.shape)


(10, 1)


In [14]:
m= np.concatenate((a_bis,b_bis),axis = 1)
# l'axis = 1 existe maintenant
print(m)
print(m.shape)


ValueError: all the input arrays must have same number of dimensions, but the array at index 0 has 4 dimension(s) and the array at index 1 has 1 dimension(s)

# Operations de réduction: mean/std, max,  sum etc.

Avec le meme principe de 'axis', il est tres facile de reduire un tableau:


 <img src="img/axis.png">

## moyenne 

fonction numpy.mean

#### moyenne des colonnes

In [15]:
m = np.random.randint(20, size = 20).reshape(2,10)

print(m)

##Petit truc pour connaitre l'axis: c'est la dimension qui disparait

mean_m = np.mean(m,axis = 0) 
print(mean_m) ### ici la dimension colonne (2) disparait (on ne garde que les lignes)


[[18 19 12  3  2 18  0 18 11 17]
 [ 2  8  0  8  2 15 12 16 15 11]]
[10.  13.5  6.   5.5  2.  16.5  6.  17.  13.  14. ]


#### moyenne des lignes

In [16]:
mean_m = np.mean(m,axis = 1)
print(m)
print(mean_m) ## ici la dimension des lignes (10) disparait

[[18 19 12  3  2 18  0 18 11 17]
 [ 2  8  0  8  2 15 12 16 15 11]]
[11.8  8.9]


#### moyenne du tableau

axis = None

In [18]:
mean_c = np.mean(m,axis = None)
print(m)
print(mean_c)

[[18 19 12  3  2 18  0 18 11 17]
 [ 2  8  0  8  2 15 12 16 15 11]]
10.35


#### écart-type

fonction numpy.std

In [19]:
### ecart type des lignes
std_c_1 = np.std(m,axis = 1)

print(std_c_1)


[7.12460525 5.61159514]


In [21]:
### max des lignes:
max_c_0 = np.max(m,axis = 0)

print(max_c_0)

[18 19 12  8  2 18 12 18 15 17]


# Exercice 1: potentiel evoqué moyen
    
- Genérer un signal de 20 signaux (= électrodes) de 10000 points temporels (Gaussien) chacun
    
- Couper ce signal (slice) autour de 10 trigers aleatoires :
    
 trigs = np.array([100,500,2000,2500,3500,4000,6000,7500,8600,9000])
 
en segments de -5 points à +10 points autour de chaque valeur de trig.
(ces 'trigs' correspondent par exemple aux essais dans une condition)
    
- Concatener les données
    
- Calculer la moyenne et la std des 10 trials
    

# Solution 1 avec slice

In [40]:
# axis 0 = temps
# axis 1 = canaux
trigs = np.array([100,500,2000,2500,3500,4000,6000,7500,8600,9000])
trigs.size
print(trigs.shape)

sigs = np.random.randn(10000, 20)
print(sigs.shape)

trig_sigs = np.zeros((15, 20, trigs.size))
print(trig_sigs.shape)

# for i, trig in enumerate(trigs):
for i in range(trigs.size):
    trig = trigs[i]
#     print(i, trig)
#     print(sigs[trig-5:trig+10, :].shape)
    trig_sigs[:, :, i] = sigs[trig-5:trig+10, :]




m = np.mean(trig_sigs, axis=2)
s = np.std(trig_sigs, axis=2)
print(m.shape)



(10,)
(10000, 20)
(15, 20, 10)
(15, 20)


# Solution 2 avec concatenate

In [41]:
import numpy as np


# axis 0 = canaux
# axis 1 = temps

sigs = np.random.randn(20,10000)
trigs = np.array([100,500,2000,2500,3500,4000,6000,7500,8600,9000])

seq_sigs =[]
for trig in trigs:
    
    seq_sig = sigs[:,trig-5:trig+10, np.newaxis]  # shape : (20,15,1)
    seq_sigs.append(seq_sig)  #list
    
concat_seq_sigs = np.concatenate(seq_sigs, axis = 2)  # shape (20,15,10)
print(concat_seq_sigs.shape)

mean_sigs = np.mean(concat_seq_sigs, axis = 2)
std_sigs = np.std(concat_seq_sigs, axis = 2)

print(mean_sigs.shape)
print(std_sigs.shape)

(20, 15, 10)
(20, 15)
(20, 15)


# Operations de tri

## tri des elements

!!! Par defaut le tri s'effectue selon la DERNIERE dimension (axis = -1)


In [42]:
#tri sur le vecteur
c = np.random.randint(low = 100, high = 200, size = 10)
print('c : ', c)

sorted_c = np.sort(c)
print('sorted_c : ', sorted_c)

c :  [136 173 184 143 157 145 111 128 155 129]
sorted_c :  [111 128 129 136 143 145 155 157 173 184]


In [19]:
### tri sur tout le tableau

c = np.random.randint(low = 100, high = 200, size = 15).reshape(3,5)
print(c)

[[123 162 150 170 189]
 [179 162 145 172 194]
 [109 164 127 174 188]]


In [20]:
sorted_c_0 = np.sort(c, axis = 0)
print(sorted_c_0)

[[109 162 127 170 188]
 [123 162 145 172 189]
 [179 164 150 174 194]]


In [21]:
sorted_c_1 = np.sort(c, axis = 1)
print(sorted_c_1)

[[123 150 162 170 189]
 [145 162 172 179 194]
 [109 127 164 174 188]]


### ordre des elements

In [47]:
#autre ex: argsort sur une dimension
#un vecteur trie un autre vecteur


a = np.array([12,22,9,4])
b = np.array(['a','b','c','d'])
print(a)
print(b)
print()

order = np.argsort(a)
print(order)
print(a[order])
print(b[order])


[12 22  9  4]
['a' 'b' 'c' 'd']

[3 2 0 1]
[ 4  9 12 22]
['d' 'c' 'a' 'b']


# Exercice 2: max et sort signaux

 * A partir des données de l'exo 1 :
 
signal de 20 cannaux de 10000 points temporels Gaussiens    
segmentés autour de 10 trigs aleatoires entre -5 et +10 points               
concaténés en un tableau (shape = 20*15*10)
moyennés à travers les essais (shape = 20*15)

-> calculer le max des moyennes par cannal
        
-> ordonner les données en fonction de ce max
    


# Solution 2

In [49]:
import numpy as np

sigs = np.random.randn(20,10000)
trigs = np.array([100,500,2000,2500,3500,4000,6000,7500,8600,9000])

trig_sigs = np.zeros((20,15,10))  # dim0:canaux, dim1:samples, dim 2:essais

for i,trig in enumerate(trigs):
    
    trig_sigs[:,:,i] =  sigs[:,trig-5:trig+10]

mean_sigs = np.mean(trig_sigs, axis = 2)
std_sigs = np.std(trig_sigs, axis = 2)

print("Shape des moyennes : ", mean_sigs.shape)

#######################################
#### nouveau par rapport à l'exo 1 ####
#######################################


### valeurs maximales de chacune des moyennes des signaux
mean_maxs = np.max(mean_sigs, axis = 1)
print("Shape max des moyennes : ", mean_maxs.shape)

### order des signaux en fonction de leur max
order_maxs = np.argsort(mean_maxs)
print("Order max shape : ", order_maxs.shape)

### réordonne les signaux en fonction de l'ordre de leur max
reorder_sigs = trig_sigs[order_maxs,:,:]
print("reord", reorder_sigs.shape)

#print(np.max(reorder_sigs, axis = 0))
#print(np.transpose(reorder_sigs))

Shape des moyennes :  (20, 15)
Shape max des moyennes :  (20,)
Order max shape :  (20,)
reord (20, 15, 10)


# Matrix vs. ndarray

Dans numpy, contrairement à Matlab, les operations par defaut se font sur les arrays, et pas sur les matrices.

Il existe un type specialisé pour les matrices, qui sont des tableaux à deux dimensions, et qui disposent d'operations propres aux matrices (inversion, produit, etc.)

## Produit vs. produit matriciel

Par default pour les ndarray, le produit est le produit élement par élement:

In [50]:
import numpy as np

a = np.ones(shape = (4,4))*3
b = np.ones(shape = (4,4))*2

print(a)
print(b)

[[3. 3. 3. 3.]
 [3. 3. 3. 3.]
 [3. 3. 3. 3.]
 [3. 3. 3. 3.]]
[[2. 2. 2. 2.]
 [2. 2. 2. 2.]
 [2. 2. 2. 2.]
 [2. 2. 2. 2.]]


In [51]:
### produit de chaque element

c = a*b 
print(c)



[[6. 6. 6. 6.]
 [6. 6. 6. 6.]
 [6. 6. 6. 6.]
 [6. 6. 6. 6.]]


In [53]:
### produit matriciel (produit scalaire de chaque ligne de a avec chaque colonne de b)
mat_a = np.matrix(a)
mat_b = np.matrix(b)

print(type(mat_a))


<class 'numpy.matrix'>


In [54]:

mat_c = mat_a*mat_b
print(mat_c)
print(type(mat_c))


[[24. 24. 24. 24.]
 [24. 24. 24. 24.]
 [24. 24. 24. 24.]
 [24. 24. 24. 24.]]
<class 'numpy.matrix'>


Il est cependant possible de travailler directement en operation matricielle SANS passer par l'objet np.matrix

In [6]:
c_dot = np.dot(a,b)
print(c_dot)
print(type(c_dot))


[[24. 24. 24. 24.]
 [24. 24. 24. 24.]
 [24. 24. 24. 24.]
 [24. 24. 24. 24.]]
<class 'numpy.ndarray'>


In [55]:
### on peut aussi utiliser la methode de l'objet ndarry dot()

print(a.dot(b))

[[24. 24. 24. 24.]
 [24. 24. 24. 24.]
 [24. 24. 24. 24.]
 [24. 24. 24. 24.]]


In [56]:

#### Depuis python 3 (.5? ou ou.6), operator @ correspond au produit matriciel 
print (a@b)

[[24. 24. 24. 24.]
 [24. 24. 24. 24.]
 [24. 24. 24. 24.]
 [24. 24. 24. 24.]]


### inverse vs. inversion


In [62]:
mat = np.random.randint(1, 5+1, size=(4,4)).astype("float64")

print(mat)


[[5. 3. 2. 3.]
 [5. 5. 5. 2.]
 [4. 2. 5. 5.]
 [2. 3. 4. 5.]]


In [63]:
## on obtient l'inverse de chaque element
un_sur_mat = 1/mat

print(un_sur_mat)

### !!! en matlab c'est l'inverse (/.) a la place de (/)

[[0.2        0.33333333 0.5        0.33333333]
 [0.2        0.2        0.2        0.5       ]
 [0.25       0.5        0.2        0.2       ]
 [0.5        0.33333333 0.25       0.2       ]]


In [64]:
## on obtient la matrice inverse
inv_mat = np.linalg.inv(mat)

print(inv_mat)

[[ 0.20454545 -0.02272727  0.15909091 -0.27272727]
 [ 0.07386364  0.13068182 -0.41477273  0.31818182]
 [-0.33522727  0.17613636  0.26704545 -0.13636364]
 [ 0.14204545 -0.21022727 -0.02840909  0.22727273]]
