# numpy fancy indexing

Numpy permet de manipuler des sous-ensembles d'un tableau en lecture/écriture.

Il y a 4 grandes méthodes :
  * scalaire
  * par *'slice'*
  * par condition booléene
  * par liste d'index



In [2]:
import numpy as np

# reshape

Avec la fonction numpy `arange` (équivalent de `range`), on peut créer un tableau à une dimension :

In [16]:
a = np.arange(24) 
print(a)
print(a.shape)


[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]
(24,)


La méthode reshape permet de réarranger les valeurs de ce tableau sur plusieurs dimension.
Par exemple, si on veut 6 lignes de 4 colonnes :

In [17]:

a2 = a.reshape(6,4) 
print(a2)


[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]]


Mais on pourrait aussi envisager plus de dimensions.
Par exemple, 4 piles de 2 lignes et 3 colonnes :

In [5]:
a3 = a.reshape(4,2,3)
print(a3.shape)
print(a3)

(4, 2, 3)
[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]]

 [[18 19 20]
  [21 22 23]]]


Avec dimension joker= -1

-> la dimension "joker" vaut le "reste" des dimensions restantes

In [6]:
a3 = a.reshape(4,-1,3)
print(a3.shape) ### la dimension par default vaut ici (24/4)/3 = 2



(4, 2, 3)


# Lecture/écriture d'un seul élément

Pour un tableau à deux dimensions comme celui-ci :

In [18]:
a = np.arange(12).reshape(4,3)
print (a)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


L'accès par index se fait à l'aide de [ligne, colonne] où l'indexation commence à zéro.

In [20]:
e = a[1,1]
print(e)


4


In [21]:
a[1,2] = 1000
a

array([[   0,    1,    2],
       [   3,    4, 1000],
       [   6,    7,    8],
       [   9,   10,   11]])

# Par slice

![title](img/slice.jpeg)

In [11]:
# Comme on est fainéant, on a utilisé la règle du broadcast 
# https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html
# pour construire ce tableau mais vous n'avez pas besoin de 
# comprende ça à ce stade du cours
b = np.arange(6).reshape(1,6) 
print(b)
c = 10*np.arange(6).reshape(6, 1)
print(c)
a = b + c
print(a)

[[0 1 2 3 4 5]]
[[ 0]
 [10]
 [20]
 [30]
 [40]
 [50]]
[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [30 31 32 33 34 35]
 [40 41 42 43 44 45]
 [50 51 52 53 54 55]]


In [12]:
a2 = a[3:, 0:5:2]   # array[start:stop:step]   avec stop exclu
a2

array([[30, 32, 34],
       [40, 42, 44],
       [50, 52, 54]])

# Par masque booléen

Par exemple, si on a un signal aléatoire dont on ne veut garder que les valeurs positives

In [22]:
a = np.random.randn(15)
a

array([ 0.29339456,  0.47980927,  1.54842214, -0.94173505,  1.67771569,
        0.63709849,  0.54518244, -1.028041  ,  0.23381465, -0.26621713,
        0.83181664,  0.90052146, -0.68954139, -0.5819183 ,  1.08435006])

On peut créer un vecteur de booléens, et l'utiliser ensuite pour sélectioner un sous-ensemble.

In [23]:
keep = (a>0.)
print(keep)
not_keep = ~keep # not en boolean (existe aussi np.logical_not)
print(not_keep)


[ True  True  True False  True  True  True False  True False  True  True
 False False  True]
[False False False  True False False False  True False  True False False
  True  True False]


In [24]:
print(a[keep])

[0.29339456 0.47980927 1.54842214 1.67771569 0.63709849 0.54518244
 0.23381465 0.83181664 0.90052146 1.08435006]


# Selection explicite d'une liste

In [16]:
a = np.arange(7)*10
a

array([ 0, 10, 20, 30, 40, 50, 60])

In [17]:
l = [2, 4, 0]
a2 = a[l]
a2

array([20, 40,  0])

# Attention une slice pointe sur le même tableau!!

Un tableau issu d'un même tableau est une *'view'*.



In [12]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [13]:
a2 = a[2:-2]
print(a2)
a2[0:6] = np.arange(6)*-10
a2

[2 3 4 5 6 7]


array([  0, -10, -20, -30, -40, -50])

In [21]:
a


array([  0,   1,   0, -10, -20, -30, -40, -50,   8,   9])


Sinon il faut faire une copie explicite.

In [25]:
a = np.arange(10)
a2 = a[2:-2].copy()
a2[0:6] = np.arange(6)*-10
a2

array([  0, -10, -20, -30, -40, -50])

# Exercice 1

A partir du numpy array suivant
```
table = np.array([[1, 10,  1, 11],
                  [2, 21,  2, 20],
                  [3, 30, 3, 31],
                  [4, 41, 4, 40]])
```

créer :
* table_0 : avec tous les élément plus grand que 10. Utiliser des slices.
* table_1 : tous les élément plus petit que 10 et impaires. Utiliser des slices.
* table_2 : tous les élément plus grand que 10 et impaires. Peut on utiliser des slices ?

In [15]:
#my_table = np.random.randint(0,4,(4,4))
table = np.array([[1, 10,  1, 11],
                 [2, 21,  2, 20],
                 [3, 30, 3, 31],
                 [4, 41, 4, 40]])
print(table)


[[ 1 10  1 11]
 [ 2 21  2 20]
 [ 3 30  3 31]
 [ 4 41  4 40]]


# Solution 1

In [20]:
table_0 = table[:, 1::2]  # start index 1, prend tout, pas de 2
table_0

array([[10, 11],
       [21, 20],
       [30, 31],
       [41, 40]])

In [21]:
table_1 = table[0::2, 0::2]
table_1

array([[1, 1],
       [3, 3]])

In [22]:
table_2 = table[(0,1,2,3),(3,1,3,1)]
table_2

array([11, 21, 31, 41])

# Exercice 2
Voici un vecteur
a = np.random.randn(5000)


Créer un vecteur b qui enlève les déviants.

- \> M + 2.5*std
- < M - 2.5*std

note : np.mean(a) donne la moyenne de a et np.std(a) donne l'écart-type de a





# Solution 2

In [24]:
import numpy as np
a = np.random.randn(5000)

m = np.mean(a)
s = np.std(a)

print(a.shape)
print(m,s)

keep = (a>(m-2.5*s)) & (a<(m+2.5*s))
print(keep)
a2 = a[keep]
print(a2.shape)
b = a[~keep]
print(b.shape)

(5000,)
-0.0022875301791327246 1.0072546998619194
[ True  True  True ...  True  True  True]
(4945,)
(55,)


# nan = not a number

In [26]:
a = np.arange(5, dtype='float64')
a[2] = np.nan
a

array([ 0.,  1., nan,  3.,  4.])

# inf : infini

Numpy considère les nombres trop grands (ou trop petits) comme des valeurs infinies et permet de les étiqueter en tant que tels et même de réaliser quelques opérations avec ces valeurs :

In [44]:
print('infini :', np.inf)
print('moins l\'infini :', -np.inf)
print('overflow :', np.exp(1e42))
# on peut comparer des valeurs standard à np.inf
print('comparaison 0 < inf :', 0 < np.inf)
print('comparaison 0 > inf :', 0 > np.inf)
# attention en cas d'overflow les comparaisons sont fausses
print('comparaison avec overflow :', np.exp(1e42) == np.exp(1e40))

infini : inf
moins l'infini : -inf
overflow : inf
comparaison 0 < inf : True
comparaison 0 > inf : False
comparaison avec overflow : True


  print('overflow :', np.exp(1e42))
  print('comparaison avec overflow :', np.exp(1e42) == np.exp(1e40))


# test : np.isinf et np.isnan




In [46]:
np.isinf(b)

True

In [47]:
np.isnan(a)

array([False, False,  True, False, False])