# Indexation et Selection NumPy

Dans cette leçon, nous allons voir comment sélectionner des éléments ou des groupes d'éléments dans un tableau.

In [None]:
import numpy as np

In [None]:
# Création d'un tableau d'échantillons
arr = np.arange(0,11)

In [None]:
# Afficher
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

## Crochets d'indexation et de sélection

La façon la plus simple de choisir un ou plusieurs éléments d'un tableau ressemble beaucoup aux listes python :

In [None]:
# Obtenir une valeur à un index (indice)
arr[8]

8

In [None]:
# Obtenir des valeurs dans une plage d'index (ou fourchette)
arr[1:5]

array([1, 2, 3, 4])

In [None]:
# Obtenir des valeurs dans une fourchette d'index
arr[0:5]

array([0, 1, 2, 3, 4])

## Broadcasting

Les tableaux NumPy diffèrent des listes Python "standards" en raison de leur capacité de diffusion (ou broadcasting en anglais). Avec les listes, vous pouvez uniquement réaffecter des parties d'une liste avec de nouvelles parties de même taille et de même forme. Autrement dit, si vous voulez remplacer les 5 premiers éléments d'une liste par une nouvelle valeur, vous devez passer une nouvelle liste de 5 éléments. Avec les tableaux NumPy, vous pouvez diffuser une valeur unique à travers un ensemble plus large de valeurs :

In [None]:
# Réglage d'une valeur avec une plage d'index (Diffusion)
arr[0:5]=100

# Afficher
arr

array([100, 100, 100, 100, 100,   5,   6,   7,   8,   9,  10])

In [None]:
# Réinitialiser le tableau, nous verrons pourquoi j'ai dû réinitialiser ci-dessous
arr = np.arange(0,11)

# Afficher
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [None]:
# Notes importantes sur les slices
slice_of_arr = arr[0:6]

# Afficher la tranche (slice)
slice_of_arr

array([0, 1, 2, 3, 4, 5])

In [None]:
# Modifier la tranche (slice)
slice_of_arr[:]=99

# Afficher de nouveau la tranche (slice)
slice_of_arr

array([99, 99, 99, 99, 99, 99])

Notez maintenant que les changements se produisent également dans notre tableau d'origine !

In [None]:
arr

array([99, 99, 99, 99, 99, 99,  6,  7,  8,  9, 10])

Les données ne sont pas copiées, c'est une vue du tableau d'origine ! Cela évite les problèmes de mémoire !

In [None]:
# Pour obtenir une copie, il faut être explicite
arr_copy = arr.copy()

arr_copy

array([99, 99, 99, 99, 99, 99,  6,  7,  8,  9, 10])

## Indexation d'un tableau 2D (matrices)

Le format général est le suivant **arr_2d[row][col]** ou **arr_2d[row,col]**. Je recommande d'utiliser la notation avec virgule pour plus de clarté.

In [None]:
arr_2d = np.array(([5,10,15],[20,25,30],[35,40,45]))

# Afficher
arr_2d

array([[ 5, 10, 15],
       [20, 25, 30],
       [35, 40, 45]])

In [None]:
# Indexation par ligne
arr_2d[1]

array([20, 25, 30])

In [None]:
# Le format est arr_2d[row][col] ou arr_2d[row,col]

# Obtenir la valeur d'un élément individuel
arr_2d[1][0]

20

In [None]:
# Obtenir la valeur d'un élément individuel
arr_2d[1,0]

20

In [None]:
# Découpage (slicing) d'une matrice 2D

# Forme ou shape (2,2) à partir du coin supérieur droit
arr_2d[:2,1:]

array([[10, 15],
       [25, 30]])

In [None]:
# Forme (ou shape) de la rangée du bas
arr_2d[2]

array([35, 40, 45])

In [None]:
# Forme (ou shape) de la rangée du bas
arr_2d[2,:]

array([35, 40, 45])

## Plus d'aide pour l'indexation
L'indexation d'une matrice 2D peut être un peu déroutante au début, surtout lorsque vous commencez à ajouter la taille des pas. Essayez de chercher **Indexing NumPy** sur Google Image pour trouver des images utiles, comme celle-ci :

<img src= 'https://moncoachdata.com/wp-content/uploads/MonCoachData-cours/numpy_indexing.png' width=500/>

## Sélection conditionnelle

Il s'agit d'un concept très fondamental qui sera directement transposé à Pandas par la suite, assurez-vous de bien comprendre cette partie !

Voyons brièvement comment utiliser les parenthèses pour une sélection basée sur des opérateurs de comparaison.

In [None]:
arr = np.arange(1,11)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [None]:
arr > 4

array([False, False, False, False,  True,  True,  True,  True,  True,
        True])

In [None]:
bool_arr = arr>4

In [None]:
bool_arr

array([False, False, False, False,  True,  True,  True,  True,  True,
        True])

In [None]:
arr[bool_arr]

array([ 5,  6,  7,  8,  9, 10])

In [None]:
arr[arr>2]

array([ 3,  4,  5,  6,  7,  8,  9, 10])

In [None]:
x = 2
arr[arr>x]

array([ 3,  4,  5,  6,  7,  8,  9, 10])