# Trucs et astuces plus avancés en numpy

## Fonction de recherche `np.where`


In [1]:
import numpy as np

In [3]:
a = np.random.randn(100,2)

# element de la premiere colonne < 0.5
index = np.where(a<0.5) # retourne les indices dans (I,J)
                        # I: indice des lignes
                        # J: indice des colonnes

# recherche dans une colonne
index2 = np.where(a[:,0]<0.5)
index

(array([ 0,  1,  1,  2,  2,  3,  4,  5,  5,  6,  6,  7,  8,  8,  9, 11, 11,
        12, 12, 13, 14, 14, 16, 16, 17, 17, 19, 19, 20, 20, 21, 21, 22, 22,
        23, 23, 24, 25, 26, 27, 27, 28, 28, 29, 30, 30, 31, 33, 34, 35, 36,
        37, 37, 38, 38, 39, 40, 40, 41, 41, 42, 42, 43, 44, 45, 46, 46, 47,
        47, 48, 48, 49, 50, 51, 52, 52, 53, 54, 55, 56, 56, 57, 58, 58, 59,
        59, 60, 61, 62, 62, 64, 65, 66, 66, 67, 68, 68, 69, 70, 71, 72, 72,
        73, 73, 74, 74, 75, 75, 76, 77, 77, 78, 78, 79, 79, 80, 80, 81, 82,
        83, 83, 84, 85, 85, 86, 87, 88, 88, 89, 90, 91, 91, 92, 93, 94, 95,
        96, 96, 97, 98, 99, 99], dtype=int64),
 array([0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1,
        0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1,
        0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0,
        1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0,
        0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1,

**Attention au type de retour**

Le type de `index` est sans surprise... Mais celui de `index2` est plus déroutant: il s'agit d'un tuple mais avec un seul champ rempli...
Pour utiliser les indices extraits facilement, il faut donc faire:

In [5]:
index2, = np.where(a[:,0]<0.5) # on ne s'intéresse qu'au premier membre!
# a[index2,:] = ...
index2

array([ 0,  1,  2,  4,  5,  6,  8, 11, 12, 13, 14, 16, 17, 19, 20, 21, 22,
       23, 25, 26, 27, 28, 30, 33, 37, 38, 39, 40, 41, 42, 43, 46, 47, 48,
       49, 50, 52, 53, 54, 56, 57, 58, 59, 60, 61, 62, 64, 66, 68, 69, 70,
       72, 73, 74, 75, 77, 78, 79, 80, 83, 84, 85, 86, 87, 88, 90, 91, 96,
       99], dtype=int64)

## Fonction de recherche en syntaxe légère


In [None]:
y = np.array([-1, -1, -1, 1, 1, 1])
x = np.random.rand(6,2)

# sélection des 3 premières lignes de x
print(x)
print(x[y==-1])

# contraintes logiques: 
#    - x et y doivent avoir la même taille
#    - y doit être un vecteur

# sélection des lignes de x qui commencent par un nombre > 0.5
print(x[x[:,0]>0.5])


## Transformation de matrice

`np.where` permet de renvoyer une matrice transformée en ajoutant des arguments dans la méthode

> `np.where(m > alpha, retour_si_vrai, retour_si_faux)`

On peut se servir de cette syntaxe pour faire des comptages

In [None]:
a = np.random.randn(100,2)
# Mettre à zeros tous les éléments négatifs:
b = np.where(a<0., 0., a)    # (clause, TODO if true, TODO if false)
c = np.where(a<0., -1., 1.)  # Extraire le signe des éléments de a

nb_elem_pos = np.where(a>0., 1, 0).sum() # construction d'une matrice binaire + somme = comptage

## ATTENTION aux doubles clauses

il y a un piège dans la priorité donnée aux opérations: il faut ajouter des parenthèses

In [None]:
# pour l'estimation d'une loi jointe entre a et b
N = 100
a = np.ceil(np.random.rand(N) * 10)   # entre 1 et 10
b = np.round(np.random.rand(N))       # 0 ou 1
np.where((a == 4) & (b==0), 1., 0.)   # OK
# np.where( a == 4  &  b==0 , 1., 0.) # KO !!! => le & est prioritaire sur le == !!!

# Exercice d'application

Générer 1000 tirages selon une loi normale centrée réduite
 - Vérifier que la moitié (environ) des tirages est supérieure à 0
 - Vérifier que 2/3 des tirages sont compris entre entre moins l'écart-type et plus l'écart type

In [8]:
a = np.random.randn(1000)
print(np.where(a > 0, 1, 0).mean())
std = np.std(a)
print(np.where((a > -std) & (a < std), 1, 0).mean())

0.513
0.674
