# Trucs et astuces plus avancés en numpy

## Fonction de recherche `np.where`


In [2]:
import numpy as np

In [13]:
a = np.random.randn(100,2)

# element de la premiere colonne < 0.5
index = np.where(a<0.5) # retourne les indices dans (I,J)
                        # I: indice des lignes
                        # J: indice des colonnes

# recherche dans une colonne
index2 = np.where(a[:,0]<0.5)
print(a)
print('--------------')
print(index)
print('--------------')
print(index2)

[[-6.40484476e-01 -3.33128085e-01]
 [ 1.57138161e+00 -1.14504080e-01]
 [ 1.78086248e+00 -1.83479958e+00]
 [-5.99966497e-01 -3.81896520e-01]
 [ 1.79745520e+00 -1.04193944e+00]
 [-1.73999806e-01 -8.15890707e-01]
 [ 2.28358163e+00  3.70401566e-01]
 [-3.99900052e-01 -6.39645360e-01]
 [-1.38047844e+00  6.06064428e-01]
 [-8.52177838e-02  1.02793723e+00]
 [ 6.60261585e-01 -1.17592893e+00]
 [ 1.34014914e+00 -1.22825932e+00]
 [ 1.78263461e+00  3.44024651e-01]
 [-1.66954671e+00  4.40662301e-01]
 [ 1.28043607e-01 -6.86760398e-01]
 [ 2.31913859e+00 -1.53733850e+00]
 [-1.18546669e+00 -4.79079593e-01]
 [-3.87456248e-01 -1.70598790e-01]
 [ 1.20332280e+00  5.83033644e-03]
 [ 1.32052681e+00  6.34008314e-01]
 [ 3.14313346e+00 -6.51643045e-01]
 [-1.84544358e+00  1.20844121e+00]
 [ 1.06031653e-01 -1.13545207e+00]
 [ 2.51806636e-01  6.39187746e-01]
 [-7.90803189e-02 -1.02873488e+00]
 [ 2.21058670e-01 -1.57495810e-01]
 [ 2.36758945e-01  2.68487235e+00]
 [-1.17971570e+00 -1.05901525e+00]
 [ 1.86453703e-01  7

**Attention au type de retour**

Le type de `index` est sans surprise... Mais celui de `index2` est plus déroutant: il s'agit d'un tuple mais avec un seul champ rempli...
Pour utiliser les indices extraits facilement, il faut donc faire:

In [18]:
index2, = np.where(a[:,0]<0.5) # on ne s'intéresse qu'au premier membre!
# a[index2,:] = ...
index2
a[index2]

array([[-6.40484476e-01, -3.33128085e-01],
       [-5.99966497e-01, -3.81896520e-01],
       [-1.73999806e-01, -8.15890707e-01],
       [-3.99900052e-01, -6.39645360e-01],
       [-1.38047844e+00,  6.06064428e-01],
       [-8.52177838e-02,  1.02793723e+00],
       [-1.66954671e+00,  4.40662301e-01],
       [ 1.28043607e-01, -6.86760398e-01],
       [-1.18546669e+00, -4.79079593e-01],
       [-3.87456248e-01, -1.70598790e-01],
       [-1.84544358e+00,  1.20844121e+00],
       [ 1.06031653e-01, -1.13545207e+00],
       [ 2.51806636e-01,  6.39187746e-01],
       [-7.90803189e-02, -1.02873488e+00],
       [ 2.21058670e-01, -1.57495810e-01],
       [ 2.36758945e-01,  2.68487235e+00],
       [-1.17971570e+00, -1.05901525e+00],
       [ 1.86453703e-01,  7.02021094e-02],
       [-6.41402056e-01,  7.17141435e-01],
       [-3.81864022e-01, -1.14080285e-01],
       [-6.29172053e-01, -2.75932488e-02],
       [-4.51212740e-01, -4.28982961e-01],
       [-6.36605644e-01, -1.98870766e-01],
       [-1.

## Fonction de recherche en syntaxe légère


In [19]:
y = np.array([-1, -1, -1, 1, 1, 1])
x = np.random.rand(6,2)

# sélection des 3 premières lignes de x
print(x)
print(x[y==-1])

# contraintes logiques: 
#    - x et y doivent avoir la même taille
#    - y doit être un vecteur

# sélection des lignes de x qui commencent par un nombre > 0.5
print(x[x[:,0]>0.5])


[[5.25793485e-01 5.86365317e-01]
 [8.84210389e-01 4.55730352e-04]
 [1.67710544e-01 5.66438442e-01]
 [5.15753444e-01 5.94477934e-01]
 [7.17733319e-01 1.58364645e-01]
 [8.91772797e-01 8.52900456e-01]]
[[5.25793485e-01 5.86365317e-01]
 [8.84210389e-01 4.55730352e-04]
 [1.67710544e-01 5.66438442e-01]]
[[5.25793485e-01 5.86365317e-01]
 [8.84210389e-01 4.55730352e-04]
 [5.15753444e-01 5.94477934e-01]
 [7.17733319e-01 1.58364645e-01]
 [8.91772797e-01 8.52900456e-01]]


## Transformation de matrice

`np.where` permet de renvoyer une matrice transformée en ajoutant des arguments dans la méthode

> `np.where(m > alpha, retour_si_vrai, retour_si_faux)`

On peut se servir de cette syntaxe pour faire des comptages

In [23]:
a = np.random.randn(100,2)
# Mettre à zeros tous les éléments négatifs:
b = np.where(a<0., 0., a)    # (clause, TODO if true, TODO if false)
c = np.where(a<0., -1., 1.)  # Extraire le signe des éléments de a

nb_elem_pos = np.where(a>0., 1, 0).sum() # construction d'une matrice binaire + somme = comptage
nb_elem_pos

106

## ATTENTION aux doubles clauses

il y a un piège dans la priorité donnée aux opérations: il faut ajouter des parenthèses

In [21]:
# pour l'estimation d'une loi jointe entre a et b
N = 100
a = np.ceil(np.random.rand(N) * 10)   # entre 1 et 10
b = np.round(np.random.rand(N))       # 0 ou 1
np.where((a == 4) & (b==0), 1., 0.)   # OK
# np.where( a == 4  &  b==0 , 1., 0.) # KO !!! => le & est prioritaire sur le == !!!

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 1., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 1., 0., 1.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.])

# Exercice d'application

Générer 1000 tirages selon une loi normale centrée réduite
 - Vérifier que la moitié (environ) des tirages est supérieure à 0
 - Vérifier que 2/3 des tirages sont compris entre entre moins l'écart-type et plus l'écart type

In [24]:
data =np.random.randn?

In [25]:
data =np.random.randn(1000)

In [26]:
data

array([ 7.60789796e-01,  8.38944363e-01, -2.64180189e-01, -1.59958374e+00,
        5.45972496e-01, -1.18607727e+00,  6.41446848e-01,  2.77547019e-01,
       -5.56715897e-01, -2.37985090e+00, -1.03617337e+00, -7.89478189e-01,
        3.00064146e-01,  2.69684738e-02, -2.93615747e-01, -5.29196798e-01,
        1.17264583e+00,  5.91764945e-01, -2.47611031e-01, -1.40459956e-01,
       -1.07088347e+00,  2.84998287e-01, -1.33852855e+00, -1.01975661e+00,
       -5.31551975e-01,  8.08644423e-01,  1.74075094e+00, -1.16978895e-01,
       -1.02169148e+00,  5.72059151e-01, -1.50975544e+00, -2.74550456e-01,
       -7.66193901e-01, -5.28132233e-01, -4.11791396e-01, -4.77879759e-01,
        1.88723027e+00, -2.78665951e-01,  1.29452851e+00,  3.12463912e-01,
        1.94659305e-01, -7.84472081e-02,  5.83816540e-01, -2.29108659e-01,
       -2.46562634e-02, -1.58929786e+00,  6.34499160e-01, -1.42268596e+00,
        1.27892362e-01, -6.99919711e-01,  6.01019855e-01, -7.21769799e-01,
       -3.99054469e-02,  

In [43]:
nb_pos = np.where(data>0,1,0).sum()

In [44]:
nb_pos

511

In [46]:
np.std(data)

0.9897692644830672

In [51]:
nb = np.where( (data>-np.std(data)) & (data<np.std(data)),1,0).sum()

In [52]:
nb

681