# Trucs et astuces plus avancés en numpy

## Fonction de recherche `np.where`

Rechercher des valeurs et sélectionner des portions de matrices est un exercice récurrent en sciences des données. Apprenons à le faire de différentes manières.

In [1]:
import numpy as np

In [3]:
a = np.random.randn(100,2)
#print(a)
# element de la matrice complète < 0.5
index = np.where(a<0.5) # retourne les indices dans (I,J)
                        # I: indice des lignes
                        # J: indice des colonnes
print(index)
# recherche dans une colonne
index2 = np.where(a[:,0]<0.5)
print(index2)
# ajouter des print pour comprendre les entrées/sorties!

(array([ 0,  0,  2,  3,  3,  4,  5,  5,  6,  7,  8,  8,  9,  9, 10, 10, 11,
       12, 12, 13, 13, 14, 14, 15, 16, 17, 17, 18, 19, 19, 20, 20, 21, 22,
       22, 23, 24, 25, 26, 27, 28, 28, 29, 30, 30, 31, 32, 32, 33, 33, 34,
       35, 35, 37, 37, 39, 39, 40, 40, 41, 42, 43, 43, 44, 45, 47, 48, 49,
       51, 52, 52, 53, 53, 54, 54, 55, 56, 56, 57, 58, 58, 59, 59, 60, 60,
       61, 61, 62, 63, 64, 64, 65, 66, 67, 67, 68, 68, 69, 70, 70, 71, 72,
       73, 73, 74, 74, 75, 77, 77, 78, 78, 79, 81, 82, 83, 83, 84, 84, 85,
       86, 87, 88, 89, 90, 90, 93, 93, 94, 94, 95, 97, 98, 99],
      dtype=int64), array([0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0,
       1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0,
       1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0,
       1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0,
       0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0,
       1, 0, 0, 0, 0, 1, 

**Attention au type de retour**

Le type de `index` est sans surprise... Mais celui de `index2` est plus déroutant: il s'agit d'un tuple mais avec un seul champ rempli...
Pour utiliser les indices extraits facilement, il faut donc faire:

In [5]:
index2, = np.where(a[:,0]<0.5) # on ne s'intéresse qu'au premier membre retourné!
print(index2)
# a[index2,:] = ...

[ 0  2  3  4  5  8  9 10 11 12 13 14 15 16 17 18 19 20 22 25 28 30 31 32
 33 35 37 39 40 42 43 44 47 49 52 53 54 55 56 58 59 60 61 62 63 64 67 68
 69 70 71 73 74 77 78 79 81 82 83 84 85 87 90 93 94 95 97 99]


## Fonction de recherche en syntaxe légère


In [6]:
y = np.array([-1, -1, -1, 1, 1, 1])
x = np.random.rand(6,2)

print(y==-1)

# sélection des 3 premières lignes de x
print(x)
print(y)
print(x[y==-1])

# contraintes logiques: 
#    - x et y doivent avoir la même taille
#    - y doit être un vecteur

# sélection des lignes de x qui commencent par un nombre > 0.5
#print(x[x[:,0]>0.5])


[ True  True  True False False False]
[[0.58492511 0.34853562]
 [0.28116847 0.11137951]
 [0.76268084 0.66544324]
 [0.55089165 0.97273198]
 [0.2298755  0.23461798]
 [0.52571955 0.05757809]]
[-1 -1 -1  1  1  1]
[[0.58492511 0.34853562]
 [0.28116847 0.11137951]
 [0.76268084 0.66544324]]


In [None]:
# TODO : vérifier les dimension de la sélection, vérifier quelles lignes ont été sélectionnée avec des print



## Transformation de matrice

`np.where` permet de renvoyer une matrice transformée en ajoutant des arguments dans la méthode

> `np.where(m > alpha, retour_si_vrai, retour_si_faux)`

On peut se servir de cette syntaxe pour faire des comptages

In [7]:
a = np.random.randn(100,2)
# Mettre à zeros tous les éléments négatifs:
b = np.where(a<0., 0., a)    # (clause, TODO if true, TODO if false)
c = np.where(a<0., -1., 1.)  # Extraire le signe des éléments de a

nb_elem_pos = np.where(a>0., 1, 0).sum() # construction d'une matrice binaire + somme = comptage

## ATTENTION aux doubles clauses

il y a un piège dans la priorité donnée aux opérations: il faut ajouter des parenthèses

In [10]:
# pour l'estimation d'une loi jointe entre a et b
N = 100
a = np.ceil(np.random.rand(N) * 10)   # entre 1 et 10
b = np.round(np.random.rand(N))       # 0 ou 1
np.where((a == 4) & (b==0), 1., 0.)   # OK
# np.where( a == 4  &  b==0 , 1., 0.) # KO !!! => le & est prioritaire sur le == !!!

3.0


array([0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 1., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

# <span style="color:red"> EXO Exercice basique </span>

Générer 1000 tirages selon une loi normale centrée réduite
 - Vérifier par comptage que la moitié (environ) des tirages est supérieure à 0
 - Vérifier que 2/3 des tirages sont compris entre entre moins l'écart-type et plus l'écart type

In [41]:
lncr=np.random.randn(1000)
print(np.where(lncr>0,1,0).sum())
print(np.where((lncr<1)&(lncr>-1),1,0).sum())
print(np.count_nonzero((lncr>-1)&(lncr<1)))


461
677
677


# <span style="color:red"> EXO Comptage des erreurs </span>

Soit $\mathbf y\in \{0,1\}^n$ les étiquettes associées à $n$ données et $\mathbf yhat\in \{0,1\}^n$ les sorties de votre modèle, calculer le taux de bonne classification de votre approche.

In [64]:
# generation arbitraire des données et des sorties
n = 10
y = np.ones(n)
y[:n//2] = 0
print(y)
yhat = y.copy()
yhat = np.where(np.random.random(n)<0.1, 1-yhat, yhat) # corruption de y par une bernoulli de paramètre 0.1
print(yhat)
# calculer le taux de bonne classification
taux_bonne_classi=np.where(y==yhat,1,0).sum()/len(y)
print(taux_bonne_classi)

[0. 0. 0. 0. 0. 1. 1. 1. 1. 1.]
[0. 0. 0. 0. 0. 1. 1. 1. 1. 1.]
1.0
