# Trucs et astuces plus avancés en numpy

Rechercher des valeurs et sélectionner des portions de matrices est un exercice récurrent en sciences des données. Apprenons à le faire de différentes manières.

**Exercices** (marqués <span style="color:red"> EXO</span>) Des exercices sont proposés régulièrement dans le notebook pour éviter *l'effet contemplatif* des exemples. Si vous maitrisez déjà les concepts de base et que les solutions vous semblent évidentes, n'héstiez pas à sauter des questions.

Tous les exercices sont classés par ordre d'importance:  <span style="color:red"> 1</span>="essentiel", <span style="color:red">2</span>="utile, <span style="color:red">3</span>="optionnel et/ou avancé"

In [1]:
import numpy as np

In [4]:
a = np.random.randn(100,2)
#print(a)
# element de la matrice complète < 0.5
index = np.where(a<0.5) # retourne les indices dans (I,J)
                        # I: indice des lignes
                        # J: indice des colonnes
print(index)
#print(index)
# recherche dans une colonne
index2 = np.where(a[:,0]<0.5)
print(index2)
# ajouter des print pour comprendre les entrées/sorties!

(array([ 1,  1,  2,  4,  4,  5,  6,  6,  7,  8,  8,  9,  9, 10, 11, 12, 13,
       14, 14, 15, 16, 17, 17, 18, 19, 20, 21, 21, 22, 23, 24, 24, 25, 25,
       26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 32, 32, 33, 33, 34, 35, 35,
       36, 37, 37, 39, 40, 40, 41, 41, 42, 44, 45, 45, 46, 47, 48, 49, 50,
       51, 51, 52, 52, 53, 54, 54, 55, 55, 56, 57, 58, 58, 60, 60, 62, 63,
       63, 64, 65, 65, 66, 67, 68, 68, 69, 70, 71, 72, 73, 74, 74, 75, 76,
       76, 77, 77, 79, 79, 80, 80, 81, 81, 82, 85, 86, 87, 87, 88, 89, 90,
       91, 92, 92, 93, 94, 95, 96, 96, 97, 97, 98, 99]), array([0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0,
       1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1,
       0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1,
       0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0,
       1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0,
       1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 

**Attention au type de retour**

Le type de `index` est sans surprise... Mais celui de `index2` est plus déroutant: il s'agit d'un tuple mais avec un seul champ rempli...
Pour utiliser les indices extraits facilement, il faut donc faire:

In [None]:
index2, = np.where(a[:,0]<0.5) # on ne s'intéresse qu'au premier membre retourné!
# a[index2,:] = ...

## Fonction de recherche en syntaxe légère


In [13]:
y = np.array([-1, -1, -1, 1, 1, 1])
x = np.random.rand(6,2)

print(y==-1)

# sélection des 3 premières lignes de x
print(x)
print(y)
print(x[y==-1])

# contraintes logiques: 
#    - x et y doivent avoir la même taille
#    - y doit être un vecteur

# sélection des lignes de x qui commencent par un nombre > 0.5
print(x[x[:,0]>0.5])


[ True  True  True False False False]
[[0.18586697 0.04174452]
 [0.54044375 0.70215347]
 [0.03787185 0.14520235]
 [0.81347859 0.32185481]
 [0.71150758 0.44116481]
 [0.42932653 0.05392166]]
[-1 -1 -1  1  1  1]
[[0.18586697 0.04174452]
 [0.54044375 0.70215347]
 [0.03787185 0.14520235]]
[[0.54044375 0.70215347]
 [0.81347859 0.32185481]
 [0.71150758 0.44116481]]


In [None]:
# TODO : vérifier les dimension de la sélection, vérifier quelles lignes ont été sélectionnée avec des print



## Transformation de matrice

`np.where` permet de renvoyer une matrice transformée en ajoutant des arguments dans la méthode

> `np.where(m > alpha, retour_si_vrai, retour_si_faux)`

On peut se servir de cette syntaxe pour faire des comptages

In [14]:
a = np.random.randn(100,2)
# Mettre à zeros tous les éléments négatifs:
b = np.where(a<0., 0., a)    # (clause, TODO if true, TODO if false)
print(b)
c = np.where(a<0., -1., 1.)  # Extraire le signe des éléments de a

nb_elem_pos = np.where(a>0., 1, 0).sum() # construction d'une matrice binaire + somme = comptage

[[0.         1.68235185]
 [0.         0.        ]
 [0.         0.        ]
 [0.         0.        ]
 [0.03256598 0.16415457]
 [0.10882648 1.03425399]
 [0.         0.45205449]
 [0.         0.        ]
 [0.         0.82766334]
 [0.         0.        ]
 [0.17361503 0.        ]
 [0.         0.        ]
 [0.         0.44292171]
 [0.06211109 0.350963  ]
 [2.12109646 0.        ]
 [0.77986352 0.        ]
 [0.82520221 0.52772909]
 [1.18120728 0.        ]
 [0.34518234 0.        ]
 [0.         0.        ]
 [0.         0.05140704]
 [1.09179386 1.56059691]
 [0.71540791 0.93697549]
 [0.21104202 0.        ]
 [0.         0.        ]
 [0.         0.        ]
 [0.20167338 0.        ]
 [0.         0.        ]
 [0.91203784 0.        ]
 [0.1355648  0.        ]
 [0.9446646  0.15714864]
 [1.52275011 1.24001021]
 [0.73165763 0.2918921 ]
 [0.34954125 0.        ]
 [2.08278157 0.        ]
 [1.37585472 0.        ]
 [0.32807297 1.93172446]
 [0.         1.02390233]
 [0.         0.70007099]
 [0.         1.07080541]


## ATTENTION aux doubles clauses

il y a un piège dans la priorité donnée aux opérations: il faut ajouter des parenthèses

In [15]:
# pour l'estimation d'une loi jointe entre a et b
N = 100
a = np.ceil(np.random.rand(N) * 10)   # entre 1 et 10
b = np.round(np.random.rand(N))       # 0 ou 1
np.where((a == 4) & (b==0), 1., 0.)   # OK
# np.where( a == 4  &  b==0 , 1., 0.) # KO !!! => le & est prioritaire sur le == !!!

array([0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

# <span style="color:red"> EXO(3) Exercice basique </span>

Générer 1000 tirages selon une loi normale centrée réduite
 - Vérifier par comptage que la moitié (environ) des tirages est supérieure à 0
 - Vérifier que (environ) 2/3 des tirages sont compris entre entre moins l'écart-type et plus l'écart type

In [26]:
X = np.random.randn(100)
tx_sup_mean = np.where(X>0,1,0).sum()/len(X)
print(tx_sup_mean)

tx_int_ET = np.where( (X>-1) & (X<1),1,0).sum()/len(X)
print(tx_int_ET)


0.55
0.75


# <span style="color:red"> EXO(1) Comptage des erreurs </span>

Soit $\mathbf y\in \{0,1\}^n$ les étiquettes associées à $n$ données et $\mathbf yhat\in \{0,1\}^n$ les sorties de votre modèle, calculer le taux de bonne classification de votre approche.

$$Y = \begin{pmatrix} y_0\\ \vdots \\ y_n \end{pmatrix} \qquad  \hat Y = \begin{pmatrix} \hat y_0\\ \vdots \\\hat y_n \end{pmatrix} \Rightarrow \text{Combien de valeurs en commun dans les deux vecteurs?}
                 $$


Note: avant de chercher la réponse à la question, essayer de bien comprendre comment ont été générées les données, les appels de fonction ne sont pas triviaux.

In [30]:
# generation arbitraire des données et des sorties
n = 100
y = np.ones(n)
y[:n//2] = 0

yhat = y.copy()
yhat = np.where(np.random.random(n)<0.1, 1-yhat, yhat) # corruption de y par une bernoulli de paramètre 0.1

# calculer le taux de bonne classification
tx = np.where(y==yhat, 1,0).sum()/n
print(tx)

0.9


# <span style="color:red"> EXO(2) Comptage des erreurs bis [sorties d'un modèle probabiliste]</span>

Soit $\mathbf y\in \{0,1,2\}^n$ les étiquettes de 3 classes associées à $n$ données et $\mathbf p\in [0,1]^{n\times 3}$ les sorties de votre modèle probabiliste donnant la probabilité d'appartenance à chaque classe pour chaque individu, calculer le taux de bonne classification de votre approche.

$$Y = \begin{pmatrix} y_0\\ \vdots \\ y_n \end{pmatrix} \qquad  P = \begin{pmatrix}  P(y=0 | X=x_0) & P(y=1 | X=x_0) & P(y=2 | X=x_0)\\ \vdots \\ P(y=0 | X=x_n) & P(y=1 | X=x_n) & P(y=2 | X=x_n) \end{pmatrix}
                 $$


Note: avant de chercher la réponse à la question, essayer de bien comprendre comment ont été générées les données, les appels de fonction ne sont pas triviaux.

In [38]:
n = 100
y = np.random.randint(0,3,(n))

p = np.random.rand(n,3)
for i in range(len(p)): p[i,y[i]] += 0.5
p /= p.sum(1).reshape(-1,1)

print(y[:10]) # affichage des 10 premiers y
print(p[:10])

yhat = np.argmax(p,axis = 1) # prédiction par maximum de vraisemblance

tx = np.where(yhat == y,1,0).sum()/n
print(tx)

[1 0 1 2 1 1 1 1 0 2]
[[0.11929942 0.59159357 0.28910701]
 [0.3867479  0.22631135 0.38694075]
 [0.11373191 0.50691257 0.37935551]
 [0.10490216 0.53030607 0.36479177]
 [0.27184347 0.59900211 0.12915442]
 [0.47440431 0.45402713 0.07156856]
 [0.31021285 0.52105124 0.1687359 ]
 [0.15019977 0.46214514 0.38765509]
 [0.42227672 0.35756455 0.22015873]
 [0.30884585 0.13038166 0.56077249]]
0.76


# <span style="color:red"> EXO(1) Statistiques par classes </span>

Soit des données classiques en machine learning associant $n$ observations en 2 dimensions $X$ et une supervision $Y$ indiquant la classe de chaque point:

$$X = \begin{pmatrix}
                x_{0,0}& x_{0,1} \\
                \vdots & \vdots\\
                x_{n,0} & x_{n,1} 
                \end{pmatrix}, \qquad  Y = \begin{pmatrix} y_0\\ \vdots \\ y_n \end{pmatrix}
                 $$

Ces données sont représentées sur la figure ci-dessous (chaque ligne de la matrice $X$ correspond à un point de la figure):

<img src="ressources/gauss.png">

La boite suivante permet de charger les données, vous répondrez ensuite aux questions suivantes:

1. Compter les données
1. Quels sont les codes utilisés pour les deux classes?
1. Quelles sont les moyennes de chacune des deux classes (sans boucle `for`)?
1. Quelles sont les valeurs mini et maxi sur chaque dimension de chacune des deux classes (toujours sans boucle `for`)?

In [49]:
import pickle as pkl
# récupération des données:
data = pkl.load(open("ressources/gauss.pkl", "rb"))

X,Y= data['X'],data['Y']
#print(X)
#print(Y)

nb_instance = len(X)

mean_1 = X[Y==1].mean(0)
mean_0 = X[Y==0].mean(0)
print(mean_1)
print(mean_0)

X1_mini_1 = X[Y==1][:,0].min()
X1_maxi_1 = X[Y==1][:,0].max()
X2_mini_0 = X[Y==1][:,1].min()
X2_maxi_0 = X[Y==1][:,1].max()

print(X1_mini_1,X1_maxi_1)
print(X2_mini_0,X2_maxi_0)  

[2.00895007 2.0577349 ]
[-1.89499934 -1.15288505]
-0.29702230894386483 5.60059630380568
-0.28858126375727355 4.457278165969094


# Annexe (inutile pour le TP)

Pour information

In [None]:

import sklearn.datasets as data
import matplotlib.pyplot as plt
import pickle as pkl

X,Y = data.make_blobs(100, centers=[[-2, -1], [2, 2]])

pkl.dump({'X':X,'Y':Y}, open("ressources/gauss.pkl","wb"))

plt.figure()
plt.scatter(X[:,0], X[:,1], c=Y)
plt.savefig('ressources/gauss.png', facecolor='white')

# Fabrication du sujet à partir de la correction

In [2]:
import re
# transformation de cet énoncé en version étudiante

fname = "4_Numpy_advanced-corr.ipynb" # ce fichier
fout  = fname.replace("-corr","")

# print("Fichier de sortie: ", fout )

f = open(fname, "r")
txt = f.read()
 
f.close()


f2 = open(fout, "w")
f2.write(re.sub(" TODO )"," TODO ",\
    txt, flags=re.DOTALL))
f2.close()

