# Retour sur numpy

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [3]:
import numpy as np

Le concept central de `numpy` est l'`array`

## Créer un array

On peut créer un `array` de plusieurs manières. Pour créer un `array` à partir d'une liste, il suffit d'utiliser la méthode `array`:

In [None]:
np.array([1,2,5])
np.array([["a","z","e"],["r","t"],["y"]])

Il existe aussi des méthodes pratiques pour créer des array:
    
* séquences logiques : `np.arange`
* séquences ordonnées: fonctions de génération de nombres aléatoires: np.rand.uniform, np.rand.uniform

In [None]:
np.arange(0,10)
np.arange(0,10,3)

**Exercice :**
Générer:

* $X$ une variable aléatoire, 1000 répétitions d'une loi $U(0,1)$
* $Y$ une variable aléatoire, 1000 répétitions d'une loi normale de moyenne nulle et de variance égale à 2
* Vérifier la variance de $Y$ avec `np.var`

In [None]:
X = np.random.uniform(0,1,1000)
Y = np.random.normal(0,np.sqrt(2),1000)

np.var(Y)

## Indexation et slicing

La logique générale de l'indexation d'un *array* unidimensionnel est la suivante:

```python
x[start:stop:step]
```

Pour sélectionner uniquement un éléments, on fera ainsi:

In [None]:
x = np.arange(10)
x[2]

En l'occurrence, on sélectionne le K$^{eme}$ élément en utilisant

```python
x[K-1]
```

**Exercice**

* Sélectionner les éléments 0,3,5
* Sélectionner les éléments pairs
* Sélectionner tous les éléments sauf le premier
* Sélectionner les 5 premiers éléments

Correction

In [None]:
x[[0,3,5]]
x[::2]
x[-0]
x[:5]

## Filtres logiques

On peut également sélectionner des données à partir de conditions logiques (opération qu'on appelle un *boolean mask*), ce qui sera pratique lorsqu'il sera nécessaire d'effectuer des opérations de filtre sur les données (`pandas` reprend cette logique).

Pour des opérations de comparaison simples, les comparateurs logiques peuvent être suffisants:

In [6]:
x = np.arange(10)
x2 = np.array([[-1,1,-2],[-3,2,0]])

In [10]:
x==2
x2<0

array([False, False,  True, False, False, False, False, False, False,
       False])

array([[ True, False,  True],
       [ True, False, False]])

Néanmoins, `numpy` propose un certain nombre de fonctions logiques très pratiques:

* count_nonzero
* is_nan
* any ; all ; notamment avex `axis = 0`

**Exercice**

Soit
```python
x = np.random.normal(0, size=(3, 4))
```

un *array* multidimensionnel et

```python
y = np.array([np.nan, 0, 1])
```

1. Utiliser `count_nonzero` sur `y`
2. Utiliser `is_nan` sur `y` et compter le nombre de valeurs non NaN
2. Vérifier que `x` comporte au moins une valeur positive dans son ensemble, dans chaque array et en

In [37]:
x = np.random.normal(0, size=(3, 4))
y = np.array([np.nan, 0, 1])

x
y
np.count_nonzero(y)
np.isnan(y)
np.any(x>0)
np.any(x>0, axis = 0)

array([[-1.68221492,  0.79261319,  1.24070342, -1.11720471],
       [-0.55279632,  0.35831098, -1.66899723, -0.08910771],
       [ 1.89606704, -1.1904776 ,  1.99972057,  1.37171527]])

array([nan,  0.,  1.])

2

array([ True, False, False])

True

array([ True,  True,  True,  True])

Pour sélectionner les observations relatives à la condition logique, il suffit d'utiliser la logique de *slicing* de `numpy` qui fonctionne avec les conditions logiques

**Exercice**

Soit 

```python
x = np.random.normal(size=10000)
```

1. Ne conserver que les valeurs dont la valeur absolue est supérieure à 1.96
2. Compter le nombre de valeurs supérieures à 1.96 en valeur absolue et leur proportion dans l'ensemble
3. Sommer les valeurs absolues de toutes les observations supérieures (en valeur absolue) à 1.96 et rapportez les à la somme des valeurs de `x` (en valeur absolue) 

In [51]:
x = np.random.normal(size=10000)

x2 = x[np.abs(x)>=1.96]

x2.size
x2.size/x.size
np.sum(np.abs(x2))/np.sum(np.abs(x))

515

0.0515

0.14977273648862172

When you have an array of Boolean values in NumPy, this can be thought of as a string of bits where 1 = True and 0 = False, and the result of & and | operates similarly to above: