<img src='images/logos.png' align='center'>
<br>

<h1 align=center><font size = 5>Outils Numpy</font></h1>

In [1]:
import numpy as np

## Un peu de vocabulaire

* Dans NumPy, chaque dimension est appelée **axis**.
* Le nombre d'axes défini le **rank** obtenu par l'attribut *ndim*

* Une liste de valeurs donnant la longueur de chaque axe défini le **shape** de l'array numpy..

* Le **size** d'un array est le nombre total de valeurs contenues dans l'array. (produit de toutes les longueurs d'axes)

## Création automatique d'arrays particuliers

### `np.zeros`

La fonction `zeros` prend en argument une valeur ou un tuple et retourne un array rempli de 0 :

In [2]:
np.zeros(5) #ce sera que des floats

array([0., 0., 0., 0., 0.])

In [3]:
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

### np.ones

Même fonction que zeros mais avec des 1 :

In [4]:
np.ones((3,4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

### `np.full`
Rempli un array de *shape* donné par une valeur spécifiée :

In [5]:
np.full((3,4), 5)

array([[5, 5, 5, 5],
       [5, 5, 5, 5],
       [5, 5, 5, 5]])

### `np.arange`
Cette fonction utilise la méthode `range`de Numpy pour créer un array avec des valeurs consécutives (le pas par défaut est 1)

In [6]:
np.arange(1, 6)

array([1, 2, 3, 4, 5])

Elle accepte les réels et on peut spécifier le pas à utiliser :

Il est également possible d'utiliser un pas (même décimal) !:

In [7]:
np.arange(1, 6, 0.5)

array([1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5])

Cependant lorsqu'il s'agit de réels, il n'est pas toujours possible de connaître à l'avance le nombre de valeurs de l'array produit : Les vleurs arrodies en raison de la précision des floats peuvent modifier le résultat : 

In [8]:
print(np.arange(0, 1, 1/3))
print(np.arange(0, 1, 0.333333333))
print(np.arange(0, 1, 0.333333334))


[0.         0.33333333 0.66666667]
[0.         0.33333333 0.66666667 1.        ]
[0.         0.33333333 0.66666667]


### `np.linspace`
Pour cette raison et en particulier lors de la création den graduations pour un graphique, on préfère utiliser la méthode `linspace`. Cette mfonction retourne un array contenant un nombre défini de valeurs équidistantes dans un intervalle donné. Noter que la borne haute est comprise contrairement à `arange`

In [9]:
print(np.linspace(0, 1, 7)) #il fait 7 parts et il se débrouille pour trouver la division adaptée pour des parts égales

[0.         0.16666667 0.33333333 0.5        0.66666667 0.83333333
 1.        ]


### `np.rand` et `np.randn`
Le module `random`de NumPy propose plusieurs méthode de génération de nombre aléatoire selon des distributions particulières : <br>
La méthode `rand`, par exemple, utilise la distribution uniforme dans l'intervalle [0, 1]:

In [10]:
np.random.rand(3,4) #valeurs aléatoires entre 0 et 1

array([[0.93648464, 0.36216515, 0.2670288 , 0.56985655],
       [0.3833776 , 0.06629827, 0.71351964, 0.98874327],
       [0.06322164, 0.05805515, 0.2578113 , 0.96499984]])

La méthode `randn` utilise la distribution gaussiènne réduite (moyenne = 0 et ecart-type = 1)

In [11]:
np.random.randn(3,4) #valeurs aléatoire entre -3 et 3 avec ecarttype avec moyenne de 1 > courbe de gausse

array([[-0.96933851,  0.72648441, -0.13629236, -0.67063931],
       [ 0.30741546, -0.02900795, -0.11521981,  1.10867926],
       [ 0.3783589 , -0.68128686,  0.50598594, -2.24240373]])

<img src='images/distributions.png' align='center'>

## Utilisation de l'attribut `dtype`
Les éléments d'un array Numpy étant du même type il est facile d'y acceder en utilisant l'attribut `dtype`:

In [12]:
c = np.arange(1, 5)
print(c.dtype)

int32


In [13]:
c = np.arange(1.0, 5.0)#dès qu'il y a un float il passe tout en float, si on ne spécifie rien le pas est toujours de 1
print(c.dtype)

float64


il est aussi possible et parfois très commode d'imposer le type à utiliser dès la création de l'array :

In [15]:
d = np.arange(1, 5, dtype=np.float64)
print(d.dtype, d) 

float64 [1. 2. 3. 4.]


Les différents types disponibles sont `int8`, `int16`, `int32`, `int64`, `uint8`|`16`|`32`|`64`, `float16`|`32`|`64` et `complex64`|`128`. Voir [la documentation](http://docs.scipy.org/doc/numpy-1.10.1/user/basics.types.html) pour plus d'informations.


# Redimensionner un array
### Modification directe
L'attribut `shape`est accèssible et modifiable directement l'array est alors modifié 'in place'. Attention cependant à conserver la valeur de l'attribut `size`

In [16]:
x = np.arange(24)
print(x)
print("Dimension:", x.ndim)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]
Dimension: 1


In [17]:
x.shape = (6, 4)
print(x)
print("Dimension:", x.ndim)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]]
Dimension: 2


### Modification avec la méthode  `reshape`
La méthode `reshape` retourne un nouvel objet array pointant sur les *mêmes données*. La modification de l'un entrainera donc la modification de l'autre.

In [18]:
x= np.arange(24)
y = x.reshape(4,6)
print(y) #le reshape est utilisé pour définir un nouveau tableau inversé, il est important 
#d'y définir une nouvelle variable,
#c'est pour travailler dessus afin de réduire le nombre de dimentions 
print("Rank:", y.ndim)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
Rank: 2


Si la valeur de la 1ère ligne, 1ère colonne est modifiée dans y : 0 devient 50  :

In [19]:
y[0, 0] = 50
y

array([[50,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23]])

Alors la valeur correspondante dans x change également :

In [20]:
x #ça change dans y et x

array([50,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

### `ravel`
La méthode `ravel` retourne un nouvel array de dimension 1 qui pointe sur les mêmes données.

In [21]:
y.ravel()

array([50,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

## Opérateurs conditionnels

Elément par élement : 

In [22]:
x = np.array([20, -5, 30, 40])
x < [15, 16, 35, 36]

array([False,  True,  True, False])

Ou encore en comparant à une valeur unique :

In [23]:
x < 25  # equivalent à x < [25, 25, 25, 25]

array([ True,  True, False, False])

Plus utile encore : l'extraction de données par l'indexation booléénne

In [24]:
x[x< 25]

array([20, -5])

## Foctions mathematiques et statistiques

Numpy propose plusieurs méthodes natives associées au type `ndarray`.

In [25]:
a = np.array([[-2.5, 3.1, 7], [10, 11, 12]])
print(a)
print("moyenne =", a.mean())
print("minimum =", a.min())
print("maximum =", a.max())
print("Total =", a.sum())
print("Produit =", a.prod())
print("Ecart-type =", a.std())
print("Variance =", a.var()) #moyenne des écarts au carré >> la variance maximiser les grands écart et minimiser les petits ecarts > en redéfinissant des écarts au carré

[[-2.5  3.1  7. ]
 [10.  11.  12. ]]
moyenne = 6.766666666666667
minimum = -2.5
maximum = 12.0
Total = 40.6
Produit = -71610.0
Ecart-type = 5.084835843520964
Variance = 25.855555555555554


Ces fonctions acceptent un argument optionel : `axis` qui permet d'appliquer l'opération sur un axe particulier :

In [26]:
a.sum(axis=0)  # somme sur colonnes

array([ 7.5, 14.1, 19. ])

In [27]:
a.sum(axis=1)  # somme sur lignes

array([ 7.6, 33. ])

# Indexation
## Arrays 1D
Le comportement des array numpy 1D est similaire aux array python classiques :

In [None]:
a = np.array([1, 5, 3, 19, 13, 7, 3])

Extraction des valeurs  : la borne supérieure n'est pas comprise :

In [None]:
a[2:5]

La dernière valeur est à l'indice -1 :

In [None]:
a[2:-1]

Extraitre toutes les valeurs avant un indice donné :

In [None]:
a[:2]

Extraire avec un pas :

In [None]:
a[2::2]

Il est possible de modifier les valeur d'une plage donnée d'indices :

In [None]:
a[2:5] = [997, 998, 999]
a

In [None]:
a[2:5] = -1
a

Il n'est pas possible d'agrandir une plage d'indice en ajoutant des valeurs :

In [None]:
try:
    a[2:5] = [1,2,3,4,5,6]  # too long
except ValueError as e:
    print(e)

Il n'est pas possible de supprimer des valeurs :

In [None]:
try:
    del a[2:5]
except ValueError as e:
    print(e)

**Attention**<br>
Les `slices`ou extraction par plage ne sont ques des vues de l'array original et continuent à pointer sur les mêmes données.

In [None]:
a_slice = a[2:6]
a_slice[1] = 1000
a  # L'original est modifié !

In [None]:
a[3] = 2000
a_slice  # idem dans l'autre sens nbien sûr !

Pour éviter ce problème il est commun de faire une copie en utilisant la méthode `copy()`

In [None]:
slice_copie = a[2:6].copy()
slice_copie[1] = 3000
a  # L'original n'est pas affécté.

## Arrays multidimensionels

In [None]:
b = np.arange(24).reshape(6,4)
b

In [None]:
b[1, 2]  # row 1, col 2

In [None]:
b[1, :]  # row 1, all columns

In [None]:
b[:, 1]  # all rows, column 1

**Attention très utile**: les deux expressions suivantes ont accès aux mêmes valeurs mais dans des formats différents

In [None]:
c=b[:,1]
print(c)
print(c.shape)

In [None]:
d= b[:, 1:2]
print(d)
print(d.shape)

La 1ère expression retourne la colonne 1 dans un array 1D `(6,)`, tandis que la seconde retourne un vecteur colonne dans un array 2D `(6, 1)`.

# Empiler, concatener et séparer des arrays
Ces opérations sont souvent très utiles pour regroupper des données ou pour les séparer afin de les étudier indépendament l'une de l'autre :

In [None]:
q1 = np.full((3,4), 1.0)
q1

In [None]:
q2 = np.full((4,4), 2.0)
q2

In [None]:
q3 = np.full((3,4), 3.0)
q3

## `vstack`
Empilage vertical avec `vstack`:

In [None]:
q4 = np.vstack((q1, q2, q3))
q4

In [None]:
q4.shape

Bien entendu il faut pour cela avoir la même dimension sur l'axe vertical.

## `hstack`
Empilage horizontal avec `hstack`:

In [None]:
q5 = np.hstack((q1, q3))
q5

In [None]:
q5.shape

Impossible avec q2 qui n'a pas le même nombre de lignes :

In [None]:
try:
    q5 = np.hstack((q1, q2, q3))
except ValueError as e:
    print(e)

## `concatenate`
La méthode `concatenate` regroupe les array selon un axe donné :

In [None]:
q7 = np.concatenate((q1, q2, q3), axis=0)  # Equivalent to vstack
q7

In [None]:
q7.shape

`concatenate` avec `axis=1`fera donc le travail de `hstack`

## `stack`
**Attention** la méthode `stack` crée un nouvel axe pour l'empilage et tous les arrays doivent avoir exactement les mêmes dimensions :

In [None]:
q8 = np.stack((q1, q3))
q8

In [None]:
q8.shape

# Dissocier les arrays
A l'inverse de l'opération d'empilage par `stack` la fonction `split`permet de découper en array en plusieures parties. `vsplit`le fera verticalement et `hsplit` horizontalement. La fonction `split`prendra un argument qui spécifie l'axe de dissociation.

In [None]:
r = np.arange(24).reshape(6,4)
r

Dissocier verticalement avec `vsplit`

In [None]:
r1, r2, r3 = np.vsplit(r, 3)
print("r1 : ")
print(r1)
print("r2 : ")
print(r2)
print("r3 : ")
print(r3)

Dissocier horizontalement avec `hsplit`

In [None]:
r4, r5 = np.hsplit(r, 2)
r4

In [None]:
r5

# Sauvergarde et chargement
Il est possible avec Numpy de suavegarder les rray dans des fichiers externes :

## Format binaire `.npy`

In [None]:
a = np.random.rand(2,3)
a

In [None]:
np.save("array_a", a)

L'extension `npy`est ajoutée automatiquement et le fichier est sauvegradé dans le même répertoire que le notebook.<br>
Voyons ce qu'il contient (ouverture avec les modes rb : read binary) : 

In [None]:
with open("array_a.npy", "rb") as f:
    content = f.read()

content

Le chargement est plus compréhesible ! avec la fonction `load`:

In [None]:
a1 = np.load("array_a.npy")
a1

## Format texte

In [None]:
np.savetxt("array_a.csv", a)

La lecture se fait alors avec la fonction `loadtxt`:

In [None]:
a2 = np.loadtxt("array_a.csv")
a2

Par défaut le séparateur est une tabulation mais il est possible d'en spécifier un différent :

In [None]:
np.savetxt("array_a1.csv", a, delimiter=",")

On ajoute alors à la fonction `loadtxt` l'argument `delimiter`:

In [None]:
a3 = np.loadtxt("array_a1.csv", delimiter=",")
a3

## Format compréssé `.npz` 
Plusieurs arrays peuvent être sauvegardés dans un même fichier compréssé avec l'extension `npz`.

In [None]:
b = np.arange(12, dtype=np.uint8).reshape(3, 4)
b

In [None]:
np.savez("array_ab", x=a, y=b)

You then load this file like so:

In [None]:
array_ab = np.load("array_ab.npz")
array_ab

La variable obtenue arry_ab est un pseudo dictionniare. Il contient les arrays a et b, associés aux clés x et y, sans compression particulière. L'attribut `files`permet de lister les clés d'accès aux arrays.

In [None]:
array_ab.files

In [None]:
array_ab['x']

<hr>
Copyright &copy; 2020 Hatem & Driss @NEEDEMAND