# Numpy et matplotlib

Dans cette section, nous allons découvrir deux modules indispensables à la programmation scientifique: [Numpy](http://www.numpy.org/) et [Matplotlib](http://matplotlib.org/).

Cette section est adaptée d'un cours de Slim Essid et Alexandre Gramfort, qui était lui-même adapté du travail de J.R. Johansson (robert@riken.jp) http://dml.riken.jp/~rob/. Elle s'inspire aussi de la leçon du [Numpy avancé](https://paris-swc.github.io/advanced-numpy-lesson/) de Softwate Carpentry.

## Introduction

 

* `numpy` est un module utilisé dans presque tous les projets de calcul numérique sous Python
   * Il fournit des structures de données performantes pour la manipulation de vecteurs, matrices et tenseurs plus généraux
   * `numpy` est écrit en C et en Fortran d'où ses performances élevées lorsque les calculs sont vectorisés (formulés comme des opérations sur des vecteurs/matrices)

 * `matplotlib` est un module performant pour la génération de graphiques en 2D et 3D
   * syntaxe très proche de celle de Matlab
   * supporte texte et étiquettes en $\LaTeX$
   * sortie de qualité dans divers formats (PNG, PDF, SV, EPS...)
   * interface graphique interactive pour explorer les figures

Pour utiliser `numpy` et `matplotlib` il faut commencer par les importer :

On peut aussi faire cela (mais ce n'est pas conseillé):

## *Arrays* `numpy`

Dans la terminologie `numpy`, vecteurs, matrices et autres tenseurs sont appelés *arrays*.


## Création d'*arrays* `numpy` 

Plusieurs possibilités:

 * à partir de listes ou tuples
 * en utilisant des fonctions dédiées, telles que `arange`, `linspace`, etc.
 * par chargement à partir de fichiers

### A partir de listes

Au moyen de la fonction `numpy.array` :


On peut alors visualiser ces données :

On peut omettre `plt.show()`, lorsque la méthode `plt.ion()` a été appelée ; c'est le cas dans Spyder et pylab

Pour définir une matrice (array de dimension 2 pour numpy):


Les objets `v` et `M` sont tous deux du type `ndarray` (fourni par `numpy`)

`v` et `M` ne diffèrent que par leur taille, que l'on peut obtenir via la propriété `shape` :

Pour obtenir le nombre d'éléments d'un *array* :

Les *arrays* ont un type qu'on obtient via `dtype`:

Les types doivent être respectés lors d'assignations à des *arrays*

### Attention !

On peut définir le type de manière explicite en utilisant le mot clé `dtype` en argument: 

 * Autres types possibles avec `dtype` : `int`, `float`, `complex`, `bool`, `object`, etc.

 * On peut aussi spécifier la précision en bits: `int64`, `int16`, `float128`, `complex128`.

### EXERCICE

* Créer un simple tableau à 2 dimensions (contenant les éléments que vous voulez).  
* Utiliser les fonctions `len()`, `np.shape()` sur votre tableau. Comment sont elles reliées? comment est ce relié à l'attribut `ndim`?

### Utilisation de fonction de génération d'*arrays*

#### arange

#### linspace and logspace

#### Données aléatoires

Le module numpy.random peut être utilisé pour les données aléatoires.

Tirage uniforme dans [0, 1]

Tirage suivant une loi normale standard

Affichage de l'histogramme des tirages

#### diag

#### zeros et ones

##  Fichiers d'E/S

### Fichiers séparés par des virgules (CSV)

Un format fichier classique est le format CSV (comma-separated values), ou bien TSV (tab-separated values). Pour lire de tels fichiers, on peut utiliser `numpy.genfromtxt`. Par exemple:

On peut aussi utiliser une fonction très pratique de [pandas](http://pandas.pydata.org): `pandas.read_csv`. Les données sont alors un [pandas Dataframe](http://pandas.pydata.org/pandas-docs/stable/api.html#dataframe) que l'on peut convertir en numpy array.

A l'aide de `numpy.savetxt` on peut enregistrer un *array* `numpy` dans un fichier txt:

Ici aussi, on peut utiliser une fonction très pratique de pandas: `to_csv`, mais il faudrait convertir le tableau en pandas DataFrame.

## Manipulation d'*arrays*

### Indexation

v est un vecteur, il n'a qu'une dimension -> un seul indice

M est une matrice, ou un array à 2 dimensions -> deux indices 

Contenu complet :

La deuxième ligne :

On peut aussi utiliser `:` 

On peut assigner des nouvelles valeurs à certaines cellules :

## *Slicing* ou accès par tranches

*Slicing* fait référence à la syntaxe `M[start:stop:step]` pour extraire une partie d'un *array*:

Les tranches sont modifiables :

On peut omettre n'importe lequel des argument dans `M[start:stop:step]`:

On peut utiliser des indices négatifs :

Le *slicing* fonctionne de façon similaire pour les *array* multi-dimensionnels

### EXERCICE: le plateau d'échec

Créez un tableau de zéros et le remplir pour obtenir un motif de plateau d'échec de dimension 8x8.
<img src="checkerboard.svg" width=300, height=300>

### Indexation avancée (*fancy indexing*)

Lorsque qu'on utilise des listes ou des *array* pour définir des tranches : 

On peut aussi utiliser des masques binaires :

### EXERCICE

En utilisant l'indexation avancée, sélectionnez au hasard avec répétition 10 éléments d'un tableau contenant 100 éléments tirés au hasard. 
(Astuce: np.random.randint(max_int, size=n) génère n nombres au hasard de 0 à max_int)

## Extraction de données à partir d'*arrays* et création d'*arrays*

#### where

Un masque binaire peut être converti en indices de positions avec `where`

#### diag

Extraire la diagonale ou une sous-diagonale d'un *array* :

## Algèbre linéaire

La performance des programmes écrit en Python/Numpy dépend de la capacité à vectoriser les calculs (les écrire comme des opérations sur des vecteurs/matrices) en évitant au maximum les boucles `for/while`


### Opérations scalaires

On peut effectuer les opérations arithmétiques habituelles pour multiplier, additionner, soustraire et diviser des *arrays* avec/par des scalaires :

### Opérations terme-à-terme sur les *arrays*

Les opérations par défaut sont des opérations **terme-à-terme** :

En multipliant des *arrays* de tailles compatibles, on obtient des multiplications terme-à-terme par ligne :

De façon plus générale, on peut faire des opérations sur des tableaux de différentes tailles. Dans certains cas, NumPy peut transformer les tableaux pour qu'ils aient la même taille, cette conversion s'appelle le **"Broadcasting"**.
<img src="numpy_broadcasting.png" width=600>

Il existe une règle pour savoir dans quel cas on peut faire du "broadcasting":
**Dans une opération, la taille des axes des deux tableaux doit être soit la même, soit une des deux doit être 1**.
Dans la figure ci-dessus, cette règle est respectée:
```
a:      4 x 3   
b:      4 x 3
result: 4 x 3

a:      4 x 3
b:          3
result: 4 x 3

a:      4 x 1
b:          3
result: 4 x 3
```

Que donnerait les deux cas suivant?

```
Image  (3d array): 256 x 256 x 3
Scale  (1d array):             3
Result (3d array): 

A      (4d array):  8 x 1 x 6 x 1
B      (3d array):      7 x 1 x 5
Result (4d array):  
```

### EXERCICE:

Sans utiliser de boucles (`for/while`) :

 * Créer une matrice (5x6) aléatoire
 * Remplacer une colonne sur deux par sa valeur moins le double de la colonne suivante
 * Remplacer les valeurs négatives par 0 en utilisant un masque binaire


Créez un tableau qui contient la somme de chaque élément de `x` avec chaque élément de `y`:

In [None]:
x = np.random.rand(3, 5)
y = np.random.randint(10, size=8)

### Algèbre matricielle

Comment faire des multiplications de matrices ? Deux façons :
 
 * en utilisant les fonctions `dot`; (recommandé)
 * en utiliser le type `matrix`. (à éviter)


Avec le type `matrix` de Numpy

Si les dimensions sont incompatibles on provoque des erreurs :

Voir également les fonctions : `inner`, `outer`, `cross`, `kron`, `tensordot`. Utiliser par exemple `help(kron)`.

### Transformations d'*arrays* ou de matrices

 * Plus haut `.T` a été utilisé pour transposer l'objet matrice `v`
 * On peut aussi utiliser la fonction `transpose`

**Autres transformations :**


Transposée conjuguée :

Parties réelles et imaginaires :

Argument et module :

### Analyse de données

Numpy propose des fonctions pour calculer certaines statistiques des données stockées dans des *arrays* :

#### mean

#### variance et écart type

#### min et max

#### sum, prod, et trace

Somme des éléments

ou encore :

Produit des éléments

Somme cumulée

Produit cumulé

Trace (équivalent à diag(A).sum())

### Calculs aves données multi-dimensionnelles

Pour appliquer `min`, `max`, etc., par lignes ou colonnes :

Plusieurs autres méthodes des classes `array` et `matrix` acceptent l'argument (optional) `axis` keyword argument.

### EXERCICE :

Soustrayez de chaque colonne de `a` sa moyenne, puis faites de même avec les lignes

## Copy

Pour des raisons de performance Python ne copie pas automatiquement les objets.

On peut avoir accès à l'adresse mémoire de l'élément avec:

Pour éviter ce comportement, on peut demander une *copie profonde* (*deep copy*) de `A` dans `B`

## Concaténer, répéter des *arrays*

En utilisant les fonctions `repeat`, `tile`, `vstack`, `hstack`, et `concatenate`, on peut créer des vecteurs/matrices plus grandes à partir de vecteurs/matrices plus petites :


#### repeat et tile

Pour répéter la matrice, il faut utiliser `tile`

#### concatenate

#### hstack et vstack

## Itérer sur les éléments d'un *array*

 * Dans la mesure du possible, il faut éviter l'itération sur les éléments d'un *array* : c'est beaucoup plus lent que les opérations vectorisées
 * Mais il arrive que l'on n'ait pas le choix...

Pour obtenir les indices des éléments sur lesquels on itère (par exemple, pour pouvoir les modifier en même temps) on peut utiliser `enumerate` :

## Utilisation d'*arrays* dans des conditions

Losqu'on s'intéresse à des conditions sur tout on une partie d'un *array*, on peut utiliser `any` ou `all` :

## *Type casting*

On peut créer une vue d'un autre type que l'original pour un *array*

## Pour aller plus loin

* http://numpy.scipy.org
* http://scipy.org/Tentative_NumPy_Tutorial
* http://scipy.org/NumPy_for_Matlab_Users - Un guide pour les utilisateurs de MATLAB.