# TP1 - NumPy

NumPy est un module fondamental pour le calcul scientifique avec Python. Il contient entre autres:

- des structures de données performantes pour la manipulation de vecteurs, matrices et tableaux
- des outils pour intégrer du code C/C ++ et Fortran
- useful linear algebra, Fourier transform, and random number capabilities

Outre ses utilisations évidentes en calculs scientifiques, NumPy peut également être utilisé pour gérer des données génériques. Les types de données arbitraires peuvent être définis. Cela permet à NumPy de s'intégrer facilement et rapidement à une grande variété de bases de données.

Documentation: <a>http://www.numpy.org/</a>

In [None]:
# pour obtenir les graphiques dans le notebook
%matplotlib inline

#### 1. Pour utiliser numpy, commencer par l'importer.

## Création d'*arrays* `numpy` 

Plusieurs possibilités:

 * a partir de listes ou n-uplets Python
 * en utilisant des fonctions dédiées, telles que `arange`, `linspace`, etc.
 * par chargement à partir de fichiers

### A partir de listes

Au moyen de la fonction `numpy.array`

#### 2. Déclarer et afficher le vecteur v=(1,2,3,4) en utilisant une liste comme argument

#### 3. Déclarer la matrice carrée M=(1,2,3,4) (array de dimension 2 pour numpy) en utilisant une liste imbriquée comme argument

#### 4. Afficher le type de v et M

#### 5. Afficher, le nombre d'éléments et la taille de v et de M

Les *arrays* ont un type qu'on obtient via `dtype`:

In [None]:
print(M)
print(M.dtype)

Les types doivent être respectés lors d'assignations à des *arrays*

In [None]:
M[0,0] = "hello"

#### Attention!

In [None]:
a = array([1,2,3])
a[0] = 3.2
print(a)
a.dtype

In [None]:
a = array([1,2,3], dtype=int64)
b = array([2,2,3], dtype=int64)
b = b.astype(float)
print(b)
print(a / b)

On peut définir le type de manière explicite en utilisant le mot clé `dtype` en argument: 

In [None]:
M = array([[1, 2], [3, 4]], dtype=complex)
M

 * Autres types possibles avec `dtype` : `int`, `float`, `complex`, `bool`, `object`, etc.

 * On peut aussi spécifier la précision en bits: `int64`, `int16`, `float128`, `complex128`.

#### 6. Extraire le premier élément de v et la première ligne de M

### Utilisation de fonction de génération d'*arrays*

#### 7. En utilisant arange, déclarer un vecteur x allant de 0 à 10 par pas de 2

#### 8. Même question en utilisant linspace

In [None]:
import matplotlib.pyplot as plt
xx = linspace(-10, 10, 100)
plt.plot(xx,cos(xx))

#### 9. En utilisant logspace, construire un vecteur composé des $p$ puissances successives de 2, avec $p=0,\ldots,10$.

## Génération de nombres alétaoires


#### 10. A l'aide de random, tirer 10 nombres aléatoires de loi uniforme sur [0,1]

#### 11. A l'aide de random, construire un tableau de taille 5x5 composé de nombres aléatoires de loi normale centrée réduite 

#### 12. A l'aide de random, tirer 10000 nombres aléatoires de loi normale centrée réduite et en utilisant hist, tracer un histogramme

#### 13. En utilisant diag et ones, construire la matrice identité de taille 10x10

#### 14. En utilisant diag et ones, construire la matrice la matrice ci-dessous

$$
\begin{pmatrix}
2&-1&0\\
-1&2&-1\\
0&-1&2
\end{pmatrix}
$$

# Pour aller plus loin

##  Fichiers d'E/S
### Fichiers séparés par des virgules (CSV)

Un format fichier classique est le format CSV (comma-separated values), ou bien TSV (tab-separated values). Pour lire de tels fichiers utilisez `numpy.genfromtxt`. Par exemple:


In [None]:
!cat WorldDev.csv

In [None]:
data = genfromtxt('WorldDev.csv',skip_header=True)
genfromtxt?

In [None]:
data[1:3,1:3]

In [None]:
data.shape

A l'aide de numpy.savetxt on peut enregistrer un array numpy dans un fichier txt:

In [None]:
M = random.rand(5,5)
M

In [None]:
savetxt("random-matrix.txt", M)

In [None]:
!cat random-matrix.txt

In [None]:
savetxt("random-matrix.csv", M, fmt='%.5f', delimiter=',') # fmt spécifie le format

In [None]:
!cat random-matrix.csv

### Format de fichier Numpy natif

Pour sauvegarder et recharger des *array* `numpy` : `numpy.save` et `numpy.load` :

In [None]:
save("random-matrix.npy", M)

!cat random-matrix.npy

In [None]:
load("random-matrix.npy")

## Autres propriétés des *arrays* `numpy`

In [None]:
M

In [None]:
M.dtype

In [None]:
M.itemsize # octets par élément

In [None]:
M.nbytes # nombre d'octets

In [None]:
M.nbytes / M.size

In [None]:
M.ndim # nombre de dimensions

In [None]:
print(zeros((3,), dtype=int).ndim)
print(zeros((1, 3), dtype=int).ndim)
print(zeros((3, 1), dtype=int).ndim)

In [None]:
zeros((3, 1), dtype=int)

## Manipulation d'*arrays*
### Indexation


In [None]:
# v est un vecteur, il n'a qu'une seule dimension -> un seul indice
v[0]

In [None]:
# M est une matrice, ou un array à 2 dimensions -> deux indices 
M[1,1]

Contenu complet :

In [None]:
M

La deuxième ligne :

In [None]:
M[1]

On peut aussi utiliser `:` 

In [None]:
M[1,:] # 2 ème ligne (indice 1)

In [None]:
M[:,1] # 2 ème colonne (indice 1)

In [None]:
print(M.shape)
print(M[1,:].shape, M[:,1].shape)

On peut assigner des nouvelles valeurs à certaines cellules :

In [None]:
M[0,0] = 1

In [None]:
M

In [None]:
# on peut aussi assigner des lignes ou des colonnes
M[1,:] = -1
# M[1,:] = [1, 2, 3]

In [None]:
M

## *Slicing* ou accès par tranches

*Slicing* fait référence à la syntaxe `M[start:stop:step]` pour extraire une partie d'un *array* :

In [None]:
A = array([1,2,3,4,5])
A

In [None]:
A[1:3]

Les tranches sont modifiables :

In [None]:
A[1:3] = [-2,-3]
A

On peut omettre n'importe lequel des argument dans `M[start:stop:step]`:

In [None]:
A[::] # indices de début, fin, et pas avec leurs valeurs par défaut

In [None]:
A[::2] # pas = 2, indices de début et de fin par défaut

In [None]:
A[:3] # les trois premiers éléments

In [None]:
A[3:] # à partir de l'indice 3

In [None]:
M = arange(12).reshape(4, 3)
print(M)

On peut utiliser des indices négatifs :

In [None]:
A = array([1,2,3,4,5])

In [None]:
A[-1] # le dernier élément

In [None]:
A[-3:] # les 3 derniers éléments

Le *slicing* fonctionne de façon similaire pour les *array* multi-dimensionnels

In [None]:
A = array([[n+m*10 for n in range(5)] for m in range(5)])
A

In [None]:
A[1:4, 1:4]  # sous-tableau

In [None]:
# sauts
A[::2, ::2]

In [None]:
A

In [None]:
A[[0, 1, 3]]

### Indexation avancée (*fancy indexing*)

Lorsque qu'on utilise des listes ou des *array* pour définir des tranches : 

In [None]:
row_indices = [1, 2, 3]
print(A)
print(A[row_indices])

In [None]:
A[[1, 2]][:, [3, 4]] = 0  # ATTENTION !
print(A)

In [None]:
print(A[[1, 2], [3, 4]])

In [None]:
A[ix_([1, 2], [3, 4])] = 0
print(A)

On peut aussi utiliser des masques binaires :

In [None]:
B = arange(5)
B

In [None]:
row_mask = array([True, False, True, False, False])
print(B[row_mask])
print(B[[0,2]])

In [None]:
# de façon équivalente
row_mask = array([1,0,1,0,0], dtype=bool)
B[row_mask]

In [None]:
# ou encore
a = array([1, 2, 3, 4, 5])
print(a < 3)
print(B[a < 3])

In [None]:
print(A)
print(A[:, a < 3])

## Extraction de données à partir d'*arrays* et création d'*arrays*
#### where

Un masque binaire peut être converti en indices de positions avec `where`

In [None]:
x = arange(0, 10, 0.5)
print(x)
mask = (x > 5) * (x < 7.5)
print(mask)
indices = where(mask)
indices

In [None]:
x[indices] # équivalent à x[mask]

## Algèbre linéaire

La performance des programmes écrit en Python/Numpy dépend de la capacité à vectoriser les calculs (les écrire comme des opérations sur des vecteurs/matrices) en évitant au maximum les boucles `for/while`

### Opérations scalaires

On peut effectuer les opérations arithmétiques habituelles pour multiplier, additionner, soustraire et diviser des *arrays* avec/par des scalaires :

In [None]:
v1 = arange(0, 5)
print(v1)

In [None]:
v1 * 2

In [None]:
v1 + 2

In [None]:
plt.figure()
plt.subplot(1,2,1)
plt.plot(v1 ** 2,'g--', label='$y = x^2$')
plt.legend(loc=0)
plt.subplot(1,2,2)
plt.plot(sqrt(v1), 'r*-', label='$y = \sqrt{x}$')
plt.legend(loc=2)
plt.show()

In [None]:
A = array([[n+m*10 for n in range(5)] for m in range(5)])
print(A)

In [None]:
print(A * 2)

In [None]:
print(A + 2)

In [None]:
print(A**2)

### Visualiser des matrices

In [None]:
C = random.rand(300,200)
plt.figure()
plt.imshow(C)
plt.colorbar()
plt.show()

### Opérations terme-à-terme sur les *arrays*

Les opérations par défaut sont des opérations **terme-à-terme** :

In [None]:
A = array([[n+m*10 for n in range(5)] for m in range(5)])
print(A)

In [None]:
A * A # multiplication terme-à-terme

In [None]:
(A + A.T) / 2

In [None]:
print(v1)
print(v1 * v1)

En multipliant des *arrays* de tailles compatibles, on obtient des multiplications terme-à-terme par ligne :

In [None]:
A.shape, v1.shape

In [None]:
print(A)
print(v1)
print(A * v1)

### Algèbre matricielle

Comment faire des multiplications de matrices ? Deux façons :
 
 * en utilisant les fonctions `dot`; (recommandé)
 * en utiliser le type `matrix`. (à éviter)


In [None]:
print(A.shape)
print(A)
print(type(A))

In [None]:
print(dot(A, A))  # multiplication matrice
print(A * A)  # multiplication élément par élément

In [None]:
A.dot(v1)

In [None]:
dot(v1, v1)

Avec le type `matrix` de Numpy

In [None]:
M = matrix(A)
v = matrix(v1).T # en faire un vecteur colonne

In [None]:
M * v

In [None]:
# produit scalaire
v.T * v

In [None]:
# avec les objets matrices, c'est les opérations standards sur les matrices qui sont appliquées
v + M*v

Si les dimensions sont incompatibles on provoque des erreurs :

In [None]:
v = matrix([1,2,3,4,5,6]).T

In [None]:
shape(M), shape(v)

In [None]:
M * v

Voir également les fonctions : `inner`, `outer`, `cross`, `kron`, `tensordot`. Utiliser par exemple `help(kron)`.


### Transformations d'*arrays* ou de matrices

 * Plus haut `.T` a été utilisé pour transposer l'objet matrice `v`
 * On peut aussi utiliser la fonction `transpose`

**Autres transformations :**


In [None]:
C = matrix([[1j, 2j], [3j, 4j]])
C

In [None]:
conjugate(C)

Transposée conjuguée :

In [None]:
C.H

Parties réelles et imaginaires :

In [None]:
real(C) # ou C.real

In [None]:
imag(C) # ou C.imag

Argument et module :

In [None]:
angle(C + 1) 

In [None]:
abs(C)

### Caclul matriciel
### Analyse de données

Numpy propose des fonctions pour calculer certaines statistiques des données stockées dans des *arrays* :

In [None]:
data = vander([1, 2, 3, 4])
print(data)
print(data.shape)

In [None]:
print(mean(data))
print(mean(data, axis=0))

In [None]:
# la moyenne de la troisième colonne
mean(data[:,2])

#### variance et écart type


In [None]:
var(data[:,2]), std(data[:,2])

#### min, max, sum, cumsum,

In [None]:
data[:,2].min()

In [None]:
data[:,2].max()

In [None]:
data[:,2].sum()

In [None]:
data[:,2].prod()

In [None]:
data[:,2].cumsum()

In [None]:
data[:,2].cumprod()

In [None]:
data.trace()

### Calculs avec parties d'*arrays*

en utilisant l'indexation ou n'importe quelle méthode d'extraction de donnés à partir des *arrays*

In [None]:
data

In [None]:
print(unique(data))
print(unique(data[:,2]))

In [None]:
mask = data[:,1] == 4

In [None]:
mask

In [None]:
mean(data[mask,3])

### Calculs aves données multi-dimensionnelles

Pour appliquer `min`, `max`, etc., par lignes ou colonnes :

In [None]:
m = random.rand(3,4)
m

In [None]:
# max global 
m.max()

In [None]:
# max dans chaque colonne
m.max(axis=0)

In [None]:
# max dans chaque ligne
m.max(axis=1)

Plusieurs autres méthodes des classes `array` et `matrix` acceptent l'argument (optional) `axis` keyword argument.

## Copy et "deep copy"

Pour des raisons de performance Python ne copie pas automatiquement les objets (par exemple passage par référence des paramètres de fonctions).

In [None]:
A = array([[0,  2],[ 3,  4]])
A

In [None]:
B = A

In [None]:
# Attention changer B affecte A
B[0,0] = 10
print(B)
print(A)

In [None]:
B = A
print(B is A)

Pour éviter ce comportement, on peut demander une *copie profonde* (*deep copy*) de `A` dans `B`

In [None]:
B = A.copy() #ou  B = copy(A)


In [None]:
# maintenant en modifiant B, A n'est plus affecté
B[0,0] = -5

B

In [None]:
A  

In [None]:
print(A[:,0])
print(A - A[:,0])  # FAUX
print(A - A[:,0].reshape((2, 1)))  # OK

## Changement de forme et de taille, et concaténation des *arrays*



In [None]:
A

In [None]:
n, m = A.shape
print(n,m)

In [None]:
B = A.reshape((1, n * m))
B

In [None]:
B[0,0:5] = 5 # modifier l'array

B

In [None]:
A

### Attention !

La variable originale est aussi modifiée ! B n'est qu'une nouvelle *vue* de A.

Pour transformer un *array* multi-dimmensionel en un vecteur. Mais cette fois-ci, une copie des données est créée :

In [None]:
B = A.flatten()
B

In [None]:
B[0:5] = 10
B

In [None]:
A # A ne change pas car B est une copie de A

### Ajouter une nouvelle dimension avec `newaxis`

par exemple pour convertir un vecteur en une matrice ligne ou colonne :

In [None]:
v = array([1,2,3])

In [None]:
shape(v)

In [None]:
# créer une matrice à une colonne à partir du vectuer v
v[:, newaxis]

In [None]:
v[:, newaxis].shape

In [None]:
# matrice à une ligne
v[newaxis,:].shape

### Concaténer, répéter des *arrays*

En utilisant les fonctions `repeat`, `tile`, `vstack`, `hstack`, et `concatenate`, on peut créer des vecteurs/matrices plus grandes à partir de vecteurs/matrices plus petites :

#### repeat et tile

In [None]:
a = array([[1, 2], [3, 4]])
a

In [None]:
# répéter chaque élément 3 fois
repeat(a, 3) # résultat 1-d

In [None]:
# on peut spécifier l'argument axisrepeat(a, 3, axis=1)
repeat(a, 3, axis=1)

Pour répéter la matrice, il faut utiliser `tile`

In [None]:
# répéter la matrice 3 fois
tile(a, 3)

#### concatenate

In [None]:
b = array([[5, 6]])
print(a)
print(b)

In [None]:
concatenate((a, b), axis=0)

In [None]:
concatenate((a, b.T), axis=1)

#### hstack et vstack


In [None]:
vstack((a,b))

In [None]:
hstack((a,b.T))

## Itérer sur les éléments d'un *array*

 * Dans la mesure du possible, il faut éviter l'itération sur les éléments d'un *array* : c'est beaucoup plus lent que les opérations vectorisées
 * Mais il arrive que l'on n'ait pas le choix...

In [None]:
v = array([1,2,3,4])

for element in v:
    print(element)

In [None]:
M = array([[1,2], [3,4]])

for row in M:
    print("row", row)
    
    for element in row:
         print(element)

Pour obtenir les indices des éléments sur lesquels on itère (par exemple, pour pouvoir les modifier en même temps) on peut utiliser `enumerate` :

In [None]:
for row_idx, row in enumerate(M):
    print("row_idx", row_idx, "row", row)
    
    for col_idx, element in enumerate(row):
        print("col_idx", col_idx, "element", element)
       
        # update the matrix M: square each element
        M[row_idx, col_idx] = element ** 2

In [None]:
# chaque élément de M a maintenant été élevé au carré
M

## Utilisation d'*arrays* dans des conditions

Losqu'on s'intéresse à des conditions sur tout on une partie d'un *array*, on peut utiliser `any` ou `all` :

In [None]:
M

In [None]:
if (M > 5).any():
    print("au moins un élément de M est plus grand que 5")
else:
    print("aucun élément de M n'est plus grand que 5")

In [None]:
if (M > 5).all():
    print("tous les éléments de M sont plus grands que 5")
else:
    print("tous les éléments de M sont plus petits que 5")

## *Type casting*

On peut créer une vue d'un autre type que l'original pour un *array*

In [None]:
M = array([[-1,2], [0,4]])
M.dtype

In [None]:
M2 = M.astype(float)
M2

In [None]:
M2.dtype

In [None]:
M3 = M.astype(bool)
M3