# Module Numpy

Ce module est **indispensable** pour le calcul scientifique en Python. Il sert de base à de multiples autres modules  scientifiques (scipy, pandas, scikit-learn, matplotlib, etc).

Il permet de travailler sur des tableaux et des matrices à *n*-dimensions de manière optimisée, propose un tas de fonctions mathématiques et introduit la notion de **vectorisation**.

(Il est écrit majoritairement en C et Python pour accélérer la vitesse d'exécution).

Vous pouvez retrouver toute la documentation sur cette bibliothèque ici : https://numpy.org/doc/stable/user/index.html




In [1]:
import numpy

Par convention, vous remarquerez que la plupart du temps, on importe numpy en utilisant l'alias `np`

In [2]:
import numpy as np

## Nouvel Objet : le numpy array (ou *ND*-array)

Numpy introduit un nouveau type d'objet : le numpy array.

Les objets de type *array* correspondent à des tableaux à une ou plusieurs dimensions et permettent d'effectuer du calcul vectoriel. Par contre, ils ne peuvent contenir qu'un seul type de donnée (entier, flottant, etc).

Ils sont beaucoup plus efficaces que des listes pour le calcul (que ce soit en termes de mémoire ou de vitesse d'exécution).

**Remarque** : Il ne faut quasiment jamais utiliser de boucles sur les numpy arrays, préférez la vectorisation!


#### Comparaisons Liste Python vs Numpy arrays

| Liste Python                     | Numpy Array               |
|:--------------------------------:|:-------------------------:| 
| Typage dynamique                 | Typage fixé à la création |
| Redimensionnable                 | "taille fixe"             |
| dédié au stockage d'informations | dédié au calcul           |
| gourmand en mémoire              | léger en mémoire          |
| peu performant                   | très performant           |



### 1.1 Création d'arrays

La fonction `numpy.array()` convertit un objet séquentiel (comme une liste ou un tuple) en un objet de type array.

In [3]:
data = [12, 9, 16, 14, 8, 20]

vect = np.array(data)
print(type(vect))
vect

<class 'numpy.ndarray'>


array([12,  9, 16, 14,  8, 20])

### Matrices

In [4]:
mat = np.array([[1,2,3],[4,5,6]])
mat

array([[1, 2, 3],
       [4, 5, 6]])

In [5]:
mat3D = np.array([[[1, 2], [2, 3]], [[4, 5], [5, 6]]])
mat3D

array([[[1, 2],
        [2, 3]],

       [[4, 5],
        [5, 6]]])

Il existe plein d'autres façons de créer des numpy arrays :

  * `np.zeros()` : créé des arrays de 0
  * `np.ones()` : créé des arrays de 1
  * `np.arange()` : reproduit le fonctionnement de `range()`
  * `np.loadtxt()`: Charge des données depuis un fichier texte
  * etc (https://numpy.org/doc/stable/user/absolute_beginners.html#how-to-create-a-basic-array)
    

In [6]:
np.loadtxt("data.txt", comments="#")

array([[ 12. ,  31. ,   0. ],
       [  1. , 322. ,   6. ],
       [456. ,  12. , -12.5]])

### 1.3 Attributs

Voici quelques attributs intéressants pour décrire un objet array :

  * `.ndim` renvoie le nombre de dimensions (par exemple, 1 pour un vecteur et 2 pour une matrice).
  * `.shape` renvoie les dimensions sous forme d'un tuple. Dans le cas d'une matrice (array à deux dimensions), la première valeur du tuple correspond au nombre de lignes et la seconde au nombre de colonnes.
  * `.size` renvoie le nombre total d'éléments contenus dans l'array.


In [7]:
a = np.random.randint(10, size=5)       # 1D array (vecteur)
a

array([9, 8, 9, 6, 4])

In [8]:
b = np.random.randint(10, size=(3, 3))  # 2D array (matrice)
b

array([[2, 1, 0],
       [8, 5, 0],
       [1, 1, 3]])

In [9]:
print("Pour a: ndim = {} ; shape = {} ; size = {}".format(a.ndim, a.shape, a.size))
print("Pour b: ndim = {} ; shape = {} ; size = {}".format(b.ndim, b.shape, b.size))

Pour a: ndim = 1 ; shape = (5,) ; size = 5
Pour b: ndim = 2 ; shape = (3, 3) ; size = 9


## 2 Indexation et Slice

### 2.1 Indexation

Le fonctionnement des indexes et des *slices* en Numpy est identique à celui de Python pour les listes

**Arrays 1D**

In [10]:
a

array([9, 8, 9, 6, 4])

In [11]:
a[0]

9

In [12]:
a[-1]

4

In [13]:
a[7] #Erreur lorsqu'on accède à un indice plus grand que la taille du numpy array

IndexError: index 7 is out of bounds for axis 0 with size 5

Pour des matrices (arrays à 2 dimensions), le schéma ci-dessous s'applique :

<img src="https://python.sdv.univ-paris-diderot.fr/img/array_2D_lignes_colonnes.png" alt="array2D_index" style="width: 400px;"/>

On utilise la syntaxe `b[i, j]` qui renvoie l'élément à la **ligne** d'indice **i** et à la **colonne** d'indice **j**. Notez que NumPy suit la convention mathématiques des matrices, à savoir, on définit toujours un élément par sa ligne puis par sa colonne. 

**Arrays 2D**

In [14]:
b

array([[2, 1, 0],
       [8, 5, 0],
       [1, 1, 3]])

In [15]:
b[0,2]

0

In [16]:
b[-1,0]

1

In [17]:
b[-2,-3]

8

In [18]:
b[0]

array([2, 1, 0])

### 2.2 Slices sur les 1D-arrays

Fonctionnement aussi identique aux listes Python.

In [19]:
a

array([9, 8, 9, 6, 4])

In [20]:
a[2:]

array([9, 6, 4])

In [21]:
a[1:3]

array([8, 9])

### 2.3 Slices sur les 2D-arrays (et ND-arrays)

On applique la même logique mais axe par axe.

In [22]:
b

array([[2, 1, 0],
       [8, 5, 0],
       [1, 1, 3]])

In [23]:
b[1:, 2:] # 2 dernières lignes et dernière colonne

array([[0],
       [3]])

In [24]:
b[0,:] # (== b[0]) Que la 1ere ligne

array([2, 1, 0])

In [25]:
b[:,0] # Que la 1ère colonne

array([2, 8, 1])

## 3. Opérations sur les arrays

Le premier avantage de Numpy est sa rapidité de calcul sur les tableaux/matrices. Cela est du notamment à l'utilisation de la vectorisation.

### 3.1 Vectorisation

Le calcul vectoriel est le fait de pouvoir réaliser des opérations (mathématiques) simultanément sur tous les éléments d'un array (sans passer par des boucles !)



**Arrays 1D**

In [26]:
a

array([9, 8, 9, 6, 4])

In [27]:
a + 1

array([10,  9, 10,  7,  5])

In [28]:
a - 10

array([-1, -2, -1, -4, -6])

$-(\frac{1}{2} a +1)^2$

In [29]:
-(0.5*a + 1) ** 2

array([-30.25, -25.  , -30.25, -16.  ,  -9.  ])

**Arrays 2D**

In [30]:
b

array([[2, 1, 0],
       [8, 5, 0],
       [1, 1, 3]])

In [31]:
b * 2

array([[ 4,  2,  0],
       [16, 10,  0],
       [ 2,  2,  6]])

Ce type de fonctionnalité  marche également entre des arrays. Numpy appelle cela le *broadcasting*

**Arrays 1D**

In [32]:
c = a + np.array([10,9,8,7,6])
print(a)
print(c)

[9 8 9 6 4]
[19 17 17 13 10]


**Arrays 2D (matrices)**


<img src="https://numpy.org/doc/stable/_images/np_matrix_arithmetic.png" alt="" style="width: 800px;"/>

[Source Doc Numpy](https://numpy.org/doc/stable/user/absolute_beginners.html#creating-matrices)

In [33]:
data = np.array([[1, 2], [3, 4]])
ones = np.array([[1, 1], [1, 1]])
data + ones

array([[2, 3],
       [4, 5]])

### 3.2 Fonctions Mathématiques

In [34]:
a

array([9, 8, 9, 6, 4])

In [35]:
a.sum()

36

In [36]:
a.min()

4

In [37]:
a.std()

1.9390719429665317

Il y a énormément de fonctions mathématiques disponible sous numpy :
 * trigonométrie (https://numpy.org/doc/stable/reference/routines.math.html#trigonometric-functions)
 * exposants et logarithmes (https://numpy.org/doc/stable/reference/routines.math.html#exponents-and-logarithms)
 * algèbre linéaire : produit vectoriel, produit matriciel, etc (https://numpy.org/doc/stable/reference/routines.linalg.html)
 * etc

## Exercice

 * Reprendre l'exercice 7.7.1 en utilisant `np.loadtxt()` et sans boucle!
 * Afficher la note minimale et maximale
 * Appliquer un bonificateur +1.5 à l'ensemble des notes et ré-afficher la nouvelle moyenne

In [38]:
# On telecharge le fichier notes.txt
!wget https://python.sdv.univ-paris-diderot.fr/data-files/notes.txt

--2021-03-25 14:06:35--  https://python.sdv.univ-paris-diderot.fr/data-files/notes.txt
Resolving python.sdv.univ-paris-diderot.fr (python.sdv.univ-paris-diderot.fr)... 194.254.61.54, 2001:660:3301:8003::54
Connecting to python.sdv.univ-paris-diderot.fr (python.sdv.univ-paris-diderot.fr)|194.254.61.54|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 93 [text/plain]
Saving to: ‘notes.txt’


2021-03-25 14:06:35 (8.21 MB/s) - ‘notes.txt’ saved [93/93]



In [45]:
# Chargment du fichier
notes = np.loadtxt("notes.txt")
# Affichage des notes minimales et maximales
print("Note Minimale : ",notes.min())
print("Note Maximale : ",notes.max())
# Bonificateur de +1.5 a l'ensemble des notes
notes_new = notes + 1.5
# Moyenne de ces nouvelles notes
print("Moyenne : {:.2f}".format(notes_new.mean())) # Sur le nouveau numpy array "notes_new"

Note Minimale :  5.5
Note Maximale :  29.0
Moyenne : 14.88
