<br>
<div align="right">Enseignant : Aric Wizenberg</div>
<div align="right">E-mail : icarwiz@yahoo.fr</div>
<div align="right">Année : 2018/2019</div><br><br><br>
<div align="center"><span style="font-family:Lucida Caligraphy;font-size:32px;color:darkgreen">Master 2 MASERATI - Cours de Python</span></div><br><br>
<div align="center"><span style="font-family:Lucida Caligraphy;font-size:24px;color:#e60000">Bases de Numpy</span></div><br><br>
<hr>

# Introduction

Lorsque l'on veut travailler avec des données en Python, il y a deux modules incontournables : **pandas** et **numpy**

Commençons par charger le module en mémoire

In [1]:
import numpy as np

Numpy permet de remplacer plusieurs modules de le bibliothèque standard, en proposant des implémentations plus efficaces en temps de calcul et unifiées :
* random
* math
* array
* les quelques fonctions mathématiques natives de Python (min, max, etc.)

Aujourd'hui, numpy est un module incontournable lorsque l'on fait quoique ce soit qui implique des calculs mathématiques

# Les ndarrays

## Bases

Le type **numpy.ndarray** (N-dimensional array), est le type Python créé pour implémenter les **vecteurs et matrices aux sens mathématique**, c'est ce qui nous permettra de traiter des séries et des tables de données.

### list et ndarray

Pourquoi ne pas utiliser les **list** de base Python (ou même des listes de listes pour les tables de données)? Pourquoi avoir crée un nouveau type.

Parce que c'est à la fois l'avantage et l'inconvéniant des **list** de base Python : elles peuvent contenir au sein d'une même liste des données de types variés.
- C'est un avantage parce que ça permet **une grande souplesse**
- C'est un inconvéniant parce que ça **ralentit énormément les traitements**
- C'est inutile parce que lorsque nous parlons de **série de données** en Data Science, on ne s'attend pas à ce qu'une série de données contiennent des types différents.

Dans une table de données :
- la série "date" ne contient a priori que des dates.
- la série "age" ne contient que des nombres.
- la série "nom" ne contient que des chaines de caractères.

C'est pour ça que chaque **ndarray** est une liste de données avec un type de données unique appelé **dtype** (data type).

### Le dtype

Il y a un nombre plus important de dtype qu'il n'y a de types Python de base, mais en gros :
- les **floatXX** sont des **float** (avec XX étant souvent égal à 64, c'est le nombre de bits)
- les **intXX** sont des **int** (avec XX étant souvent égal à 64, c'est le nombre de bits)
- les **bool** sont comme en Python classique
- les **object** sont des objets Python, souvent des **str**

<div class="alert alert-block alert-info"><b>Pour aller plus loin :</b> <a href=https://docs.scipy.org/doc/numpy-1.13.0/reference/arrays.dtypes.html> Doc officielle Numpy sur les <b>dtypes</b></a></div>

In [None]:
np.array([True, True, False]).dtype

### La shape

En plus du dtype, une ndarray, contrairement à une list, a nativement une **shape**, c'est à dire qu'elle peut par nature avoir plusieurs dimensions.

Pour les séries de données, nous utiliserons des vecteurs. La shape d'un vecteur de **__N__** éléments est :
```python
(N, )
```

Pour les séries de données, nous utiliserons des matrices à 2 dimensions. La shape d'une matrice de **__L__** lignes et **__C__** colonnes est :
```python
(L, C)
```


## Création manuelle

### Création d'un ndarray à une dimension

##### Déclaration simple

On peut créer une **ndarray** à partir d'une **list** ou d'un **tuple**

In [2]:
mon_array = np.array([1, 4, 9, 16, 25.0, 36, 49, 64])

In [3]:
type(mon_array)

numpy.ndarray

En utilisant la fonction **numpy.array()**, le dtype adopté sera celui de l'élement ayant le dtype le plus élaboré. 

On utilise l'attribut **.dtype** pour savoir le **dtype** d'une **ndarray**

In [4]:
mon_array.dtype

dtype('float64')

On utilise l'attribut **.shape** pour savoir la **shape** d'une **ndarray**

In [5]:
mon_array.shape

(8,)

##### Série d'entiers

On peut aussi générer directement une ndarray

**arange()** (array range) fonctionne exactement sur le même mode que les **range**

In [6]:
np.arange(3, 16)

array([ 3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

##### Série de floats linéairement répartis

Générer l'ensemble des **11** nombres linéairement répartis entre **__0__** et **__1__** (inclus) :

In [7]:
np.linspace(0, 1, 11)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

##### Série de floats logarithmétiquement répartis

Générer l'ensemble des 11 nombres logarithmétiquement répartis entre $10^0$ et $10^1$ (inclus), donc entre 1 et 10 :

In [8]:
np.logspace(0, 1, 11)

array([ 1.        ,  1.25892541,  1.58489319,  1.99526231,  2.51188643,
        3.16227766,  3.98107171,  5.01187234,  6.30957344,  7.94328235,
       10.        ])

**Attention** : logspace est par défaut en base 10

### Création d'un ndarray à deux dimensions

Pour créer un ndarray à deux dimensions, il faudra deux niveaux d'emboitement.

<div class="alert alert-block alert-success">
<b>Important :</b> 
    
- Le premier niveau se réfère aux **lignes**
- Le deuxième niveau se réfère aux **colonnes**
</div>

##### Déclaration simple

In [9]:
np.array([[1, 2.5, 3], [4, 5, 6], [7.1, 8.2, 9]])

array([[1. , 2.5, 3. ],
       [4. , 5. , 6. ],
       [7.1, 8.2, 9. ]])

Pour simplifier la lecture, on écrit souvent cela de manière éclatée :

In [10]:
ma_matrice = np.array([
    [1, 2.5, 3], 
    [4, 5, 6],
    [7.1, 8.2, 9]
])

ma_matrice

array([[1. , 2.5, 3. ],
       [4. , 5. , 6. ],
       [7.1, 8.2, 9. ]])

On sépare ainsi les lignes de manière claire

 **NB** : On peut utiliser indifféremment des lists ou des tuples dans cette définition.

##### Création par reshaping d'un vecteur

On peut aussi utiliser la méthode **.reshape()** pour exploiter les générateurs présentés précédemment et transformer le résultat en matrice

In [11]:
np.linspace(0, 0.4, 6).reshape(3, 2)

array([[0.  , 0.08],
       [0.16, 0.24],
       [0.32, 0.4 ]])

In [12]:
np.arange(10).reshape(2, 5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

## Indiçage

### Indiçage direct d'un vecteur

In [13]:
mon_array

array([ 1.,  4.,  9., 16., 25., 36., 49., 64.])

Avec les vecteurs, c'est simple, ça fonctionne comme pour les listes

In [14]:
mon_array[1]

4.0

In [15]:
mon_array[-1]

64.0

##### slicing

Comme pour les listes, on peut utiliser le slicing

In [16]:
mon_array[:3]

array([1., 4., 9.])

##### fancy indexing

Avec les ndarrays, on peut aussi spécifier une liste d'éléments à sélectionner

In [17]:
mon_array[[0, 4, 2]]

array([ 1., 25.,  9.])

### Indiçage direct d'une matrice

In [18]:
ma_matrice

array([[1. , 2.5, 3. ],
       [4. , 5. , 6. ],
       [7.1, 8.2, 9. ]])

Dans une ndarray à deux dimensions, on indice en utilisant un tuple (donc des nombres séparés par des virgules pour représenter les deux dimensions de l'array)

In [19]:
ma_matrice[1, 1]

5.0

Si l'on ne met qu'une valeur et pas deux, on ne traitera que des lignes entières (car c'est la première dimension)

In [20]:
ma_matrice[1]

array([4., 5., 6.])

##### slicing

In [21]:
ma_matrice[:2, :2]

array([[1. , 2.5],
       [4. , 5. ]])

Pour obtenir une colonne, il faut dire que l'on veut l'ensemble des lignes, donc le premier terme du tuple sera juste l'opérateur **__:__** (deux-points) sans nombre autour, comme pour les listes, afin de dire : "du début, à la fin, sans limite"

In [22]:
ma_matrice[:, 1]

array([2.5, 5. , 8.2])

##### fancy indexing

In [23]:
ma_matrice[[0, 2], :]

array([[1. , 2.5, 3. ],
       [7.1, 8.2, 9. ]])

## Autres attributs

Outre les attributs shape et dtype que l'on a déjà vu, il est bon de connaitre les attributs suivants

##### Dimensions

La longueur de cette shape est le nombre de ses dimensions

In [24]:
len(ma_matrice.shape)

2

Il existe une propriété prédéfinie

In [25]:
ma_matrice.ndim

2

##### Nombre d'éléments

In [26]:
ma_matrice.size

9

Attention, cela diffère de sa **len** qui est la taille de sa première dimension

In [27]:
len(ma_matrice)

3

##### Transposée

In [28]:
ma_matrice.T

array([[1. , 4. , 7.1],
       [2.5, 5. , 8.2],
       [3. , 6. , 9. ]])

<div class="alert alert-block alert-info"><b>Pour aller plus loin :</b> <a href=https://docs.scipy.org/doc/numpy/reference/arrays.ndarray.html> Doc officielle Numpy sur les <b>ndarrays</b></a></div>

# Calculs avec ndarrays

L'un des grands avantages des ndarrays, c'est qu'elles peuvent entrer naturellement dans le cadre de calculs mathématiques

## Calculs simples avec ndarrays

In [29]:
mon_array

array([ 1.,  4.,  9., 16., 25., 36., 49., 64.])

In [30]:
print("mon_array + 5 =", mon_array + 5)
print("mon_array - 5 =", mon_array - 5)
print("mon_array * 2 =", mon_array * 2)
print("mon_array / 2 =", mon_array / 2)
print("mon_array // 2 =", mon_array // 2)

mon_array + 5 = [ 6.  9. 14. 21. 30. 41. 54. 69.]
mon_array - 5 = [-4. -1.  4. 11. 20. 31. 44. 59.]
mon_array * 2 = [  2.   8.  18.  32.  50.  72.  98. 128.]
mon_array / 2 = [ 0.5  2.   4.5  8.  12.5 18.  24.5 32. ]
mon_array // 2 = [ 0.  2.  4.  8. 12. 18. 24. 32.]


## Application de fonctions numpy

Il existe des fonctions mathématiques pour tous les usages dans Numpy

In [31]:
np.log(mon_array)

array([0.        , 1.38629436, 2.19722458, 2.77258872, 3.21887582,
       3.58351894, 3.8918203 , 4.15888308])

**Nota bene** : il s'agit bien du logarithme naturel (ou néperien), plus couramment appelé **ln**

In [32]:
np.exp(np.log(mon_array))

array([ 1.,  4.,  9., 16., 25., 36., 49., 64.])

In [33]:
x_trigo = np.linspace(0, 2*np.pi, 9)
x_trigo

array([0.        , 0.78539816, 1.57079633, 2.35619449, 3.14159265,
       3.92699082, 4.71238898, 5.49778714, 6.28318531])

In [None]:
np.degrees(x_trigo)

In [None]:
np.cos(x_trigo)

In [None]:
np.round(np.cos(x_trigo), 2)

In [None]:
np.round(np.sin(x_trigo), 2)

## Synthétiser les données

In [None]:
print('Somme : ',      mon_array.sum())
print('Moyenne : ',    mon_array.mean())
print('Ecart-type : ', mon_array.std())
print('Variance : ',   mon_array.var())
print('Minimum : ',    mon_array.min())
print('Maximum : ',    mon_array.max())

## Pour aller plus loin : multiplication de matrices

Rappel sur les multiplications de matrices

$ M_{(m,k)}.M_{(k,n)} = M_{(m,n)} $ 

$ \begin{bmatrix} a_1 & a_2 & a_3 \\ b_1 & b_2 & b_3 \end{bmatrix} . 
\begin{bmatrix} \alpha_1 & \alpha_2 \\ \beta_1 & \beta_2 \\ \gamma_1 & \gamma_2 \end{bmatrix} = 
\begin{bmatrix} a_1.\alpha_1 + a_2.\beta_1 + a_3.\gamma_1 & a_1.\alpha_2 + a_2.\beta_2 + a_3.\gamma_2 \\ 
b_1.\alpha_1 + b_2.\beta_1 + b_3.\gamma_1 & b_1.\alpha_2 + b_2.\beta_2 + b_3.\gamma_2 \end{bmatrix}$

Pour multiplier deux matrices, on peut utiliser l'opérateur **__@__**

In [None]:
ma_matrice

In [None]:
ma_matrice.T @ ma_matrice

In [None]:
ma_matrice @ ma_matrice.T

# numpy.random

Il s'agit d'un générateur de nombre pseudo-aléatoires. Il permet de générer un vecteur de N éléments suivant une loi de probabilité

In [None]:
NOMBRE_ELEMENTS = 30

##### Distributions uniformes

Entier pris au hasard dans [1, 5]

In [None]:
np.random.randint(1, 5, NOMBRE_ELEMENTS)

Loi uniforme sur [0, 1[

In [None]:
np.random.random(NOMBRE_ELEMENTS)

Loi uniforme sur [0, 1[

##### Modalités

Choix entre des modalités prédéterminées

In [None]:
np.random.choice(['Pile', 'Face'], NOMBRE_ELEMENTS).dtype

##### Normale

$ X \sim \mathcal{N}(\mu,\,\sigma^{2})\,$ 

In [None]:
np.random.normal(0, 1, NOMBRE_ELEMENTS)

Il en existe un grand nombre d'autres :
- Chi squared
- Binomiale
- Poisson
- etc.

<div class="alert alert-block alert-info"><b>Pour aller plus loin :</b> <a href=https://docs.scipy.org/doc/numpy-1.13.0/reference/routines.random.html> Doc officielle Numpy sur le sous-module <b>numpy.random</b></a></div>

# Scipy et sympy

le module **numpy** a aussi deux modules cousins : **scipy** et **sympy** qui ne seront pas présentées en détail dans ce cours. Sachez juste qu'ils existent :
* **scipy** permet d'avoir accès à des ensembles de fonctions couvrant des domaines des mathématiques plus avancés : statistiques, interpolation, analyse des signals, transformations de Fourier, optimisation... Le sous-module qui va certainement vous intéresser le plus est le sous-module **scipy.stats**.
* **sympy** permet de faire des mathématiques basées sur les symboles (résolution d'équations, intégrales, etc.)

<div class="alert alert-block alert-info"><b>Pour aller plus loin :</b> <br>
<a href=https://docs.scipy.org/doc/scipy/reference/> Doc officielle de <b>scipy</b></a><br>
<a href=https://docs.scipy.org/doc/scipy/reference/tutorial/stats.html> Tutorial pour l'utilisation de <b>scipy.stats</b></a><br>
<a href=http://www.sympy.org/en/index.html> Doc officielle de <b>sympy</b></a>
</div>