## NumPy

NumPy est le package fondamental pour le calcul scientifique en Python. Il s'agit d'une bibliothèque Python qui fournit un objet de tableau multidimensionnel, tels que des vecteurs et des matrices, et une Variété de procédures pour des opérations matricielles rapides, y compris des opérations mathématiques, logiques, de forme, de tri, de sélection, d'E / S , transformées de Fourier discrètes, algèbre linéaire de base, opérations statistiques de base, simulation aléatoire et bien plus encore.

Les trois principales fonctionnalités de NumPy sont: ses fonctions mathématiques (par exemple `sin`,` log`, `floor`), son sous-module` random` (utile pour l'échantillonnage aléatoire) et l'objet NumPy `ndarray`.

Un tableau NumPy est similaire à une matrice mathématique à n dimensions. Par exemple,

$$\begin{bmatrix}
    x_{11} & x_{12} & x_{13} & \dots  & x_{1n} \\
    x_{21} & x_{22} & x_{23} & \dots  & x_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    x_{d1} & x_{d2} & x_{d3} & \dots  & x_{dn}
\end{bmatrix}$$


Un tableau NumPy peut être unidimensionnel (par exemple [1, 5, 20, 34, ...]), bidimensionnel (comme ci-dessus) ou plusieurs dimensions (image coleur). Il est important de noter que toutes les lignes et colonnes du tableau à 2 dimensions ont la même longueur. Ceci est vrai pour toutes les dimensions des tableaux.

In [91]:
# On doit importer numpy pour pouvoir l'utiliser
import numpy as np

In [92]:
list_de_lists_1 = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
print(list_de_lists_1)

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]


In [93]:
rectangulaire = np.array(list_de_lists_1)
print(rectangulaire)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [94]:
list_de_lists_2 = [[1, 2], [3, 4, 5], [6, 7, 8, 9]]
print(list_de_lists_2)

[[1, 2], [3, 4, 5], [6, 7, 8, 9]]


In [95]:
non_rectangulaire = np.array(non_rectangulaire)
print(non_rectangulaire)

[list([1, 2]) list([3, 4, 5]) list([6, 7, 8, 9])]


Pourquoi sont-ils affichés différemment? 

Examinons leur _shape_ et _data type_ (`dtype`).

In [96]:
print(rectangulaire.shape, rectangulaire.dtype)
print(non_rectangulaire.shape, non_rectangulaire.dtype)

(3, 3) int64
(3,) object


Le premier cas, `rectangulaire` est un tableau 3x3 bidimensionnel (d'entiers). En revanche, `non_rectangulaire` est un tableau de longueur 3 à 1 dimension (de _objects_, à savoir des objets `list`).

Nous pouvons également créer une variété de tableaux avec les fonctions pratiques de NumPy.

In [97]:
np.linspace(1, 10, 10)

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [98]:
np.arange(1, 10, 1)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [99]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [100]:
np.diag([1,2,3,4])

array([[1, 0, 0, 0],
       [0, 2, 0, 0],
       [0, 0, 3, 0],
       [0, 0, 0, 4]])

In [101]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

Nous pouvons également convertir le `dtype` d'un tableau après sa création.

In [102]:
print(np.linspace(1, 10, 10).dtype)
print(np.linspace(1, 10, 10).astype(int).dtype)

float64
int64


Pourquoi tout cela est-il important?

Les tableaux sont souvent plus efficaces en termes de code et de ressources pour certains calculs.

Pour explorer les avantages du code, essayons de faire des calculs sur ces nombres.
Tout d'abord, calculons la somme de tous les nombres et regardons les différences dans le code nécessaire pour `list_de_lists_1`, `rectangulaire` et `rectangulaire`.

In [103]:
print(sum([sum(liste_interne) for liste_interne in list_de_lists_1]))
print(rectangulaire.sum())

45
45


La somme des nombres dans un tableau est beaucoup plus facile par rapport à une liste de listes. Nous n'avons pas à creuser dans une hiérarchie de listes, nous utilisons simplement la méthode `sum` de `rectangulaire`. Cela fonctionne-t-il toujours pour `non_rectangulaire`?

In [104]:
print(non_rectangulaire.sum())

[1, 2, 3, 4, 5, 6, 7, 8, 9]


On doit ce rappeler que `non_rectangulaire` est un tableau à une dimension d'objets `list`. La méthode `sum` essaie de les additionner: première liste + deuxième liste + troisième liste. L'ajout de listes entraîne la _concaténation_.

In [105]:
# concaténation des trois listes
print([1, 2] + [3, 4, 5] + [6, 7, 8, 9])

[1, 2, 3, 4, 5, 6, 7, 8, 9]


Ceci devient encore plus clair lorsque nous essayons de faire la somme des lignes ou des colonnes individuellement.

In [106]:
print('Sommes sur les lignes: ', rectangulaire.sum(axis=1))
print('Sommes sur les colonnes: ', rectangulaire.sum(axis=0))

Sommes sur les lignes:  [ 6 15 24]
Sommes sur les colonnes:  [12 15 18]


En général, il est beaucoup plus naturel de faire des opérations mathématiques avec des tableaux qu'avec des listes.

In [107]:
a = np.array([1, 2, 3, 4, 5])
print(a + 5) # ajouter un scalaire
print(a * 5) # multiplier par un scalaire
print(a / 5) # diviser par un scalaire (notez le float!)

[ 6  7  8  9 10]
[ 5 10 15 20 25]
[0.2 0.4 0.6 0.8 1. ]


In [108]:
b = a + 1
print(a + b) # somme de deux tableaux
print(a * b) # multiplier deux tableaux (élément par élément)
print(a / b.astype(float)) # division de deux tableux (élément par élément)

[ 3  5  7  9 11]
[ 2  6 12 20 30]
[0.5        0.66666667 0.75       0.8        0.83333333]


Les tableaux peuvent également être utilisés pour l'algèbre linéaire, agissant comme des vecteurs, des matrices, des tensors, etc.

In [109]:
print(np.dot(a, b)) # produit interne de deux tableaux
print(np.outer(a, b)) # produit externe de deux tableaux

70
[[ 2  3  4  5  6]
 [ 4  6  8 10 12]
 [ 6  9 12 15 18]
 [ 8 12 16 20 24]
 [10 15 20 25 30]]


Les tableaux ont beaucoup à nous offrir en termes de représentation et d'analyse des données, car nous pouvons facilement appliquer des fonctions mathématiques à des ensembles de données ou à des sections d'ensembles de données. La plupart du temps, nous n'aurons aucun problème à utiliser les tableaux, mais il est bon de garder à l'esprit les restrictions concernant la forme et le type de données.

Ces restrictions autour de `shape` et `dtype` permettent aux objets `ndarray` d'être beaucoup plus performants par rapport à une `list` Python générale. Cela permet un stockage mémoire contigu et une recherche de fonction cohérente. Lorsqu'une `liste` Python est additionnée, Python doit déterminer au moment de l'exécution la manière correcte d'ajouter chaque élément de la liste ensemble. Lorsqu'un `ndarray` est additionné,`NumPy` connaît déjà le type de chaque élément (et ils sont cohérents), ainsi il peut les additionner sans vérifier la fonction d'ajout correcte pour chaque élément.

Voyons cela en action. Nous allons d'abord créer une liste de 100000 éléments aléatoires, puis chronométrer la fonction de `sum`.

In [110]:
time_list = [np.random.random() for _ in range(100000)]
time_arr = np.array(time_list)

In [111]:
%%timeit 
sum(time_list)

1000 loops, best of 3: 463 µs per loop


In [112]:
%%timeit
np.sum(time_arr)

The slowest run took 5.76 times longer than the fastest. This could mean that an intermediate result is being cached.
10000 loops, best of 3: 39 µs per loop


### Fonctions universelles

`NumPy` définit un` ufunc` qui lui permet d'exécuter efficacement des fonctions sur des tableaux. Beaucoup de ces fonctions sont intégrées, telles que `np.cos`, et implémentées dans du code `C` compilé hautement performant. Ces fonctions peuvent effectuer une `broadcasting` qui leur permet de gérer automatiquement des opérations entre des tableaux de formes différentes, par exemple deux tableaux de même forme, ou un tableau et un scalaire.

### Changer de forme (Shape)

Souvent, on a des tableaux qui ont une forme et on veut les transformer en une forme différente plus adaptée à une opération spécifique.

In [113]:
mat = np.array([[1, 2, 3, 0],
                [4, 5, 6, 1],
                [7, 8, 9, 2]])
mat.shape

(3, 4)

In [114]:
mat.reshape(6, 2).shape

(6, 2)

In [115]:
mat.reshape(4, 5)

ValueError: ignored

In [116]:
mat.ravel().shape

(12,)

In [117]:
mat.transpose().shape

(4, 3)

In [118]:
mat.reshape(-1,6).shape

(2, 6)

### Combinaison de tableaux (Arrays)

In [119]:
a = np.array([1, 2, 3, 4, 5])
b = a + 2
print(a, b)

[1 2 3 4 5] [3 4 5 6 7]


In [120]:
np.hstack((a, b))

array([1, 2, 3, 4, 5, 3, 4, 5, 6, 7])

In [121]:
np.vstack((a, b))

array([[1, 2, 3, 4, 5],
       [3, 4, 5, 6, 7]])

### Agrégation de données de base

Explorons d'autres exemples d'utilisation de tableaux, cette fois en utilisant le sous-module `random` de NumPy pour créer des __fausses données__. La simulation de données est utile pour tester et prototyper de nouvelles techniques ou de nouveaux codes, et certains algorithmes nécessitent même une entrée aléatoire.

In [122]:
np.random.seed(42)
caffe_vente_avril = np.random.randint(25, 200, size=(4, 7))
print(caffe_vente_avril)

[[127 117  39 131  96  45 127]
 [146  99 112 141 124 128 176]
 [155 174  77  26 112 182  62]
 [154  45 185  82  46 113  73]]


In [123]:
# Moyenne des ventes
print('le nombre moyen de cafés vendus en avril: %d' % caffe_vente_avril.mean())

le nombre moyen de cafés vendus en avril: 110


In [124]:
# Moyenne des ventes aux lundis
print('le nombre moyen de cafés vendus le lundi: %d' % caffe_vente_avril[:, 1].mean())

le nombre moyen de cafés vendus le lundi: 108


In [125]:
# jour avec le plus de ventes
print('Le jour avec les ventes les plus élevées est: %d' % (caffe_vente_avril.argmax() + 1))

Le jour avec les ventes les plus élevées est: 24


Certaines des fonctions que nous avons utilisées ci-dessus n'existent pas en Python standard et nous sont fournies par NumPy. De plus, nous voyons que nous pouvons utiliser la forme d'un tableau pour nous aider à calculer des statistiques sur un sous-ensemble de nos données (par exemple, le nombre moyen de cafés vendus le lundi).