# Une introduction rapide à la manipulation de données numériques avec Python et NumPy.


## Qu'est-ce que NumPy ?

[NumPy](https://docs.scipy.org/doc/numpy/index.html) est l'abréviation de Python numérique. Il s'agit de la base de toutes sortes de calculs scientifiques et numériques en Python.

Et comme l'apprentissage automatique consiste à transformer les données en nombres et à découvrir les modèles, NumPy entre souvent en jeu.

<img src="images/numpy-6-step-ml-framework-tools-numpy-highlight.png" alt="a 6 step machine learning framework along will tools you can use for each step" width="700"/>

## Pourquoi NumPy ?

Vous pouvez effectuer des calculs numériques en utilisant du Python pur. Au début, vous pouvez penser que Python est rapide, mais une fois que vos données deviennent importantes, vous commencerez à remarquer que le temps de calcul augmente.

L'une des principales raisons pour lesquelles vous utilisez NumPy est qu'il est rapide. En coulisses, le code a été optimisé pour être exécuté en C. Il s'agit d'un autre langage de programmation, qui peut faire les choses beaucoup plus rapidement que Python.

L'avantage de cette optimisation  est que vous n'avez pas besoin de connaître le langage C pour en profiter. Vous pouvez écrire vos calculs numériques en Python à l'aide de NumPy et bénéficier des avantages de la vitesse supplémentaire.


[Vectorization](https://en.wikipedia.org/wiki/Vectorization) 

[broadcasting](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html#module-numpy.doc.broadcasting).




## 0. Importer NumPy



In [None]:
import numpy as np

## 1. Types de données et attributs

**NOTE:** Il est important de se rappeler que le type principal de NumPy est `ndarray`, même si les différents types de tableaux sont toujours des `ndarray`. Cela signifie qu'une opération que vous faites sur un tableau, fonctionnera sur un autre.

In [None]:
# 1-dimensonal array, also referred to as a vector
a1 = np.array([1, 2, 3])

# 2-dimensional array, also referred to as matrix
a2 = np.array([[1, 2.0, 3.3],
               [4, 5, 6.5]])

# 3-dimensional array, also referred to as a matrix
a3 = np.array([[[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9]],
                [[10, 11, 12],
                 [13, 14, 15],
                 [16, 17, 18]]])

In [None]:
a1.shape, a1.ndim, a1.dtype, a1.size, type(a1)

In [None]:
a2.shape, a2.ndim, a2.dtype, a2.size, type(a2)

In [None]:
a3.shape, a3.ndim, a3.dtype, a3.size, type(a3)

In [None]:
a1

In [None]:
a2

In [None]:
a3

### Anatomie d'un tableau 

<img src="images/numpy-anatomy-of-an-array-updated.png" alt="anatomy of a numpy array"/>

Termes clés :
* **Array** - Une liste de nombres, pouvant être multidimensionnelle.
**Scalar** - Un seul nombre (par exemple, `7`).
**Vector** - Une liste de nombres à une dimension (par exemple, `np.array([1, 2, 3])`).
**Matrix** - Une liste (généralement) multidimensionnelle de nombres (par exemple, `np.array([[1, 2, 3], [4, 5, 6]])`).

### pandas DataFrame à partir de tableaux NumPy

Ceci pour illustrer comment NumPy est la base de nombreuses autres bibliothèques.

In [None]:
import pandas as pd
df = pd.DataFrame(np.random.randint(10, size=(5, 3)), 
                                    columns=['a', 'b', 'c'])
df

In [None]:
a2

In [None]:
df2 = pd.DataFrame(a2)
df2

## 2. Créer des tableaux

* `np.array()`
* `np.ones()`
* `np.zeros()`
* `np.random.rand(5, 3)`
* `np.random.randint(10, size=5)`
* `np.random.seed()` - nombres pseudo-aléatoires
* Exemple de recherche dans la documentation (trouver `np.unique()` et l'utiliser)

In [None]:
# Create a simple array
simple_array = np.array([1, 2, 3])
simple_array

In [None]:
simple_array = np.array((1, 2, 3))
simple_array, simple_array.dtype

In [None]:
# Create an array of ones
ones = np.ones((10, 2))
ones

In [None]:
# The default datatype is 'float64'
ones.dtype

In [None]:
# You can change the datatype with .astype()
ones.astype(int)

In [None]:
# Create an array of zeros
zeros = np.zeros((5, 3, 3))
zeros

In [None]:
zeros.dtype

In [None]:
# Random array
random_array = np.random.randint(10, size=(5, 3))
random_array

In [None]:
# Random array of floats (between 0 & 1)
np.random.random((5, 3))

In [None]:
np.random.random((5, 3))

In [None]:
# Random 5x3 array of floats (between 0 & 1), similar to above
np.random.rand(5, 3)

In [None]:
np.random.rand(5, 3)

NumPy utilise des nombres pseudo-aléatoires, ce qui signifie que les nombres semblent aléatoires mais ne le sont pas vraiment, ils sont prédéterminés.

Pour des raisons de cohérence, vous voudrez peut-être garder les nombres aléatoires que vous générez similaires tout au long des expériences.

Pour ce faire, vous pouvez utiliser [`np.random.seed()`](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.random.seed.html).

Ce que cela fait, c'est dire à NumPy : "Je veux que tu crées des nombres aléatoires mais qu'ils restent alignés avec la valeur de départ (seed value)".




In [None]:
# Set random seed to 0
np.random.seed(0)

# Make 'random' numbers
np.random.randint(10, size=(5, 3))

In [None]:
# Make more random numbers
np.random.randint(10, size=(5, 3))

In [None]:
# Set random seed to same number as above
np.random.seed(0)

# The same random numbers come out
np.random.randint(10, size=(5, 3))

Parce que `np.random.seed()` est fixé à 0, les nombres aléatoires sont les mêmes que ceux de la cellule avec `np.random.seed()` fixé à 0 également.

Définir `np.random.seed()` n'est pas nécessaire à 100% mais il est utile de garder les nombres identiques tout au long de vos expériences.

Par exemple, supposons que vous vouliez diviser vos données de façon aléatoire en ensembles de formation et de test.

Chaque fois que vous divisez aléatoirement, vous pouvez obtenir des lignes différentes dans chaque ensemble.

Si vous partagez votre travail avec quelqu'un d'autre, il obtiendra également des lignes différentes dans chaque ensemble.

En définissant `np.random.seed()`, on s'assure qu'il y a toujours du hasard, mais on rend le hasard répétable. D'où les nombres "pseudo-aléatoires".



In [None]:
np.random.seed(0)
df = pd.DataFrame(np.random.randint(10, size=(5, 3)))
df

## 3. Visualisation des tableaux et des matrices (indexation)


Les formes de tableaux sont toujours listées dans le format `(ligne, colonne, n, n, n...)` où `n` est une dimension supplémentaire optionnelle.

Les tableaux NumPy sont affichés de l'extérieur vers l'intérieur. Cela signifie que le nombre situé à la fin de la forme est affiché en premier et que le nombre situé au début de la forme est affiché en dernier.

In [None]:
a4 = np.random.randint(10, size=(2, 3, 4, 5))
a4

In [None]:
a4.shape

In [None]:
# Get only the first 4 numbers of each single vector
a4[:, :, :, :4]

## 4. Manipuler et compiler des tableaux
* Arithmetique
    * `+`, `-`, `*`, `/`, `//`, `**`, `%`
    * `np.exp()`
    * `np.log()`
    * [Dot product](https://www.mathsisfun.com/algebra/matrix-multiplying.html) - `np.dot()`
    * Broadcasting
* Aggregation
    * `np.sum()` - faster than `.sum()`, make demo, np is really fast
    * `np.mean()`
    * `np.std()`
    * `np.var()`
    * `np.min()`
    * `np.max()`
    * `np.argmin()` - find index of minimum value
    * `np.argmax()` - find index of maximum value
    * These work on all `ndarray`'s
        * `a4.min(axis=0)` -- you can use axis as well
* Reconstruction
    * `np.reshape()`
* Transposition
    * `a3.T` 
* Opérateurs de comparaison
    * `>`
    * `<`
    * `<=`
    * `>=`
    * `x != 3`
    * `x == 3`
    * `np.sum(x > 3)`

### Arithmetique

In [None]:
a1

In [None]:
ones = np.ones(3)
ones

In [None]:
# Add two arrays
a1 + ones

In [None]:
# Subtract two arrays
a1 - ones

In [None]:
# Multiply two arrays
a1 * ones

In [None]:
# Multiply two arrays
a1 * a2

In [None]:
a1.shape, a2.shape

In [None]:
a2 * a3

In [None]:
a3

### Le Broadcasting

- Qu'est-ce que le Broadcasting ?
    - La Broadcasting est une fonctionnalité de NumPy qui effectue une opération sur plusieurs dimensions de données sans répliquer les données. Cela permet de gagner du temps et de l'espace. Par exemple, si vous avez un tableau 3x3 (A) et que vous voulez ajouter un tableau 1x3 (B), NumPy ajoutera la ligne de (B) à chaque ligne de (A).

- Règles du Broadcasting 
    1. Si les deux tableaux n'ont pas les mêmes dimensions, la forme de celui qui a le moins de dimensions est complétée par des uns sur son côté avant (gauche).
    2. Si la forme des deux tableaux ne correspond à aucune dimension, le tableau dont la forme est égale à 1 dans cette dimension est étiré pour correspondre à l'autre forme.
    3. Si dans une dimension quelconque les tailles ne correspondent pas et qu'aucune n'est égale à 1, une erreur est levée.
    
    
**La règle du Broadcasting:**
Pour pouvoir Broadcaster, la taille des axes de trailing des deux tableaux d'une opération doit être la même ou l'un d'eux doit être égal à 1.

NB : pensez à utiliser `numpy.reshape(a, newshape, order='C')`

In [None]:
a1

In [None]:
a1.shape

In [None]:
a2.shape

In [None]:
a2

In [None]:
a1 + a2

In [None]:
a2 + 2

In [None]:
# Raises an error because there's a shape mismatch
a2 + a3

In [None]:
# Divide two arrays
a1 / ones

In [None]:
# Divide using floor division
a2 // a1

In [None]:
# Take an array to a power
a1 ** 2

In [None]:
# You can also use np.square()
np.square(a1)

In [None]:
# Modulus divide (what's the remainder)
a1 % 2

Vous pouvez également trouver le logarithme ou l'exponentielle d'un tableau en utilisant `np.log()` et `np.exp()`.

In [None]:
# Find the log of an array
np.log(a1)

In [None]:
# Find the exponential of an array
np.exp(a1)

### Aggrégation

Agrégation - rassembler les éléments, faire une opération similaire sur un certain nombre d'éléments.

In [None]:
sum(a1)

In [None]:
np.sum(a1)

Utilisez `np.sum()` de NumPy sur les tableaux NumPy et `sum()` de Python sur les listes Python.

In [None]:
massive_array = np.random.random(100000)
massive_array.size

In [None]:
%timeit sum(massive_array) # Python sum()
%timeit np.sum(massive_array) # NumPy np.sum()

In [None]:
import random 
massive_list = [random.randint(0, 10) for i in range(100000)]
len(massive_list)

In [None]:
massive_list[:10]

In [None]:
%timeit sum(massive_list)
%timeit np.sum(massive_list)

In [None]:
a2

In [None]:
# Trouver la moyenne
np.mean(a2)

In [None]:
# Trouver le  max
np.max(a2)

In [None]:
# Trouver le  min
np.min(a2)

In [None]:
# Trouver l'écart-type
np.std(a2)

In [None]:
# Trouver la variance
np.var(a2)

In [None]:
# L'écart-type est la racine carrée de la variance.
np.sqrt(np.var(a2))

**Qu'est-ce que la moyenne Mean?**

Vous pouvez trouver la moyenne d'un ensemble de nombres en les additionnant et en les divisant par leur nombre.

**Qu'est-ce que l'écart-type ?

[L'écart type (https://www.mathsisfun.com/data/standard-deviation.html) est une mesure de la dispersion des nombres.

**Qu'est-ce que la variance ?**

La [variance](https://www.mathsisfun.com/data/standard-deviation.html) est la moyenne des différences au carré de la moyenne.

Pour la calculer, il faut :
1. Calculez la moyenne
2. Pour chaque nombre, soustrayez la moyenne et mettez le résultat au carré.
3. Trouvez la moyenne des différences au carré

In [None]:
# Demo of variance
high_var_array = np.array([1, 100, 200, 300, 4000, 5000])
low_var_array = np.array([2, 4, 6, 8, 10])

np.var(high_var_array), np.var(low_var_array)

In [None]:
#La fonction Numpy.std() calcule l’écart type du tableau donné le long de l’axe spécifié.

np.std(high_var_array), np.std(low_var_array)

In [None]:
# L'écart-type est la racine carrée de la variance.
np.sqrt(np.var(high_var_array))

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.hist(high_var_array)
plt.show()

In [None]:
plt.hist(low_var_array)
plt.show()

### Reshaping

In [None]:
a2

In [None]:
a2.shape

In [None]:
a2 + a3

In [None]:
a2.reshape(2, 3, 1)

In [None]:
a2.reshape(2, 3, 1) + a3

### Transposition

In [None]:
a2.shape

In [None]:
a2.T

In [None]:
a2.T.shape

In [None]:
matrix = np.random.random(size=(5,3,3))
matrix

In [None]:
matrix.shape

In [None]:
matrix.T

In [None]:
matrix.T.shape

## 6. Use case

Transformer l'image d'un panda en chiffres.

<img src="images/numpy-panda.png" alt="photo of a panda waving" />

In [3]:
from matplotlib.image import imread

panda = imread('images/numpy-panda.png')
print(type(panda))

<class 'numpy.ndarray'>


In [None]:
panda.shape #Le tuple de sortie : d'abord les lignes, puis les colonnes et enfin les autres dimensions.

In [None]:
panda

<img src="images/numpy-car-photo.png" alt="photo of a car"/>

In [6]:
car = imread("images/numpy-car-photo.png")
car.shape

(431, 575, 4)

In [None]:
car[:,:,:3].shape

<img src="images/numpy-dog-photo.png" alt="photo a dog"/>

In [7]:
dog = imread("images/numpy-dog-photo.png")
dog.shape

(432, 575, 4)

In [None]:
dog