# numpy

![e](https://numpy.org/doc/stable/_static/numpylogo.svg)

Le but de ce tp est de voir dans les grandes lignes la bibliothèque numpy. Open-source et gratuite, elle permet de gérer de façon beaucoup plus optimisée les tableaux en Python. Ainsi, **numpy est l'outil parfait pour gérer un gros volume de données, comme en Big Data.**
Si nous faisions du Python de façon traditionnelle, nous aurions besoin d'installer numpy grâce à pip et la commande `pip install numpy`, vu que nous utilisons Anaconda (ou Google Colab), nous n'avons pas besoin d'entrer cette commande. Il nous faut juste l'importer grâce à la ligne de code suivante `import numpy as np`.

[Voir documentation de numpy](https://numpy.org/)

In [1]:
import numpy as np

# On définit un tableau en Python
tab_python = [1, 65, 85, 112, 345] 

# puis on le transform en tableau numpy
tab_numpy = np.array(tab_python)

# Et voilà, nous avons fait notre premier tableau numpy
# Bien évidemment nous pouvons également écrire

Certaines fonctionnalités vues en Python peuvent ont leur équivalent avec numpy. Par exemple la fonction `range()` devient `np.arange(valeur de départ, valeur de fin, pas = 1, type de donnée = None)` avec numpy. Comme les tableaux Python, il est possible d'itérer dans un tableau Python avec la boucle `for in:`. 

# A vous de coder

Ecrire un tableau numpy composé d'au moins 3 nombres (entiers ou non) puis stocker dans une variable (une ligne une variable) :
- La somme des valeurs du tableau
- La moyenne des valeurs du tableau
- La valeur mediane des valeurs du tableau

Note : Pour la médiane, il est préférable de ranger les valeurs dans l'ordre croissant avec la méthode `np.sort(arr)`

Il est également possible d'effectuer des opérations sur les tableaux.
- Addition
```python
tab_1 = np.array([0, 1, 2])
tab_2 = np.array([2, 1, 0])
print(tab_1 + tab_2)
```
Avec numpy le signe "+" permet d'additionner les composantes des tableaux, alors pour fusionner des tableaux, il faut utiliser la fonction `np.concatenate((arr1, arr2, arr3...))`. Il existe d'autres méthodes pour fusionner des tableaux, notamment pour gérer le côté multi-dimensionnels des tableaux. 

- Soustraction
```python
tab_1 = np.array([0, 1, 2])
tab_2 = np.array([2, 1, 0])
print(tab_1 - tab_2)
```
- Multiplication
```python
tab_1 = np.array([0, 1, 2])
tab_2 = np.array([2, 1, 0])
print(tab_1 * tab_2)
```

- Division
```python
tab_1 = np.array([0, 1, 2])
tab_2 = np.array([2, 1, 0])
print(tab_1 / tab_2)
# Attention à la division par zéro
```

numpy propose une syntaxe très simple permettant de filtrer les données d'un tableau. 
Exemple : Filtrer toutes les données supérieures ou égales à 25. 

In [45]:
tab_filtre = np.arange(10, 50)
tab_filtre[tab_filtre > 25]

array([26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39])

Notez que le filtrage de données crée un nouveau tableau. Dans l'exemple précédent, tab_filtre contient toujours des nombres de 10 à 49 inclus.

Il est également bon de noter qu'il est possible d'appliquer des opérations logiques en guise de filtres. Exemple :
```python 
tab_filtre = np.arange(10, 50)
# On filtre "tab_filtre", on souhaite récupérer toutes les valeurs supérieures à 25 et inférieures à 40
tab_filtre[(tab_filtre > 25) & (tab_filtre < 40)]
```
Faites bien attention aux parenthèses, sans elles, ça ne fonctionnera pas. Le système de filtratage nous sera très utile pour nettoyer/sélectionner les données lorsque nous ferons de l'apprentissage automatique (Machine Learning) ou des graphiques.

# Tableaux multi-dimensions 

Très spécialisé dans la gestion tableau, numpy permet également de gérer des tableaux multidimensionnels appelés aussi matrices, le code suivant définit un tableau avec deux dimensions (3 colonnes et 4 lignes).

```python
matrice_2_dims = np.array([[0, 1, 2], [3, 4, 5],[6, 7, 8]])
```

![](_images/matrice-tableaux.jpg)

Il est possible de voir le schéma d'un tableau numpy grâce à la propriété `shape`.

In [7]:
# On définit ici un tableau de deux dimensions
tab_2_dims = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8], [9, 10, 11]])

print(tab_2_dims.shape) # Affiche le nombre de lignes, nbre de colonnes | (4, 3)
print(tab_2_dims.size) # Affiche le nombre d'éléments | 12
print(tab_2_dims.ndim) # Affiche le nbre de dimensions | 2

(4, 3)
12
2


Grâce à la méthode `reshape` des tableaux numpy, il est possible de transformer un tableau d'une dimension dans une autre dimension. Par exemple.

In [27]:
tab = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])

nouveau_tab = tab.reshape(3, 4) # nbre lignes, nbre de colonnes
nouveau_tab

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

Notez que le nombre d'entrées d'un tableau multidirectionnel doit être le produit du nombre de colonnes et de lignes. Dans le cas précédent, il nous est impossible d'écrire la chose suivante :
```python
tab = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])
# 3 x 3 = 9, et 9 n'est la longueur de notre tableau. Dans une cellule "code" ceci lèvera une erreur
nouveau_tab = tab.reshape(3, 3)
```

In [15]:
from IPython.core.display import display, HTML
# display(HTML("<style>.container { width:100% !important; }</style>"))

matrice_trois_dims = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8], [9, 10, 11]])

On a vu plus haut qu'il était possible d'itérer dans un tableau numpy avec une boucle `for in:`, toutefois cette méthode peut se montrer très fastidieuse lorsque notre tableau possède plusieurs dimensions. 
Par exemple avec un tableau à 2 dimensions.
```python
tableau_2_dims = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]).reshape(3, 3)
for i in tableau_2_dims:
    for j in i:
        print(j)
```

Par exemple avec un tableau à 3 dimensions.
```python
tableau_3_dims = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]).reshape(2, 3, 2)
for i in tableau_3_dims:
    for j in i:
        for k in j:
             print(k)
```

Vous comprennez que ceci va être de plus en plus verbeux au fur et à mesure que le tableau va gagner en dimensions. Heureusement, il existe la méthode `nditer()` qui permet d'applatir les tableaux numpy pour itérer plus facilement. Exemple :
```python
tableau_3_dims = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]).reshape(2, 3, 2)
for i in np.nditer(tableau_3_dims):
    print(i) # Listera 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
```

Ceci met fin à ce petit tour d'horizon de la très utile bibliothèque numpy, sa fonctionnalité de filtre nous sera très utile pour manipuler nos données. Mais on n'utilisera pas directement numpy, mais un "cousin" : pandas car nous allons travailler exclusivement avec des données tabulaires, des données labellisées.