# Les bibliothèques de manipulation de données

Pour manipuler des données en `python`, on utilise des bibliothèques externes, notamment `numpy` et `pandas`. Il faut donc les installer en plus du langage en tant que tel (et contrairement aux modules de la bibliothèque standard). En pratique, dans les environnement cloud dont nous disposerons, ces bibliothèques seront installées par défaut.

Ce notebook sera l'occasion de se demander pourquoi on utilise des bibliothèques spécialisées dans la gestion des données.

## Un calcul de moyenne

Contruisons une liste de notes, dont on souhaitera calculer la moyenne

In [27]:
import random

In [28]:
nombre_eleves = int(1e7)
notes = [random.randint(0, 20) for _ in range(nombre_eleves)]

In [29]:
def calculer_moyenne(notes):
    somme = 0
    for note in notes:
        somme += note
    return somme/len(notes)

In [30]:
%%time
calculer_moyenne(notes)

CPU times: user 1.47 s, sys: 0 ns, total: 1.47 s
Wall time: 1.48 s


10.0047771

### Une première optimisation

In [32]:
%%time
sum(notes)/len(notes)

CPU times: user 243 ms, sys: 0 ns, total: 243 ms
Wall time: 244 ms


10.0047771

## Le même calcul avec `numpy`

In [33]:
import numpy as np

`numpy` n'utilise pas des liste, mais des `array`s

In [34]:
notes = np.array(notes)

In [35]:
%%time
notes.mean()

CPU times: user 21.3 ms, sys: 14 µs, total: 21.4 ms
Wall time: 19.1 ms


10.0047771

`numpy` est une bibliothèque de calcul scientifique. Elle n'est donc pas faite pour manipuler des bases de données de type tableau. En pratique on est souvent amené à utiliser `pandas` : il s'agit d'une autre bibliothèque construite à partir de `numpy` et adaptée à la manipulation des données !

# Exercices

Au cas où vous ne soyez pas pleinement convaincu, écrire une fonction python permettant de compter le nombre d'occurence de la de la notes `10` apparaissant dans la liste `notes` et comparer les performances par rapport à la fonction ci-dessous

In [42]:
def compter_occurences(liste, element_recherche):
    pass

In [44]:
%%time
compter_occurences(notes, element_recherche=10)

CPU times: user 1.16 s, sys: 0 ns, total: 1.16 s
Wall time: 1.17 s


475608

### Une première optimisation :)

In [50]:
%%time
notes.count(10)

CPU times: user 277 ms, sys: 8 µs, total: 277 ms
Wall time: 277 ms


476441

### En utilisant maintenant  `numpy`

In [36]:
import numpy as np

In [46]:
notes = np.array(notes)

In [47]:
%%time
np.count_nonzero(notes == 10)

CPU times: user 18.6 ms, sys: 0 ns, total: 18.6 ms
Wall time: 16.7 ms


475608