## Understanding performance

### Comparez le code built-in python, user code et numpy

Comparons 3 méthodes pour faire la somme des éléments d'un tableau (avec des éléments contenant de 1 à 10000 ici)

In [1]:
import numpy as np

def user_defined_sum(l):
    res = 0
    for x in l:
        res += x
        
    return res

python_list_10000 = [i for i in range(1, 100001)]

numpy_list_10000 = np.arange(1, 100001, dtype=np.int32)

print(f"user_defined_sum : {user_defined_sum(python_list_10000)}")
print(f"python sum :       {sum(python_list_10000)}")
print(f"numpy sum :        {numpy_list_10000.sum()}")

user_defined_sum : 5000050000
python sum :       5000050000
numpy sum :        5000050000


Les trois méthodes produisent le même résultat, super! Mais sont-elles également efficace ?

(nb: <code>%timeit</code> est une "magic command" pour demander à jupyter de mesurer le temps pris par une instruction)

In [10]:
%timeit user_defined_sum(python_list_10000)
%timeit sum(python_list_10000)
%timeit numpy_list_10000.sum()

3.96 ms ± 884 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
1.1 ms ± 117 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
66.9 µs ± 7.72 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


Oh, les performances ne sont pas du tout les mêmes!
Ainsi, entre notre fonction naïve et celle de python, nous avons un facteur 4, et entre cette dernière et numpy array, nous avons un facteur 15!