# Comparaciones de rendimiento

Calculemos raíces cuadradas de varios números de distintas maneras:

### Python normal:

In [1]:
from math import sqrt
import time as tm

In [2]:
n = 10000000

In [3]:
print("Comenzando a calcular...")
start = tm.time()
normal_results = [sqrt(i) for i in range(n)]
end = tm.time()
print(f"Tiempo total: {end - start}s")

Comenzando a calcular...
Tiempo total: 0.9421744346618652s


## Numpy:

In [4]:
import numpy as np
import time as tm

In [5]:
print("Comenzando a calcular...")
start = tm.time()
data = np.arange(n)
numpy_results = np.sqrt(data) # Ojo que le damos todo el array de datos directamente a la función
# En general, al trabajar con Numpy, es muy buena idea hacer todo de manera vectorial/matricial.
# Está muy optimizado para esto!
end = tm.time()
print(f"Tiempo total: {end - start}s")

Comenzando a calcular...
Tiempo total: 0.04117774963378906s


## Joblib

In [6]:
import numpy as np
from math import sqrt
from joblib import Parallel
from joblib import delayed
import time as tm

Dos trabajadores:

In [7]:
print("Comenzando a calcular...")
start = tm.time()
parallel_pool = Parallel(n_jobs=2)
parallel_sqrt = delayed(sqrt)
parallel_tasks = [parallel_sqrt(i) for i in range(n)]
parallel_results = parallel_pool(parallel_tasks)
end = tm.time()
print(f"Tiempo total: {end - start}s")

Comenzando a calcular...
Tiempo total: 18.816686868667603s


Cuatro trabajadores:

In [8]:
print("Comenzando a calcular...")
start = tm.time()
parallel_pool = Parallel(n_jobs=4)
parallel_sqrt = delayed(sqrt)
parallel_tasks = [parallel_sqrt(i) for i in range(n)]
parallel_results = parallel_pool(parallel_tasks)
end = tm.time()
print(f"Tiempo total: {end - start}s")

Comenzando a calcular...
Tiempo total: 16.809730291366577s


¿Qué ocurre si usamos la función raíz de numpy?

In [9]:
print("Comenzando a calcular...")
start = tm.time()
parallel_pool = Parallel(n_jobs=2)
parallel_sqrt = delayed(np.sqrt) # Notar la diferencia
parallel_tasks = [parallel_sqrt(i) for i in range(n)]
parallel_results = parallel_pool(parallel_tasks)
end = tm.time()
print(f"Tiempo total: {end - start}s")

Comenzando a calcular...
Tiempo total: 34.296361446380615s


Finalmente con batch_size fijo:

In [10]:
print("Comenzando a calcular...")
start = tm.time()
parallel_pool = Parallel(n_jobs=2, batch_size=100000)
parallel_sqrt = delayed(sqrt)
parallel_tasks = [parallel_sqrt(i) for i in range(n)]
parallel_results = parallel_pool(parallel_tasks)
end = tm.time()
print(f"Tiempo total: {end - start}s")

Comenzando a calcular...
Tiempo total: 15.666585206985474s


In [11]:
print("Comenzando a calcular...")
start = tm.time()
parallel_pool = Parallel(n_jobs=2, batch_size=500000)
parallel_sqrt = delayed(sqrt)
parallel_tasks = [parallel_sqrt(i) for i in range(n)]
parallel_results = parallel_pool(parallel_tasks)
end = tm.time()
print(f"Tiempo total: {end - start}s")

Comenzando a calcular...
Tiempo total: 19.51024317741394s


In [12]:
print("Comenzando a calcular...")
start = tm.time()
parallel_pool = Parallel(n_jobs=4, batch_size=int(n/4))
parallel_sqrt = delayed(sqrt)
parallel_tasks = [parallel_sqrt(i) for i in range(n)]
parallel_results = parallel_pool(parallel_tasks)
end = tm.time()
print(f"Tiempo total: {end - start}s")

Comenzando a calcular...
Tiempo total: 20.722821712493896s


## Comparación rendimiento de appendear valores a una lista vs un array

In [13]:
# Numpy array vs listas

lista = []
t1 = tm.time()
for i in range(n):
    lista.append(i)
t2 = tm.time()
print(t2-t1)

0.6783316135406494


In [15]:
array = np.array([])
t1 = tm.time()
for i in range(n):
    array = np.append(array, i)
t2 = tm.time()
print(t2-t1)

# Lo detuve antes de que terminara porque ya era mucho, pero llegó a más de 42 minutos sin terminar.

KeyboardInterrupt: 

En resumen:
- Si necesitan ir agregando valores -> listas
- Para realizar operaciones matriciales y de vectores -> NUMPY
  
** Es común agregar valores a una lista y luego transformarla a un array para realizar operaciones con ella.