### Reduction operation: the sum of the numbers in the range [0, a)

In [6]:
import time

def reduc_operation(a):
    """Compute the sum of the numbers in the range [0, a)."""
    x = 0
    for i in range(a):
        x += i
    return x

# Secuencial

value = 1000000

initialTime = time.time()
suma = reduc_operation(value)
finalTime = time.time()

print("Time taken by reduction operation:", (finalTime - initialTime), "seconds")

# Utilizando las operaciones mágicas de ipython
%timeit -r 2 reduc_operation(value)

print(f"\n \t Computing the sum of numbers in the range [0, value): {suma}\n")

Time taken by reduction operation: 0.28615713119506836 seconds
269 ms ± 210 µs per loop (mean ± std. dev. of 2 runs, 1 loop each)

 	 Computing the sum of numbers in the range [0, value): 499999500000



In [13]:
# 3.2. Python HPC: lists y Numpy y Numba con Jupyter notebook

# A) Crear una lista de Python con la función range que contenga 10^6 elementos y calcular el tiempo que tarda en sumar todos los elementos de dos maneras diferentes:
lista = list(range(1_000_000))

    # a) Usando un bucle for
import time
total = 0
start = time.time()
for num in lista:
    total += num
end = time.time()

print(f"Suma usando bucle for: {total}")
print(f"Tiempo usando bucle for: {end - start:.6} segundos")

    # b) Usando la función sum
start = time.time()
total = sum(lista)
end = time.time()

print(f"Suma usando la función sum: {total}")
print(f"Tiempo usando la función sum: {end - start:.6} segundos")


Suma usando bucle for: 499999500000
Tiempo usando bucle for: 0.441445 segundos
Suma usando la función sum: 499999500000
Tiempo usando la función sum: 0.0319831 segundos


Suma usando bucle for con array: 499999500000
Tiempo usando bucle for con array: 0.912314 segundos
Suma usando np.sum: 499999500000
Tiempo usando np.sum: 0.001886 segundos


In [14]:
# B) Pasar la lista creada a un array de Numpy. Calcular el tiempo en sumar todos los elementos del array:
import numpy as np
array = np.array(lista)

    # a) Usando un bucle for
#import time (lo comentamos porque ya lo tenemos arriba)
total = 0
start = time.time()
for num in array:
    total += num
end = time.time()

print(f"Suma usando bucle for con array: {total}")
print(f"Tiempo usando bucle for con array: {end - start:.6f} segundos")

    # b) Usando la función sum del paquete Numpy.
start = time.time()
total = np.sum(array)
end = time.time()

print(f"Suma usando np.sum: {total}")
print(f"Tiempo usando np.sum: {end - start:.6f} segundos")

Suma usando bucle for con array: 499999500000
Tiempo usando bucle for con array: 0.945469 segundos
Suma usando np.sum: 499999500000
Tiempo usando np.sum: 0.003914 segundos


C) Explicación de los resultados:

El código original utiliza un bucle for par calcular la suma del rango de números, y tiene un tiempo de ejecución de aproximadamente 0.29 segundos, lo cual es relativamente lento porque a que cada iteración del bucle debe ser interpretada por Python. Esto lo que hace es introducir sobrecarga significativa, especialmente si estamos manejando grandes cantidades de datos.

Cuando trabajamos con lsitas, tenemos que diferenciar dos métodos distintos: el bucle for es similar al del código original pero es ligeramente más lento (aprox. 0.44 segundos), por la estructura dinámica de las listas. Por otro lado, la función sum aprovecha algunas optimizaciones y reduce drásticamente el tiempo de ejecución (aprox. 0.03 segundos), lo que hace que sea una opción más eficiente.

Por último, utilizamos los arrays de NumPy. Aquí se observa que el tiempo de ejecución varía considerablemente según el método que usemos: el bucle for es el más lento (aprox. 0.91 segundos), lo cual se debe a que no aprovecha las optimizaciones de NumPy y depende del intérprete de Python. No obstante, al usar la función np.sum, el tiempo se reduce a solamente 0.004 segundos aprox., como consecuencia de que NumPy lleva implementadas operaciones vectorizadas en C.

En conclusión, aunque el código original y los métodos basados en bucles pueden parecernos bastante intuitivos, son bastante ineficientes a la hora de manejar grandes cantidades de datos. Las funciones optimizadas como sum y, en especial, np.sum, con mucho más rápidas.