### Reduction operation: the sum of the numbers in the range [0, a)

In [2]:
import time
import sys

def reduc_operation(a):
    """Compute the sum of the numbers in the range [0, a)."""
    x = 0
    for i in range(a):
        x += i
    return x

# Secuencial

value = int(sys.argv[1])

initialTime = time.time()
suma = reduc_operation(value)
finalTime = time.time()

print("Time taken by reduction operation:", (finalTime - initialTime), "seconds")

# Utilizando las operaciones mágicas de ipython
%timeit -r 2 reduc_operation(value)

print(f"\n \t Computing the sum of numbers in the range [0, value): {suma}\n")

Time taken by reduction operation: 0.25975918769836426 seconds
258 ms ± 2.55 ms per loop (mean ± std. dev. of 2 runs, 1 loop each)

 	 Computing the sum of numbers in the range [0, value): 499999500000



### 3.2. Python HPC: lists y Numpy y Numba con Jupyter notebook

In [3]:
# A) Crear una lista de Python con la función range que contenga 10^6 elementos y calcular el tiempo que tarda en sumar todos los elementos de dos maneras diferentes:
import time  # Importamos la librería para medir el tiempo

# Creamos una lista de Python con 10^6 elementos
lista = list(range(value))

def sumar_con_bucle(data):
    """Suma los elementos de una lista usando un bucle for."""
    total = 0
    for num in data:
        total += num
    return total

# Usamos un bucle for y medir el tiempo con time
start = time.time()
resultado_for = sumar_con_bucle(lista)
end = time.time()
print(f"Resultado de la suma usando bucle for: {resultado_for}")
print(f"Tiempo con time usando un bucle for: {end - start:.6f} segundos")

# Medimos el tiempo del bucle for con %timeit
print("\nTiempo con %timeit usando un bucle for:")
%timeit sumar_con_bucle(lista)

# Usamos la función sum y medir el tiempo con time
start = time.time()
resultado_sum = sum(lista)
end = time.time()
print(f"\nResultado de la suma usando la función sum: {resultado_sum}")
print(f"Tiempo con time usando la función sum: {end - start:.6f} segundos")

# Medimos el tiempo de la función sum con %timeit
print("\nTiempo con %timeit usando la función sum:")
%timeit sum(lista)

Resultado de la suma usando bucle for: 499999500000
Tiempo con time usando un bucle for: 0.213181 segundos

Tiempo con %timeit usando un bucle for:
200 ms ± 9.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

Resultado de la suma usando la función sum: 499999500000
Tiempo con time usando la función sum: 0.036455 segundos

Tiempo con %timeit usando la función sum:
30.4 ms ± 1.25 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [5]:
# B) Pasar la lista creada a un array de Numpy. Calcular el tiempo en sumar todos los elementos del array:
import time  # Importamos la librería para medir el tiempo
import numpy as np  # Importamos numpy para trabajar con arrays

# Creamos una lista con 10^6 elementos (ya creada anteriormente)
lista = list(range(value))

# Convertimos la lista a un array de numpy
array = np.array(lista)

def sumar_con_bucle(data):
    """Suma los elementos de una lista o array usando un bucle for."""
    total = 0
    for num in data:
        total += num
    return total

# a) Usar un bucle for y medir el tiempo con time en numpy array
start = time.time()
resultado_for_array = sumar_con_bucle(array)
end = time.time()
print(f"Resultado de la suma usando bucle for (numpy array): {resultado_for_array}")
print(f"Tiempo con time usando un bucle for (numpy array): {end - start:.6f} segundos")

# Medir el tiempo del bucle for con %timeit en numpy array
print("\nTiempo con %timeit usando un bucle for (numpy array):")
%timeit sumar_con_bucle(array)

# b) Usar la función sum de numpy y medir el tiempo con time
start = time.time()
resultado_sum_array = np.sum(array)
end = time.time()
print(f"\nResultado de la suma usando numpy.sum: {resultado_sum_array}")
print(f"Tiempo con time usando numpy.sum: {end - start:.6f} segundos")

# Medir el tiempo de la función sum de numpy con %timeit
print("\nTiempo con %timeit usando numpy.sum:")
%timeit np.sum(array)

Resultado de la suma usando bucle for (numpy array): 499999500000
Tiempo con time usando un bucle for (numpy array): 0.667306 segundos

Tiempo con %timeit usando un bucle for (numpy array):
654 ms ± 6.93 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

Resultado de la suma usando numpy.sum: 499999500000
Tiempo con time usando numpy.sum: 0.003282 segundos

Tiempo con %timeit usando numpy.sum:
1.41 ms ± 9.23 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


C) EXPLICACIÓN DE LOS RESULTADOS:

El código original utiliza un bucle for para calcular la suma de un rango de números, obteniendo un tiempo de ejecución de aproximadamente 0.259 segundos con el método time. Al medir con %timeit, el tiempo promedio es de 258 ms ± 2.55 ms por loop, lo cual refleja la sobrecarga significativa del intérprete de Python al manejar iteraciones grandes. Este método es funcional, pero relativamente lento al operar con grandes cantidades de datos.

Cuando utilizamos listas, observamos una clara diferencia entre dos métodos: el bucle for, que tiene un tiempo de ejecución de aproximadamente 0.213 segundos con time y un promedio de 200 ms ± 9.4 ms por loop con %timeit, es más lento debido a la estructura dinámica de las listas. Por otro lado, la función sum reduce el tiempo de ejecución significativamente, a aproximadamente 0.036 segundos con time y 30.4 ms ± 1.25 ms por loop con %timeit. Esto ocurre porque sum utiliza optimizaciones internas que mejoran su eficiencia.

Al utilizar arrays de NumPy, el tiempo de ejecución varía notablemente según el método empleado. El bucle for, con un tiempo de 0.667 segundos con time y un promedio de 654 ms ± 6.93 ms por loop con %timeit, es el más lento, ya que no aprovecha las optimizaciones de NumPy y sigue dependiendo del intérprete de Python. Sin embargo, al usar la función optimizada np.sum, el tiempo de ejecución se reduce drásticamente a 0.003 segundos con time y 1.41 ms ± 9.23 µs por loop con %timeit. Esto se debe a que NumPy implementa operaciones vectorizadas en C, eliminando la sobrecarga de Python.

En conclusión, el código original y los métodos basados en bucles son intuitivos, pero significativamente más lentos para manejar grandes cantidades de datos. Las funciones optimizadas como sum y, especialmente, np.sum, son mucho más rápidas debido a su capacidad para aprovechar optimizaciones internas y operaciones vectorizadas.

### 3.3. Python HPC: Numba con Jupyter notebook y uso de colas

In [2]:
# APARTADO A
import numpy as np
from numba import njit
import time

# Creamos el array de NumPy
array = np.array(range(value))

# Función con bucle for optimizada con Numba
@njit
def sumar_numba(data):
    """Suma los elementos de un array usando un bucle for optimizado con Numba."""
    total = 0
    for num in data:
        total += num
    return total
    
# La primera vez que se ejecuta una función decorada con @njit, el código se compila justo
# a tiempo (JIT, Just-In-Time). Este proceso implica traducir el código Python a un formato
# de máquina altamente optimizado para la plataforma específica en la que se ejecuta.
# Debido a esta compilación inicial, la primera ejecución suele ser más lenta.

# Comparamos:

# Primera ejecución (compilación + ejecución)
start = time.time()
resultado_numba = sumar_numba(array)
end = time.time()
print(f"Resultado de la suma usando sumar_numba: {resultado_numba}")
print(f"Tiempo de la primera ejecución (compilación + ejecución): {end - start:.6f} segundos")

# Segunda ejecución (solo ejecución)
start = time.time()
resultado_numba = sumar_numba(array)
end = time.time()
print(f"Tiempo de la segunda ejecución (solo ejecución): {end - start:.6f} segundos")

# Función para sumar usando np.sum
# Nota: np.sum ya está altamente optimizado, Numba no mejora su rendimiento

def suma_numpy(data):
    """Suma los elementos de un array usando np.sum."""
    return np.sum(data)

# Medimos tiempo de ejecución con np.sum
start = time.time()
resultado_numpy = suma_numpy(array)
end = time.time()
print(f"\nResultado de la suma usando np.sum: {resultado_numpy}")
print(f"Tiempo con np.sum: {end - start:.6f} segundos")

Resultado de la suma usando sumar_numba: 499999500000
Tiempo de la primera ejecución (compilación + ejecución): 0.477141 segundos
Tiempo de la segunda ejecución (solo ejecución): 0.002087 segundos

Resultado de la suma usando np.sum: 499999500000
Tiempo con np.sum: 0.001946 segundos


B) EXPLICACIÓN DE LOS RESULTADOS

Al usar Numba, vemos cómo hemos podido reducir los tiempos de ejecución al compilar el código Python directamente a nivel máquina. El bucle optimizado con Numba tarda aproximadamente solo 0.002087 segundos en la segunda ejecución, una mejora notable frente al código original. Durante la primera ejecución, que incluye la compilación, el tiempo fue de 0.477141 segundos.

Además, al aplicar Numba a np.sum, el tiempo se mantiene altamente eficiente con un tiempo de ejecución de 0.001946 segundos. Esto se debe a que np.sum ya está optimizado a nivel interno, aprovechando operaciones vectorizadas en C, y Numba refuerza aún más estas optimizaciones.