### Reduction operation: the sum of the numbers in the range [0, a)

En la primera celda de código de este notebook verás que tienes implementada en python dicha operación. Si ejecutas dicha celda, verás que el programa hace la operación de reducción para un valor de 10 ∗∗6, midiéndose el tiempo de 2 formas (con la librería time y con la función mágica %timeit) obteniendo lógicamente el mismo resultado, y se muestra el valor de dicha reducción. Evidentemente, este código está poco optimizado (tarda bastante tiempo), por lo que vamos a mejorarlo.

In [2]:
import time

def reduc_operation(a):
    """Compute the sum of the numbers in the range [0, a)."""
    x = 0
    for i in range(a):
        x += i
    return x

# Secuencial

value = 1000000

initialTime = time.time()
suma = reduc_operation(value)
finalTime = time.time()

print("Time taken by reduction operation:", (finalTime - initialTime), "seconds")

# Utilizando las operaciones mágicas de ipython
%timeit -r 2 reduc_operation(value)

print(f"\n \t Computing the sum of numbers in the range [0, value): {suma}\n")

Time taken by reduction operation: 0.29305291175842285 seconds
253 ms ± 2.07 ms per loop (mean ± std. dev. of 2 runs, 1 loop each)

 	 Computing the sum of numbers in the range [0, value): 499999500000



a) En la siguiente celda de código del notebook3 vamos a utilizar el tipo de datos de listas para realizar dicha operación de reducción. Para ello, crea una lista de Python con la función range que contenga 10^6 elementos. Una vez creada, calcula el tiempo que tardas en sumar todos los elementos de la lista de 2 formas diferentes: 
    a) Usando un bucle for similar al código ya mostrado en la celda anterior para ir sumando al resultado total elemento a elemento de la lista, y 
    b) usando la función sum que tienen las listas. Como verás, hay una diferencia importante.

In [3]:
import time

# Crear una lista con 1 millón de elementos
value = 1000000
my_list = list(range(value))  # Creamos la lista con los elementos de 0 a 999999

# Función para calcular la suma usando un bucle for
def reduc_operation_for(lst):
    """Compute the sum of the numbers in the list using a for loop."""
    x = 0
    for i in lst:
        x += i
    return x

# a) Medir el tiempo usando el bucle for
initialTime_for = time.time()
suma_for = reduc_operation_for(my_list)
finalTime_for = time.time()
print("Time taken by reduction operation using for loop:", (finalTime_for - initialTime_for), "seconds")

# b) Medir el tiempo usando la función sum()
initialTime_sum = time.time()
suma_sum = sum(my_list)
finalTime_sum = time.time()
print("Time taken by reduction operation using sum():", (finalTime_sum - initialTime_sum), "seconds")

# Mostrar los resultados de las sumas
print(f"\n\t Suma calculada usando el bucle for: {suma_for}")
print(f"\n\t Suma calculada usando sum(): {suma_sum}")

Time taken by reduction operation using for loop: 0.22207236289978027 seconds
Time taken by reduction operation using sum(): 0.031549930572509766 seconds

	 Suma calculada usando el bucle for: 499999500000

	 Suma calculada usando sum(): 499999500000


b) En la segunda celda de código vamos a utilizar el tipo de datos array que nos proporciona el paquete numpy. En primer lugar, pasa la lista creada en la celda anterior a un array de numpy. Y al igual que antes, calcula el tiempo que tardas en sumar todos los elementos del array de 2 formas diferentes:
    a) Usando un bucle for para ir sumando al resultado total elemento a elemento del array, y 
    b) usando la función sum que tiene el paquete numpy para los arrays. Como verás, hay una diferencia importante, y también con respecto al manejo de estos datos usando listas

In [4]:
import time
import numpy as np

# Crear una lista con 1 millón de elementos y convertirla en un array de numpy
value = 1000000
my_list = list(range(value))
my_array = np.array(my_list)  # Convertir la lista en un array de numpy

# Función para calcular la suma usando un bucle for
def reduc_operation_for_numpy(arr):
    """Compute the sum of the numbers in the array using a for loop."""
    x = 0
    for i in arr:
        x += i
    return x

# a) Medir el tiempo usando el bucle for
initialTime_for_numpy = time.time()
suma_for_numpy = reduc_operation_for_numpy(my_array)
finalTime_for_numpy = time.time()
print("Time taken by reduction operation using for loop (numpy array):", (finalTime_for_numpy - initialTime_for_numpy), "seconds")

# b) Medir el tiempo usando la función sum() de numpy
initialTime_sum_numpy = time.time()
suma_sum_numpy = np.sum(my_array)
finalTime_sum_numpy = time.time()
print("Time taken by reduction operation using np.sum():", (finalTime_sum_numpy - initialTime_sum_numpy), "seconds")

# Mostrar los resultados de las sumas
print(f"\n\t Suma calculada usando el bucle for (numpy array): {suma_for_numpy}")
print(f"\n\t Suma calculada usando np.sum(): {suma_sum_numpy}")


Time taken by reduction operation using for loop (numpy array): 1.2965521812438965 seconds
Time taken by reduction operation using np.sum(): 0.0036873817443847656 seconds

	 Suma calculada usando el bucle for (numpy array): 499999500000

	 Suma calculada usando np.sum(): 499999500000


 c) Crea una nueva celda de texto debajo de la última celda de código para explicar los resultados obtenidos por los 3 procedimientos (código original, lists y numpy)

En este ejercicio, hemos comparado tres enfoques para realizar una operación de reducción (la suma de una secuencia de números) sobre un conjunto de datos de un millón de elementos, siendo los tres procedimientos usados i) el código original usando un bucle for con una operación de suma directa, ii) las listas de Python  y iii) los arrays de numpy.

Los resultados muestran claramente que numpy es mucho más eficiente que las listas de Python para operaciones numéricas debido a sus optimizaciones y la capacidad de realizar operaciones en bloque sobre grandes volúmenes de datos. Por otro lado, el bucle for usado al principio es una opción sencilla pero menos eficiente, especialmente cuando vamos a trabajar con grandes cantidades de datos.

 a) Continuando con el notebook anterior, ahora vamos a usar también el paquete numba para acelerar el tiempo de ejecución. Para ello, en la siguiente celda de código copia la celda que usaste con el paquete numpy, y añade a cada función el decorador @njit para que ofrezca un tiempo de ejecución menor. Como verás, hay una diferencia importante, y también con respecto a los tiempos de las celdas anteriores.

In [4]:
import numpy as np
from numba import njit
import time

# Convertimos la lista en un array de numpy
array = np.array(range(10**6))

# a) Usar un bucle for con @njit
@njit
def sum_with_for(array):
    total = 0
    for i in array:
        total += i
    return total

# b) Usar la función sum de Numpy con @njit
@njit
def sum_with_numpy(array):
    return np.sum(array)

# Medimos el tiempo para el bucle for
initial_time = time.time()
result_for = sum_with_for(array)
final_time = time.time()

print("Time taken by @njit with for loop:", (final_time - initial_time), "seconds")
print(f"Result with for loop: {result_for}")

# Medimos el tiempo para np.sum
initial_time = time.time()
result_numpy = sum_with_numpy(array)
final_time = time.time()

print("Time taken by @njit with numpy sum:", (final_time - initial_time), "seconds")
print(f"Result with numpy sum: {result_numpy}")


Time taken by @njit with for loop: 0.607896089553833 seconds
Result with for loop: 499999500000
Time taken by @njit with numpy sum: 0.4458801746368408 seconds
Result with numpy sum: 499999500000


 b) Crea una nueva celda de texto debajo para explicar los resultados obtenidos por el paquete numba.

El paquete Numba es una herramienta poderosa para acelerar cálculos numéricos en Python, especialmente cuando trabajamos con bucles o algoritmos más complejos. En este caso hemos usado la compilación Just-In-Time (JIT) para optimizar las funciones de Python, convirtiéndolas en código máquina antes de ejecutarlas. Esto mejora drásticamente los tiempos de ejecución, especialmente en operaciones numéricas y bucles iterativos.Sin embargo, su combinación con Numpy para operaciones vectorizadas, como np.sum, produce los mejores resultados en términos de rendimiento

 c) Finalmente, vamos a lanzar a ejecutar dicho notebook a otra cola de tu elección por medio del intérprete ipython. Para que podamos variar el número de elementos con mayor comodidad, haz una modificación en el notebook original que permita darle el valor del número de elementos (variable value) por la línea de comandos al lanzar a ejecutar el notebook con el gestor de colas sbatch. Para ello, debes copiar dicho notebook a tu directorio de trabajo de ibsen. Una vez hecho esto, crea el shell script que va a usar el comando sbatch para lanzar con SLURM a una de las colas a las que tienes acceso y medir el tiempo de ejecución en dicha cola. Llama a dicho fichero submit_Python_machine name-login.sh5 Lánzalo con el valor de 107 y 108 elementos.

In [9]:
import sys
import time
import numpy as np
from numba import njit

# Leer valor desde la línea de comandos
if len(sys.argv) > 1:
    try:
        value = int(sys.argv[1])  # Asignar el tamaño del array desde el primer argumento
    except ValueError:
        print("El argumento proporcionado no es un número válido. Usando valor por defecto.")
        value = 10**6
else:
    value = 10**6  # Valor por defecto si no se pasa argumento

print(f"Número de elementos a procesar: {value}")

# ---------------------------------------------
# Operación de reducción secuencial
# ---------------------------------------------
def reduc_operation(a):
    """Compute the sum of the numbers in the range [0, a)."""
    x = 0
    for i in range(a):
        x += i
    return x

# Secuencial
initialTime = time.time()
suma = reduc_operation(value)
finalTime = time.time()

print("Time taken by reduction operation:", (finalTime - initialTime), "seconds")

# Utilizando las operaciones mágicas de ipython (comentado para evitar errores al ejecutar fuera de un notebook)
# %timeit -r 2 reduc_operation(value)

print(f"\n\t Computing the sum of numbers in the range [0, value): {suma}\n")

# ---------------------------------------------
# Operación de reducción con listas
# ---------------------------------------------
my_list = list(range(value))

def reduc_operation_for(lst):
    """Compute the sum of the numbers in the list using a for loop."""
    x = 0
    for i in lst:
        x += i
    return x

# a) Medir el tiempo usando el bucle for
initialTime_for = time.time()
suma_for = reduc_operation_for(my_list)
finalTime_for = time.time()
print("Time taken by reduction operation using for loop:", (finalTime_for - initialTime_for), "seconds")

# b) Medir el tiempo usando la función sum()
initialTime_sum = time.time()
suma_sum = sum(my_list)
finalTime_sum = time.time()
print("Time taken by reduction operation using sum():", (finalTime_sum - initialTime_sum), "seconds")

print(f"\n\t Suma calculada usando el bucle for: {suma_for}")
print(f"\n\t Suma calculada usando sum(): {suma_sum}")

# ---------------------------------------------
# Operación de reducción con numpy
# ---------------------------------------------
my_array = np.array(my_list)

def reduc_operation_for_numpy(arr):
    """Compute the sum of the numbers in the array using a for loop."""
    x = 0
    for i in arr:
        x += i
    return x

# a) Medir el tiempo usando el bucle for
initialTime_for_numpy = time.time()
suma_for_numpy = reduc_operation_for_numpy(my_array)
finalTime_for_numpy = time.time()
print("Time taken by reduction operation using for loop (numpy array):", (finalTime_for_numpy - initialTime_for_numpy), "seconds")

# b) Medir el tiempo usando la función sum() de numpy
initialTime_sum_numpy = time.time()
suma_sum_numpy = np.sum(my_array)
finalTime_sum_numpy = time.time()
print("Time taken by reduction operation using np.sum():", (finalTime_sum_numpy - initialTime_sum_numpy), "seconds")

print(f"\n\t Suma calculada usando el bucle for (numpy array): {suma_for_numpy}")
print(f"\n\t Suma calculada usando np.sum(): {suma_sum_numpy}")

# ---------------------------------------------
# Operación de reducción con numba
# ---------------------------------------------
@njit
def sum_with_for(array):
    total = 0
    for i in array:
        total += i
    return total

@njit
def sum_with_numpy(array):
    return np.sum(array)

# a) Medir el tiempo para el bucle for con @njit
initial_time = time.time()
result_for = sum_with_for(my_array)
final_time = time.time()
print("Time taken by @njit with for loop:", (final_time - initial_time), "seconds")
print(f"Result with for loop: {result_for}")

# b) Medir el tiempo para np.sum con @njit
initial_time = time.time()
result_numpy = sum_with_numpy(my_array)
final_time = time.time()
print("Time taken by @njit with numpy sum:", (final_time - initial_time), "seconds")
print(f"Result with numpy sum: {result_numpy}")

El argumento proporcionado no es un número válido. Usando valor por defecto.
Número de elementos a procesar: 1000000
Time taken by reduction operation: 0.2751960754394531 seconds

	 Computing the sum of numbers in the range [0, value): 499999500000

Time taken by reduction operation using for loop: 0.20537543296813965 seconds
Time taken by reduction operation using sum(): 0.031155824661254883 seconds

	 Suma calculada usando el bucle for: 499999500000

	 Suma calculada usando sum(): 499999500000
Time taken by reduction operation using for loop (numpy array): 1.4151637554168701 seconds
Time taken by reduction operation using np.sum(): 0.0038902759552001953 seconds

	 Suma calculada usando el bucle for (numpy array): 499999500000

	 Suma calculada usando np.sum(): 499999500000
Time taken by @njit with for loop: 0.6426987648010254 seconds
Result with for loop: 499999500000
Time taken by @njit with numpy sum: 0.4655914306640625 seconds
Result with numpy sum: 499999500000
