## Reduction operation: the sum of the numbers in the range [0, value)

In [1]:
import numpy as np

def reduc_operation(A):
    """Compute the sum of the elements of Array A in the range [0, value)."""
    s = 0
    for i in range(A.size):
        s += A[i]
    return s

# Secuencial

value = 5*10**4

X = np.random.rand(value)

# Para imprimir los pimeros valores del array

# print(X[0:12])

# Utilizando las operaciones mágicas de ipython

tiempo = %timeit -r 2 -o -q reduc_operation(X)

print("Time taken by reduction operation using a function:", tiempo)


print(f"And the result of the sum of numbers in the range [0, value) is: {reduc_operation(X)}\n")


# Utilizando numpy.sum()

tiempo = %timeit -r 2 -o -q np.sum(X)

print("Time taken by reduction operation using numpy.sum():", tiempo)

print("Now, the result using numpy.sum():", np.sum(X),"\n ")


# Utilizando numpy.ndarray.sum()

tiempo= %timeit -r 2 -o -q X.sum()

print("Time taken by reduction operation using numpy.ndarray.sum():", tiempo)

print("Now, the result using numpy.ndarray.sum():", X.sum())




Time taken by reduction operation using a function: 2.62 ms ± 8.27 µs per loop (mean ± std. dev. of 2 runs, 100 loops each)
And the result of the sum of numbers in the range [0, value) is: 24995.051343753086

Time taken by reduction operation using numpy.sum(): 7.88 µs ± 8.1 ns per loop (mean ± std. dev. of 2 runs, 100,000 loops each)
Now, the result using numpy.sum(): 24995.051343752984 
 
Time taken by reduction operation using numpy.ndarray.sum(): 7.14 µs ± 0.478 ns per loop (mean ± std. dev. of 2 runs, 100,000 loops each)
Now, the result using numpy.ndarray.sum(): 24995.051343752984


a) Librería cupy:

In [None]:
import cupy as cp
import time


# Crear un array en la GPU con CuPy
X = cp.random.rand(value)

# Medir tiempo con time.time()
start_time = time.time()
result = cp.sum(X)  
cp.cuda.Device().synchronize()  # Sincronizar la GPU
end_time = time.time()
print(f"Tiempo de ejecución con cp.sum (time.time()): {end_time - start_time:.6f} segundos")
print(f"Resultado de la suma con cp.sum(): {result.item()}")  # Convertir a valor en la CPU

# Medir tiempo con %timeit
tiempo = %timeit -r 2 -o -q cp.sum(X)
print(f"Tiempo de ejecución con cp.sum (%timeit): {tiempo}")


d) comentar los reultados
Time taken by reduction operation using a function: 2.68 ms ± 406 ns per loop (mean ± std. dev. of 2 runs, 100 loops each)
And the result of the sum of numbers in the range [0, value) is: 25024.688486671832

Time taken by reduction operation using numpy.sum(): 7.96 µs ± 1.31 ns per loop (mean ± std. dev. of 2 runs, 100,000 loops each)
Now, the result using numpy.sum(): 25024.688486671777 
 
Time taken by reduction operation using numpy.ndarray.sum(): 7.13 µs ± 7.07 ns per loop (mean ± std. dev. of 2 runs, 100,000 loops each)

Now, the result using numpy.ndarray.sum(): 25024.688486671777

Tiempo de ejecución con cp.sum (time.time()): 0.379124 segundos
Resultado de la suma con cp.sum(): 24999.403058891185
Tiempo de ejecución con cp.sum (%timeit): 6.41 µs ± 35.5 ns per loop (mean ± std. dev. of 2 runs, 100,000 loops each)

Los resultados muestran que la GPU, al utilizar CuPy, puede realizar operaciones de reducción de manera extremadamente rápida, con un tiempo de ejecución medido con %timeit de solo una fracción de microsegundos por iteración. Este rendimiento refleja la capacidad de paralelismo masivo de la GPU, que permite manejar grandes volúmenes de datos de manera eficiente. Sin embargo, el tiempo medido con time.time() incluye la sobrecarga inicial asociada con la configuración de la GPU y la transferencia de datos entre la CPU y la GPU. Esto demuestra que, aunque la GPU es muy eficiente para la operación en sí misma, la sobrecarga puede ser significativa en tareas pequeñas.

Estos resultados resaltan que para arrays pequeños, la CPU, al operar directamente en la memoria principal sin costos de transferencia, puede ser una opción más eficiente. En cambio, para tareas repetitivas o con volúmenes de datos más grandes, la GPU resulta mucho más rápida, ya que la sobrecarga inicial se distribuye y se vuelve menos relevante en relación con el tiempo total de ejecución. Esto refuerza la importancia de considerar el tamaño del problema y la naturaleza de la tarea al decidir entre CPU y GPU para optimizar el rendimiento.